24
7 BAB II STUDI PUSTAKA 2.1 Penelitian Terdahulu Terdapat beberapa penelitian yang sudah dilakukan mengenai penilaian esai otomatis diantaranya oleh Bin, et al. (2008), Larkey (1998), Islam & Hoque (2012), Adhitia & Purwarianti (2009), dan Yustiana (2015). Dalam penelitian Bin, et al. (2008), penilaian esai otomatis terhadap esai berbahasa Inggris dilakukan dengan metode klasifikasi dokumen dengan algoritma machine learning k-nearest neighbor (KNN). Dalam penelitiannya, Bin, et al. (2008) melakukan proses preprocessing berupa tokenizing dan stopword removal. Lalu mengubah data tersebut menjadi bentuk vektor yang berisi bobot masing-masing term dengan metode pembobotan term frequency – inverse document frequency (TF-IDF). Setelah diperoleh bobot untuk setiap data latih dan data uji selanjutnya dilakukan perhitungan cosine similarity pada data uji dan seluruh data latih. Dalam penelitian Larkey (1998), penilaian esai otomatis terhadap esai berbahasa inggris juga dilakukan dengan metode klasifikasi dokumen dengan algoritma machine learning bayesian dan KNN. Namun berbeda dengan penelitian Bin, et al. (2008), Larkey (1998) tidak menggunakan term sebagai fitur yang dibandingkan antar esai, namun menggunakan fitur berupa informasi jumlah karakter, jumlah kata, jumlah kalimat, rata-rata panjang kata, dan jumlah kata yang unik. Dalam penelitian Islam & Hoque (2012), Adhitia & Purwarianti (2009), dan Yustiana (2015), penilaian esai otomatis dilakukan dengan menggunakan metode latent semantic analysis (LSA). LSA merupakan metode yang memanfaatkan model statistik matematis untuk menganalisis struktur semantik dari suatu teks sehingga dapat dilihat kemiripan makna antara satu dokumen dengan dokumen lainnya.

BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

  • Upload
    others

  • View
    11

  • Download
    0

Embed Size (px)

Citation preview

Page 1: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

7

BAB II STUDI PUSTAKA

2.1 Penelitian Terdahulu

Terdapat beberapa penelitian yang sudah dilakukan mengenai penilaian esai

otomatis diantaranya oleh Bin, et al. (2008), Larkey (1998), Islam & Hoque

(2012), Adhitia & Purwarianti (2009), dan Yustiana (2015).

Dalam penelitian Bin, et al. (2008), penilaian esai otomatis terhadap esai

berbahasa Inggris dilakukan dengan metode klasifikasi dokumen dengan

algoritma machine learning k-nearest neighbor (KNN). Dalam penelitiannya, Bin,

et al. (2008) melakukan proses preprocessing berupa tokenizing dan stopword

removal. Lalu mengubah data tersebut menjadi bentuk vektor yang berisi bobot

masing-masing term dengan metode pembobotan term frequency – inverse

document frequency (TF-IDF). Setelah diperoleh bobot untuk setiap data latih dan

data uji selanjutnya dilakukan perhitungan cosine similarity pada data uji dan

seluruh data latih.

Dalam penelitian Larkey (1998), penilaian esai otomatis terhadap esai berbahasa

inggris juga dilakukan dengan metode klasifikasi dokumen dengan algoritma

machine learning bayesian dan KNN. Namun berbeda dengan penelitian Bin, et

al. (2008), Larkey (1998) tidak menggunakan term sebagai fitur yang

dibandingkan antar esai, namun menggunakan fitur berupa informasi jumlah

karakter, jumlah kata, jumlah kalimat, rata-rata panjang kata, dan jumlah kata yang

unik.

Dalam penelitian Islam & Hoque (2012), Adhitia & Purwarianti (2009), dan

Yustiana (2015), penilaian esai otomatis dilakukan dengan menggunakan metode

latent semantic analysis (LSA). LSA merupakan metode yang memanfaatkan

model statistik matematis untuk menganalisis struktur semantik dari suatu teks

sehingga dapat dilihat kemiripan makna antara satu dokumen dengan dokumen

lainnya.

 

 

 

 

 

 

 

 

 

 

 

 

Page 2: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 8

Dalam penilaian esai, LSA membentuk matriks term yang berasal dari

kemungkinan jawaban esai yang muncul. Matriks ini kemudian mengalami

dekomposisi dan reduksi dimensi yang merepresentasikan ruang semantik.

Penilaian dilakukan dengan mengukur kemiripan antara esai yang akan dinilai

dengan esai pembanding berdasarkan ruang semantik yang dibuat. Esai

pembanding yang digunakan dalam penelitian Adhitia & Purwarianti (2009) dan

Yustiana (2015) yaitu esai pembanding yang digunakan yaitu kunci jawaban yang

telah disiapkan oleh human rater.

Berdasarkan penelitian terdahulu, penilaian esai otomatis dapat disimpulkan

terbagi menjadi dua pendekatan yaitu:

1. Pendekatan semantik

Pendekatan ini menggunakan metode LSA. Penilaian dilakukan dengan

mengukur kemiripan antara esai yang akan dinilai dengan esai pembanding.

2. Pendekatan klasifikasi

Pendekatan ini dilakukan dengan menganggap apabila penilaian esai otomatis

termasuk ke dalam permasalahan klasifikasi dokumen yang dapat

diselesaikan dengan machine learning.

Pendekatan yang digunakan dalam penelitian ini yaitu pendekatan klasifikasi.

Pendekatan semantik memerlukan adanya golden essay atau kunci jawaban yang

telah disiapkan oleh human rater. Di sisi lain, Sudjana (1995) menyatakan bahwa

esai merupakan bentuk pertanyaan tertulis yang menuntut jawaban: menguraikan,

menjelaskan, membandingkan, memberi alasan dengan menggunakan kata-kata

dan bahasa sendiri, sehingga adanya kemungkinan jawaban dari siswa berbeda

dengan kunci jawaban namun tetap bernilai benar. Dalam pendekatan klasifikasi

dengan machine learning tidak diperlukan adanya golden essay karena esai dinilai

berdasarkan hasil pembelajaran terhadap pola-pola yang ada pada data latih.

Terdapat beberapa algoritma untuk melakukan klasifikasi dengan machine

learning yaitu naive bayes, decision tree, support vector machine (SVM) dan k-

nearest neighbor (KNN) (Segaran, 2007). KNN digunakan sebagai metode

machine learning dalam penelitian ini karena menurut Segaran (2007) KNN

memiliki kelebihan sebagai berikut:

 

 

 

 

 

 

 

 

 

 

 

 

Page 3: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 9

1. Proses reasoning-nya yang dapat mudah dipahami dan dengan sedikit

modifikasi pada algoritma KNN maka dapat terlihat neighbor manakah yang

dipilih.

2. Termasuk ke dalam online technique yang berarti data baru dapat

ditambahkan kapan pun. Berbeda dengan metode SVM, jika terdapat data

baru maka harus mengulangi proses training, sedangkan pada KNN data baru

tersebut cukup dimasukkan ke dalam set tanpa perlu proses komputasi

kembali.

KNN digunakan sebagai algoritma klasifikasi dalam beberapa penelitian

diantaranya yaitu Batal & Hauskrecht (2009), Nikhath, et al. (2016) dan Bin, et al.

(2008). Dalam penelitian Nikhath, et al. (2016), KNN diimplementasikan dengan

cara yang sama dengan yang dilakukan oleh Bin, et al. (2008) yaitu pembentukan

vektor data latih dan data uji yang berisi bobot setiap term menggunakan TF-IDF.

Selanjutnya dilakukan perhitungan kemiripan antara data latih dengan data uji

menggunakan cosine similarity. Dalam penelitian Batal & Hauskrecht (2009),

terdapat perbedaan pada proses pembobotan termnya yaitu tidak hanya

menggunakan TF-IDF, namun juga menggunakan metode supervised term

weighting TF-Chi2.

Pembobotan term terbagi ke dalam dua jenis yaitu unsupervised term weighting

dan supervised term weighting (Lan, et al., 2009). Dalam metode unsupervised

term weighting, proses pembobotan term tidak memperhitungkan informasi

keanggotaan pada kategori atau label yang ada pada data latih. Dalam metode

supervised term weighting informasi label dilibatkan dalam proses pembobotan

term.

Dalam kasus klasifikasi dokumen, penggunaan metode unsupervised term

weighting berupa TF-IDF lebih umum digunakan seperti pada penelitian Nikhath,

et al. (2016) dan Bin, et al. (2008). Padahal dalam beberapa penelitian, metode

supervised term weighting telah dibuktikan dapat menghasilkan performa yang

lebih baik dibandingkan metode unsupervised term weighting. Beberapa

diantaranya yaitu Lan, et al. (2009), Deng, et al. (2004), dan Batal & Hauskrecht

(2009).

 

 

 

 

 

 

 

 

 

 

 

 

Page 4: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 10

Lan, et al. (2009) membuat metode pembobotan supervised term weighting TF-

RF dan membuktikan bahwa TF-RF dapat menghasilkan akurasi lebih baik

dibandingkan metode lainnya. Deng, et al. (2004) dan Batal & Hauskrecht (2009)

melakukan perbandingan penggunaan metode supervised term weighting TF-Chi2

dan unsupervised term weighting TF-IDF. Hasil dari dua penelitian tersebut

menyimpulkan bahwa penggunaan metode supervised term weighting TF-Chi2

lebih baik dibanding TF-IDF.

Penilaian esai otomatis dalam penelitian ini menggunakan metode machine

learning KNN sebagaimana yang telah dilakukan oleh Bin, et al. (2008). Namun

berbeda dengan Bin, et al. (2008) yang hanya menggunakan metode unsupervised

term weighting, penelitian ini membandingkan hasil performa berupa akurasi dari

penilaian otomatis jika menggunakan metode supervised term weighting dan

unsupervised term weighting mengacu pada penelitian yang dilakukan oleh Lan,

et al. (2009), Deng, et al. (2004), dan Batal & Hauskrecht (2009). Selain itu juga

ada pengembangan terhadap metode preprocessing yang digunakan. Dalam

penelitian Bin, et al. (2008) metode preprocessing yang digunakan hanya

tokenizing dan stopword removal, padahal tahap preprocessing dapat

meningkatkan akurasi dari sistem penilaian esai otomatis (Islam & Hoque, 2012).

2.2 Esai

Terdapat beberapa definisi mengenai esai yaitu:

1. Esai adalah karangan atau prosa yang membahas suatu masalah secara

sepintas dari sudut pandang pribadi penulisnya (Kamus Besar Bahasa

Indonesia).

2. Esai merupakan alat penilaian hasil belajar dalam bentuk pertanyaan tertulis

yang menuntut jawaban: menguraikan, menjelaskan, membandingkan,

memberi alasan dengan menggunakan kata-kata dan bahasa sendiri (Sudjana,

1995).

Esai yang digunakan dalam penelitian ini merupakan esai dengan definisi kedua.

Berdasarkan jenis jawaban yang diberikan, Grondlund & Linn (1990)

mengelompokkan tes esai ke dalam dua kelompok yaitu tes esai terbuka (Extended

Response Question) dan tes esai terbatas (Restricted Response Item).

 

 

 

 

 

 

 

 

 

 

 

 

Page 5: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 11

Dinamakan tes esai terbatas karena pertanyaan dalam tes tersebut memiliki

batasan yang ketat terhadap jawaban yang harus diberikan oleh siswa. Batasan

yang dimaksud yaitu dalam bentuk permasalahan yang sudah terdefinisi dengan

jelas, atau jawaban yang sudah ditentukan spesifikasinya yang ditunjukkan dengan

penggunaan kata sebutkan, jelaskan atau berikan alasan. Berikut contoh soal esai

yang termasuk dalam tes esai terbatas menurut Grondlund & Linn (1990).

1. Jelaskan pengaruh penggunaan tes pilihan ganda dan tes esai dalam

pengukuran hasil belajar pada tingkat pemahaman. Batasi jawaban anda

dalam satu halaman.

2. Mr. Rogers, seorang guru sains untuk kelas sembilan ingin mengukur

kemampuan siswanya dalam menginterpretasikan data ilmiah dengan tes

tertulis.

a. Sebutkan langkah-langkah yang harus dilakukan oleh Mr.Rogers untuk

melakukan tes tertulis tersebut.

b. Berikan alasan mengapa langkah tersebut harus dilakukan.

Berbeda dengan tes esai terbatas, pada tes esai terbuka siswa diberikan kebebasan

sepenuhnya terhadap format maupun ruang lingkup dari jawaban yang akan

diberikan. Walaupun diberikan kebebasan, pada umumnya tetap diberikan batasan

berupa waktu atau jumlah halaman. Dengan diberikan kebebasan, maka suatu

jawaban dapat dinilai benar dari berbagai sudut pandang. Berikut contoh soal esai

yang termasuk dalam tes esai terbuka menurut Grondlund & Linn (1990).

1. (Siswa diberikan data mengenai hasil pencapaian dari suatu tes) Tulis evaluasi

terhadap data yang diberikan dengan menggunakan kriteria dan aturan

evaluasi yang dijelaskan pada buku acuan anda. Tuliskan juga analisis yang

detail terhadap kelebihan dan kekurangan tes tersebut dan evaluasi secara

keseluruhan terhadap kualitas dan efektivitasnya.

Dalam penelitian ini, esai yang digunakan yaitu esai dari tes esai terbatas. Tes esai

terbatas digunakan karena jawaban sudah ditentukan spesifikasinya. Berbeda

dengan tes esai terbuka yang tidak memiliki spesifikasi sehingga bentuk jawaban

apapun dapat bernilai benar. Penggunaan esai terbatas juga disarankan oleh

Direktorat Jenderal Pendidikan Tinggi (2010) karena memperkecil kemungkinan

 

 

 

 

 

 

 

 

 

 

 

 

Page 6: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 12

salah penafsiran siswa terhadap maksud dari pertanyaan dan penilai dapat

memberikan nilai yang lebih objektif dan konsisten untuk setiap jawabannya.

Dalam proses penilaian esai, Rbigausk.disted.camosun.bc.ca (2004) menyatakan

ada empat elemen penting yaitu :

1. Content

Konten adalah informasi yang terdapat dalam esai.

2. Organization

Organization adalah struktur hubungan antar konten yang terdapat dalam esai.

Setiap fakta yang disebutkan harus konsisten dan ada korelasinya.

3. Style

Style adalah gaya penulisan dari esai. Style melibatkan pemilihan diksi dan

susunan kata dalam esai.

4. Writing mechanics

Writing mechanics mengacu pada tata cara penulisan sesuai dengan bahasa

yang digunakan.

Dalam penelitian ini, penilaian esai dilakukan berdasarkan konten dengan

menggangap esai sebagai kumpulan kata (bag of word) dengan struktur, gaya

penulisan dan kebenaran penulisan diabaikan.

2.3 Data Preprocessing

Dalam bidang text mining, untuk mengambil informasi dari suatu teks dikenal

suatu tahap yang dinamakan data preprocessing. Tahap preprocessing dilakukan

untuk menghilangkan noise yang terdapat dalam data mentah sehingga dapat

menjadi data yang baik untuk proses selanjutnya. Dalam tahap preprocessing ini

data esai diubah menjadi kumpulan kata (bag of word) dengan struktur, gaya

penulisan, dan kebenaran penulisan diabaikan.

Tahap data preprocessing yang dilakukan pada penelitian ini yaitu stopword

removal, stemming dan n-gram seperti yang dilakukan oleh Islam dan Hoque

(2012), dengan tambahan tahap preprocessing case folding dan tokenizing seperti

yang dilakukan oleh Lestari, et al. (2013). Berikut langkah data preprocessing

yang dilakukan dalam penelitian ini.

 

 

 

 

 

 

 

 

 

 

 

 

Page 7: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 13

1. Case Folding

Proses untuk mengubah huruf besar ke huruf kecil dalam dokumen,

dilanjutkan dengan menghapus karakter selain ‘a’ sampai ‘z’ (Lestari, et al.,

2013).

2. Tokenizing

Proses untuk memisahkan kalimat menjadi per kata atau term. Tanda spasi

digunakan untuk memisahkan antar term (Lestari, et al., 2013).

3. Stopword Removal

Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan

informasi penting terkait dokumen tersebut (Vijayarani, et al., 2014). Proses

ini dilakukan untuk mengurangi jumlah term yang harus diproses. Vijayarani,

et al. (2014) menyatakan terdapat 4 metode untuk menghilangkan stopword

yaitu:

a. The Classic Method

Metode ini menghilangkan stopword yang diperoleh dari daftar atau

kamus stopword yang sudah ada.

b. Methods based on Zipf’s Law (Z-Methods)

Metode ini menggunakan tiga cara untuk menemukan stopword

berdasarkan Zipf’s Law yaitu : menghilangkan kata yang paling sering

muncul (nilai term frequency tinggi), menghilangkan kata yang hanya

muncul satu kali dan menghilangkan kata dengan nilai inverse document

frequency yang rendah.

c. The Mutual Information Method (MI)

Metode ini merupakan supervised method yang bekerja dengan

menghitung mutual information antara suatu term dengan kategori

dokumen, menghasilkan informasi seberapa penting suatu term terhadap

suatu kategori. Apabila suatu term memiliki nilai mutual information

yang rendah maka term tersebut dihapus karena dianggap tidak

mencirikan suatu kategori tertentu.

d. Term Based Random Sampling

Metode ini mendeteksi sendiri stopword yang ada dalam dokumen. Cara

kerja metode ini yaitu melakukan iterasi terhadap potongan data yang

 

 

 

 

 

 

 

 

 

 

 

 

Page 8: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 14

diambil secara acak, lalu mengurutkan setiap term yang ada berdasarkan

nilai Kullback-Leibler. Stopword dibuat berdasarkan term yang nilai

Kullback-Leibler-nya rendah.

Metode yang digunakan dalam penelitian ini yaitu the classic method karena

merupakan metode yang paling mudah dan umum digunakan. Kamus

stopword yang digunakan pada penelitian ini yaitu kamus stopword bahasa

indonesia yang dibuat oleh Tala (2003).

4. Stemming

Stemming adalah proses untuk mengembalikan suatu term ke dalam bentuk

dasarnya menggunakan aturan tertentu. Contohnya pada kata bersatu,

menyatu, menyatukan, dan kesatuan. Kata-kata tersebut dikembalikan ke

bentuk dasarnya yaitu “satu”. Tujuan dari stemming yaitu untuk

menghilangkan imbuhan, mengurangi jumlah kata, mengurangi waktu proses

dan besar memori untuk penyimpanan (Vijayarani, et al., 2014).

Proses untuk stemming pada masing-masing bahasa berbeda karena terdapat

perbedaan morfologi antar bahasa. Proses stemming dalam bahasa indonesia

lebih rumit dibandingkan pada bahasa inggris karena terdapat banyak variasi

imbuhan yaitu prefiks, sufiks dan konfiks (Agusta, 2009). Algoritma

stemming yang digunakan pada penelitian ini yaitu algoritma Nazief &

Adriani. Algoritma Nazief & Adriani digunakan karena pada penelitian yang

dilakukan oleh Agusta (2009) menyimpulkan bahwa algoritma Nazief &

Adriani mendapatkan hasil yang lebih akurat dibandingkan algoritma Porter

dalam proses stemming bahasa Indonesia.

5. N-gram

N-gram adalah urutan sekuensial dari n buah kata (Jurafsky & Martin, 2014).

Misalnya terdapat kalimat sebagai berikut: “Please turn your homework”,

maka 2-gram atau bigram adalah kumpulan kata secara berurutan yang

dibentuk dengan 2 kata seperti “Please turn”, “turn your”, “your homework”.

Terminologi n-gram dapat merujuk pada dua makna yaitu n-gram yang

merupakan kumpulan kata yang berurutan (word sequence) dan n-gram yang

merupakan predictive model dengan memanfaatkan probabilitas (Jurafsky &

Martin, 2014).

 

 

 

 

 

 

 

 

 

 

 

 

Page 9: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 15

N-gram sebagai predictive model digunakan dalam kasus spelling correction,

speech recognition dan handwritting recognition. Probabilitas digunakan

untuk memprediksi kemungkinan urutan kata yang benar (Jurafsky & Martin,

2014). Dalam penelitian ini, karena esai dianggap sebagai kumpulan kata (bag

of word) dengan struktur penulisan diabaikan, maka n-gram yang dimaksud

adalah n-gram yang merupakan kumpulan kata yang berurutan (word

sequence). N-gram digunakan karena adanya kemungkinan kata kunci dalam

suatu esai itu berupa frasa.

Penerapan n-gram dalam penelitian ini dilakukan mengikuti penelitian Cui, et

al. (2006) dan Khreisat (2006) yaitu hasil dari n-gram yang berupa kata atau

frasa dijadikan fitur untuk proses klasifikasi. Kata atau frasa tersebut pada

tahap berikutnya diberikan bobot dengan menggunakan metode term

weighting.

Nilai n dari n-gram yang digunakan dalam penelitian ini yaitu kombinasi 1-

gram (unigram) dan 2-gram (bigram). Kombinasi ini dipilih karena mengikuti

saran dari Pang et al. (2002) dalam Cui, et al. (2006) yang menyatakan bahwa

penggunaan kombinasi unigram dan bigram dapat memberikan performa

yang lebih baik dibandingkan dengan hanya menggunakan bigram saja.

2.4 Machine Learning

Machine learning adalah salah satu disiplin ilmu dalam bidang computer science

yang bertujuan untuk membuat komputer yang memiliki kecerdasan seperti

manusia. Proses untuk mencapai tujuan tersebut dilakukan dengan cara membuat

komputer dapat belajar dari setiap proses yang telah dilakukannya.

Terdapat dua macam pendekatan dalam machine learning yaitu supervised

learning dan unsupervised learning (Polamuri, 2014). Supervised learning

menganalisis data latih yang sudah diberikan label untuk mendapatkan suatu

fungsi yang dapat menentukan label bagi data uji, sedangkan unsupervised

learning menganalisis data latih yang tidak memiliki label untuk menemukan

struktur tertentu (Polamuri, 2014).

Dalam kasus penilaian esai otomatis, pendekatan machine learning yang

digunakan yaitu supervised learning, karena dalam data latih telah tersedia label

 

 

 

 

 

 

 

 

 

 

 

 

Page 10: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 16

berupa nilai dari esai yang diberikan oleh penilai manusia. Terdapat beberapa

algoritma yang dapat digunakan dalam supervised learning menurut Segaran

(2007) yaitu:

1. Naive Bayes

Metode ini melihat probabilitas suatu kata dalam dokumen termasuk ke dalam

kategori yang spesifik. Metode ini didasarkan pada teorema Bayes.

2. Decision Tree

Dalam metode ini dapat dilihat proses klasifikasinya secara transparan.

Metode ini setelah proses training menghasilkan kumpulan statement if-then

yang dibentuk ke dalam tree.

3. Support Vector Machine (SVM)

Metode ini akan membuat model prediksi dengan cara membuat garis batas

antara dua kategori dalam data. SVM memprediksi suatu data masuk ke dalam

kategori tertentu dengan menggunakan numerical input dari dataset tersebut.

4. K-Nearest Neighbor (KNN)

Metode ini bekerja dengan membuat prediksi numerik dari data yang diuji dan

dibandingkan dengan data latih. Selanjutnya dicari data dengan kemiripan

yang paling tinggi dari data latih tersebut. Data yang baru tersebut

diklasifikasikan sesuai dengan n buah data latih yang kemiripannya paling

tinggi.

Dalam penelitian ini, KNN digunakan karena menurut Segaran (2007) KNN

memiliki kelebihan sebagai berikut:

1. Proses reasoning-nya yang dapat mudah dipahami dan dengan sedikit

modifikasi pada source code KNN maka dapat terlihat neighbor manakah

yang dipilih.

2. Termasuk ke dalam online technique yang berarti data baru dapat

ditambahkan kapan pun. Berbeda dengan metode SVM, jika terdapat data

baru maka harus mengulangi proses training, pada KNN data baru tersebut

cukup dimasukkan ke dalam set tanpa perlu proses komputasi kembali.

 

 

 

 

 

 

 

 

 

 

 

 

Page 11: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 17

2.5 K-Nearest Neighbor (KNN)

KNN merupakan salah satu metode dalam machine learning. KNN adalah metode

untuk mengklasifikasikan suatu objek berdasarkan data latih yang jaraknya paling

dekat dengan objek tersebut. Cara kerja KNN yaitu data latih diproyeksikan ke

dalam ruang berdimensi banyak. Dimensi ini merepresentasikan fitur data latih

dari tersebut. Objek diklasifikasikan berdasarkan suara terbanyak dari k-buah

tetangga terdekat dari objek tersebut. Gambar 1 merupakan ilustrasi klasifikasi

objek menggunakan KNN.

Gambar 1 Ilustrasi k-nearest neighbor (Wikipedia, 2017)

Dalam gambar 1, dilakukan klasifikasi terhadap data uji yang berupa lingkaran

berwarna hijau apakah masuk ke kelas kotak biru atau segitiga merah. Dengan

menggunakan nilai k = 3, dipilih tiga tetangga terdekat yang diilustrasikan oleh

lingkaran dengan garis solid, data uji akan diklasifikan ke dalam segitiga merah

karena dalam tiga tetangga terdekat terdapat dua segitiga merah dan satu segitiga

biru. Di sisi lain, jika menggunakan nilai k = 5, dipilih lima tetangga terdekat yang

diilustrasikan oleh lingkaran dengan garis putus-putus, data uji akan

diklasifikasikan ke dalam kotak biru karena pada lima tetangga terdekat terdapat

tiga kotak biru dan dua segitiga merah.

Nilai k dari KNN merupakan variabel yang menentukan berapa jumlah data latih

terdekat yang digunakan dalam proses klasifikasi terhadap data uji. Nilai k

sebaiknya menggunakan angka ganjil untuk menghindari hasil voting yang sama

pada dua kelas berbeda (Adeniyi, et al., 2016). Penggunaan nilai k dapat

memengaruhi hasil akurasi dari klasifikasi. Dengan menggunakan nilai k yang

terlalu besar, akurasi yang diperoleh bisa semakin kecil karena KNN ikut

 

 

 

 

 

 

 

 

 

 

 

 

Page 12: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 18

memperhitungkan data latih yang tidak mirip atau jaraknya jauh dari data uji

(Segaran, 2007). Oleh karena itu, nilai k dari KNN yang digunakan dalam

penelitian ini yaitu 1, 3, 5, 7 dan 9.

Untuk menerapkan algoritma KNN dalam penelitian ini, setiap esai data latih dan

esai data uji dimodelkan dalam bentuk vektor sesuai persamaan 1.

𝑑𝑗 = (𝑤1𝑗, 𝑤2𝑗, 𝑤3𝑗 , … , 𝑤𝑖𝑗) (1)

𝑑𝑗 merepresentasikan esai ke-j sedangkan 𝑤𝑖𝑗 merepresentasikan bobot dari term

ke-i dalam esai j. Disebabkan esai data latih lebih dari satu, maka kumpulan vektor

dari masing-masing data esai disebut vector space. Gambar 2 merupakan ilustrasi

vektor space pada diagram kartesius dari masing-masing esai setelah esai

dimodelkan sesuai persamaan 1.

Gambar 2 Ilustrasi vektor data esai pada diagram kartesius (Perone, 2013)

Dalam gambar 2, term berperan sebagai axes, sehingga apabila term semakin besar

maka dimensi dari vector space juga semakin besar. Sentence atau esai adalah

vektor. Posisi dari vektor esai ditentukan berdasarkan bobot dari masing-masing

term pada esai tersebut.

Dengan memodelkan kumpulan esai seperti pada gambar 2, setiap esai dapat

dibandingkan esai lain untuk melihat kemiripannya. Untuk melihat kemiripan

dapat menggunakan persamaan cosine similarity. Cosine similarity menghasilkan

suatu angka yang menyatakan seberapa mirip suatu vektor dengan vektor lainnya

berdasarkan cosine dari angle diantara dua vektor tersebut (Perone, 2013).

 

 

 

 

 

 

 

 

 

 

 

 

Page 13: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 19

Gambar 3 merupakan ilustrasi penggunaan cosine similarity dalam melihat

kemiripan antara dua dokumen.

Gambar 3. Ilustrasi cosine similarity (Perone, 2013)

Dalam gambar 3, dengan menggunakan cosine similarity, dua dokumen dianggap

memiliki kemiripan apabila vektor dari dua dokumen tersebut memiliki arah yang

sama atau besar sudutnya mendekati 0 derajat, sehingga nilai cosine similarity-nya

mendekati 1. Nilai cosine similarity dihitung dengan menggunakan persamaan 2.

𝐶𝑜𝑠𝑖𝑛𝑒 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑎,⃗⃗⃗ 𝑏𝑖⃗⃗⃗ ) =

𝑎 . 𝑏𝑖⃗⃗⃗

|𝑎 | × |𝑏𝑖⃗⃗⃗ |

(2)

𝑎 merepresentasikan vektor data uji, sedangkan 𝑏𝑖⃗⃗⃗ merepresentasikan vektor data

latih ke-i. Dalam penerapan metode KNN, setelah diperoleh nilai cosine similarity

untuk setiap data latih, selanjutnya data latih diurutkan berdasarkan nilai cosine

similarity mulai dari yang tertinggi. Esai data uji diberikan nilai yang sama dengan

suara terbanyak dari k buah data latih yang memiliki nilai cosine similarity

tertinggi.

Misalnya dengan menggunakan nilai k = 3 dan tiga data latih dengan nilai cosine

similarity tertinggi memiliki nilai A, B, dan A. Data uji diberikan nilai A. Apabila

terdapat lebih dari satu kategori nilai yang memiliki suara terbanyak yang sama,

maka data uji akan diberikan nilai sesuai dengan data latih yang memiliki kategori

nilai dengan suara terbanyak dan nilai cosine similarity-nya tertinggi. Misalnya

dengan menggunakan nilai k = 5 dan lima data latih dengan nilai cosine similarity

tertinggi memiliki nilai A, B, C, B, C. Data uji diberikan nilai B, karena B memiliki

suara lebih banyak dibanding A dan memiliki nilai cosine similarity lebih tinggi

dibanding C.

 

 

 

 

 

 

 

 

 

 

 

 

Page 14: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 20

2.6 Imbalance Dataset

Imbalance dataset merupakan persoalan jumlah data yang tidak seimbang pada

pembelajaran mesin yang mengakibatkan pengklasifikasian cenderung condong

pada kelas mayoritas (Arif, 2015). Dataset disebut imbalance jika representasi dari

suatu kelas berbeda jauh dibandingkan dengan kelas lainnya. Terdapat tiga

kelompok solusi untuk imbalance dataset yaitu kelompok data atau disebut juga

metode sampling, kelompok algoritma dan kelompok hibrid atau gabungan

kelompok data dan algoritma (Arif, 2015).

Dalam penelitian ini, solusi yang digunakan yaitu metode sampling. Terdapat 2

metode dalam sampling yaitu undersampling dan oversampling (Krishnaveni &

Rani, 2011). Metode undersampling akan mengurangi jumlah data dari kelas

mayoritas, sedangkan oversampling akan menambah jumlah data dari kelas

minoritas.

Metode undersampling memiliki kekurangan yaitu adanya kemungkinan data

yang memiliki informasi penting dibuang, sedangkan kekurangan metode

oversampling yaitu adanya kemungkinan overfitting. Overfitting dapat terjadi

karena data pada kelas minoritas diduplikasi sehingga ada kemungkinan data latih

dan data uji merupakan data yang sama (Krishnaveni & Rani, 2011). Penggunaan

oversampling juga dapat menyebabkan waktu proses menjadi lebih lama karena

jumlah data semakin banyak. Berdasarkan pertimbangan kekurangan dari masing-

masing metode sampling, maka dalam penelitian ini metode yang digunakan yaitu

undersampling.

Terdapat dua cara dalam melakukan undersampling yaitu random undersampling

dan informative undersampling (Krishnaveni & Rani, 2011). Dalam random

undersampling, data dari kelas mayoritas yang akan dibuang dipilih secara acak

sampai dataset disebut balance, sedangkan dalam informative undersampling data

yang akan dibuang dipilih berdasarkan aturan tertentu.

Salah satu metode untuk informative undersampling adalah One Sided Selection

(OSS) (Kubat & Matwin, 1997). Metode OSS memiliki kekurangan yaitu hanya

dapat digunakan pada dataset dengan 2 kelas atau binary classification, sedangkan

 

 

 

 

 

 

 

 

 

 

 

 

Page 15: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 21

dataset yang digunakan dalam penelitian ini terdiri dari 2, 3 dan 4 kelas. Oleh

karena itu metode undersampling yang digunakan yaitu random undersampling.

Disebabkan tidak ditemukan referensi mengenai rasio data antar kelas minoritas

dan mayoritas yang disebut balance, maka undersampling dilakukan dengan dua

variasi. Variasi pertama yaitu undersampling sampai rasio data pada kelas

minoritas dan mayoritasnya mencapai 1:1. Variasi kedua yaitu undersampling

sampai rasio data pada kelas minoritas dan mayoritasnya mencapai 1:1.5. Dua

variasi ini dilakukan untuk melihat bagaimana akurasi penilaian terhadap dua rasio

dataset berbeda.

2.7 Metode Untuk Evaluasi Machine Learning Model

Dalam bidang machine learning, output apapun yang dihasilkan setelah proses

training disebut model. Dalam bidang klasifikasi, model digunakan untuk

memberikan label kepada data uji. Dalam penelitian ini, yang dimaksud dengan

model adalah aplikasi dari penilaian esai otomatis yang terdiri dari algoritma

klasifikasi KNN dengan nilai k tertentu, salah satu metode pembobotan term, dan

kumpulan data latih.

Setelah model dihasilkan, perlu dilakukan evaluasi terhadap model tersebut agar

diperoleh suatu nilai yang dapat menentukan apakah model tersebut baik atau

tidak. Dalam penelitian ini, evaluasi terhadap model klasifikasi dilakukan dengan

perhitungan akurasi. Akurasi diperoleh dengan menghitung jumlah esai yang nilai

dari penilaian otomatis sesuai dengan nilai dari human rater dibandingkan jumlah

esai yang dinilai. Menurut Brownlee (2014), terdapat beberapa metode untuk

mengevaluasi model dari machine learning yaitu:

1. Split Test

Split test merupakan metode yang paling sederhana dalam mengevaluasi

model klasifikasi. Dalam metode ini dataset dibagi menjadi dua jenis yaitu

data latih dan data uji berdasarkan komposisi yang telah ditentukan. Misalnya

66% sebagai data latih dan 34% sebagai data uji. Split test cocok digunakan

ketika jumlah dataset yang dimiliki sangat banyak atau terbatasnya resource

(waktu atau hardware) untuk melakukan pengujian. Permasalahan timbul

ketika dilakukan split test ulang, hasil yang didapat bisa berbeda.

 

 

 

 

 

 

 

 

 

 

 

 

Page 16: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 22

Permasalahan ini disebut model variance. Permasalahan lain yaitu dapat

terjadi bias ketika hasil yang didapat bagus karena data uji yang terlalu mudah

untuk diprediksi, atau ketika hasil yang didapat tidak bagus karena data uji

yang terlalu sulit untuk diprediksi.

2. Multiple Split Test

Metode ini merupakan solusi bagi permasalahan model variance yang ada

pada split test. Cara kerja metode ini yaitu melakukan 10 kali pembagian

dataset dan menghitung rata-rata dari hasil 10 pengujian terhadap dataset

tersebut. Di sisi lain, metode ini tidak menyelesaikan permasalahan kedua

yang ada pada split test. Disebabkan masih adanya kemungkinan suatu data

tidak pernah menjadi data uji, dan adanya kemungkinan suatu data selalu

menjadi data uji.

3. Cross Validation

Metode ini merupakan solusi untuk memastikan bahwa setiap data

mendapatkan kesempatan yang sama untuk menjadi data uji dan data latih.

Salah satu contoh dari metode ini yaitu k-fold cross validation. Dengan

menggunakan nilai k = 10, data dibagi ke dalam beberapa partisi yang disebut

dengan fold. Masing-masing fold memiliki jumlah data dengan ukuran yang

sama (atau mendekati sama). Selama k iterasi, dipilih salah satu fold sebagai

data uji, sedangkan fold sisanya digunakan sebagai data latih.

Di sisi lain, metode ini memiliki kekurangan yaitu terlalu bergantung pada

random untuk menentukan komposisi data setiap fold-nya, sehingga jika

dilakukan cross validation ulang terhadap dataset yang sama, hasil yang

diperoleh bisa berbeda karena model variance.

4. Multiple Cross Validation

Metode ini merupakan solusi bagi permasalahan model variance yang ada

pada cross validation. Cara kerjanya sama seperti pada multiple split test yaitu

melakukan perulangan terhadap cross validation, lalu dihitung rata-rata

akurasinya.

Metode yang digunakan dalam penelitian ini yaitu multiple cross validation karena

metode ini dapat mengatasi masalah model variance, dan setiap data pada dataset

memiliki kesempatan yang sama untuk menjadi data latih dan data uji.

 

 

 

 

 

 

 

 

 

 

 

 

Page 17: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 23

2.8 Multiple K-Fold Cross Validation

Cross validation adalah metode statistik yang digunakan untuk mengevaluasi dan

membandingkan algoritma pembelajaran dengan cara membagi data menjadi dua

bagian: satu digunakan untuk belajar atau melatih model, satu untuk menguji

model tersebut (Refaeilzadeh, et al., 2009). Dalam penelitian ini, metode cross

validation digunakan untuk mencari akurasi dari setiap model klasifikasi.

Salah satu bentuk dari cross validation adalah k-fold cross validation. Dalam

metode k-fold cross validation, data dibagi ke dalam beberapa partisi yang disebut

dengan fold. Masing-masing fold memiliki jumlah data dengan ukuran yang sama

atau mendekati sama. Selama k iterasi, dipilih salah satu fold sebagai data uji,

sedangkan sisa k-1 fold dijadikan data latih (Refaeilzadeh, et al., 2009). Gambar 4

merupakan ilustrasi pembagian data dalam 4-fold cross validation.

Gambar 4 Ilustrasi 4-fold cross validation (Wikipedia, 2017)

Dalam gambar 4, seluruh data dibagi menjadi 4 fold dengan setiap fold berisi 5

data. Dalam setiap iterasi, dipilih salah satu fold sebagai data uji dan sisanya

menjadi data latih. Setiap data hanya boleh sekali menjadi data uji. Perhitungan

akurasi penilaian terhadap data uji dilakukan di setiap iterasi.

Dalam penelitian ini, proses penentuan data uji dan data latih setiap fold dilakukan

secara stratified. Stratified merupakan teknik dalam cross validation untuk

memastikan bahwa dalam data latih dan data uji harus ada perwakilan dari seluruh

kelas yang ada dengan persentase yang sama. Stratified dilakukan untuk

memastikan bahwa dalam setiap fold merupakan representasi data yang baik

(Refaeilzadeh, et al., 2009).

 

 

 

 

 

 

 

 

 

 

 

 

Page 18: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 24

Contoh penerapan stratified yaitu pada penilaian esai dengan 2 kategori yaitu A

dan B, dengan persentase jumlah data yaitu 40% nilai A dan 60% nilai B. Oleh

karena itu, pada data latih dan data uji masing-masing harus memiliki komposisi

data 40% nilai A dan 60% nilai B.

Nilai k atau jumlah fold yang digunakan dalam penelitian ini yaitu 2 sampai 10.

Angka 2 sampai 10 digunakan untuk melakukan eksperimen dengan komposisi

data latih dan data uji yang berbeda. Angka 10 digunakan sebagai batas akhir

karena metode 10-fold cross validation merupakan metode yang paling umum

digunakan dan memiliki estimasi performa yang akurat (Refaeilzadeh, et al.,

2009).

Pengujian dengan k-fold cross validation diulang sebanyak 10 kali untuk setiap

nilai k yang digunakan. Pengulangan dilakukan karena multiple k-fold cross

validation dapat mengurangi permasalahan model variance yang ada dalam

machine learning (Bouckaert, 2003). Berikut langkah penerapan metode multiple

k-fold cross validation dalam penelitian ini:

1. Tentukan nilai k, misal k = 2.

2. Pisahkan data menjadi sejumlah k fold. Misalkan data latih yang tersedia

sebanyak 29 data esai bernilai ‘A’. Dua puluh sembilan data tersebut dibagi

menjadi 2 fold. Satu fold berisi 15 data dan satu fold berisi 14 data.

3. Pilih salah satu fold menjadi data uji, sedangkan sisanya menjadi data latih.

Misalkan dipilih fold yang berisi 14 data menjadi data uji, maka terdapat 15

data latih dan 14 data uji.

4. Lakukan penilaian untuk setiap data uji, lalu hitung akurasi dari penilaian

tersebut. Ulangi langkah 2 dan 3 sebanyak k kali dengan mengikuti cara pada

gambar 4.

5. Ulangi langkah 2 sampai 4 sebanyak 10 kali.

6. Hitung hasil rata-rata akurasi dari 10 kali k iterasi.

7. Ulangi langkah 1 sampai 6 dengan nilai k mulai dari 2 sampai 10.

Setelah langkah-langkah tersebut dilakukan, diperoleh hasil rata-rata akurasi dari

setiap penggunaan nilai k yang berbeda.

 

 

 

 

 

 

 

 

 

 

 

 

Page 19: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 25

2.9 Term Weighting

Term adalah kata, frasa atau unit indeks lain yang digunakan untuk

mengidentifikasi konten dari suatu teks (Lan, et al., 2009). Setiap term dalam

vektor dokumen harus diberikan value yang merepresentasikan apakah term

tersebut penting. Proses pemberian value terhadap term disebut pembobotan term

(term weighting). Pembobotan term merupakan tahap yang penting dalam

menentukan efektivitas dari suatu text classification karena untuk memberikan

nilai yang tepat bagi setiap term (Lan, et al., 2009).

Dengan memberikan nilai yang tepat untuk setiap term, maka penilaian esai

otomatis dapat bekerja lebih baik dalam menentukan apakah suatu term termasuk

kata kunci yang mencirikan suatu kategori nilai atau tidak. Akurasi yang

dihasilkan juga dapat menjadi lebih baik. Menurut penelitian Lan, et al. (2009),

metode dalam pembobotan term terbagi menjadi dua yaitu:

1. Supervised term weighting

Metode ini menggunakan informasi label keanggotaan terhadap suatu

kategori yang ada pada data latih dalam proses kalkulasi bobot setiap term.

2. Unsupervised term weighting

Metode ini tidak menggunakan informasi label keanggotaan terhadap suatu

kategori yang ada pada data latih. Contohnya metode term weighting yang

berasal dari bidang information retrieval seperti binary, term frequency dan

TF-IDF.

Dalam bidang information retrieval, metode unsupervised term weighting

digunakan karena pada data latih tidak terdapat informasi keanggotaan atau

unlabeled data, sedangkan dalam bidang klasifikasi teks pada data latih sudah

tersedia informasi keanggotaan terhadap kategori tertentu atau labeled data.

Metode supervised term weighting memiliki akurasi yang lebih baik pada kasus

klasifikasi dibandingkan dengan unsupervised term weighting karena melibatkan

informasi keanggotaan dalam proses pembobotan term (Lan, et al., 2009).

Penelitian ini membandingkan metode supervised term weighting dan

unsupervised term weighting dalam menentukan akurasi dari penilaian esai

otomatis. Metode unsupervised term weighting yang digunakan yaitu TF-IDF.

 

 

 

 

 

 

 

 

 

 

 

 

Page 20: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 26

TF-IDF dipilih karena merupakan metode yang paling umum digunakan dalam

pembobotan term. Metode supervised term weighting yang digunakan yaitu TF-

Chi2 dan TF-RF. Kedua metode tersebut dipilih karena telah dibuktikan dalam

penelitian mengenai klasifikasi dokumen memiliki akurasi yang lebih baik

dibandingkan TF-IDF (Deng, et al., 2004; Lan, et al., 2009; Bhamare & Patil,

2015)

2.9.1 Term Frequency – Inverse Document Frequency (TF-IDF)

TF–IDF adalah nilai numerik yang merepresentasikan seberapa penting suatu term

pada dokumen. TF–IDF terbagi ke dalam dua komponen yaitu term frequency

(TF) dan inverse document frequency (IDF).

TF digunakan untuk mencatat jumlah kemunculan suatu term dalam dalam satu

dokumen. Semakin banyak term yang sama muncul dalam suatu dokumen, maka

term tersebut dianggap sebagai kata penting dalam dokumen tersebut. Disebabkan

jumlah term dalam setiap dokumen berbeda, untuk mengurangi nilai TF yang

terlalu tinggi digunakan perhitungan normalized term frequency (Bhamare &

Patil, 2015). Persamaan 3 digunakan untuk menghitung normalized term

frequency dari suatu term-i dalam dokumen-j.

𝑇𝐹(𝑡𝑖 , 𝑑𝑗) = 𝐽𝑢𝑚𝑙𝑎ℎ 𝑘𝑒𝑚𝑢𝑛𝑐𝑢𝑙𝑎𝑛 𝑡𝑖 𝑑𝑎𝑙𝑎𝑚 𝑑𝑗

𝐽𝑢𝑚𝑙𝑎ℎ 𝑚𝑎𝑘𝑠𝑖𝑚𝑎𝑙 𝑘𝑒𝑚𝑢𝑛𝑐𝑢𝑙𝑎𝑛 𝑠𝑢𝑎𝑡𝑢 𝑡𝑒𝑟𝑚 𝑑𝑎𝑙𝑎𝑚 𝑑𝑗

(3)

IDF digunakan untuk menghitung kemunculan term dalam kumpulan dokumen.

IDF mengurangi bobot dari suatu term yang sering muncul dan menaikkan bobot

dari term yang jarang muncul. Hal ini dilakukan karena IDF menganggap jika

suatu term sering muncul dalam kumpulan dokumen maka term tersebut bukan

termasuk term penting. IDF dihitung dengan menggunakan persamaan 4.

𝐼𝐷𝐹(𝑡𝑖) = 𝑙𝑜𝑔𝑁

𝑛𝑖 (4)

𝑡𝑖 merupakan term yang akan dihitung bobotnya, N merupakan jumlah dokumen

yang ada, sedangkan 𝑛𝑖 adalah jumlah dokumen yang mengandung term 𝑡𝑖.

Berdasarkan persamaan 3 dan 4, diperoleh

persamaan 5 untuk menghitung bobot term 𝑡𝑖 menggunakan TF-IDF.

 

 

 

 

 

 

 

 

 

 

 

 

Page 21: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 27

𝑇𝐹. 𝐼𝐷𝐹(𝑡𝑖) = 𝑇𝐹 × 𝑙𝑜𝑔𝑁

𝑛𝑖 (5)

2.9.2 Supervised Term Weighting

Metode pembobotan ini mempertimbangkan informasi dari keanggotaan data latih

ke kategori tertentu dalam proses kalkulasi bobot setiap term. Metode ini membagi

dokumen ke dalam dua kategori yaitu positif dan negatif. Dokumen yang masuk

kategori positif adalah dokumen yang memiliki kategori terpilih, sedangkan sisa

dokumen yang tidak masuk kategori terpilih akan masuk ke dokumen negatif.

Contoh pada kasus penilaian esai yaitu akan dilakukan pembobotan untuk term ti

dalam esai dj yang telah dinilai “A” oleh penilai manusia. Esai yang masuk ke

kategori positif adalah seluruh esai yang bernilai “A”, sedangkan esai yang

bernilai selain “A” akan masuk ke kategori negatif. Gambar 5 merupakan ilustrasi

distribusi term dalam dokumen positif dan negatif.

Dalam gambar 5, terdapat 6 term yang digambarkan distribusinya dalam kategori

dokumen positif dan negatif. Tinggi dari bagian berwarna hitam dalam setiap

batang term mengambarkan jumlah dokumen yang mengandung term tersebut,

sedangkan tinggi dari bagian berwarna putih menggambarkan jumlah dokumen

yang tidak mengandung term tersebut. Dalam ilustrasi tersebut, terdapat 4 macam

kemungkinan yang terjadi dari kemunculan term, dinotasikan sebagai berikut:

a : jumlah dokumen yang mengandung term tersebut dan masuk kategori positif

b : jumlah dokumen yang tidak mengandung term tersebut dan masuk kategori

positif

c : jumlah dokumen yang mengandung term tersebut dan masuk kategori negatif

Gambar 5 Ilustrasi distribusi term (Lan, et al., 2009)

 

 

 

 

 

 

 

 

 

 

 

 

Page 22: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 28

d : jumlah dokumen yang tidak mengandung term tersebut dan masuk kategori

negatif

Dengan mengasumsikan TF untuk setiap term sama, maka bobot untuk t1, t2 dan

t3 menggunakan TF-IDF tidak jauh berbeda karena distribusi termnya tidak jauh

berbeda. Dalam kasus klasifikasi dokumen, seharusnya t1 diberikan bobot yg lebih

tinggi dibandingkan t2 dan t3 karena t1 berkontribusi lebih membedakan dokumen

kategori positif dan negatif.

Kasus lain yaitu dengan metode TF-IDF, t1 berbobot lebih tinggi dibandingkan t4

karena kemunculan t1 yang lebih sedikit dibanding t4. Jika melihat pada sudut

pandang klasifikasi, seharusnya t4 lebih tinggi bobotnya dibanding t1 karena lebih

berkontribusi untuk membedakan dokumen positif dan negatif.

Berdasarkan kasus tersebut dibutuhkan proses pembobotan term dengan

memperhitungkan informasi label yang ada dalam data latih yaitu supervised term

weighting. Dalam penelitian ini metode supervised term weighting yang

digunakan yaitu TF-Chi2 dan TF-RF.

2.9.2.1 Term Frequency – Chi2 (TF-Chi2)

TF-Chi2 menggunakan pendekatan feature selection metrics dalam melakukan

pembobotan terhadap suatu term. Term dengan nilai feature selection yang tinggi

dianggap lebih memberikan kontribusi dalam proses klasifikasi dibanding dengan

term dengan nilai yang rendah (Lan, et al., 2009).

TF-Chi2 digunakan sebagai metode term weighting pada penelitian ini karena

dalam penelitian Deng, et al. (2004), TF-Chi2 menghasilkan akurasi yang lebih

baik daripada TF-IDF dalam bidang klasifikasi dokumen. Untuk N adalah jumlah

dokumen, persamaan 6 digunakan untuk menghitung bobot term dengan TF-Chi2.

𝑇𝐹. 𝐶ℎ𝑖2 = 𝑇𝐹 × (𝑁 × (𝑎 × 𝑑 − 𝑏 × 𝑐)2

(𝑎 + 𝑐)(𝑏 + 𝑑)(𝑎 + 𝑏)(𝑐 + 𝑑)) (6)

2.9.2.2 Term Frequency – Relevance Frequency (TF-RF)

TF-RF merupakan metode pembobotan term yang diusulkan oleh penelitian Lan,

et al. (2009). Ide dasar dari metode ini yaitu semakin terkonsentrasinya term

 

 

 

 

 

 

 

 

 

 

 

 

Page 23: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 29

dengan frekuensi tinggi dalam kategori positif dibandingkan negatif, maka

semakin besar juga pengaruh term dalam membedakan kategori positif dan

negatif. Walaupun supervised term weighting menggunakan informasi label dalam

proses pembobotannya, hasil yang diperoleh tidak selalu konsisten dengan ide

dasar yang telah disebutkan sebelumnya (Lan, et al., 2009).

Dalam gambar 5, apabila distribusi t1 pada kategori positif dan negatif sama

dengan distribusi t3 pada kategori negatif dan positif, maka dengan metode TF-

Chi2 menghasilkan bobot yang sama bagi t1 dan t3. Padahal berdasarkan ide dasar

tersebut seharusnya t1 berbobot lebih besar dibandingkan t3, karena apabila suatu

term yang frekuensi kemunculannya tinggi dan terkonsentrasi pada kategori

positif merupakan term yang baik untuk membedakan antara dokumen positif dan

negatif.

Metode ini dinamakan relevance frequency karena hanya frekuensi dari dokumen

yang relevan (dokumen yang mengandung term tersebut) yang akan dihitung. Jika

dinotasikan sesuai dengan gambar 5, hanya a dan c yang digunakan dalam proses

pembobotan, sedangkan b dan d diabaikan karena dianggap tidak memiliki

kekuatan untuk membedakan dokumen positif dan negatif. Persamaan 7

digunakan untuk menghitung bobot term dengan TF-RF :

𝑇𝐹. 𝑅𝐹 = 𝑇𝐹 × log (2 + 𝑎

max(1, 𝑐)) (7)

2.9.2.3 Category Independent Term Weighting

Metode supervised term weighting digunakan untuk menghitung bobot term

berdasarkan informasi label yang ada dalam data latih. Di sisi lain, informasi label

terseut tidak ada dalam data yang akan diklasifikasi atau data uji. Oleh karena itu,

Batal & Hauskrecht (2009) mendefinisikan bobot untuk suatu term tk dalam data

uji adalah nilai maksimal dari bobot tk dalam data latih. Hal tersebut dilakukan

karena apabila pada data uji terdapat tk yang sangat mencirikan suatu kategori ci

maka data uji tersebut akan masuk ke kategori ci. Persamaan 8 dan 9 digunakan

untuk menghitung bobot data uji pada penelitian ini.

 

 

 

 

 

 

 

 

 

 

 

 

Page 24: BAB IIdigilib.polban.ac.id/files/disk1/163/jbptppolban-gdl...Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan informasi penting terkait dokumen tersebut (Vijayarani,

Bab II Studi Pustaka 30

𝑤(𝑡𝑘) = 𝑇𝐹 × 𝑀𝑎𝑥(𝐶ℎ𝑖2(𝑡𝑘)) (8)

𝑤(𝑡𝑘) = 𝑇𝐹 × 𝑀𝑎𝑥(𝑅𝐹(𝑡𝑘)) (9)

Persamaan 8 digunakan apabila metode pembobotan TF-Chi2 digunakan pada

tahap training, sedangkan persamaan 9 digunakan apabila metode pembobotan

TF-RF yang digunakan pada tahap training.