Upload
others
View
21
Download
0
Embed Size (px)
Citation preview
7
BAB II
LANDASAN TEORI
2.1 Studi Literatur
Penelitian yang berkaitan dengan klasifikasi kalimat tanya berdasarkan
Taksonomi Bloom telah dilakukan oleh Selvia Ferdiana Kusuma dengan
menggunakan algoritma J48 menghasilkan tingkat akurasi sebesar 83.11 %. Dataset
yang digunakan pada penelitian tersebut sebanyak 900 data dengan jumlah kelas 6,
sehingga setiap kelas memiliki 150 dataset [7]. Selain itu Selvia juga melakukan
perbandingan dengan 3 algoritma klasifikasi yaitu SVM, KNN, dan J48 namun
algoritma klasifikasi yang memiliki tingkat akurasi paling tinggi adalah algoritma
J48. Hasil dari masing-masing algoritma ditunjukkan seperti Tabel 2.1.
Tabel 2.1 Hasil Penelitian Selvia Ferdiana Kusuma
Metode Akurasi
SVM 82.00%
KNN 82.78%
J48 83.11%
2.2 Text Mining
Seperti hal nya data mining, text mining adalah proses penemuan akan
informasi atau trend baru yang sebelumnya tidak terungkap dengan memproses
dan menganalisa data dalam jumlah besar. Dalam menganalisa sebagian atau
keseluruhan unstructured text, text mining mencoba untuk mengasosiasikan satu
bagian text dengan yang lainnya berdasarkan aturan-aturan tertentu. Hasil yang di
harapkan adalah informasi baru yang tidak terungkap jelas sebelumnya [8].
Menurut [9], Saat ini text mining telah mendapat perhatian dalam berbagai
bidang, antara lain:
1) Aplikasi keamanan
Banyak paket perangkat lunak text mining dipasarkan terhadap aplikasi
keamanan, khususnya analisis plain text seperti berita internet.
2) Aplikasi biomedis
Berbagai aplikasi text mining dalam literatur biomedis telah disusun. Salah
satu contohnya adalah PubGene yang mengkombinasikan text mining biomedis
8
dengan visualisasi jaringan sebagai sebuah layanan Internet.
3) Perangkat Lunak dan Aplikasi
Departemen riset dan pengembangan perusahaan besar, termasuk IBM dan
Microsoft, sedang meneliti teknik text mining dan mengembangkan program
untuk lebih mengotomatisasi proses pertambangan dan analisis. Perangkat lunak
text mining juga sedang diteliti oleh perusahaan yang berbeda yang bekerja di
bidang pencarian dan pengindeksan secara umum sebagai cara untuk
meningkatkan performansinya.
4) Aplikasi Media Online
Text mining sedang digunakan oleh perusahaan media besar, seperti
perusahaan Tribune, untuk menghilangkan ambigu informasi dan untuk
memberikan pembaca dengan pengalaman pencarian yang lebih baik, yang
meningkatkan loyalitas pada site dan pendapatan. Selain itu, editor diuntungkan
dengan mampu berbagi, mengasosiasi dan properti paket berita, secara signifikan
meningkatkan peluang untuk menuangkan konten.
5) Aplikasi Pemasaran
Text Mining juga mulai digunakan dalam pemasaran, lebih spesifik dalam
analisis manajemen hubungan pelanggan.
6) Aplikasi Akademik
Masalah text mining penting bagi penerbit yang memiliki database besar
untuk mendapatkan informasi yang memerlukan pengindeksan untuk pencarian.
Hal ini terutama berlaku dalam ilmu sains, di mana informasi yang sangat spesifik
sering terkandung dalam teks tertulis.
2.3 Preprocessing Data
Sebelum diolah lebih lanjut data teks terlebih dahulu dilakukan proses
preprocessing. Teknik preprocessing adalah langkah awal sebelum melakukan
klasifikasi. Tujuan dari preprocessing adalah merepresentasikan sebuah kalimat
ataupun sebuah dokumen menjadi sebuah vektor fitur dengan cara memecah teks
menjadi satuan kata [10]. Berikut tahapan dalam pemilihan fitur, antara lain:
9
2.3.1 Case Folding
Case folding merupakan tahap penyamaan case dalam sebuah dokumen
atau teks agar memudahkan dalam pencarian [11]. Tahap Case folding dapat
dilihat pada Gambar 2.2.
Gambar 2.1 Tahap Case folding
2.3.2 Remove Number & Punctuation
Remove Number & Punctuation merupakan proses menghilangkan
karakter berupa nomor, tanda baca, dan spasi. Jika data mengandung karakter
nomor, tanda baca, dan spasi, maka karakter tersebut akan dihapus. Tahap Remove
Number & Punctuation dapat dilihat pada Gambar 2.2.
Gambar 2.2 Tahap Remove Number & Punctuation
2.3.3 Tokenisasi
Tokenisasi adalah tahap memisahkan deretan kata yang ada pada kalimat
menjadi token atau potongan kata tunggal (termmed word), selain itu tokenisasi
juga membuang beberapa karakter yang dianggap sebagai tanda baca. Tahap
Tokenisasi dapat dilihat pada Gambar 2.3.
Sebutkan nama-nama
provinsi yang ada di
Indonesia?
sebutkan nama-nama
provinsi yang ada di
indonesia?
Hasil Case Folding
sebutkan nama-nama
provinsi yang ada di
indonesia?
sebutkan namanama
provinsi yang ada di
indonesia
Hasil Remove Number &
Punctuation
Inputan kalimat tanya
Hasil Case Folding
10
Gambar 2.3 Tahap Tokenisasi
2.4 Klasifikasi
Klasifikasi merupakan proses pembangunan suatu model yang
mengklasifikasikan suatu objek berdasarkan atribut-atributnya. Kelas label sudah
tersedia dari data sebelumnya sehingga terfokus untuk bagaimana mempelajari
data yang ada agar klasifikator bisa mengklasifikasikan secara otomatis [12].
Klasifikasi terdiri atas dua model, yaitu [13] :
Pemodelan deskriptif, yaitu model klasfikasi yang dapat bertindak sebagai
suatu alat yang bersifat menjelaskan untuk membedakan antara objek
dengan kelas yang berbeda dari satu set data.
Pemodelan prediktif, yaitu model klasifikasi yang dapat digunakan sebagai
prediktor label kelas yang belum diketahui recordnya.
2.5 Taksonomi Bloom
Taksonomi Bloom adalah struktur hierarki yang digunakan untuk
mengidentifikasikan skills seseorang mulai dari tingkat yang rendah hingga yang
tinggi [14]. Tentunya untuk mencapai tujuan yang lebih tinggi, level yang rendah
harus terpenuhi terlebih dahulu. Dalam kerangka konsep ini, tujuan pendidikan
oleh Bloom dibagi menjadi 3 domain/ranah kemampuan intelektual (intellectual
behaviours) yaitu kognitif, afektif dan psikomotorik [15].
Ranah kognitif mengurutkan keahlian berpikir sesuai dengan tujuan yang
diharapkan. Proses berpikir menggambarkan tahap berpikir yang harus dikuasai
oleh siswa agar mampu mengaplikasikan teori kedalam perbuatan. Ranah kognitif
sebutkan namanama
provinsi yang ada di
indonesia
sebutkan
namanama
provinsi
yang
ada
di
indonesia
Hasil Tokenisasi
Hasil Remove Number &
Punctuation
11
ini terdiri dari atas enam level, yaitu: (1) pengetahuan, (2) pemahaman, (3)
penerapan, (4) analisa, (5) sintesa, dan (6) evaluasi. Secara lebih jelas, penjelasan
tentang pembaharuan aspek pada ranah kognitif dijelaskan pada Tabel 2.2 [16].
Tabel 2.2 Aspek Kognitif Taksonomi Bloom
No Kategori Penjelasan Kata Kunci
1 Mengingat Kemampuan
menyebutkan kembali
informasi/ pengetahuan
yang tersimpan dalam
ingatan. Contoh:
Menyebutkan arti
taksonomi
Mengutip, menyebutkan,
menjelaskan, menggambar,
membilang, mengidentifikasi,
mendaftar, menunjukkan,
memberi label, memberi
indeks, memasangkan,
menamai, menandai,
membaca, menghafal, meniru,
mencatat, mengulang,
mereproduksi, meninjau,
memilih, menyatakan,
mempelajari, mentabulasi,
mengkode, menelusuri,
menulis
2 Memahami Kemampuan
memahami instruksi
dan menegaskan
pengertian/ makna ide
atau konsep yang telah
diajarkan baik dalam
bentuk lisan, tertulis,
maupun
grafik/diagram.
Contoh: Merangkum
materi yang telah
diajarkan dengan kata-
kata sendiri.
Memperkirakan, menjelaskan,
mengkategorikan, mencirikan,
merinci, mengasosiasikan,
membandingkan, menghitung,
mengkontraskan, mengubah,
mempertahankan,
menguraikan, menjalin,
membedakan, mendiskusikan,
menggali, mencontohkan,
menerangkan, mengemukakan,
mempolakan, memperluas,
menyimpulkan, meramalkan,
merangkum, menjabarkan
3 Menerapkan
Kemampuan
melakukan sesuatu dan
mengaplikasikan
konsep dalam situasi
tertentu. Contoh:
Melakukan proses
pembayaran gaji sesuai
dengan sistem berlaku
Mengurutkan, melaksanakan,
melakukan, melatih,
membangun, membiasakan,
memecahkan, memodifikasi,
mempersoalkan,
memproduksi, memproses,
mencegah, menentukan,
menerapkan, mengadaptasi,
mengaitkan, mengemukakan,
menggali, menggambarkan,
menggunakan, menghitung,
12
mengkalkulasi,
mengklasifikasikan,
mengoperasikan,
mengurutkan, menilai,
mensimulasikan, mentabulasi,
menugaskan, menyelidiki,
menyesuaikan, menyusun,
meramalkan
4 Menganalisis
Kemampuan
memisahkan konsep
kedalam beberapa
komponen dan
menghubungkan satu
sama lain untuk
memperoleh
pemahaman atas
konsep tersebut secara
utuh. Contoh:
Menganalisa penyebab
meningkatnya harga
pokok penjualan dalam
laporan keuangan
dengan memisahkan
komponen-
komponennya.
Melatih, memaksimalkan,
membagankan, memecahkan,
memerinci, memerintahkan,
memilih, mencerahkan,
mendeteksi, mendiagnosis,
mendiagramkan, menegaskan,
menelaah, menemukan,
mengaitkan, menganalisis,
mengaudit, mengedit,
mengkorelasikan, menguji,
mengukur, menjelajah,
menominasikan, mentransfer,
menyeleksi, menyimpulkan,
merasionalkan
5 Mengevaluasi
Kemampuan
menetapkan derajat
sesuatu berdasarkan
norma, kriteria atau
patokan tertentu.
Contoh:
Membandingkan hasil
ujian siswa dengan
kunci jawaban
Membandingkan,
membuktikan, memerinci,
memilih, memisahkan,
memperjelas,mempertahankan,
memprediksi, memproyeksi,
memutuskan, memvalidasi,
menafsirkan, mendukung,
mengarahkan, mengetes,
mengkritik, mengukur,
menilai, menimbang,
menugaskan, menyimpulkan,
merangkum
6 Membuat Kemampuan
memadukan unsur-
unsur menjadi sesuatu
bentuk baru yang utuh
dan koheren, atau
membuat sesuatu yang
orisinil. Contoh:
Membuat kurikulum
Memadukan, membangun,
membatas, membentuk,
membuat, memfasilitasi,
memperjelas, memproduksi,
menampilkan, menanggulangi,
menciptakan, mendikte,
mengabtraksi, menganimasi,
mengarang, mengatur,
13
dengan
mengintegrasikan
pendapat dan materi
dari beberapa sumber.
menggabungkan,
menggeneralisasi,
menghubungkan,
mengkategorikan, mengkode,
mengkombinasikan,
mengkreasikan, mengoreksi,
mengumpulkan,
meningkatkan, menyusun,
merancang, merangkum,
merekonstruksi,
merencanakan, mereparasi,
merumuskan, menyiapkan
2.6 Support Vector Machine
Support Vector Machine (SVM) adalah sistem pembelajaran yang
pengklasifikasiannya menggunakan ruang hipotesis berupa fungsi-fungsi linear
dalam sebuah ruang fitur (feature space) berdimensi tinggi, dilatih dengan
algoritma pembelajaran yang didasarkan pada teori optimasi dengan
mengimplementasikan learning bias yang berasal dari teori pembelajaran statistik
[17]. Salah satu yang menjadi kelebihan SVM adalah tidak semua data latih akan
dipandang untuk dilibatkan dalam setiap iterasi pelatihannya. Data-data yang
berkontribusi tersebut disebut Support Vector [18].
2.6.1 Konsep SVM
Dalam Konsep SVM berusaha menemukan fungsi pemisah (hyperplane)
terbaik diantara fungsi yang tidak terbatas jumlahnya. Hyperplane pemisah
terbaik antara kedua kelas dapat ditemukan dengan mengukur margin hyperplane
tersebut dan mencari titik maksimalnya. Adapun data yang berada pada bidang
pembatas disebut support vector [19]. Pada dasarnya, konsep dasar dari algoritma
SVM yaitu:
𝑚𝑖𝑛1
2|𝑤|2
(2.1)
s.t yi(xi . 𝑤 + 𝑏) − 1 ≥ 0
dimana (xi . w + b) ≥ 1 untuk kelas 1, dan (xi . w + b) ≤ −1 untuk kelas 2,
14
Keterangan:
xi adalah dataset
yi adalah output dari data xi , dan
w, b adalah parameter yang dicari nilainya.
2.6.2 SVM Linear
Linearly separable data merupakan data yang dapat dipisahkan secara
linier. Pada gambar dapat dilihat sebagai alternatif bidang pemisah yang dapat
memisahkan semua dataset sesuai dengan kelasnya. Namun, bidang pemisah
terbaik tidak hanya dapat memisahkan data tetapi juga memiliki margin paling
besar [20].
Gambar 2.4 Margin Hyperplane
Adapun data yang berada pada bidang pembatas ini disebut support
vector. Dalam contoh di atas, dua kelas dapat dipisahkan oleh sepasang bidang
pembatas yang sejajar. Bidang pembatas pertama membatasi kelas pertama
sedangkan bidang pembatas kedua membatasi kelas kedua, sehingga diperoleh
𝑥𝑖 . 𝑤 + 𝑏 ≥ +1 𝑓𝑜𝑟 𝑦𝑖 = +1
(2.2)
𝑥𝑖 . 𝑤 + 𝑏 ≤ −1 𝑓𝑜𝑟 𝑦𝑖 = −1
w adalah normal bidang dan b adalah posisi bidang relatif terhadap pusat
koordinat.
2.6.3 Multi Class SVM
Ada dua pilihan untuk mengimplementasikan multi class SVM yaitu
dengan menggabungkan beberapa SVM biner atau menggabungkan semua data
15
yang terdiri dari beberapa kelas ke dalam sebuah bentuk permasalahan optimasi.
Pada SVM terdapat metode untuk mengklasifikasikan data yang memiliki lebih
dari dua kelas, salah satunya adalah metode one-against-all. Dengan
menggunakan metode one-against-all, dibangun k buah model SVM biner (k
adalah jumlah kelas). Setiap model klasifikasi ke-i dilatih dengan menggunakan
keseluruhan data, untuk mencari solusi permasalahan (2.16). Jika hasil dari
klasifikasi data baru tersebut menyatakan bahwa data tersebut bukan kelas i maka
data baru tersebut di masukkan ke dalam fungsi hasil pelatihan berikutnya, sampai
hasil dari klasifikasi menyatakan bahwa data baru tersebut adalah kelas i.
min1
2 (𝑤𝑖)𝑇𝑤𝑖 + 𝐶 ∑ 𝜉𝑡
𝑖
𝑡
𝑠. 𝑡 (𝑤𝑖)𝑇 ∅(𝑥𝑡) + 𝑏𝑖 ≥ 1 − 𝜉𝑡𝑖 → 𝑦𝑡 = 𝑖, (2.16)
(𝑤𝑖)𝑇 ∅(𝑥𝑡) + 𝑏𝑖 ≥ −1 + 𝜉𝑡𝑖 → 𝑦𝑡 ≠ 𝑖,
𝜉𝑡𝑖 ≥ 0
2.7 Karakteristik SVM
Karakteristik SVM dapat diringkas menjadi seperti berikut [21]:
1. SVM menyimpan sebagian kecil data latih untuk digunakan kembali pada
saat prediksi, sebagian data yang masih disimpan merupakan support vector.
2. SVM membutuhkan komputasi pelatihan dan prediksi yang rumit karena
data yang digunakan dalam proses pelatihan dan prediksi lebih besar
dibandingkan dimensi sesungguhnya.
3. Untuk set data berjumlah besar SVM membutuhkan memori yang sangat
besar untuk alokasi matriks kernel yang digunakan.
4. Penggunaan matriks kernel mempunyai keuntungan lain, yaitu kinerja set
data dengan dimensi besar tetapi jumlah datanya sedikit akan lebih cepat
karena ukuran data pada dimensi baru berkurang banyak.
2.8 Ekstraksi Fitur
Fitur adalah sebuah karakteristik pembeda yang dapat digunakan untuk
mengklasifikasikan suatu soal [22]. Pada penelitian ini mengunakan 2 jenis fitur
untuk proses pengklasifikasian yaitu, fitur sintaktik dan Bag-of-Words (BoW).
16
2.8.1 Fitur Sintaktik
Fitur sintaktik adalah fitur dari sebuah soal yang diekstrak berdasarkan
susunan kata pada soal tersebut [22]. Berikut merupakan contoh ekstraksi fitur
sintaktik yang ditunjukkan pada Tabel 2.3. Contoh soal yang yang akan
diekstraksi fitur adalah
Tabel 2.3 Ekstraksi Fitur Sintaktik
tulislah faktor penghambat yang dihadapi untuk melaksanakan berbagai aktivitas
ekonomi yang dominan berkembang di daerah tempat tinggalmu
Hasil Ekstraksi Kata
WH
Kata
Kerja
Kata
Perbandingan
Kata
Definisi
Kata
Kausalitas
Kata
Penyebutan
Kata
Preposisi Kata Penjelas Kata Pilihan Kata Tujuan
0 1 0 0 0 0 1 0 0 0
Kata
Cara
Kata
Waktu
Kata
Tambahan
Kata
Mengingat
Kata
Memahami
Kata
Menerapkan
Kata
Menganalisis
Kata
Mengevaluasi Kata Membuat
0 0 1 1 1 1 0 0 0
2.8.2 Fitur Bag-of-Words (BoW)
Semua dokumen dapat dipresentasikan secara sederhana menggunakan Bag-of-
words (BoW). BoW adalah sebuah model yang merepresentasikan objek secara global
misalnya kalimat teks atau dokumen sebagai bag (multiset) kata tanpa memperdulikan
tata bahasa bahkan urutan kata untuk menjaga keanekaragamannya [23]. Dengan kata
lain, BoW merupakan kumpulan kata-kata unik dalam teks dokumen untuk membentuk
urutan yang berbeda kemudian dihitung frekuensi kemunculannya. Contoh sederhana
pembentukan Bag-of-Words untuk teks dokumen sebagai berikut:
Tabel 2.4 Ekstraksi Fitur Bag-of-Words
tulislah faktor penghambat yang dihadapi untuk melaksanakan berbagai aktivitas
ekonomi yang dominan berkembang di daerah tempat tinggalmu
Hasil Ekstraksi
tulislah faktor Penghambat Yang dihadapi untuk melaksanakan berbagai
1 1 1 2 1 1 1 1
aktivitas ekonomi Dominan berkembang Di daerah tempat tinggalmu
1 1 1 1 1 1 1 1
2.9 Metode Pengujian
Dalam melakukan pengujian pada sebuah sistem klasifikasi diperlukan metode
pendukung pengujian untuk melakukan klasifikasi pada set data yang bertujuan agar
kinerja dari sistem klasifikasi menghasilkan akurasi yang tepat. Umumnya, pengukuran
17
kinerja klasifikasi dilakukan menggunakan confusion matrix.
Confusion matrix adalah alat pengukuran yang dapat digunakan untuk
menghitung jumlah data uji yang benar diklasifikasikan dan jumlah data uji yang salah
diklasifikasikan. Tabel confusion matrix ditunjukkan pada tabel berikut ini [24]:
Tabel 2.5 Confusion Matrix
Aktual Prediksi
Positif Negatif
Positif TP FN
Negatif FP TN
Keterangan dari tabel confusion matrix sebagai berikut:
TP (True Positive) merupakan banyaknya jumlah data yang kelas aktualnya
adalah kelas positif dengan kelas prediksinya merupakan kelas positif.
FN (False Negative) merupakan banyaknya jumlah data yang kelas aktualnya
adalah kelas positif dengan kelas prediksinya merupakan kelas negatif.
FP (False Positive) merupakan banyaknya jumlah data yang kelas aktualnya
adalah kelas negatif dengan kelas prediksinya merupakan kelas positif.
TN (True Negative) merupakan banyaknya jumlah data yang kelas aktualnya
adalah kelas negatif dengan kelas prediksinya merupakan kelas negatif.
2.9.1 Akurasi
Nilai akurasi adalah proporsi jumlah prediksi data yang benar
diklasifikasikan dari kesulurah dataset [7].
Akurasi = TP + TN (2.7)
TP + TN + FP + FN
2.9.2 Presisi
Presisi adalah tingkat ketepatan hasil klasifikasi terhadap suatu kejadian.
Presisi = TP (2.8)
TP + FP
2.9.3 Recall
Recall atau sensitivitas adalah tingkat keberhasilan mengenali suatu