Upload
dangkhanh
View
222
Download
0
Embed Size (px)
Citation preview
Metode Klasifikasi Metode Klasifikasi
((SVM Light dan KSVM Light dan K--NNNN))Dr. Taufik Fuadi Abidin, S.Si., M.Tech
Jurusan InformatikaFMIPA Universitas Syiah Kuala
www.informatika.unsyiah.ac.id/tfa
Alur dan ProsesCleaning Process
Dokumen Berkategori
SVM
TrainingSets
TestingSets
Penentuan Fitur
(Feature Generation)
Hasil: Dokumen Baru dengan
Kategori Models
Kamus (Dictionaries)
dari setiap klas
Penentuan FiturTopik minggu sebelumnya telah memaparkan dan mendiskusikan salah satu alternatif membangun tektual fitur dari halaman Web (jika objek berupa halaman Web), contoh fitur:
tropical_d 1:0.777777777777778 2:0.333333333333333 3:0.111111111111111 4:05:0.111111111111111 6:0 7:0.2875 8:0.1125 9:0.0375 10:0 11:0.0125 12:0 13:0.178947368421053 14:0.0421052631578947 15:0.0210526315789474 16:0 17:0.0210526315789474 18:0 19:0.1 20:0.024 21:0.008 22:0 23:0.004 24:0
tropical_d 1:0.833333333333333 2:0.166666666666667 3:0 4:0 5:0 6:0 7:0.298507462686567 8:0.0970149253731343 9:0.0447761194029851 10:0 11:0.0298507462686567 12:0 13:0.137349397590361 14:0.0397590361445783 15:0.0036144578313253 16:0 17:0.0108433734939759 18:0 19:0.106666666666667 20:0.0155555555555556 21:0.00222222222222222 22:0 23:0.0155555555555556 24:0.00222222222222222
Tahapan KlasifikasiLearning (training): Pembelajaran menggunakan data training (untuk Naïve Bayesian Classifier, nilai probabilitas dihitung dalam proses pembelajaran)
Testing: Menguji model menggunakan data testing
Sumber: Bing Liu, Web Data Mining
Training SetKlasifikasi adalah proses pembelajaran secara terbimbing (supervised learning). Terbimbing karena kategori (class label) dari setiap training sampel diketahui
Untuk melakukan klasifikasi, training set sebagai data pembelajaran harus ada
Attribut dari sampel baru (unclassified sample) sama dengan atribut dari setiap sampel dalam training set hanya saja class label-nya belum diketahui
Metode KlasifikasiNaïve Bayesian Classifier (Probabilistics-Based Classification)
Adalah metode classifier yang berdasarkan probabilitas dan Teorema Bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (independence)
Dengan kata lain, Naïve Bayesian Classifier mengansumsikan bahwa keberadaan sebuah atribut (variabel) tidak ada kaitannya dengan beradaan atribut (variabel) yang lain
Karena asumsi atribut tidak saling terkait (conditionally independent), maka:
Kategori dari sampel X (new sample) adalah class label yang memiliki P(X|Ci)*P(Ci)maksimum
∏=
=n
kCixkPCiXP
1)|()|(
Metode KlasifikasiK-Nearest Neighbor (K-NN) Classification
Adalah metode classifier yang menentukan kategori dari sampel baru berdasarkan k-tetangga terdekat. k-sampel terdekat itu dihitung berdasarkan perhitungan jarak (euclidian atau manhattan distance
K-NN juga disebut lazy classifier
K-NN adalah distance-based classification
Sumber: http://en.wikipedia.org/wiki/K-nearest_neighbor_algorithm
Metode KlasifikasiSupport Vector Machine (SVM)
Dikembangkan oleh Boser, Guyon, Vapnik, dan pertama kali dipresentasikan pada tahun 1992 di Annual Workshop on Computational Learning Theory
SVM memperkenalkan strategi baru dengan menemukan hyperplane terbaik pada ruang input (input space). Prinsip SVM adalah linear classifier, tetapi SVM kemudian dikembangkan agar mampu bekerja pada masalah non-linear dengan memasukkan kernel
SVM LightLeaning Step:
svm-classify file_test file_model prediction
file_training adalah file fitur yang telah disusun dalam format SVM light
file_model adalah model yang telah dibangkitkan sebelumnya saat proses learning dilakukan
file prediction menyimpan hasil prediksi dari SVM
1 101:0.2 205:4 209:0.2 304:0.2…-1 202:0.1 203:0.1 208:0.1 209:0.3………
1.045-0.987……
1.0450.987……
SVM LightSitus resmi: http://svmlight.joachims.org/
Diimplementasi menggunakan bahasa pemrograman C
Testing Step:
svm-learn [-option] file_training file_model
file_training adalah file fitur yang telah disusun dalam format SVM light
file_model adalah model yang dibangkitkan oleh proses learning
svm-classify file_test_fitur file_model
Confusion Matriks
. .FNTP
TP r
FPTP
TPp
+=
+=
Sumber: Bing Liu, Web Data Mining
Precision (p) = jumlah sampel berkategori positif diklasifikasi benar dibagi dengan total sampel yang diklasifikasi sebagai sample positif
Recall (r) = jumlah sampel diklasifikasi positif dibagi total sampel dalam testing set berkategori positif
F-Measure (F1-Score)
F-Measure (F1) adalah harmonic mean dari precision dan recall
Range dari nilai F-Measure adalah 0 sd 1.
ContohSumber: Bing Liu, Web Data Mining
precision p = 100%
recall r = 1%
Mengapa? Karena kita hanya berhasil
mengklasifikasi satu sampel positif secara benar dan semua sampel negatif benar