KLASIFIKASI DOKUMEN TUMBUHAN OBAT BERBASIS FAMILI
MENGGUNAKAN PROBALISTIC NEURAL NETWORK
ACHMAD MUCHLIS
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Dokumen
Tumbuhan Obat Berbasis Dokumen menggunakan Probalistic Neural Network
adalah benar karya saya dengan arahan dari pembimbing dan belum diajukan
dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang
berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari
penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di
bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, September 2013
Achmad Muchlis
NIM G64104049
ABSTRAK
ACHMAD MUCHLIS. Klasifikasi Dokumen Tumbuhan Obat Berbasis Famili
Menggunakan Probalistic Neural Network. Dibimbing oleh YENI HERDIYENI
dan ERVIZAL AM ZUHUD.
Penelitian ini menyajikan sebuah sistem untuk ektraksi ciri dan klasifikasi
dokumen tumbuhan obat menggunakan metode chi-square dan klasifikasi
probalistic neural network (PNN). Otomasi identifikasi famili dilakukan
berdasarkan pengelompokan karakteristik tanaman obat yang terkandung dalam
dokumen. Tahapan terdiri dari pengumpulan dokumen tumbuhan, konversi dari
dokumen hardcopy menjadi menjadi bentuk softcopy dengan format XML, pra
proses dokumen, pemilihan fitur menggunakan chi-square, klasifikasi dokumen
menggunakan PNN dan evaluasi sistem menggunakan confusion matrix.
Hasil klasifikasi dipengaruhi oleh jumlah kata penciri suatu famili. Jumlah
kata penciri dari suatu famili dipengaruhi oleh jumlah kata yang sama pada tiap
dokumen latih. Semakin banyak kata yang sama pada tiap dokumen latih semakin
besar probabilitas kata tersebut menjadi kata penciri. Pada penelitian ini penciri
dari suatu famili belum menggambarkan ciri-ciri taksonomi tumbuhan. Hal ini
disebabkan oleh banyaknya kata yang sama pada tiap dokumen latih belum
menggambarkan ciri-ciri taksonomi tumbuhan. Hasil evaluasi klasifikasi
menggunakan algoritme probalistic neural network dengan bobot nilai 1 dan
lapisan pola menggunakan ekstraksi ciri chi-square menggunakan nilai nilai alpha
(α) 0.1 secara keseluruhan menghasilkan nilai 82.14 %. Hal tersebut dikarenakan
dokumen latih terdapat banyak kata yang sama pada tiap dokumen yang bukan
ciri-ciri taksonomi tumbuhan.
Penelitian ini merupakan sistem klasifikasi dokumen tumbuhan obat yang
dapat digunakan untuk identifikasi famili tumbuhan. Sistem ini berguna dalam
identifikasi famili secara otomatis dan klasifikasi dokumen tumbuhan obat.
Sistem ini juga dapat meningkatkan pengetahuan masyarakat terhadap keragaman
dan penggunaan tanaman obat.
Kata kunci: chi-kuadrat, klasifikasi dokumen, identifikasi dokumen, dokumen
tumbuhan obat, klasifikasi probalistic neural network
ABSTRACT
ACHMAD MUCHLIS. Clasification of Medical Plant Document Based on
Family by Feature Selection Clasification using Probalistic Neural Netwok.
Supervised YENI HERDIYENI and ERVIZAL AM ZUHUD.
This research presents a system for the extraction of features and
classification of the document medicinal plants using the chi-square method and
neural network classification probalistic. Automation family identification by
grouping characteristics medicinal plants contained in the document. In this
research, the phase consists of collecting documents, doing conversion from
hardcopy documents to softcopy into XML format, pre-process the document,
featuring selection using the chi-square, document classification using PNN and
evaluation using Confusion Matrix.
Classification results are influenced by the number of family identifier
words. Number of words identifier of a family affected by the same number of
words in each document training. The more same words in each document
training, the greater probability of the word being said identifier. In this research,
identifier of a family does not describe the characteristics of plant taxonomy. This
is due to the same number of words in each document has not practically
described the characteristics of plant taxonomy. The evaluation research of
classification algorithm Probalistic Neural Network (PNN) with weight value 1
and layer patterns using feature extraction using the chi-square values of alpha (α)
value of 0.1 overall result of classification is 82.14%.
This research represents a medical plant document system that can be used
for automatic identification of families according to the taxonomy of plants.This
system is useful to help users especially researchers and taxonomists in the
identification document through labeling family automatically on each document,
with the existing system, therefoe the users dont need to bring a book or a guide
book to identify the field. Furthermore, it can overcome the limitations of people's
knowledge of the diversity and the use of medicinal plants. That is because there
are a lot of documents to train the same word in each document which is not
characteristic of plant taxonomy.
Keywords: chi-square, document classification, document identification, medical
plant document, probalistic neural network classifier
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer
KLASIFIKASI DOKUMEN TUMBUHAN OBAT BERBASIS FAMILI
MENGGUNAKAN PROBALISTIC NEURAL NETWORK
ACHMAD MUCHLIS
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
Judul Skripsi : Klasifikasi Dokumen Tumbuhan Obat Berbasis Famili
Menggunakan Probalistic Neural Network
Nama : Achmad Muchlis
NIM : G64104049
Disetujui oleh
Diketahui oleh
Dr. Ir. Agus Buono, M.Si, M.Kom
Ketua Departemen
Tanggal Lulus:
Dr. Yeni Herdiyeni, S.Si, M.Kom
Pembimbing I
Prof. Dr. Ervizal AM Zuhud, MS
Pembimbing II
Judul Skri psi Iumbuhan Obat Berbasis Famili ~'r&.~f.sti-c _ eural Network
Nama Achmad NIM
Mengg~.o.AJ,;:c.:;·
064104049
Disetujui oleh
S.Si M.Kom Prof. Dr. Ervizal AM Zuh\ d, MS Pembimbing II
Tanggal Lulus: 0 5 FEB 201 4
PRAKATA
Segala puji bagi Allah subhanahu wata’ala atas segala limpahan rahmat dan
karunia-Nya sehingga penulis mampu menyelesaikan skripsi yang berjudul
“Klasifikasi Dokumen Tumbuhan Obat Berbasis Famili Menggunakan Probalistic
Neural Network” ini. Selawat dan salam senantiasa tercurah limpah kepada
Rasulullah, Nabi Muhammad shalallahu ‘alaihi wasallam, serta keluarganya,
sahabatnya, dan para pengikutnya yang tetap istiqomah hingga akhir zaman.
Penulis juga menyampaikan terima kasih kepada seluruh pihak yang telah
membantu dalam penelitian ini, yaitu:
1 Kedua orang tua penulis, Alm.H.Syatiri Achmad dan Alma.Hj.Munawaroh
serta saudara-saudara penulis, atas doa, kasih sayang, dan dukungan yang
luar biasa.
2 Ibu Dr. Yeni Herdiyeni, S.Si, M.Kom dan Bapak Prof. Dr. Ir. Ervizal A.M.
Zuhud, M.S selaku dosen pembimbing yang telah banyak memberikan ide,
saran, nasihat, dan dukungan.
3 Rekan-rekan satu bimbingan, Rahmat, Alrasyid, Hanung, Dedi, Yusrizal,
Desta, pak Indra, mas Rizky dan Ngakan atas diskusi-diskusi dan suka-duka
selama pembimbingan.
4 Rekan-rekan di AMN Indonesia.
5 Sahabat Ilkomerz angkatan 5 khususnya Wahyu Dyas.
Penulis menyadari penelitian ini masih banyak kekurangan. Harapannya,
semoga hasil penelitian ini dapat bermanfaat.
Bogor, September 2013
Achmad Muchlis
DAFTAR ISI
DAFTAR TABEL vi
DAFTAR GAMBAR vi
DAFTAR LAMPIRAN vi
PENDAHULUAN 1
Latar Belakang 1
Tujuan Penelitian 1
Manfaat Penelitian 2
Ruang Lingkup Penelitian 2
TINJAUAN PUSTAKA 2
Taksonomi 2
Chi-Square (χ2) 5
Probabilistic Neural Network 7
Confusion Matrix 8
METODE 9
Dokumen Tumbuhan Obat 9
Praproses 11
Ekstraksi Fitur Dokumen Menggunakan Chi-Square 12
Klasifikasi Probalistic Neural Network 12
Perhitungan Akurasi 13
Lingkungan Pengembangan 13
HASIL DAN PEMBAHASAN 13
Praproses 13
Ekstraksi Fitur Chi-Square 14
Klasifikasi Probalistic Neural Network 18
SIMPULAN DAN SARAN 25
Simpulan 25
Saran 25
DAFTAR PUSTAKA 25
LAMPIRAN 31
DAFTAR TABEL
1 Tabel kontingensi 6
2 Nilai kritis derajat bebas satu dan taraf nyata α Manning et al (2008). 6
3 Confusion Matrix 8
4 Jumlah dokumen tumbuhan 10
5 Kombinasi data dokumen per famili 10
6 Komposisi jumlah dokumen tumbuhan 14
7 Daftar jumlah kata per famili 14
8 Perbandingan kelas Apiaceae dengan kelas Euphorbiaceae 15
9 Kombinasi dokumen latih kelas Apiaceae dengan Euphorbiaceae 15
10 Hasil evalusi tiap famili 18
11 Confusion Matrix pada klasifikasi 19
12 Taksonomi famili Apiaceae dan Crassulaceae 19
13 Perbandingan term penciri famili Apiaceae dan Crassulaceae 19
14 Taksonomi Euphorbiaceae dan Crassulaceae 20
15 Perbandingan term dokumen, famili Euphorbiaceae dan
Crassulaceae 21
16 Taksonomi Lamiaceae dan Apiaceae 21
17 Perbandingan term dengan famili Apiaceae dan Lamiaceae 22
18 Taksonomi Myrtaceae dan Rutaceae 22
19 Perbandingan term dokumen dengan famili Myrtaceae dan
Rutaceae 23
20 Taksonomi Rutaceae dan Crassulaceae 24
21 Perbandingan term dokumen dengan famili Rutaceae dan
Crassulaceae 24
DAFTAR GAMBAR
1 Contoh spesies famili Apiaceae 2
2 Contoh spesies berfamili Crassulaceae 3
3 Contoh spesies berfamili Euphorbiaceae 3
4 Contoh spesies berfamili Lamiaceae 4
5 Contoh spesies berfamili Myrtaceae 4
6 Contoh spesies berfamili Rutaceae 5
7 Bagan algoritme Probalistic Neural Network Han dan Kamber
(2001) 7
8 Diagram alur penelitian 9
9 Akurasi pengujian 18
10 Bentuk morfologi daun famili Apiacea dan Crasslucase 20
11 Posisi cabang famili Euphorbiaceae dan famili Crassulaceae. 21
12 Bunga famili Euphorbiaceae dan famili Crassulaceae 22
13 Buah famili Myrtaceae dan famili Rutaceae 23
14 Bentuk daun famili Rutaceae dan Crassulaceae. 24
DAFTAR LAMPIRAN
1 Daftar term kelas Apiaceae 26
2 Daftar term kelas Crassulaceae 27
3 Daftar term kelas Lamiaceae 28
4 Daftar term kelas Euphorbiaceae 28
5 Daftar term kelas Myrtaceae 29
6 Daftar term kelas Rutaceae 30
7 Daftar perbedaan morfologi per famili 36
36
PENDAHULUAN
Latar Belakang
Indonesia sebagai salah satu negara megabiodiversity memiliki banyak
kekayaan alam. Menurut Groombridge dan Jenkins (2002), jumlah tumbuhan di
Indonesia pada saat ini mencapai 22500 spesies. Sebanyak 4.4% dari keseluruhan
spesies tumbuhan obat yang ada di Indonesia sudah diketahui manfaatnya. Salah
satu cara meningkatkan pengetahuan tentang tumbuhan obat adalah dengan cara
mengidentifikasikan tumbuhan tersebut. Penelitian tentang tumbuhan telah
banyak dilakukan. Peneliti melakukan pengamatan secara langsung terhadap
tumbuhan sehingga menghasilkan informasi dari tumbuhan seperti ciri-ciri
morfologi, kandungan kimia, budidaya, manfaat dan informasi lainnya yang
menggambarkan karakteristik tumbuhan tersebut. Identifikasi tumbuhan secara
manual tidak efisien karena setiap kali melakukan proses identifikasi, peneliti
menganalisis karakteristik secara langsung atau dengan mencocokan pada tiap
dokumen tumbuhan yang sedang di identifikasi. Oleh karena itu, diperlukan
adanya sistem informasi untuk mempermudah dan mempercepat proses
identifikasi famili tumbuhan obat menggunakan informasi dokumen tumbuhan
obat.
Pada penelitian sebelumnya telah dilakukan mengenai identifikasi famili
menggunakan dokumen etnofitomedika dengan metode klasifikasi naïve bayes
Suganda (2013). Saudari Suganda menggunakan sepuluh famili tumbuhan dalam
hal pengklasifikasiannya. Metode yang digunakan yang oleh saudari Suganda
adalah mengekstraksi kata-kata penting dari dokumen etnofitomedika
menggunakan chi-square dan metode naive bayes sebagai metode
pengklasikasiannya. Penelitian lain tentang klasifikasi tumbuhan obat juga
dilakukan oleh Herawan (2011) yang menggunakan metode chi-square dan
metode naive bayes. Penelitian tentang pengelompokan data juga dilakukan oleh
Barnaghi (2012) dengan membandingkan beberapa metode klasifikasi
meggunakan data darah. Pada penelitan Barnaghi (2012) rata-rata akurasi metode
neural network lebih baik jika dibandingan dengan metode naive bayes.
Penelitian ini akan mengembangkan sistem klasifikasi dokumen tumbuhan
obat berbasis famili menggunakan metode Probalistic Neural Network (PNN).
Famili yang digunakan pada penelitian ini berjumlah enam famili yaitu Apiaceae,
Crassulaceae, Euphorbiaceae, Lamiaceae, Myrtaceae dan Rutaceae. Pemilihan
famili Apiaceae, Crassulaceae, Euphorbiaceae, Lamiaceae, Myrtaceae dan
Rutaceae dikarenakan secara taksonomi famili tersebut terdapat dalam 1 kingdom
yang sama yaitu Plantae.
Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk mengklasifikasikan dokumen
tumbuhan obat berbasis famili menggunakan metode ektraksi chi-square dengan
metode klasifikasi probalistic neural network.
2
Manfaat Penelitian
Manfaat dari penelitian yaitu untuk mempermudah pencarian informasi
tumbuhan berdasarkan ciri-ciri morfologi dari famili tumbuhan tersebut.
Ruang Lingkup Penelitian
Pada penelitian ini dilakukan pembatasan masalah pada:
1 Data tumbuhan obat terdiri atas enam famili yaitu Apiaceae, Crassulaceae,
Euphorbiaceae, Lamiaceae, Myrtaceae dan Rutaceae.
2 Data tumbuhan obat dalam bentuk teks dengan ektensi XML dan berbahasa
Indonesia.
TINJAUAN PUSTAKA
Taksonomi
Taksonomi tumbuhan merupakan ilmu yang mempelajari tentang berbagai
penelusuran jenis tumbuhan, penyimpanan herbarium tumbuhan, pengenalan atau
identifikasi tumbuhan, pengelompokan atau klasifikasi tumbuhan, dan pemberian
nama tumbuhan Tjitrosoepomo (1994). Klasifikasi tumbuhan adalah penyusunan
tumbuhan secara teratur ke dalam suatu sistem hierarki. Sistem penyusunan ini
berasal dari kumpulan informasi tumbuhan secara individual salah satunya
informasi ciri-ciri taksonomi yang dimiliki tumbuhan tersebut, dengan hasil akhir
yang menggambarkan hubungan kekerabatan antar individual. Klasifikasi yang
bertujuan untuk menyederhanakan objek studi pada hakekatnya adalah mencari
keseragaman dalam keanekaragaman pada setiap individual. Berikut ciri-ciri
famili yang digunakan pada penelitian ini :
a Famili Apiaceae
(Astrantia maxima) (Daucus carota)
Gambar 1 Contoh spesies famili Apiaceae
Terna berumur pendek atau panjang, dengan batang berongga
sebelah dalam dan beralur atau bergerigi membujur pada permukaannya.
Daun tersebar, berseling atau berhadapan, majemuk ganda atau banyak
berbagi, tanpa daun penumpu tetapi mempunyai pelepah yang besar dan
3
pipih. Bunga majemuk berupa bunga payung. Bunga kecil, kebanyakan
banci, aktinomorf atau sedikit zigomorf, berbilangan 5. Kelopak seringkali
amat kecil, daun mahkota 5 dengan ujungnya yang melengkung ke dalam
berwarna kuning atau keputih-putihan, jarang merah jambu atau
lembayung. Benang sari 5, berseling dengan daun mahkota. Bakal buah
tenggelam, tertutup oleh bantal tangkai putik yang berbagi 2 , beruang 2
dalam tiap ruang dengan 1 bakal biji yang bergantungan. Buahnya buah
berbelah 2, tiap bagian buah berlekatan pada suatu karpofor. Dalam kulit
buah terdapat saluran-saluran minyak atsiri. Biji dengan endosperm yang
menyerupai tanduk Tjitrosoepomo (1994). Gambar 1 merupakan contoh
spesies famili Apiaceae.
b Famili Crassulaceae
(Kalanchoe pinnata) (Kalanchoe pinnata)
Gambar 22Contoh spesies berfamili Crassulaceae
Terna berbatang basah, daun tebal pinggir beringgit, banyak
mengandung air, bentuk daunnya lonjong atau bundar panjang, panjang 5 -
20 cm, lebar 2.5-15 cm, ujung daun tumpul, pangkal membundar,
permukaan daun gundul, warna hijau sampai hijau keabu-abuan. Posisi
daun jarang yang berhadapan. Memiliki penumpu tangkai daun yang
melebar. Bunga terdapat pada akhir batang bagian atas dan menghadap ke
bawah Goldberg (2003). Gambar 2 merupakan contoh spesies famili
Crassulaceae.
c Famili Euphorbiaceae
(Euphorbia epithymoides) (Glochidion)
Gambar 33Contoh spesies berfamili Euphorbiaceae
4
Pohon, perdu atau terna, kadang-kadang berupa sukulenta,
kebanyakan menghasilkan getah yang berwarna putih seperti susu. Daun
tersebar, kadang-kadang berhadapan, tunggal atau majemuk menjari,
biasanya mempunyai penumpu. Ujung tangkai daun atau pangkal helaian
daun seringkali mempunyai kelenjar. Bunga berkelamin tunggal, berumah
satu atau dua, jantan dan betina besar perbedaannya. Bakal buah
menumpang, biasanya beruang 3 masing-masing 1-2 bakal biji. Tangkai
putik berjumlah 3 atau berlekatan. Biji dengan endosperm yang besar dan
di pusat Tjitrosoepomo (1994). Gambar 3 merupakan contoh spesies famili
Euphorbiaceae.
d Famili Lamiaceae
(Perilla frutescens)
Gambar 44Contoh spesies berfamili Lamiaceae
Spesies dari lamiaceae terutama merupakan herba atau semak-
semak dalam berbagai ukuran, jarang berupa pohon. Batang biasanya
persegi, terutama ketika muda, tegak atau berbaring di tanah. Bunganya
biseksual, jarang berkelamin tunggal jarang yang berbentuk sebagai bunga
sempurna. Buah terdiri atas empat nutlets, meskipun beberapa nutlets
tersebut tidak dewasa, masing-masing dengan biji tunggal. Daun
berberntuk sederhana dan letaknya berhadapan dengan daun yang lainnya.
Penumpu tangkai daun menyebar tidak mengerucut ke dalam batang
Golderg (2003). Gambar 4 merupakan contoh spesies famili Lamiaceae.
e Famili Myrtaceae
(Syzygium caryophyllatum) (Syzygium malacense)
Gambar 55Contoh spesies berfamili Myrtaceae
5
Semak-semak atau pohon-pohonan yang berbatang berkayu, jarang
sekali berupa terna dengan daun tunggal tanpa daun penumpu yang
duduknya tersebar atau berhadapan. Bunga kebanyakan aktinomorf, banci
dengan 4-5 daun kelopak dan 4-5 daun mahkota pula. Daun-daun mahkota
itu sebelah atasnya seringkali berlekatan. Bakal buah tenggelam dengan 1
tangkai putik, beruang 1 dengan 3-tembuni yang menonjol ke dalam, dapat
pula beruang lebih dari 1 (2, 5 sampai tak hingga) dengan 8 bakal biji
dalam tiap ruang Tjitrosoepomo (1994). Gambar 5 merupakan contoh
spesies famili Myrtaceae.
f Famili Rutaceae
(Clausena excavate) (Citrus reticulate)
Gambar 66Contoh spesies berfamili Rutaceae
Tumbuhan yang berkayu, jarang berupa terna. Daun tunggal atau
majemuk (beranak daun 3) yang duduk tersebar atau berhadapan. Dalam
gelam dan daun terdapat kelenjar-kelenjar minyak yang terjadi secara
skizolisigen. Bunga banci, aktinomorf atau zigomorf, berbilang 5 atau 4, di
dalam benang sari kebanyakan terdapat suatu cakram. Kelopak berdaun
bebas atau berlekatan. Buah dan biji amat berbeda-beda, biji dengan
lembaga yang besar Tjitrosoepomo (1994). Gambar 6 merupakan salah
satu contoh spesies famili Rutaceae.
Chi-Square (χ2)
Pemilihan fitur dokumen merupakan suatu proses memilih kata terbaik pada
tiap dokumen. Kata tersebut merupakan himpunan dari semua kata yang ada pada
data latih. Pemilihan fitur dokumen memiliki dua tujuan utama, yaitu membuat
data latih yang diterapkan oleh sistem klasifikasi menjadi lebih sederhana serta
untuk meningkatkan akurasi sistem klasifikasi. Peningkatan akurasi sistem
klasifikasi disebabkan oleh dihilangkannya kata-kata yang bukan merupakan
penciri dokumen yang dilakukan pada proses penghilangan fitur Manning et al
(2008). Dalam penelitian ini, data yang digunakan adalah dokumen tumbuhan
obat yang berasal dari beberapa dokumen hasil riset dan buku tumbuhan obat.
Dokumen yang digunakan dibuat dalam format XML. Data dari ekstrasi fitur
tersebut akan digunakan sebagai penciri dokumen yang akan diklasifikasikan.
Chi-square ( ) merupakan pengujian hipotesis mengenai perbandingan
antara frekuensi sampel yang benar-benar terjadi (frekuensi observasi) dengan
6
frekuensi harapan yang didasarkan atas hipotesis tertentu pada setiap kasus atau
data (frekuensi harapan atau ekspektasi). Sampel berukuran N diambil dari suatu
populasi normal berdeviasi standar σ. Untuk setiap sampel dihitung nilai
sehingga diperoleh distribusi sampling untuk yang disebut distribusi chi-square
Manning et al (2008).
Perhitungan nilai chi-square dapat dibantu dengan tabel kontingensi. Nilai
pada tabel kontingensi merupakan nilai frekuensi observasi dari suatu kata
terhadap kelas. Tabel kontingensi dapat dilihat pada Tabel 1.
Tabel 1 Tabel kontingensi
Kelas
Kata
Kelas = 1 Kelas = 0
Kata = 1 A B
Kata = 0 C D
Perhitungan nilai chi-square berdasarkan tabel kontingensi disederhanakan
sebagai berikut:
t c =
-
( )( )( ) (1)
Dari rumus di atas, t merupakan kata yang sedang diujikan terhadap suatu
kelas c. Jumlah dokumen latih dilambangkan dengan N. Banyaknya dokumen
pada kelas c yang memuat kata t dilambangkan dengan A, banyaknya dokumen
yang tidak berada di kelas c, Namun memuat kata t dilambangkan dengan huruf
B,banyaknya dokumen yang berada di kelas c namun tidak memiliki kata t
dilambangkan dengan huruf C, dan banyaknya dokumen yang bukan merupakan
dokumen kelas c dan tidak memuat kata t dilambangkan dengan huruf D.
Pengambilan keputusan berdasarkan nilai dari masing-masing kata.
Kata yang memiliki nilai di atas nilai kritis pada tingkat signifikasi α adalah
kata yang dipilih sebagai penciri dokumen sehingga kata yang dipilih sebagai
penciri dokumen merupakan kata yang memiliki pengaruh terhadap kelas c. Nilai
kritis dengan derajat bebas satu dan taraf nyata ditunjukkan oleh Tabel 2.
Tabel 2 Nilai kritis derajat bebas satu dan taraf nyata α Manning et al (2008).
Nilai Kritis
0.1 2.71
0.05 3.84
0.01 6.63
0.005 7.88
0.001 10.83
7
Probabilistic Neural Network
Klasifikasi adalah proses menemukan sekumpulan model atau fungsi yang
menggambarkan dan membedakan konsep atau kelas-kelas data, dengan tujuan
agar model tersebut dapat digunakan untuk memprediksi kelas dari suatu objek
atau data yang label kelasnya tidak diketahui Han dan Kamber (2001).
Pada klasifikasi data yang digunakan dibagi menjadi data latih dan data uji.
Data latih digunakan untuk membangun model dengan ekstrasi fitur menggunakan
algoritme chi-square, sementara data uji digunakan untuk memvalidasi model
yang telah dibangun dengan menggunakan algoritme probalistic neural network.
Akurasi model ditentukan oleh hasil pengujian terhadap data uji.
Gambar 77Bagan algoritme Probalistic Neural Network Han dan Kamber (2001)
PNN terdiri atas empat lapisan, yaitu lapisan masukan, lapisan pola,
lapisan penjumlahan, dan lapisan keluaran. Struktur PNN selengkapnya
ditunjukkan pada Gambar 7. Lapisan-lapisan yang menyusun PNN adalah sebagai
berikut:
1 Lapisan Input (Input Layer)
Lapisan masukan merupakan input x yang terdiri atas nilai yang akan
diklasifikasikan pada salah satu kelas dari n kelas.
2 Lapisan Pola (Pattern Layer)
Pada lapisan pola dilakukan perkalian titik (dot product) antara input x dan
vektor bobot x i, yaitu x x i, kemudian dibagi dengan bias (σ) tertentu
dan selanjutnya dimasukkan ke dalam fungsi Parzen, yaitu g( ) e p (- ).
3
8
Dengan demikian, persamaan yang digunakan pada lapisan pola adalah sebagai
berikut:
g(x) e p (-( x -x i )
( x - x i )
2σ2) (2)
dengan xAi menyatakan vektor bobot atau vektor latih kelas ke-A urutan ke-i.
3 Lapisan Penjumlahan (Summation Layer)
Pada lapisan penjumlahan, setiap pola pada masing-masing kelas dijumlahkan
sehingga menghasilkan population density function untuk setiap kelas.
Persamaan yang digunakan pada lapisan ini adalah:
p( )p(x| )
(2 )d2 σd
∑ e p (-( x - x i )
( x - x i )
2σ2)
i (3)
dengan :
p( ) = peluang kelas A
p(x| ) = peluang bersyarat x jika masuk ke dalam kelas A xAi = vektor latih kelas A urutan ke-i
d = dimensi vektor input
= jumlah pola pelatihan kelas A
= jumlah pola pelatihan seluruh kelas σ = bias atau faktor pemulus
4 Lapisan keluaran (output layer)
Pada lapisan keluaran, input x akan diklasifikasikan ke kelas A jika nilai ( ) paling besar dibandingkan kelas lainnya.
Confusion Matrix
Confusion Matrix merangkum jumlah data yang diprediksi benar atau salah
oleh mode klasifikasi. Confusion Matrix lebih sering disebut dengan tabel
kontingensi seperti yang ditunjukan pada Tabel 3. Tabel 3 adalah Confusion
Matrix untuk masalah dua kelas, yang diberi label kelas positif (+) dan kelas
negative (-). Oleh karena itu Confusion Matrix berukuran 2 x 2. Jumlah data yang
diklasifikasikan dengan benar adalah jumlah diagonal dalam matriks, sedangkan
yang lainnya adalah yang salah diklasifikasikan Srinivasulu et al. (2009).
Tabel 3 Confusion Matrix
Predicted Class
+ -
Actual
Class
+ TP FN
- FP TN
Keterangan untuk Tabel 3 dinyatakan sebagai berikut :
1 True positive (TP): jumlah data positif yang dengan benar diprediksi oleh
model klasifikasi.
9
2 False negative (FN): jumlah data positif yang salah diprediksi sebagai
negatif oleh model klasifikasi.
3 False positive (FP): jumlah data negatif yang salah diprediksi sebagai
positif oleh model klasifikasi.
4 True negative (TN): jumlah data negatif yang dengan benar diprediksi
oleh model klasifikasi
Akurasi adalah rasio antara jumlah data yang dapat diklasifikasikan dengan
benar dan total jumlah data. Secara teknis dapat didefinisikan seperti pada
Persamaan 6 Kumar dan Rathee (2011).
Perhitungan akurasi dinyatakan dalam Persamaan 4.
Akurasi =
(4)
METODE
Ilustrasi tahapan proses penelitian disajikan dalam diagram alur pada
Gambar 8.
Mulai
Pengumpulan data
dokumen tumbuhan
Dokumen tumbuhan
obat
Data latih
Data uji
PraprosesEktraksi fitur(chi-square)
Klasifikasi PNN
Klasifikasi
Evaluasi
Selesai
Gambar 88Diagram alur penelitian
Dokumen Tumbuhan Obat
Dokumen tumbuhan obat yang digunakan dalam penelitian ini adalah data
dokumen tumbuhan obat yang didapat dari literatur perpustakaan IPB yaitu
Tjitrosoepomo (1994) pada buku “ aksonomi Tumbuhan Obat-Obatan” dan Fauzi
(2008) pada buku “Panduan Lengkap Manfaat anaman Obat”. Data dokumen
10
tumbuhan obat sebelumnya dalam bentuk teks (hardcopy) dan diubah dalam
bentuk file teks softcopy dengan format XML. Dokumen tumbuhan obat ini terdiri
atas enam kelas yaitu Apiaceae, Crassulaceae, Euphorbiaceae, Lamiacea,
Myrtaceae dan Rutaceae. Jumlah data dokumen tumbuhan obat yang digunakan
pada penelitian ini dapat dilihat pada Tabel 4. Spesies-spesies yang digunakan
pada penelitian ini dapat dilihat pada Tabel 5.
Tabel 4 Jumlah dokumen tumbuhan
No. Nama famili Total dokumen
1 Apiaceae 19
2 Crassulaceae 14
3 Euphorbiaceae 17
4 Lamiacea 20
5 Myrtaceae 15
6 Rutaceae 16
Tabel 5 Kombinasi data dokumen per famili
Nama famili Nama species Jumlah dokumen
Apiaceae Centella asiatica 8 Coriandrum sativum 1 Foeniculum vulgane 4 Cuminum cyminum 2 Apium graveolens 3 Daucus carota 1
Crassulaceae Kalanchoe pinnata 14
Euphorbiaceae Eupharbia tirucalli 3 Excoecaria cochinchinensis 2 Jatropha curcas 4 Euphorbia resinifera 1 Mallotus philippinensis 1 Hevea brasiliensis 2 Manihot utilissima 1 Ricinus communis 1 Stilingsia sylvatica 1 Croton eluteri 1
Lamiaceae Plectranthus amboinicius 3 Ocimum basilicum 3 Coleus scutellarioides 8 Orthosiphon aristatus 6
Myrtaceae Psidium guajava 6 Pimenta officinalis 1 Eugenia aromatica 2 Eucalyptus camaldulensis 1 Syzygium polyanthum 1 Syzygium cumini 1 Melaleuca leucadendron 2
11
Eugenia cumini 1
Tabel 5 Lanjutan
Nama famili Nama species Jumlah dokumen
Rutaceae Murraya paniculata 3 Euodia suaveolens 1 Citrus aurantifolia 3 Citrus hystrix 2 Pilocarpus jaborandi 1 Borosma betulina 1 Citrus amblycarpa 1 Ruta angustifolia 1 Zanthoxylum americanum 1 Ruta graveolens 1 Zanthoxylum clava-herculis 1
*Sumber „ aksonomi umbuhan Obat-obatan‟ Oleh Tjitrosoepomo (1994).
*Sumber „Panduan Lengkap Manfaat anaman Obat‟ Oleh Fauzi (2008).
*Sumber : Dokumen latih Suganda (2012)
Contoh format dokumen <dok>
<id>1</id>
<etnis>Jawa</etnis>
<penyakit>Asma</penyakit>
<namalokal>Pegagan</namalokal>
<namailmiah>Centella asiatica</namailmiah>
<famili> Apiaceae </famili>
<kandungankimia> saponin, kardenolin </kandungankimia>
<manfaat> </manfaat>
<deskripsi>
tidak berbatang, dengan batang berongga sebelah
dalam dan matahari
</deskripsi>
</dok>
Praproses
Pada tahap praproses, terdapat 3 tahap yaitu lowercasing, tokenisasi dan
pembuangan stopwords. Lowercasing adalah proses mengubah huruf non-capital
agar menjadi case-insensitive pada saat dilakukan pemrosesan teks dokumen.
Tokenisasi adalah pemrosesan teks masukan yang dibagi menjadi unit-unit kecil
dapat berupa kata. Stopwords adalah daftar kata yang dianggap tidak memiliki
pengaruh yang dominan terhadap suatu penciri suatu dokumen, jika pada
dokumen terdapat kata yang terdapat pada daftar maka kata tersebut dibuang
sebagai penciri dari suatu dokumen. Stopwords yang digunakan berjumlah 662
kata yang didapatkan dari penelitian sebelumnya Suganda (2012).
Dokumen Asli
12
“Biasanya jeruk nipis ditanam di pekarangan atau di
kebun, dapat tumbuh pada tanah yang kurang subur,
asalkan mudah dapat air dan mendapat sinar matahari “.
Dokumen setelah lowercasing “biasanya jeruk nipis ditanam di pekarangan atau di
kebun, dapat tumbuh pada tanah yang kurang subur,
asalkan mudah dapat air dan mendapat sinar matahari “.
Dokumen setelah tokenisasi biasanya jeruk nipis ditanam di
pekarangan atau di kebun dapat
tumbuh pada tanah yang kurang
subur asalkan mudah dapat air
dan mendapat sinar matahari
Dokumen setelah dilakukan pembuangan stopwords jeruk nipis ditanam pekarangan kebun
tumbuh tanah kurang subur mudah
air sinar matahari
Ekstraksi Fitur Dokumen Menggunakan Chi-Square
Tiap dokumen latih akan diekstraksi menggunakan algoritme chi-square
dengan nilai alpha (α) 0.1. Penelitian ini menggunakan nilai alpha sebesar 0.1
dengan tujuan jumlah penciri yang dihasilkan lebih sedikit sehingga komputasi
lebih cepat dan hanya menghasilkan penciri yang lebih merepresentasikan dari
dokumen tersebut. Proses ini bertujuan untuk menghasilkan kata-kata yang akan
menjadi penciri dari dokumen tersebut. Setelah tiap dokumen memiliki kata-kata
tertentu selanjutya dikelompokan ke dalam kelas atau famili dari dokumen
tersebut.
Klasifikasi Probalistic Neural Network
Data dokumen tumbuhan dibagi menjadi 2 bagian yaitu data latih dan data
uji dengan 75% untuk data latih dan 25% data uji per famili. Data latih digunakan
sebagai lapisan pola pada algoritme Probalistic Neural Network (PNN) dengan
menggunakan algoritme chi-square, sedangkan data uji digunakan untuk
melakukan pengujian klasifikasi.
Klasifikasi dilakukan menggunakan vektor hasil ekstraksi ciri dokumen uji.
Arsitektur PNN terdiri atas lapisan masukan, pola, penjumlahan dan keputusan.
Lapisan masukan berupa vektor hasil ekstraksi ciri dari dokumen uji. Pada lapisan
pola, digunakan satu model PNN yaitu dengan nilai bias 1. Nilai bias tidak dapat
ditentukan secara langsung, tetapi didapatkan melalui hasil percobaan.
Selanjutnya menghitung jarak vektor pelatihan ke vektor pengujian sehingga
menghasilkan vektor yang mengindikasikan kedekatan input ke vektor pelatihan.
Setiap keluaran dari lapisan pola dijumlahkan dengan keluaran dari lapisan pola
lainnya yang berada dalam satu kelas, untuk menghasilkan probabilitas vektor
keluaran pada lapisan penjumlahan. Lapisan keputusan mengambil nilai
maksimum dari vektor keluaran, kemudian menghasilkan nilai dengan rentang 0
13
sampai 1 sebagai nilai probabilitasnya. Lapisan keputusan memiliki enam target
kelas yaitu Apiaceae, Crassulaceae, Euphorbiaceae, Lamiacea, Myrtaceae dan
Rutaceae.
Perhitungan Akurasi
Evaluasi dilakukan pada model klasifikasi. Evaluasi terhadap kinerja model
pengklasifikasi probalistic neural network dilakukan dengan menghitung
persentase ketepatan suatu dokumen masuk ke dalam kelas tertentu. Evaluasi
untuk model pengklasifikasi probalistic neural network dinyatakan dalam bentuk
confusion matrix.
Lingkungan Pengembangan
Sistem ini dikembangkan dan diimplementasikan dengan menggunakan
perangkat keras dan perangkat lunak sebagai berikut:
1 Perangkat Keras
Dell Studio tipe 1457 a Memory RAM 8GB DDR3
b Harddisk 500 GB
c Core i7 720QM
2 Perangkat Lunak
Sistem Operasi Windows 7 Ultimate 64 bit
Xampp-win32-1.7.2
Notepad ++
Web browser
Bahasa pemrograman PHP
Sphinx
HASIL DAN PEMBAHASAN
Pada penelitian ini terdapat enam famili dokumen teks tumbuhan. Setiap
famili memiliki jumlah dokumen yang berbeda-beda. Famili yang digunakan pada
penelitian adalah Apiaceae, Crassulaceae, Euphorbiaceae, Lamiacea, Myrtaceae
dan Rutaceae.
Praproses
Dokumen yang digunakan, sebelumnya dikonversi dari hardcopy menjadi
softcopy dalam bentuk file berekstensi XML (extensible markup language).
Semua kata yang terdapat dalam dokumen dilakukan proses lowercasing dengan
tujuan tidak ada perbedaan terhadap kata yang sama menggunakan huruf kapital,
huruf non-kapital atau kombinasi dari huruf kapital dengan huruf non-kapital.
Setelah proses lowercasing proses selanjutnya adalah proses tokenisasi. Hasil dari
proses tokenisasi adalah sejumlah kata in-casesensitive yang terdapat pada
14
dokumen tersebut. Kata yang terdapat dalam daftar stopwords akan dihilangkan
dari dokumen tersebut sehingga hanya kata-kata yang tidak dalam daftar
stopwords yang dapat dijadikan sebagai penciri dari dokumen tersebut. Sehingga
jumlah kata dokumen berkurang setelah dilakukan pra-proses.
Ekstraksi Fitur Chi-Square
Setelah melalui tahap pra-proses selanjutnya dokumen latih akan di
ekstraksi menggunakan metode chi-square sehingga menghasilkan penciri-penciri
dokumen latih setiap familinya. Setiap dokumen latih akan menghasilkan penciri
yang berbeda-beda tergantung dari isi dari dokumen tersebut. Pada penelitian ini
proses ekstraksi fitur chi-square menggunakan nilai alpha (α) sebesar 0.1. Jumlah
term yang dihasilkan tiap famili dapat dilihat pada Tabel 8.
Tabel 6 Komposisi jumlah dokumen tumbuhan
No. Nama famili Jumlah dokumen latih
1 Apiaceae 14
2 Crassulaceae 10
3 Euphorbiaceae 12
4 Lamiacea 15
5 Myrtaceae 10
6 Rutaceae 12
Pada Tabel 7 kelas Apiaceae memiliki jumlah term yang paling banyak
dikarenakan pada kelas tersebut memiliki jumlah dokumen cukup banyak dan
jumlah kata pada dokumen latih untuk kelas tersebut cukup banyak pula. Pada
tabel terlihat kelas Apiaceae memiliki jumlah kata terbanyak dibandingkan
dengan kelas lainnya.
Tabel 7 Daftar jumlah kata per famili
No. Nama famili Jumlah kata seluruh
dokumen latih
Jumlah term hasil
chi-square
1 Apiaceae 3545 38
2 Crassulaceae 1861 31
3 Euphorbiaceae 2778 64
4 Lamiacea 2446 21
5 Myrtaceae 2201 29
6 Rutaceae 1800 23
Pada Tabel 8 terlihat bahwa terjadi anomali pada kelas Apiaceae dan kelas
Euphorbiaceae jika dibandingkan dengan banyak kata yang terambil, kelas
Apiaceae memiliki jumlah kata yang lebih banyak dengan kelas Euphorbiaceae.
Sedangkan jika dibandingkan dengan jumlah kata hasil chi-square, kelas
Euphorbiaceae memiliki jumlah kata yang lebih banyak dengan kelas Apiaceae.
Hal tersebut terjadi karena kata pada tiap dokumen famili Euphorbiaceae lebih
sering muncul dibandingkan dengan kata pada tiap dokumen famili Apiaceae
yang jarang muncul. Sehingga jumlah kata pada famili Euphorbiaceae memiliki
15
tingkat kepentingan yang cukup besar dibandingkan dengan kata pada famili
Apiaceae.
Tabel 8 Perbandingan kelas Apiaceae dengan kelas Euphorbiaceae
Pembanding Apiaceae Euphorbiaceae
Jumlah kata seluruh dokumen latih 3545 2778
Jumlah term hasil chi-square 38 64
Tabel 9 Kombinasi dokumen latih kelas Apiaceae dengan Euphorbiaceae
Nama famili Nama species Jumlah dokumen
Apiaceae Centella asiatica 8
Foeniculum vulgane 2
Cuminum cyminum 2
Apium graveolens 1
Coriandrum sativum 1
Euphorbiaceae
Eupharbia tirucalli 3
Jatropha curcas 2
Excoecaria cochinchinensis 1
Euphorbia resinifera 1
Mallotus philippinensis 1
Hevea brasiliensis 1
Manihot utilissima 1
Ricinus communis 1
Stilingsia sylvatica 1
Kandungan kata yang terdapat pada tiap spesies famili Apiaceae sebagai berikut:
1 Spesies Centella asiatica
asiatica, baunya, bergantung, bonggol, cahaya, centella, disebut, india,
jambu, karangan, lalab, membujur, merayap, padang, penampang,
penutup, percabangan, perkebunan, pita, rimpang, roset, sawah, sejajar,
selokan, serabut, stolon, sungai, teduh, terdiri dan ujungnya.
2 Spesies Foeniculum vulgane
baunya, berlubang, india, letak, letaknya, membujur, percabangan,
terdiri.
3 Spesies Cuminum cyminum
India dan pita.
4 Spesies Apium graveolens
perkebunan
5 Spesies Coriandrum sativum
jambu dan terdiri.
Kandungan kata yang terdapat pada tiap spesies famili Euphorbiaceae sebagai
berikut:
1 Spesies Eupharbia tirucalli
baal, benda, beracun, berbahaya, bergetah, buta, cahaya, clavus,
ditangkap, euphol, euphorbiaceae, euphorbone, fraktur, frambusia,
16
herpes, hidung, jengkal, kaca, kapalan, karet, kautschuk, kerusakan,
kusta, laktucerol, lalat, letaknya, melemparkan, melintang, membesar,
membujur, mengusir, menimbulkan, meracun, nyamuk, pecah, pecahan,
pencahar, penebalan, pensil, percabangan, pot, ringan, rongga,
senyawaan, sifilis, sitosterol, susu, syaraf, tahi, tampak, tangkainya,
taraksasterol, tawar, terpatah, tertusuk, tirucalli dan zoster.
2 Spesies Excoecaria cochinchinensis
betina, daging, euphorbiaceae, hutan, memanjang, percabangan, radix
dan taman.
3 Spesies Jatropha curcas
beracun, bergetah, Betina, cacingan, Euphorbiaceae, kusta, lepra,
menjari, pencahar, ringan, sitosterol dan terdiri.
4 Spesies Euphorbia resinifera
euphorbiaceae dan malat
5 Spesies Mallotus philippinensis
betina, euphorbiaceae, india, memanjang, pecah dan pita.
6 Spesies Hevea brasiliensis
betina, euphorbiaceae, karet, letaknya, melemparkan, memanjang,
menjari, pecah, sekali, susu dan terdiri.
7 Spesies Manihot utilissima
betina, euphorbiaceae, letaknya, membujur, menjari, sekali dan susu
8 Spesies Ricinus communis
betina, euphorbiaceae, india, letaknya, menjari, pencahar, sekali, susu,
tadi dan terdiri.
9 Spesies Stilingsia sylvatica
betina, euphorbiaceae, letaknya, menjari, sekali dan susu.
Berikut penjelasan hasil chi-square pada penelitian ini berdasarkan famili :
a Apiaceae
Terdapat beberapa term yang dapat menjadi penciri dari famili Apiaceae
berdasarkan buku “taksonomi tumbuhan obat-obatan” oleh Tjitrosoepomo (1994).
yaitu :
- berongga
- membujur
- ujungnya
- jambu
- bergantungan
Berikut kutipan dari buku “taksonomi tumbuhan obat-obatan” oleh Tjitrosoepomo
(1994).
- “Terna berumur pendek atau panjang, dengan
batang berongga sebelah dalam”
- “bergerigi membujur pada permukaannya”
- “ujungnya yang melengkung ke dalam”
- “berwarna kuning atau keputih-putihan, jarang
merah jambu atau lembayung”
- “tiap ruang dengan 1 bakal biji yang
bergantungan”
17
b Crassulaceae
Term yang dihasilkan chi-square dari dokumen latih tidak dapat
mencirikan taksonomi dari famili tersebut dikarenakan dokumen latih yang
digunakan hanya 1 spesies dan isi dari dokumen tersebut belum mereprentasikan
ciri-ciri taksonomi khusus famili Crassulaceae.
c Euphorbiaceae
Terdapat beberapa term yang dapat menjadi penciri dari famili
Euphorbiaceae berdasarkan buku “taksonomi tumbuhan obat-obatan” oleh
Tjitrosoepomo (1994) yaitu :
- getah
- susu
- menjari
Berikut kutipan dari buku “taksonomi tumbuhan obat-obatan” oleh Tjitrosoepomo
(1994)
- “Pohon, perdu atau terna, kadang-kadang berupa
sukulenta, kebanyakan menghasilkan getah yang
berwarna putih seperti susu”
- “Daun tersebar, kadang-kadang berhadapan,
tunggal atau majemuk menjari”
d Lamiacea
Term yang dihasilkan chi-square dari dokumen latih tidak dapat
mencirikan taksonomi dari famili tersebut dikarenakan dokumen latih yang
digunakan belum mereprentasikan ciri-ciri taksonomi khusus famili Lamiacea.
e Myrtaceae
Terdapat beberapa term yang dapat menjadi penciri dari famili Myrtaceae
berdasarkan buku “taksonomi tumbuhan obat-obatan” oleh Tjitrosoepomo (1994)
yaitu :
- berkayu
Berikut kutipan dari buku “taksonomi tumbuhan obat-obatan” oleh Tjitrosoepomo
(1994)
- “Sebagian besar terdiri atas tumbuhan yang
berupa semak-semak atau pohon-pohonan yang
berbatang berkayu, jarang sekali berupa terna,
dengan daun tunggal tanpa daun penumpu yang
duduknya tersebar atau berhadapan”
f Rutaceae
Terdapat beberapa term yang dapat menjadi penciri dari famili Rutaceae
berdasarkan buku “taksonomi tumbuhan obat-obatan” oleh Tjitrosoepomo (1994)
yaitu :
- aromatis
Berikut kutipan dari buku “taksonomi tumbuhan obat-obatan” oleh Tjitrosoepomo
(1994)
18
- “Tumbuhan yang berkayu, jarang berupa terna yang
aromatis”
Klasifikasi Probalistic Neural Network
Hasil klasifikasi menggunakan metode probalistic neural network dengan
metode ekstraksi ciri chi-square disajikan dalam diagram batang pada Gambar 9.
Gambar 99Akurasi pengujian
Pada Tabel 11 dapat dilihat bahwa famili Crassulaceae memiliki nilai
terbesar diantara famili-famili yang lain yaitu dari empat dokumen uji, sistem
dapat mengklasifikasikan semua dokumen uji secara benar ke dalam famili
Crassulaceae. Hal tersebut dikarenakan pada famili Crassulaceae dokumen uji
maupun dokumen latih hanya menggunakan 1 spesies yaitu Kalanchoe pinnata.
Famili Rutaceae memiliki nilai terkecil dari empat dokumen uji, sistem hanya
dapat tiga dokumen uji secara benar terklasifikasikan kedalam famili Rutaceae.
Tabel 10 Hasil evalusi tiap famili
Nama Famili Nilai akurasi (%)
Apiaceae 80
Crassulaceae 100
Euphorbiaceae 80
Lamiaceae 80
Myrtaceae 80
Rutaceae 75
Hasil evaluasi klasifikasi menggunakan algoritme probalistic neural
network dengan bobot nilai 1 dan lapisan pola menggunakan ekstraksi ciri chi-
square menggunakan nilai nilai alpha (α) 0.1 secara keseluruhan menghasilkan
nilai 82.14 %. Hasil evaluasi dalam bentuk confusion matrix dalam dilihat pada
Tabel 12.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Akurasi
Famili
Nilai akurasi (%)
19
Tabel 11 Confusion Matrix pada klasifikasi
Famili Predicted
A C E L M R
Actual
A 4 1 0 0 0 0
C 0 4 0 0 0 0
E 0 1 4 0 0 0
L 1 0 0 4 0 0
M 0 0 0 0 4 1
R 0 1 0 0 0 3
Penjelasan hasil klasifikasi probalistic neural network tiap famili :
A Famili Apiaceae
Berdasarkan Tabel 12 terdapat empat dokumen uji famili Apiaceae
yang terklasifikasikan secara benar masuk ke dalam famili Apiaceae.
Namun, terdapat satu dokumen yang salah klasifikasi dan masuk ke dalam
famili Crassulaceae. Hal tersebut terjadi dikarenakan famili Apiaceae dan
Crassulaceae berada dalam satu divisi yaitu Magnoliophyta (lihat Tabel
13).
Tabel 12 Taksonomi famili Apiaceae dan Crassulaceae
Apiaceae Crassulaceae
Kerajaan Plantae Plantae
Divisi Magnoliophyta Magnoliophyta
Kelas Magnoliopsida Eudicots (Core eudicots)
Ordo Apiales Saxifragales
Tabel 13 Perbandingan term penciri famili Apiaceae dan Crassulaceae
Term hasil ekstrasi
dokumen
Term penciri dari famili
Apiaceae
Term penciri dari famili
Crassulaceae
Membujur Membujur Membujur
Meningkatkan Meningkatkan Meningkatkan
Urat Urat Urat
Isi dari dokumen uji :
- “Batangnya biasanya sangat pendek, bersegi dan
beralur membujur”
- “akar berkhasiat meningkatkan enzim pada organ
pencernaan”
- “menurunkan kadar asam urat dalam darah”
20
Gambar 1010Bentuk morfologi daun famili Apiacea dan Crasslucase
Gambar 10 menunjukkan salah satu ciri-ciri taksonomi famili
Apiacea dan famili Crasslucase yang memiliki kesamaan pada bagian
bentuk daun yang bergelombang pada sisinya. Jika dibandingkan dengan
Tabel 14 kata penciri yang dihasilkan belum menggambarkan ciri-ciri
taksonomi pada famili Apiacea dan famili Crasslucase. Pada Tabel 14
hanya kata penciri „membujur‟ yang dapat dijadikan sebagai ciri-ciri
taksonomi untuk famili Apiacea dan famili Crasslucase. Kata ‘urat’ dan
‘meningkatkan’ tidak dapat dijadikan ciri-ciri taksonomi dari tumbuhan
walaupun kata tersebut dapat dijadikan penciri dari famili pada penelitian
kali ini.
B Famili Crassulaceae
Berdasarkan Tabel 12 semua dokumen uji famili Crassulaceae
dapat diklasifikasikan secara benar. Hal tersebut dikarenakan kombinasi
dokumen uji maupun dokumen latih yang digunakan pada famili
Crassulaceae hanya menggunakan satu jenis spesies yaitu sosor bebek
atau Kalanchoe Pinnatae.
C Famili Euphorbiaceae
Berdasarkan Tabel 12 terdapat empat dokumen uji famili
Euphorbiaceae yang terklasifikasikan secara benar masuk ke dalam famili
Euphorbiaceae. Namun, terdapat satu dokumen yang salah klasifikasi dan
masuk ke dalam famili Crassulaceae. Hal tersebut terjadi dikarenakan
famili Euphorbiaceae dan Crassulaceae berada dalam satu kelas yaitu
Eudicots (lihat Tabel 15).
Tabel 14 Taksonomi Euphorbiaceae dan Crassulaceae
Euphorbiaceae Crassulaceae
Kerajaan Plantae Plantae
Divisi Angiosperms Magnoliophyta
Kelas Eudicots (Rosids) Eudicots (Core eudicots)
Ordo Malpighiales Saxifragales
21
Dokumen yang mengalami salah klasifikasi dikarenakan isi dari
dokumen tersebut memiliki term yang terdapat pada penciri dari famili
Euphorbiaceae dan Crassulaceae.
Tabel 15 Perbandingan term dokumen, famili Euphorbiaceae dan Crassulaceae
Term hasil ekstrasi
dokumen
Term penciri dari famili
Euphorbiaceae
Term penciri dari famili
Crassulaceae
Percabangan Percabangan Percabangan
Isi dari dokumen uji :
- “Pada ujung batang atau dalam percabangan”
Gambar 1111Posisi cabang famili Euphorbiaceae dan famili Crassulaceae.
Gambar 11 menunjukkan kesamaan ciri taksonomi yang dimiliki
oleh famili Euphorbiaceae dan famili Crassulaceae. Ciri taksonomi
terdapat pada bagian cabang tumbuhan. . Jika dibandingkan dengan Tabel
16 kata penciri yang dihasilkan dapat menggambarkan ciri-ciri taksonomi
pada famili Euphorbiaceae dan famili Crassulaceae yaitu terletak pada
bagian cabang atau percabangannya.
D Famili Lamiaceae
Berdasarkan Tabel 12 terdapat empat dokumen uji famili
Lamiaceae yang terklasifikasikan secara benar masuk ke dalam famili
Lamiaceae. Namun, terdapat satu dokumen yang salah klasifikasi dan
masuk ke dalam famili Apiaceae. Hal tersebut terjadi dikarenakan famili
Lamiaceae dan Apiaceae berada dalam satu kelas yaitu Magnoliopsida
(lihat Tabel 17).
Tabel 16 Taksonomi Lamiaceae dan Apiaceae
Lamiaceae Apiaceae
Kerajaan Plantae Plantae
Divisi Magnoliophyta Magnoliophyta
Kelas Magnoliopsida Magnoliopsida
Ordo Lamiales Apiales
22
Dokumen yang mengalami salah klasifikasi dikarenakan isi dari
dokumen tersebut memiliki term yang terdapat pada penciri dari famili
Lamiaceae dan famili Apiaceae.
Tabel 17 Perbandingan term dengan famili Apiaceae dan Lamiaceae
Term hasil ekstrasi
dokumen
Term penciri dari famili
Lamiaceae
Term penciri dari famili
Apiaceae
Ujungnya Ujungnya Ujungnya
Isi dari dokumen uji :
- “Bunga berupa tandan yang keluar di
ujungnya”
Gambar 1212Bunga famili Euphorbiaceae dan famili Crassulaceae
Gambar 12 menunjukkan kesamaan ciri taksonomi yang dimiliki
oleh famili Euphorbiaceae dan famili Crassulaceae. Ciri taksonomi
terdapat pada letak bagian bunga yang keluar pada ujung batang. Jika
dibandingkan dengan Tabel 18 kata penciri yang dihasilkan dapat
menggambarkan ciri-ciri taksonomi pada famili Euphorbiaceae dan famili
Crassulaceae yaitu bagian letak bunga yang terletak pada bagian ujung
batang.
E Famili Myrtaceae
Berdasarkan Tabel 12 terdapat empat dokumen uji famili
Myrtaceae yang terklasifikasikan secara benar masuk ke dalam famili
Myrtaceae. Namun, terdapat satu dokumen yang salah klasifikasi dan
masuk ke dalam famili Rutaceae. Hal tersebut terjadi dikarenakan famili
Myrtaceae dan Rutaceae berada dalam satu kingdom yaitu Plantae (lihat
Tabel 18).
Tabel 18 Taksonomi Myrtaceae dan Rutaceae
Myrtaceae Rutaceae
Kerajaan Plantae Plantae
Divisi Magnoliophyta Angiosperms
Kelas Magnoliopsida -
Ordo Lamiales Sapindales
23
Dokumen yang mengalami salah klasifikasi dikarenakan isi dari
dokumen tersebut memiliki term yang terdapat pada penciri dari famili
Myrtaceae dan famili Rutaceae.
Tabel 19 Perbandingan term dokumen dengan famili Myrtaceae dan Rutaceae
Term hasil ekstrasi
dokumen uji
Term penciri dari famili
myrtaceae
Term penciri dari famili
rutaceae
Kekuning Kekuning Kekuning
Kuningan Kuningan Kuningan
Memanjang Memanjang Memanjang
Isi dari dokumen uji :
- “Bunga tersusun dalam bulir yang keluar
dari ketiak-ketiak daun warna kuning gading”
- “berwarna kekuning-kuningan dapat menjadi
berwarna hijau”
- “Daun tunggal, bertangkai pendek, bangun
jorong atau memanjang”
Gambar 1313Buah famili Myrtaceae dan famili Rutaceae
Gambar 13 menunjukkan kesamaan ciri taksonomi yang dimiliki
oleh famili Myrtaceae dan famili Rutaceae. Ciri taksonomi terdapat pada
warna dari buahnya. Jika dibandingkan dengan Tabel 19 kata penciri yang
dihasilkan dapat menggambarkan ciri-ciri taksonomi pada famili
Myrtaceae dan Rutaceae yaitu kata „kuning‟ yang terdapat pada warna
buah dan bentuk daun yang „memanjang‟ pada famili Myrtaceae dan
Rutaceae.
F Famili Rutaceae
Berdasarkan Tabel 12 terdapat tiga dokumen uji famili Rutaceae
yang terklasifikasikan secara benar masuk ke dalam famili Rutaceae.
Namun, terdapat satu dokumen yang salah klasifikasi dan masuk ke dalam
famili Crassulaceae. Hal tersebut terjadi dikarenakan famili Rutaceae dan
Crassulaceae berada dalam satu kingdom yaitu Plantae (lihat Tabel 20).
24
Tabel 20 Taksonomi Rutaceae dan Crassulaceae
Rutaceae Crassulaceae
Kerajaan Plantae Plantae
Divisi Angiosperms Magnoliophyta
Kelas - Eudicots (Core)
Ordo Sapindales Saxifragales
Dokumen yang mengalami salah klasifikasi dikarenakan isi dari
dokumen tersebut memiliki term yang terdapat pada penciri dari famili
Rutaceae dan famili Crassulaceae.
Tabel 21 Perbandingan term dokumen dengan famili Rutaceae dan Crassulaceae
Term hasil ekstrasi
dokumen
Term penciri dari famili
Rutaceae
Term penciri dari famili
Crassulaceae
Memanjang Memanjang Memanjang
Muncul Muncul Muncul
Isi dari dokumen :
- “daun bangun bulat telur atau memanjang”
- “Bunga dalam malai dan muncul sesudah daun-
daunnya”
Gambar 1414Bentuk daun famili Rutaceae dan Crassulaceae.
Gambar 14 menunjukkan kesamaan ciri taksonomi yang dimiliki
oleh famili Rutaceae dan Crassulaceae. Ciri taksonomi terdapat pada
bentuk daun yang bulat dan memanjang. Jika dibandingkan dengan Tabel
21 kata penciri yang dihasilkan dapat menggambarkan ciri-ciri taksonomi
pada famili Myrtaceae dan Rutaceae yaitu kata „memanjang‟ yang
terdapat pada bentuk daun. Kata „muncul‟ pada Tabel 21 tidak dapat
dijadikan ciri-ciri taksonomi namun pada penelitian ini kata tersebut dapat
dijadikan penciri dari famili Myrtaceae dan Rutacea.
Hasil evaluasi klasifikasi menggunakan algoritme probalistic
neural network dengan bobot nilai 1 dan lapisan pola menggunakan
ekstraksi ciri chi-square menggunakan nilai nilai alpha (α) 0.1 secara
keseluruhan menghasilkan nilai 82.14 %.
25
SIMPULAN DAN SARAN
Simpulan
Penelitian klasifikasi dokumen tumbuhan obat berbasis famili
menggunakan metode chi-square dan probalistic neural network. Metode chi-
square dengan nilai alpha 0.1, digunakan untuk menghasilkan ciri-ciri taksonomi
tumbuhan dari dokumen tumbuhan obat. Metode PNN dengan nilai bias 1
digunakan untuk klasifikasi dokumen tumbuhan obat. Penelitian ini menghasilkan
akurasi sebesar 82.14 % yaitu dari lima dokumen per famili yang diujikan sistem
dapat mengklasifikasikan empat dokumen yang sesuai dengan familinya secara
benar.
Hasil klasifikasi dipengaruhi oleh jumlah kata penciri suatu famili. Jumlah
kata penciri dari suatu famili dipengaruhi oleh jumlah kata yang sama pada tiap
dokumen latih. Semakin banyak kata yang sama pada tiap dokumen latih semakin
besar probabilitas kata terebut menjadi kata penciri. Pada penelitian ini penciri
dari suatu famili belum menggambarkan ciri-ciri taksonomi tumbuhan. Hal ini
disebabkan banyaknya kata yang sama pada tiap dokumen latih belum
menggambarkan ciri-ciri taksonomi tumbuhan.
Penelitian ini sudah dapat mengklasifikasikan dokumen tumbuhan obat.
Hasil ekstraksi penciri menggunakan metode chi-square pada penelitian ini belum
dapat menghasilkan ciri-ciri taksonomi famili. Hal tersebut dikarenakan dokumen
latih terdapat banyak kata yang sama pada tiap dokumen yang bukan ciri-ciri
taksonomi tumbuhan.
Saran
Penelitian ini dapat dikembangkan lebih lanjut untuk mendapatkan hasil
pengukuran akurasi yang lebih baik. Hal-hal yang dapat dilakukan misalnya:
1 Menambahkan jumlah dokumen latih.
2 Menambahkan dokumen dengan jenis famili lain.
DAFTAR PUSTAKA
Barnaghi PM, Sahzabi VA, Bakar AA, 2012. A Comparative Study for Various
Methods of Classification. Singapura(SG): IACSIT Pr.
Damayanti EK, Zuhud EAM, Hikmat A. 2011. Indonesian Tropical Medicinal
Plants Diversity: Problems and Challenges in Identification. Department of
Forest Resources Conservation and Ecotourism, Bogor(ID): Fakultas
Kehutanan, Institut Pertanian Bogor.
Goldberg A. 2003. Character Variation in Angiosperm Families. Smithsonian
Institution. Vol 47:1-185, 2003.
26
Groombridge B, Jenkins M, 2002. World atlas of biodiversity. Earth’s living
resources in the 21st century. California(US):Berkeley University of California
Press.
Han J, Kamber M. 2006. Data Mining : Concepts and Techniques.
Massachusetts(US) : Morgan Kaufman Publishers.
Herawan Y. 2011. Ekstraksi Ciri Dokumen Tumbuhan Obat Menggunakan Chi-
Kuadrat dengan Klasifikasi Naive Bayes [skripsi]. Bogor. Fakultas Matematika
dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Kumar V, Rathee N. 2011. Knowledge discovery from database using an
integration of clustering and classification. Gurgaon (India) : ITM University.
Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information
Retrieval. Cambridge (GB): Cambridge University Press.
Srinivasulu P, Nagaraju D, Kumar PR, Rao KN. 2009. Classifying the network
intrusion attacks using data mining classification methods and their
performance comparison. IJCSNS International Journal of Computer Science
and Network Security, Vol.9:11-18 No.6, Juni 2009.
Suganda R. 2013. Sistem Identifikasi Famili Secara Otomatis Berbasis Teks
Menggunakan Dokumen Etnofitomedika [skripsi]. Bogor. Fakultas
Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Tjitrosoepomo Gembong. 1994. Taksonomi Tumbuhan Obat-Obatan. Yogyakarta:
Gadjah Mada University Press.
Zuhud E A M. 2009. Potensi Hutan Tropika Indonesia sebagai Penyangga Bahan
Obat Alam untuk Kesehatan Bangsa. Jurnal Bahan Alam Indonesia. Vol VI:1-
8 No.6, Januari 2009.
Lampiran 1 Daftar term kelas Apiaceae
Term Nilai chi-square
centella 23.81
asiatica 23.81
disebut 17.52
ujungnya 16.70
perkebunan 16.59
membujur 14.18
roset 13.83
rimpang 13.83
bonggol 10.84
stolon 10.84
berlubang 10.84
karangan 10.84
penutup 10.84
padang 10.84
teduh 10.84
bergantung 10.84
kronis 9.75
lalab 7.58
tenggorokan 7.58
pita 7.58
antanan 7.58
campak 7.58
27
Lampiran 1 Lanjutan
Term Nilai chi-square
india 5.28
baunya 4.73
susah 3.99
serabut 3.99
sejajar 3.99
urat 3.99
meningkatkan 3.99
asiaticoside 3.99
thankuniside 3.99
mual 3.91
penampang 3.91
merayap 3.77
jambu 3.72
terdiri 2.98
Lampiran 2 Daftar term kelas Crassulaceae
Term Nilai chi-square
kalanchoe 35.82
pinnata 35.82
lam 33.52
lemon 31.07
diarabinoside 31.07
kaempferol 31.07
abuan 25.57
jurang 25.57
keabu 25.57
berbatu 25.57
toreh 25.57
bebek 25.57
sosor 25.57
pers 23.68
madagaskar 20.70
kuncup 20.70
apel 19.78
briofilin 15.14
kaemferol 15.14
kurz 10.79
bryophyllum 10.79
oken 10.79
germinans 10.79
cotyledon 10.79
pinnatum 10.79
crassulaceae 10.79
memanjang 5.81
urat 5.81
percabangan 5.81
meningkatkan 5.31
membujur 2.77
28
Lampiran 3 Daftar term kelas Lamiaceae
Term Nilai chi-square
mineral 17.93
hati 17.93
pucuk 17.93
sungai 16.34
mulas 12.88
ambeien 11.56
muncul 11.13
sawah 9.18
myoinositol 7.01
kumis 7.01
sapofonin 7.01
kucing 7.01
aristatus 7.01
orthosiphon 7.01
makanan 6.28
merayap 5.89
belukar 4.10
sendiri 3.67
cacingan 3.53
mellitus 3.53
Lampiran 4 Daftar term kelas Euphorbiaceae
Term Nilai chi-square
euphorbiaceae 33.57
betina 22.00
bergetah 19.17
beracun 19.17
susu 17.58
menjari 17.58
sekali 16.09
karet 16.09
letaknya 14.31
kautschuk 12.70
euphol 12.70
melemparkan 12.70
laktucerol 12.70
taraksasterol 12.70
tawar 12.70
euphorbone 12.70
kusta 12.70
eupharbia 12.70
pecah 12.70
tirucalli 12.70
senyawaan 4.48
menimbulkan 4.48
pencahar 4.48
kerusakan 4.48
29
Lampiran 4 Lanjutan
Term Nilai chi-square
radix 4.48
melintang 4.48
terpatah 4.48
jengkal 4.48
pot 4.48
pensil 4.48
buta 4.48
mengusir 4.48
ditangkap 4.48
rongga 4.44
hidung 4.44
syaraf 4.44
lalat 3.50 tahi 8.95
sifilis 8.95
baal 8.95
tampak 4.84
nyamuk 4.84
berbahaya 4.76
meracun 4.76
herpes 4.76
zooster 4.76
clavus 4.76
fraktur 4.76
frambusia 4.76
penebalan 4.76
lepra 4.76
kaca 4.76
kapalan 4.76
benda 4.76
tertusuk 4.76
membesar 4.76
tangkainya 4.76
tadi 4.76
sitosterol 4.76
pecahan 4.76
taman 4.76
ringan 4.76
percabangan 3.14
cahaya 2.87
Lampiran 5 Daftar term kelas Myrtaceae
Term Nilai chi-square
myrtaceae 28.43
guajava 22.44
psidium 22.44
bercorak 18.99
30
Lampiran 5 Lanjutan
Term Nilai chi-square
daging 17.48
terlihat 15.14
srilangka 15.14
kayunya 15.14
ukuran 15.14
maag 13.97
netral 10.79
jambu 9.85
letak 6.08
hidrat 5.81
ursolat 5.81
psidiolat 5.81
kratogolat 5.81
oleanolat 5.81
guajaverin 5.81
arang 5.81
memanjang 5.31
kuningan 3.99
kekuning 3.80
Lampiran 6 Daftar term kelas Rutaceae
Term Nilai chi-square
sitrat 19.17
citrus 16.09
sungsang 14.69
aurantifolia 12.70
nipis 12.70
swingle 12.70
influenza 8.95
jack 8.95
berdaun 8.29
kuningan 5.72
paniculata 5.72
diremas 5.72
ulet 4.76
luarnya 4.76
kusam 4.76
linalin 4.76
asetat 4.76
fellandren 4.76
geranil 4.76
aromatis 4.76
memanjang 3.37
hutan 2.93
kekuning 2.87
36
Lampiran 77 Daftar perbedaan morfologi per famili
Habit Leaves Inflorescences
trees shrubs herbs alternate opposite simple compound entire not
entire
raceme spike panicle head solitary
flower
cyme
Apiaceae 2 2 1 1 2 2 1 2 1 1 0 1 2 0 1
Crassulaceae 0 1 1 1 2 1 2 1 1 0 0 0 0 0 1
Lamiaceae 2 2 1 2 1 1 0 1 1 2 2 0 2 2 1
Myrtaceae 1 1 0 1 1 1 0 1 2 1 0 1 0 2 0
Rutaceae 1 1 2 1 1 1 1 1 1 1 1 0 1 0 1
Euphorbiaceae 1 1 1 1 2 1 1 1 1 1 1 0 0 1 1
Sumber : Buku “Character Variaton in Angiosperm Families” Goldberg (2003)
Keterangan :
- Angka 1 menunjukkan bahwa famili tersebut memiliki ciri-ciri morfologi kriteria pada kolom di atas.
- Angka 2 menunjukkan bahwa famili tersebut jarang memiliki ciri-ciri morfologi kriteria pada kolom di atas.
- Angka 0 menunjukkan bahwa famili tersebut tidak memiliki ciri-ciri morfologi kriteria pada kolom di atas.