Click here to load reader

Tugas Sistem Pakar ID3

  • View
    136

  • Download
    4

Embed Size (px)

Text of Tugas Sistem Pakar ID3

TUGAS SISTEM PAKARALGORITMA ID3

Disusun Oleh :Nama : Adityaranda Satriawan NIM : 0910960001

PROGAM STUDI ILMU KOMPUTER JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS BRAWIJAYA MALANG 2012

1. Definisi ID3Iterative Dichotomicer 3 (ID3) adalah algoritma decision tree learning (algoritma pembelajaran pohon keputusan) yang paling dasar. Algoritma ini melakukan pencarian secara menyeluruh (greedy) pada semua kemungkinan pohon keputusan. Salah satu

algoritma induksi pohon keputusan yaitu ID3 (Iterative Dichotomiser 3). ID3 dikembangkan oleh J. Ross Quinlan. Kareakteristik ID3 dalam membangun pohon keputusan adalah secara top-down dan divide-and-conquer. Top-down artinya pohon keputusan dibangun dari simpul akar ke daun, sementara divide-and-conquer artinya training data secara rekursif dipartisi ke dalam bagian-bagian yang lebih kecil saat pembangunan pohon. Algoritma ID3 dapat diimplementasikan menggunakan fungsi rekursif. Algoritma ID3 berusaha membangun decision tree secara top-down, dengan mengevaluasi semua atribut yang ada dengan menggunakan suatu ukuran statistik (information gain) untuk mengukur efektivitas suatu atribut dalam mengklasifikasikan kumpulan sampel data. Decision Tree adalah sebuah struktur pohon, dimana setiap node pohon

merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun (leaf) merepresentasikan kelompok kelas tertentu. Level node teratas dari sebuah Decision Tree adalah node akar (root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Pada umumnya Decision Tree melakukan strategi pencarian secara top-down untuk solusinya. Entropy Sebuah obyek yang diklasifikasikan dalam pohon harus dites nilai entropinya. Entropy adalah ukuran dari teori informasi yang dapat mengetahui karakteristik dari impuryt ,dan homogenity dari kumpulan data. Dari nilai entropy tersebut kemudian dihitung nilai information gain (IG) dari masing-masing atribut. Rumus Entropy (S) : Dimana : S = Ruang (data) sample yang digunakan untuk training. P+ = Jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu. P- = Jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu.

Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada suatu ruang sampel S. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin kecil nilai entropy maka semakin baik digunakan dalam mengekstraksi suatu kelas. Panjang kode untuk menyatakan informasi secara optimal adalah log2p bits untuk pesan yang mempunyai probabilitas p. Sehingga jumlah bit yang diperkirakan untuk mengekstraksi S ke dalam kelas adalah Information Gain Information Gain merupakan ukuran efektifitas suatu atribut dalam mengklasifikasikan data. Secara matematis, Information Gain dari suatu atribut A, dituliskan sebagai berikut : Rumus Information Gain (S,A) : Dimana : A = Atribut. V = Menyatakan suatu nilai yang mungkin untuk atribut A. Values (A) : Himpunan yang mungkin untk atribut A. |Sv| = Jumlah sampel untuk nilai V. |S| = Jumlah seluruh sampel data. Entropy (Sv) = Entropy untuk sampel-sampel yang memilki nilai V.

Metode a. Mencari sampel data yang akan digunakan untuk melaksanakan proses transformasi menjadi pengetahuan. b. Menghitng nilai entropy dan informatin gain untuk menentukan the best classifier (nilai terbesar). c. Melakukan konstruksi pohon keputusan, membentuk simpul yang berisi atribut tersebut. d. Lakukan operasi conjunction ( ^ ) pada setiap simpul yang dikunjungi sampai ditemukan leaf node.

2. Studi Kasus ID3Studi kelayakan dalam memilih lapangan sepakbola untuk event piala dunia di Brazil pada tahun 2014

Deskripsi masalah Terdapat 11 lapangan sepak bola yang akan digunakan sebagai lapanagan untuk pertandingan Piala Dunia 2014. Dalam hal ini, 11 lapangan tersebut akan diseleksi kelayakannya dengan memperhatikan tiga parameter / atribut penilaian. Tiga parameter / atribut tersebut adalah : 1. Ukuran Tribun dikelompokan dalam tiga kategori (besar, sedang, kecil) 2. Pencahayaan dikelompokan dalam tiga kategori (bagus, cukup, kurang) 3. Kondisi Rumput dikelompokan dalam 2 kaetgori (bagus dan jelek)

Tabel Informasi

Lapangan Lap1 Lap 2 Lap 3 Lap 4 Lap 5 Lap 6 Lap 7 Lap 8 Lap 9

Ukuran Tribun Besar Besar Besar Besar Sedang Sedang Sedang Sedang Kecil

Pencahayaan Bagus Kurang Cukup Cukup Kurang Cukup Cukup Bagus Cukup

Kondisi Rumput Baik Buruk Buruk Baik Buruk Baik Buruk Baik Buruk

Memenuhi Iya Tidak Iya Iya Tidak Iya Iya Iya Tidak

Lap 10 Lap 11

Kecil Kecil

Bagus Kurang

Baik Baik

Iya Iya

Pada data kelayakan lapangan, jumlah kelas adalah 2, yaitu IYA dan TIDAK, maka dapat dilihat bahwa nilai c = 2. Jumlah sampel kelas 1 (IYA) adalah 8 dan jumlah sampel untuk kelas 2 (TIDAK) adalah 3. p1 = 8 dan p2= 3. Dengan demikian Entropy untuk kumpulan sampel data S adalah : Entropy (S) = - ( 8/11) log2 ( 8/11) (3/11) log2 (3/11) = 0,8454 Dari tabel diatas, kita misalkan atribut Memenuhi bernilai IYA merupakan sampel (+), dan atribut Memenuhi bernilai TIDAK merupakan sampel (-), maka akan didiapat : - Nilai (Ukuran Tribun) = Besar, Sedang, Kecil. S = [ 8+ , 3- ] , | S | = 11 SBesar = [ 3+ , 1- ] , | S | = 4 SSedang = [ 3+ , 1- ] , | S | = 4 SKecil = [ 2+ , 1- ] , | S | = 3 Hitung masing masing nilai Entropy SBesar , SSedang , SKecil dan Information Gain untuk nilai Ukuran Tribun adalah :

Entropy (S) = 0,8454 Entrophy (SBesar) = (-3/4) log2 (3/4) (1/4) log2 (1/4) = 0,8113 Entrophy (SSedang) = (-3/4) log2 (3/4) (1/4) log2 (1/4) = 0,8113 Entrophy (SKecil) = (-2/4) log2 (2/3) (1/3) log2 (1/3) = 0,9183 Information Gain (S, Ukuran Tribun = E = 0,8454 (4/11) 0,8113 (3/11) 0,9183 = 0,8454 0,2950 0,2950 0,25044 = 0,0049

- Nilai (Pencahayaan) = Bagus, Cukup, Kurang. S = [ 8+ , 3- ] , | S | = 11 SBagus SCukup SKurang = [ 3+ , 0- ] , | S | = 3 = [ 4+ , 1- ] , | S | = 5 = [ 1+ , 2- ] , | S | = 3

Entropy (S) = 0,8454 Entrophy (SBagus) = (-3/3) log2 (3/3) (0/3) log2 (0/3) = 0 Entrophy (SCukup) = (-4/5) log2 (4/5) (1/5) log2 (1/5) = 0,7219 Entrophy (SKurang) = (-1/3) log2 (1/3) (2/3) log2 (2/3) = 0,9183 Entrophy (SBagus) menunjukan entropy minimum karena jumlah sampel pada salah satu kelas adalah = 0, memiliki keberagaman data minimum. Information Gain (S, Pencahayaan) = = 0,8454 0 (5/11) 0,7219 - (3/11) 0,9183 = 0,8454 0,32814 0,25044 = 0,26682 - Nilai (Kondisi Rumput) = Baik, Buruk S = [ 8+ , 3- ] , | S | = 11 SBaik = [ 6+ , 0- ] , | S | = 6 SBuruk = [ 2+ , 3- ] , | S | = 5

Entropy (S) = 0,8454 Entrophy (SBaik) = (-6/6) log2 (6/6) (0/6) log2 (0/6) = 0 (Keberagaman data minimum) Entrophy (SBuruk) = (-2/5) log2 (2/5) (3/5) log2 (3/5) = 0,9709 Information Gain (S, Kondisi Rumput) = = 0,8454 0 (5/11) 0,9709 = 0,8454 0,44134 = 0,40406 Dari semua perhitungan diatas, maka didapatkan nilai Information Gain dari ketiga atribut (Ukuran Tribun, Pencahayaan, Kondisi Rumput) sebagi berikut : IG (S,Ukuran Tribun) = 0,0049 IG (S,Pencahayaan = 0,26682

IG (S,Kondisi Rumput) = 0,40406 Dari ketiga nilai Information Gain di atas, IG(S, Kondisi Rumput) adalaha nilai Gain yang terbesar sehingga atribut Kondisi Rumput merupakan the best classifier yang akan menjadi root nantinya. Setelah kita dapatkan node root, selanjutnya kita akan menyusun pohon keptusan berdasrkan nilai yang telah kita cari diatas. Iterasi 1 level 0 Setelah kita dapatkan the best classifier, langkah selanjutnya kita akan mengecek apakah perlu subtree dilevel berikutnya atau tidak. Atribut Kondisi Rumput memiliki 2 sampel (Baik dan Buruk). Untuk nilai baik terdapat 6 sampel. Sehingga perlu memanggil fungsi ID3 dengan kumpulan sampel berupa sampel baik = [6+,0-], atribut target = Iya dan kumpulan atribut = {Ukuran Tribun, Pencahayaan}. Dalam hal ini, semua sampel baik termasuk dalam kelas Iya. Maka node in akan berhenti dan mengembalikan satu simpul tunggal ke root dengan nilai Iya.Kondisi Rumput

Baik Iya

Iterasi 1 level 1

Pada iterasi ini, akan dievaluasi untuk atibut Kondisi Rumput dengan nilai Buruk. Nilai Buruk terdapat 5 sampel. Sehingga perlu memanggil fungsi ID3 dengan kumpulan SampelBuruk = [2+, 3-] dimana atribut target = Iya dan kumpulan atribut = {Ukuran Tribun, Pencahayaan}. Pada tahap ini akan dilakukan perhitungan IG untuk atribut Ukuran Tribun dan Pencahayaan, dengan ukuran sampel yang digunakan adalah SampelBuruk. Maka, S = SampelBuruk = [2+, 3-], S = |5| Nilai (Ukuran Tribun) = Besar, Sedang, Kecil. SBesar = [ 1+ , 1- ] , | S | = 2 SSedang = [ 1+ , 1- ] , | S | = 2 SKecil = [ 0+ , 1- ] , | S | = 1 Entropy (S) = (-2/5) log2 (2/5) (3/5) log2 (3/5) = 0,9710 Entrophy (SBesar) = (-1/2) log2 (1/2) (1/2) log2 (1/2) = 1 Entrophy (SSedang) = (-1/2) log2 (1/2) (1/2) log2 (1/2) = 1 Entrophy (SKecil) = (-0/1) log2 (0/1) (1/1) log2 (1/1) = 0

Information Gain (S, Ukuran Tribun = E = 0,9710 (2/5) 1 (2/5) 1 (1/5) 0 = 0,1710 Nilai (Pencahayaan) = Bagus, Cukup, Kurang. SBagus = [ 0+ , 0- ] , | S | = 0 SCukup = [ 2+ , 1- ] , | S | = 3 SKurang = [ 0+ , 2- ] , | S | = 2 Entropy (S) = (-2/5) log2 (2/5) (3/5) log2 (3/5) = 0,9710 Entrophy (SBagus) = 0 Entrophy (SCukup) = (-2/3) log2 (2/3) (1/3) log2 (1/3) = 0,9183 Entrophy (SKurang) = (-0/2) log2 (0/2) (2/2) log2 (2/2) = 0

Information Gain (S, Ukuran Tribun = E = 0,9710 0 (3/5) 0,9183 0 = 0,4200 Dari perhitungan diatas, maka didapatkan nilai IG yang terbesar adalah IG (S,Pencahayaan). Sehingga Pencahayaan menjadi the best classifier yang diletakan pada node dibawah node Kondisi Rumput pada cabang nilai buruk.Kondisi Rumput

Baik Iya

BurukPencahayaan

Iterasi 2 level 0 Selanjutnya, setiap nilai pada atribut Pencahayaan

Search related