Upload
amna
View
5
Download
0
Embed Size (px)
DESCRIPTION
Presentasi untuk mata kuliah Data Mining ini membahas algoritma hierarchical clustering yang diterjemahkan dari buku Han Jiewei "Data Mining".
Citation preview
HIERARCHICAL CLUSTERING
Prinsip Dasar Hierarchical Cluster
Keanggotaan pada suatu cluster ditentukan menggunakan matriks jarak dalam bentuk dendogram atau tree
Setiap objek bergabung dalam susunan hierarki dimana jarak terdekat merepresentasikan kemiripan sedangkan jarak terjauh menunjukkan perbedaan
Penjelasan terbaik dapat dideskripsikan menggunakan algoritma atau sekelompok instruksi yang menghasilkan dendogram
Hierarchical Clustering berdasarkan Jumlah Perbedaan Objek Cluster
Complete Linkage Clustering Jika penentuan jumlah cluster ditentukan dari jumlah
maksimum pasangan cluster yang berbeda Nilai k diperoleh dari jumlah cluster yang tersisa pada
nilai < level yang ditetapkan
Single Linkage Clustering (K-Nearest Network) Jika penggabungan cluster hanya boleh dilakukan pada
objek terdekat sebanyak satu kali Nilai k diperoleh ketika hanya tersisa 1 pasang objek
yang berbeda pada nilai < level yang ditetapkan
Average Linkage Clustering Penggabungan kluster dilakukan dengan menghitung rata-
rata jarak antar 2 pasang objek data yang berbeda
Complete Linkage Clustering
Algoritma:
Buat matriks jarak antar objek di dalam dataset
Cari pasangan objek yang memiliki jarak euclidean paling kecil
Gabung pasangan objek dengan nilai jarak paling kecil dan gambarkan dendogramnya
Tentukan nilai similarity dari jarak euclidean
Sisa cluster yang tersisa pada dendogram/tree yang terpotong adalah jumlah k optimum
Contoh Implementasi Algoritma Complete Linkage Clustering (1):
Diberikan dataset sebagai berikut:
Dataset Outlook Temperature Humidity Windy Play golf
1 Rainy Hot High FALSE No
2 Rainy Hot High TRUE No
3 Overcast Hot High FALSE Yes
4 Sunny Mild High FALSE Yes
5 Sunny Cool Normal FALSE Yes
6 Sunny Cool Normal TRUE No
7 Overcast Cool Normal TRUE Yes
Dataset Outlook Temperature Humidity Windy Play golf
1 1 1 1 2 2
2 1 1 1 1 2
3 2 1 1 2 1
4 3 2 1 2 1
5 3 3 2 2 1
6 3 3 2 1 2
7 2 3 2 1 1
Contoh Implementasi Algoritma Complete Linkage Clustering (2):
Buat matriks jarak berpasangan antar objek dalam dataset:
Pilih pasangan objek dengan jarak terkecil dan buat dendogramnya
1 2 3 4 5 6 7
1 0 1 1 2.236 3 3.162 2.646
2 1 0 1.414 2.449 3.162 3 2.449
3 1 1.414 0 1.414 2.449 2.646 2.449
4 2.236 2.449 1.414 0 1.414 1.732 2
5 3 3.162 2.449 1.414 0 1 1.414
6 3.162 3 2.646 1.732 1 0 1
7 2.646 2.449 2.449 2 1.414 1 0 2 1 3 5 6 74
Contoh Implementasi Algoritma Complete Linkage Clustering (3):
Update jarak terkecil antar objek berpasangan menggunakan matriks berpasangan hingga dataset habis
(1,2) (1,3) 4 (5,6) (6,7)
(1,2) 0 2.44949 3.162 3.162
(1,3) 1.414 0 2.23607 3.162 3.162
4 2.44949 2.23607 0 1.732 2
(5,6) 3.16228 3.16228 1.73205 0 1.414
(6,7) 3.16228 3.16228 2 1.414 0
(1,2,3) 4 (5,6,7)
(1,2,3) 0 2.44949 3.16228
4 2.44949 0 1.73205
(5,6,7) 3.16228 1.73205 0
Contoh Implementasi Algoritma Complete Linkage Clustering (4):
Update dendogram sehingga menghasilkan model cluster akhir
Tetapkan nilai similarity untuk memotong dendogram/tree yang telah dibuat ( d= 1,5)
Dari model dendogram dapat dilihat bahwa apabila (d = 1,5) akan menghasilkan k = 3
2 1 3 5 6 74