Hierarchical Clustering - Complete Linkage

  • Upload
    amna

  • View
    5

  • Download
    0

Embed Size (px)

DESCRIPTION

Presentasi untuk mata kuliah Data Mining ini membahas algoritma hierarchical clustering yang diterjemahkan dari buku Han Jiewei "Data Mining".

Citation preview

  • HIERARCHICAL CLUSTERING

  • Prinsip Dasar Hierarchical Cluster

    Keanggotaan pada suatu cluster ditentukan menggunakan matriks jarak dalam bentuk dendogram atau tree

    Setiap objek bergabung dalam susunan hierarki dimana jarak terdekat merepresentasikan kemiripan sedangkan jarak terjauh menunjukkan perbedaan

    Penjelasan terbaik dapat dideskripsikan menggunakan algoritma atau sekelompok instruksi yang menghasilkan dendogram

  • Hierarchical Clustering berdasarkan Jumlah Perbedaan Objek Cluster

    Complete Linkage Clustering Jika penentuan jumlah cluster ditentukan dari jumlah

    maksimum pasangan cluster yang berbeda Nilai k diperoleh dari jumlah cluster yang tersisa pada

    nilai < level yang ditetapkan

    Single Linkage Clustering (K-Nearest Network) Jika penggabungan cluster hanya boleh dilakukan pada

    objek terdekat sebanyak satu kali Nilai k diperoleh ketika hanya tersisa 1 pasang objek

    yang berbeda pada nilai < level yang ditetapkan

    Average Linkage Clustering Penggabungan kluster dilakukan dengan menghitung rata-

    rata jarak antar 2 pasang objek data yang berbeda

  • Complete Linkage Clustering

    Algoritma:

    Buat matriks jarak antar objek di dalam dataset

    Cari pasangan objek yang memiliki jarak euclidean paling kecil

    Gabung pasangan objek dengan nilai jarak paling kecil dan gambarkan dendogramnya

    Tentukan nilai similarity dari jarak euclidean

    Sisa cluster yang tersisa pada dendogram/tree yang terpotong adalah jumlah k optimum

  • Contoh Implementasi Algoritma Complete Linkage Clustering (1):

    Diberikan dataset sebagai berikut:

    Dataset Outlook Temperature Humidity Windy Play golf

    1 Rainy Hot High FALSE No

    2 Rainy Hot High TRUE No

    3 Overcast Hot High FALSE Yes

    4 Sunny Mild High FALSE Yes

    5 Sunny Cool Normal FALSE Yes

    6 Sunny Cool Normal TRUE No

    7 Overcast Cool Normal TRUE Yes

    Dataset Outlook Temperature Humidity Windy Play golf

    1 1 1 1 2 2

    2 1 1 1 1 2

    3 2 1 1 2 1

    4 3 2 1 2 1

    5 3 3 2 2 1

    6 3 3 2 1 2

    7 2 3 2 1 1

  • Contoh Implementasi Algoritma Complete Linkage Clustering (2):

    Buat matriks jarak berpasangan antar objek dalam dataset:

    Pilih pasangan objek dengan jarak terkecil dan buat dendogramnya

    1 2 3 4 5 6 7

    1 0 1 1 2.236 3 3.162 2.646

    2 1 0 1.414 2.449 3.162 3 2.449

    3 1 1.414 0 1.414 2.449 2.646 2.449

    4 2.236 2.449 1.414 0 1.414 1.732 2

    5 3 3.162 2.449 1.414 0 1 1.414

    6 3.162 3 2.646 1.732 1 0 1

    7 2.646 2.449 2.449 2 1.414 1 0 2 1 3 5 6 74

  • Contoh Implementasi Algoritma Complete Linkage Clustering (3):

    Update jarak terkecil antar objek berpasangan menggunakan matriks berpasangan hingga dataset habis

    (1,2) (1,3) 4 (5,6) (6,7)

    (1,2) 0 2.44949 3.162 3.162

    (1,3) 1.414 0 2.23607 3.162 3.162

    4 2.44949 2.23607 0 1.732 2

    (5,6) 3.16228 3.16228 1.73205 0 1.414

    (6,7) 3.16228 3.16228 2 1.414 0

    (1,2,3) 4 (5,6,7)

    (1,2,3) 0 2.44949 3.16228

    4 2.44949 0 1.73205

    (5,6,7) 3.16228 1.73205 0

  • Contoh Implementasi Algoritma Complete Linkage Clustering (4):

    Update dendogram sehingga menghasilkan model cluster akhir

    Tetapkan nilai similarity untuk memotong dendogram/tree yang telah dibuat ( d= 1,5)

    Dari model dendogram dapat dilihat bahwa apabila (d = 1,5) akan menghasilkan k = 3

    2 1 3 5 6 74