Upload
wansri-septia
View
386
Download
7
Embed Size (px)
Citation preview
CLUSTER ANALYSIS
KELOMPOK 5
1. GUSTI WIRA BAYUTAMA (2513204002)
2. NATHANIA NIWEDYA (2513201004)
3. SOFYAN MUZAKKI (2513204009)
4. NI PUTU WANSRI SEPTI DEWI (2513201010)
5. JAZILATUR RIZQIYAH DEVIABAHARI (2513203012)
1
WHAT IS CLUSTER ANALYSIS?
2
Analisis cluster adalah salah satu teknik multivariate untuk
mengelompokkan obyek berdasarkan kesamaan
karakteristik di antara obyek-obyek tersebut sehingga
obyek-obyek yang berada dalam satu cluster akan
mempunyai kemiripan satu sama lain.Ciri-ciri Cluster yang Baik
• Homogenitas internal (within cluster) : kesamaan
antar anggota dalam satu cluster.
• Heterogenitas external (between cluster): perbedaan
antara cluster yang satu dengan cluster yang lain.
• Representativeness of the sample : sampel yang
diambil dapat mewakili populasi yang ada.
• Multokolinieritas: Terdapat hubungan yang linier antar
variabel .
Asusmsi
CLUSTER ANALYSIS
3
MetodePengelompokan
HirarchicalClustering
Method
Single LinkageComplete Linkage
Average Linkage Ward’s Method Centroid Method
Non HirarchicalClustering
Method
K-Mean Method
Tidak baik
untuk
mengolah
sampel ukuran
besar
Untuk data sampel
ukuran besar
HIRARCHICAL CLUSTERING METHOD
4
Single Linkage Complete Linkage
Average Linkage Centroid Method
HIRARCHICAL CLUSTERING METHOD
5
1. Single Linkage didasarkan pada jarak minimum
(nearest neighbor ). Dimulai dengan dua objek yang
dipisahkan dengan jarak paling pendek maka keduanya
akan ditempatkan pada cluster pertama, dan seterusnya.
Example :
Jarak yang Paling
Minimum
Jarak antara
nearest neighbor
HIRARCHICAL CLUSTERING METHOD CONT…
6
Object 5 dan object 3 digabungkan, kemudian dicari terdekat
menuju object berikutnyaJarak yang
paling minimum
adalah dari
object (3,5) ke
object 1
Object (5,3) digabungkan
dengan object 1.
HIRARCHICAL CLUSTERING METHOD CONT…
7
Jarak yang
paling minimum
adalah dari
object (1,3,5) ke
object 4
Jarak yang
Paling
Minimum
Jarak
antar
cluster
Cluster 1 Cluster 2
DENDOGRAM
HIRARCHICAL CLUSTERING METHOD CONT…
2. Complete linkage dasarnya adalah jarak maksimum.
Dalam metode ini seluruh objek dalam suatu cluster dikaitkan
satu sama lain pada suatu jarak maksimuma atau dengan
kesamaan minimum.
8
Example :
Awalnya dicari Jarak
yang Paling Minimum
3 dan 5
didekatkan/digabungkan
Jarak antara most
distance members
dari cluster
HIRARCHICAL CLUSTERING METHOD CONT…
9
Jarak paling
minimum
adalah dari
object 4 ke 2
Jarak yang paling
minimum.
Sehingga (2,4)
didekatkan
dengan object 1
Cluster 1 Cluster 2
DENDOGRAM
HIRARCHICAL CLUSTERING METHOD CONT…
10
3. Average Linkage Dasarnya adalah jarak rata-rata
antar object. Dimana jarak antar cluster merupakan
jarak rata-rata antar object Jarak antara object ke i
dalam cluster (UV) dan
object ke j dalam cluster
(w)
Banyaknya item di cluster
(UV) dan W
Subject
Id
Income
($ thous.)
Educatio
n (years)
S1 5 5
S2 6 6
S3 15 14
S4 16 15
S5 25 20
S6 30 19
Example :
HIRARCHICAL CLUSTERING METHOD CONT…
11
Dengan menggunakan
euclidean distance
diperoleh jarak paling
minimum yaitu S1 dan
S2
Jarak paling
minimum selanjutnya
sehingga S3 dan S4
digabungkan
HIRARCHICAL CLUSTERING METHOD CONT…
12
4. Centroid Method mempertimbangkan jarak
centroid pada cluster.
dimana
nA dan nB masing-masing adalah
banyaknya data dalam set A dan B
Jarak antara
klaster A dan
klaster B adalah
jarak rata-rata
data x dan y dari
klaster A dan B
Example : Subject
Id
Income
($)
Educati
on
(years)
S1 5 5
S2 6 6
S3 15 14
S4 16 15
S5 25 20
S6 30 19
HIRARCHICAL CLUSTERING METHOD CONT…
13
Dengan
menggunakan
euclidean distance
dicari jarak paling
minimum yaitu (S1,
S2)
S1&S2 digabungkan
menjadi 1 klaster dengan
rata-rata income :
(5+6)/2 = 5,5 dan rata-
rata education : (5+6)/2 =
5,5
HIRARCHICAL CLUSTERING METHOD CONT…
14
Rata-rata income dan
education dari S3 dan
S4
Cluster 1 Cluster 2
DENDOGRAM
HIRARCHICAL CLUSTERING METHOD CONT…
15
5. Ward’s Method Dalam metode ini jarak antara dua
cluster adalah jumlah kuadrat antara dua cluster
untuk seluruh variabel.
dimana :
nA dan nB masing-masing adalah banyaknya data
dalam set A dan B
s2AB adalah jarak antara klaster A dan B menggunakan
centroid linkage
Metode ini bertujuan untuk meminimasi jumlah
kuadrat dalam cluster (within-cluster sum of square)
HIRARCHICAL CLUSTERING METHOD CONT…
16
Example : •ESS adalah error sum of square
ESS untuk S1 dan S2 :
(5-5,5)2+(6-5,5)2+(5-5,5)2+(6-5,5)2 = 1
Metode ward ini menghitung
kemungkinan tiap cluster
Cluster 1 Cluster 2
DENDOGRAM
NON HIRARCHICAL CLUSTERING METHOD
• K-MEAN CLUSTERING METHOD
: Dimulai dengan menentukan
terlebih dahulu jumlah cluster yang
diinginkan (dua, tiga, atau yang
lain). Setelah jumlah cluster
ditentukan, maka proses cluster
dilakukan tanpa mengikuti proses
hirarki.
• KELEBIHAN : Cukup efisien,
algoritma berhenti dalam kondisi
optimum.
• KELEMAHAN : Harus
menentukan jumlah cluster yang
dibentuk, tidak dapat menangani
data yang mengalami
penyimpangan (outlier).
17
Menentukan Banyaknya
cluster (K)
Menentukan pusat
(centroid )
Menghitung jarak object
ke pusat (centroid)
Mengelompokan object
berdasarkan jarak minimum
Terdapat object yang harus
dipindahkan
ya
Tidak
Selesai
K-MEAN CLUSTERING METHOD CONT ...
• ALGORITMA 1
• ALGORITMA 2
• ALGORITMA 3
18
DATA
Subject
Id
Income
($)
Educati
on
(years)
S1 5 5
S2 6 6
S3 15 14
S4 16 15
S5 25 20
S6 30 19
ALGORITMA 1
19
1. Tentukan jumlah cluster
(k) 2. Tentukan observasi yang menjadi centroid
sejumlah (k)
3. Menghitung jarak dari Cluster Centroids
D213= (5-15)2 + (5-14)2 = 181
Initial
Cluster
Centroid
S3, S4, S5, & S6
tergabung dalam
satu cluster
k = 3
ALGORITMA 1 CONT ...
• ITERASI 1
20
a. Mengubah Cluster Centroids
Rata-
rata
DATA
b. Menghitung jarak dari Cluster
Centroids
D213= (5-21,5)2 + (5-17)2 = 416,25
Iterasi selesai karena
Reassigment = Previous
Assigment
ALGORITMA 1 VS ALGORITMA 2
• ALGORITMA 1 : KITA BEBAS MENENTUKAN INITIAL
CLUSTER CENTROID
• ALGORITMA 2 : INITIAL CLUSTER CENTROID DIMODIFIKASI
• LANGKAH SELANJUTNYA SAMA
21
ALGORITMA 2
22
1. Tentukan jumlah cluster
(k) 2. Tentukan observasi yang menjadi centroid
sejumlah (k)
k = 3Initial
Cluster
Centroid
3. Modifikasi Initial Cluster Centroid
3.1 Tentukan jarak terkecil (selain nol) antar observasi
Jarak terkecil :
S1 & S2
23
3.2 Menetukan replacement seeds
S4 tidak dapat dijadikan replacement
seed karena jarak S1 dan S2 tidak
lebih kecil dari jarak S4 dengan seed
terdekat (S3).
S5 dijadikan replacement seed karena
jarak S1 dan S2 lebih kecil dari jarak
S5 dengan seed terdekat (S3).3.3 Cluster Centroid hasil modifikasi
S5 menggantikan seed S2
karena jarak S5 dan S2 lebih
kecil daripada S5 dan S1. 15
14 20
25
ALGORITMA 2 CONT...
ALGORITMA 2 CONT ...
• ITERASI 1
24
4. Menghitung jarak dari Cluster Centroids
D212= (5-15)2 + (5-14)2 = 181 D2
13= (5-25)2 + (5-20)2 = 625
a. Mengubah Cluster Centroids
S1 &
S2S3 & S4 S5 & S6
b. Menghitung jarak dari Cluster Centroids
D213= (5-27,5)2 + (5-19,5)2 = 716,5
Iterasi selesai karena
Reassigment = Previous
Assigment
ALGORITMA 3
• Initial seeds (Ci) ditentukan dengan rumus
25
• Reassigment berdasarkan minimum Error Sum of
Square (ESS)
• Sum(i) : total nilai semua variable tiap observasi
• Min : nilai terkecil sum(i) dari data
• Max : nilai terbesar sum(i) dari data
• K : jumlah cluster
26
1. Menentukan Initial Cluster melalui rumus
Ci
Sum (1) = income (1) + Education
(1)
= 5 + 5 = 10
𝐶4 =(31 − 10)(3 − 0,0001)
49 − 10+ 1 = 2,61 ≈ 2
𝐶2 =(12 − 10)(3 − 0,0001)
49 − 10+ 1 = 1,15 ≈ 1
ALGORITMA 3 CONT ...
27
2. Reassignment cluster melalui ESS
• S1 jika dipindah ke cluster 3
Subject berpindah cluster menuju cluster
dengan perubahan ESS yang paling
negatif
Cluster sudah
optimal karena
reassignment =
previous
assignment
ALGORITMA 3 CONT ...
SIMILARITY MEASURES
28
• Similarity measures dapat
diklasifikasikan menjadi tiga
bentuk :
1. Distance measures
2. Association coefficient
3. Correlation coefficientDistance Measures
Terdapat beberapa metode dalam
mengukur jarak, seperti
Euclidean; Minkowski; City-
block; Mahalanobis; dan lain
sebagainya.
1. Euclidean Distance untukmengukur similarity Jarak euclidean antara titik i dengan j dalam dimensi p :
2. Minkowski Metric general
metric dari Euclidean
distance.
Dij adalah jarak antara titik i dengan j dan p adalah jumlah
variable
Jika n = 2 akan menghasilkan
euclidean distance, maka n = 1
akan menghasilkan city-block
distance
29
3. City-block or manhattan
distance bentuk khusus dari
minkowski metric dengan n = 1.
Menghitung Jarak Dengan
menggunakan euclidean
distance :
D122 = (5-6)2 + (5-6)2 = 2
D12 = 1,41Dengan menggunakan city-block
distance :
D12 = I5-6I + I5-6I = 2
SIMILARITY MEASURES CONT...
Example
:
SIMILARITY MEASURES CONT...
30
4. Mahalanobis Distance
menghitung korelasi diantara
variabel.
dimana Σ adalah covariance
matrix
Dalam hal Σ = 1, maka jarak ini
menjadi Euclidean
variable yang tidak berkorelasi
mahalanobis distance mengurangi
euclidean distance untuk
unstandardized data.
sehingga euclidean distance untuk
standardized data merupakan bentuk
khusus dari mahalanobis distance.
31
CORRELATION COEFFICIENT
• Untuk mengukur similarity juga
dapat menggunakan pearson
product moment correlation
coefficient.
• Baik correlation coefficient
maupun association coefficient
merupakan bentuk dissimilarity,
dimana nilai tertinggi
menunjukkan similarity dan
kebalikannya.
• Koefisien korelasi dapat dengan
mudah dirubah ke bentuk
similarity dengan menambahkan
variabel satu dengan yang lain,
namun tidak bisa untuk beberapa
properti dari true metric yang lain.
Association Coefficient
digunakan untuk menunjukkan
similarity untuk variabel biner.
Untuk data biner dapat
menggunakan ukuran seperti
polychoric correlation atau
simple matching coefficients
atau variasi untuk
menunjukkan similarity antar
observasi. 1 0
1 a b
0 c d
a, b, c, d adalah frekuensi
kejadian, similarity antara 2
variabel tersebut adalah :
dcba
da
Example
:
RELIABILITY AND EXTERNAL VALIDITY
32
Reliability
Salah satu indikator reliability adalah degree of
agreement antara assignment dengan analisis klaster.
External Validity diperoleh dengan
membandingkan hasil dari analisis klaster dengan
kriteria eksternal.
Misalnya mengelompokkan perusahaan berdasarkan
rasio keuangan sehingga diperoleh 2 klaster, yaitu
perusahaan yang sehat secara finansial dan
perusahaan yang tidak sehat secara finansial.
33
Thank you
for
your attention