49

KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

  • Upload
    others

  • View
    19

  • Download
    1

Embed Size (px)

Citation preview

Page 1: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Univerzitet u Ni²u

Prirodno - matemati£ki fakultet

Departman za matematiku

KLASTER ANALIZA USTATISTI�KOM ZAKLjU�IVANjU

Master rad

Student:

Katarina M. Krsti¢

Mentor:

Prof. dr Aleksandar S. Nasti¢br. indeksa 193

Ni², 2018.

Page 2: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Sadrºaj

1 Uvod 2

2 Klaster analiza 3

3 Mere rastojanja i sli£nosti 73.1 Mere rastojanja za parove elemenata . . . . . . . . . . . . . . . . . . 8

3.1.1 Mere rastojanja za numeri£ka obeleºja . . . . . . . . . . . . . 83.1.2 Mere rastojanja za binarne promenljive . . . . . . . . . . . . . 10

3.2 Mere rastojanja za parove promenljivih . . . . . . . . . . . . . . . . . 14

4 Algoritmi klasterovanja 174.1 Hijerarhijske metode . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.2 Nehijerarhijske metode . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5 Zaklju£ak 46

Literatura 47

Biogra�ja 48

1

Page 3: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Glava 1

Uvod

Klaster analiza je multivarijaciona statisti£ka metoda koja obuhvata niz ra-zli£itih algoritama, povezana je sa razli£itim oblastima istraºivanja i prisutna je uliteraturi ve¢ nekoliko decenija. Mada postoje i ranije formulacije klaster analize,najve¢i doprinos i uticaj na njen dalji razvoj imaju trojica istraºiva£a: Trajon1,Vard2 i Dºonson3. Ovi autori su imali razli£ite pristupe u vezi sa prirodom klasteranalize. Brzi razvoj ra£unara i temeljni zna£aj grupisanja doprineli su popularnostiove metode.

U ovom radu bavi¢emo se istraºivanjem metoda koje imaju za cilj grupisanjeelemenata u vi²e razli£itih grupa. Ideja je na¢i prirodno grupisanje me�u elemen-tima koji se prou£avaju pri £emu elementi unutar grupe treba da budu bliºi jednidrugima, nego elementi u drugim grupama. Elementi mogu biti opisani sa skupomkarakteristika ili svojom vezom s drugim elementima.

Struktura ovog rada sastoji se iz pet celina.Nakon uvodnog dela, u drugoj glavi ¢emo prvo de�nisati ciljeve kao i najvaºnije

korake u klaster analizi.U tre¢oj glavi bavi¢emo se de�nisanjem nekih od mera udaljenosti (sli£nosti)

jer odabir adekvatnog na£ina za odre�ivanje rastojanja izme�u elemenata igra vaºnuulogu u klaster analizi.

Kona£no, u £etvrtoj glavi opisa¢emo neke od naj£e²¢ih algoritama za sortiranjeelemenata u klastere, koje smo podelili na hijerarhijske i nehijerarhijske metode.

Rad se zavr²ava zaklju£kom i spiskom literature.

1Robert Choate Tryon (1901-1967), ameri£ki psiholog.2Joe H. Ward Jr. (1926-2011), ameri£ki matemati£ar.3Stephen C. Johnson, ameri£ki nau£nik.

2

Page 4: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Glava 2

Klaster analiza

Klaster analiza je metoda multivarijacione statisti£ke analize koja ima za ciljgrupisanje elemenata u klastere na osnovu njihovih karakteristika. Klasterovanjeelemenata se vr²i na osnovu realizovanih vrednosti posmatranog obeleºja, tako damaksimizira internu homogenost (unutar klastera) i eksternu heterogenost (izme�-klastera). Vaºna osobina klaster analize je £injenica da ona nije metoda strogogstatisti£kog zaklju£ivanja gde se odabrani uzorak nuºno smatra i reprezentativnimza odre�enu populaciju. Klaster analiza je metoda kojom se odre�uju strukturalnekarakteristike izmerenih svojstava na strogoj matemati£koj, ali ne i statisti£koj ute-meljenosti. Prema tome, da bi rezultati klaster analize bili smisleni potrebno jeutvrditi pretpostavke koje se odnose na reprezentativnost uzorka. Pouzdanost re-zultata klaster analize zavisi od reprezentativnosti uzorka.

Termin klaster analiza obuhvata niz razli£itih algoritama i metoda za grupisa-nje elemenata sli£nog tipa u odgovaraju¢e kategorije. Drugim re£ima, klaster analizaje istraºiva£ka tehnika za analizu podataka koja ima za cilj da sortira razli£ite ele-mente u grupe tako da je stepen udruºivanja izme�u dva elementa maksimalan akopripadaju istoj grupi i minimalan ako pripadaju razli£itoj. Klaster analiza jedno-stavno otkriva strukture u podacima ne obja²njavaju¢i za²to one postoje. Kod ovetehnike nisu poznati broj grupa i karakteristike grupe pre izvo�enja samog postupka.Osnovni ciljevi klaster analize su:

• Otkrivanje prirodnih grupacija elemenata koje posmatramo;

• Istraºivanje podataka - Ako ne znamo kako je skup elemenata strukturiran,klaster analizom otkrivamo nepoznatu strukturu;

• Redukcija podataka;

• Generisanje hipoteza - Za skup podataka nepoznate strukture, klaster ana-lizom formiraju se grupe £iji broj i sastav pomaºu u de�nisanju hipoteza ostrukturi podataka. Tako, na primer, broj grupa sugerisan prvobitnom anali-zom moºe biti hipoteza koja bi se testirala novim skupom podataka;

• Predvi�anje.

3

Page 5: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Klaster analiza 4

Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji verovatno¢a da su prona�ene odre�ene relacije izme�u jedinicaposmatranja koje do tada nisu bile poznate i koje treba ispitati.

Neke od vaºnih odluka koje treba doneti pri sprovo�enju klaster analiza su:

1. Izbor uzorka kojeg ¢emo podvrgnuti klaster analizi;

2. Odrediti skup relevantnih promenljivih koje ¢e reprezentovati obeleºja eleme-nata;

3. Odrediti transformaciju originalnih podataka;

4. Odrediti metodu za odre�ivanje udaljenosti ili sli£nosti izme�u elemenata;

5. Odrediti metodu koju ¢emo koristiti za povezivanje elemenata u klastere;

6. Ocena validnosti dobijenih rezultata.

Uz ve¢inu ovih odluka vezuje se izbor prikladnog statisti£kog algoritma, odnosnotehnike.

Ovaj tip analize podse¢a na metode klasi�kacije predmeta. Ipak, ove dve ana-liti£ke metode su dosta razli£ite jedna od druge. Prvo, u klasi�kaciji, poznato namje, jo² na po£etku, u koliko klasa ili grupa treba klasi�kovati podatke i koje elementegde razvrstati. U klaster analizi, broj klastera je nepoznat, kao i koji element gdetreba grupisati. Drugo, u klasi�kaciji, cilj je da se klasi�kuju novi elementi (ukolikoje mogu¢e u obliku skupa) u jednu od datih klasa na osnovu prethodnog iskustva.Klasterovanje pada vi²e u okvir istraºiva£ke analize podataka, pri £emu ne postojedostupne informacije o strukturi podataka. Tre¢e, klasi�kacija se bavi skoro isklju-£ivo klasi�kacijom opservacija, dok se grupisanje moºe primeniti i na promenljive ina opservacije ili na oba istovremeno, u zavisnosti od toga ²ta analiziramo.

Klaster analiza ima zna£ajnu primenu u razli£itim oblastima istraºivanja. Naprimer, u istraºivanjima iz oblasti medicine, veoma zna£ajnu ulogu u daljoj analizimoºe imati klasterovanje oboljenja, ili simptoma oboljenja. U psihologiji, klasteranaliza se koristi za pronalaºenje tipova li£nosti na osnovu upitnika. U arheologiji,primenjuje se za klasterovanje umetni£kih dela u razli£itim vremenskim periodima.Druge nau£ne grane koje koriste klaster analizu su prirodne nauke, ekonomija, mar-keting, istraºivanje podataka (eng. data mining). . .

Da bismo prikazali do kakvih pote²ko¢a moºemo do¢i prilikom de�nisanja pri-rodnih grupacija, posmatra¢emo problem grupisanja 16 karata za igru. Neke odmogu¢ih grupa prikazane su na slici 2.1. Sada je jasnije da podela u grupe zavisi odde�nicije sli£nosti. U mnogim oblastima, gde je mogu¢e primeniti klaster analizu,istraºiva£ moºe dosta dobro razlikovati �dobru� od �lo²e� grupacije. Zbog toga, pri-rodno se name¢e pitanje, za²to se ne de�ni²u sve mogu¢e grupe a zatim se odaberuone �najbolje� za dalju analizu?

Page 6: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Klaster analiza 5

Slika 2.1: Grupisanje karata za igru

Odgovor na ovo pitanje moºemo prona¢i upravo u na²em primeru. Ukolikoºelimo da svih 16 karata grupi²emo u jedan klaster tada za to imamo samo jedanna£in. Ali, ukoliko ºelimo da formiramo dve grupe (razli£itih veli£ina) tada postoji32 767 na£ina da to uradimo. Za tri grupe (razli£itih veli£ina) ve¢ postoji 7 141686 na£ina, i tako dalje1. Me�utim, da bi de�nisali sve te grupe potrebno je dostavremena da se to uradi ru£no pa £ak i pomo¢u kompjutera. Zbog toga je neophodnode�nisati algoritme pomo¢u kojih ¢emo traºiti dobre, ali ne i nuºno najbolje, grupe.

Postupak klaster analize se sastoji iz dva osnovna koraka, izbora odgovaraju¢emere udaljenosti (sli£nosti) i izbora algoritma klasterovanja. Podaci se iz posmatra-nog skupa grupi²u u klastere na osnovu mera sli£nosti (ili udaljenosti) izme�u dvarazli£ita elementa. Ne postoji slaganje oko toga koja mera udaljenosti je najade-kvatnija za primenu u klasterovanju. Vrlo je bitno znati da ²to je vi²e promenljivih

1Broj mogu¢ih na£ina za sortiranje n elemenata u k razli£itih nepraznih grupa se naziva Stir-

lingov broj druge vrste koji se de�ni²e kao 1k!

k∑j=0

(−1)k−j(kj

)jn

Page 7: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Klaster analiza 6

uklju£eno u analizu i ²to su one vi²e me�usobno nezavisne, teºe je prona¢i odgova-raju¢i model za grupisanje elemenata koje posmatramo.

U klaster analizi, koncept slu£ajne promenljive je ponovo centralna tema, ali napotpuno druga£iji na£in od drugih multivarijacionih tehnika. Fokus klaster analizeje na pore�enju elemenata zasnovanih na slu£ajnoj promenljivoj, a ne na procenisame slu£ajne promenljive. Klaster analiza nema statisti£ku osnovu kod kojih semogu izvu¢i statisti£ka zaklju£ivanja iz uzorka i kori²¢ena je prvenstveno kao teh-nika istraºivanja. Re²enja nisu jedinstvena i istraºiva£ mora voditi ra£una u proceniuticaja svake odluke uklju£ene u izvo�enje klaster analize.

Page 8: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Glava 3

Mere rastojanja i sli£nosti

Da bi se formirale grupe (klasteri) potrebno je uloºiti dosta napora prilikomodabira adekvatnih mera sli£nosti (ili udaljenosti). �esto se u tom slu£aju javlja iodre�ena mera subjektivnosti. Tako�e je vaºno uzeti u obzir prirodu promenljivih(diskretne, neprekidne i binarne), zatim tipove mernih skala (nominalne, ordinalne,intervalne, racionalne) kao i poznavanje predmeta istraºivanja.

Kada se odrede karakteristike podataka, tada nailazimo na problem pronalaskaadekvatnog na£ina za odre�ivanje udaljenosti izme�u dva elementa. Odabir meresli£nosti izme�u dva elementa je klju£an za klaster analizu. U tom slu£aju morajuse uzeti u obzir matemati£ka svojstva te mere, vrsta podataka koje treba obraditi,pona²anje te mere u odnosu na podatke i upotreba matrice sli£nosti ili matrice uda-ljenosti. Ne postoji op²te pravilo za odlu£ivanje koja od metoda za ra£unanje mereudaljenosti ili sli£nosti je najbolja za primenu u konkretnom slu£aju. Izbor metodeje veoma vaºan, zato ²to £esto razli£ite metode daju i razli£ite rezultate.

Neka je A skup od n podataka i neka su x, y ∈ A p-dimenzionalni vektori,x = (x1, x2, . . . , xp), y = (y1, y2, . . . , yp). Mera rastojanja se moºe opisati realnomfunkcijom d : (x, y)→ R, koja ima slede¢a svojstva:

• d(x,y) ≥ 0 nenegativnost,

• d(x,x) = 0,

• d(x,y) = d(y,x) simetri£nost.

Ako mera rastojanja zadovoljava i slede¢a dva svojstva:

• d(x,y) = 0⇔ x = y,

• ∀z ∈ A, d(x,y) ≤ d(x, z) + d(z,y) nejednakost trougla,

tada se ona zove metrika.Svaka metrika jeste mera rastojanja, ali nije svaka mera rastojanja metrika.

Pored mere rastojanja moºemo de�nisati i meru sli£nosti. Za meru s : (x,y)→[0, 1] kaºemo da predstavlja meru sli£nosti ako zadovoljava slede¢a svojstva:

7

Page 9: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Mere rastojanja i sli£nosti 8

• 0 ≤ s(x,y) ≤ 1 normiranost,

• s(x,y) = 1⇔ x = y,

• s(x,y) = s(y,x) simetri£nost.

Ve¢ina algoritama po£inje sa matricom podataka dimenzije n× p koja sadrºipromenljive koje opisuju svaki element koji posmatramo:

X =

x11 x12 · · · · · · · · · x1p

x21 x22 · · · · · · · · ·...

...... . . . ...

...... . . . ...

...... . . . ...

xn1 xn2 · · · · · · · · · xnp

.

Realizacija xij predstavlja vrednost j-te promenljive na i-tom elementu. Na osnovun × p matrice podataka formiramo simetri£nu n × n matricu udaljenosti D ili ma-tricu sli£nosti S £iji elementi mere stepen razlike ili sli£nosti izme�u svih parovaelemenata iz matrice podataka. Na primer, element dij, i, j ∈ {1, 2, . . . n} je merabliskosti izme�u i-tog i j-tog elementa.

D =

d11 d12 · · · · · · · · · d1n

d21 d22 · · · · · · · · ·...

...... . . . ...

...... . . . ...

...... . . . ...

dn1 dn2 · · · · · · · · · dnn

, S =

s11 s12 · · · · · · · · · s1n

s21 s22 · · · · · · · · ·...

...... . . . ...

...... . . . ...

...... . . . ...

sn1 sn2 · · · · · · · · · snn

.

3.1 Mere rastojanja za parove elemenata

3.1.1 Mere rastojanja za numeri£ka obeleºja

Rastojanje za numeri£ka obeleºja se moºe meriti na razli£itim skalama, pa jezbog toga, naj£e²¢e, prvo potrebno standardizovati ih. Standardizacija nije obaveznai uglavnom se koristi da merne jedinice ne bi uticale na dalju analizu, odnosno, dabi se svim elementima dala ista vaºnost. Formula za standardizaciju je slede¢a:

Page 10: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Mere rastojanja i sli£nosti 9

yij =xij − µj

σj(3.1)

gde je xij i-ta realizacija promenljive xj, µj je aritmeti£ka sredina i σj standardnadevijacija promenljive xj.

U cilju merenja rastojanja izme�u dva elementa uvek upore�ujemo paroveopservacija x = (x1, x2, . . . , xp), y = (y1, y2, . . . , yp). Postoji mnogo tipova merarastojanja, od kojih je naj£e²¢a Euklidova mera. Ona se de�ni²e na slede¢i na£in:

d(x,y) =√

(x1 − y1)2 + (x2 − y2)2 + · · ·+ (xp − yp)2. (3.2)

Slede¢a mera rastojanja koju moºemo koristiti jeste metrika Minkovskog,koju moºemo ozna£avati sa Lm za m > 0. Nju de�ni²emo kao:

d(x,y) =

[p∑

i=1

|xi − yi|m]1/m

, m > 0. (3.3)

Primetimo da za m = 1, d(x,y) predstavlja blok rastojanje izme�u dve ta£ke up-dimenzionalnom prostoru, ²to predstavlja L1 metriku. Poznata je i pod nazivomblok metrika ili apsolutna metrika. Za m = 2, ona postaje Euklidova ili L2

metrika. Osobina ove metrike je da ²to je ve¢e m to je ja£i uticaj velikih razlika|xi− yi| na dobijenu udaljenost izme�u elemenata, odnosno, mera rastojanja je ma-nje osetljiva na prisustvo nestandardnih opservacija.

Kanberova metrika i koe�cijent �ekanovskog predstavljaju mere koje sude�nisane samo za nenegativne vrednosti promenljivih:

Kanberova metrika : d(x,y) =

p∑i=1

|xi − yi|(xi + yi)

,

koe�cijent �ekanovskog : d(x,y) = 1−2 ·

p∑i=1

min (xi, yi)

p∑i=1

(xi + yi)

.

Kada se odre�uje rastojanje elemenata poºeljno je koristiti mere koje zado-voljavaju osobine metrike. Me�utim, postoje i mere koje ne zadovoljavaju neku odovih osobina, pa je tada u tom slu£aju neophodno vr²iti klasterovanje na osnovusubjektivno dodeljenih rastojanja izme�u elemenata.

Page 11: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Mere rastojanja i sli£nosti 10

Primer 1. Posmatrajmo 3 elementa iz prostora dimenzije 2, x1 = (1, 1), x2 = (0, 1)i x3 = (6, 3). Matrica njihovog rastojanja ra£unata pomo¢u L1 norme (primenomformule (3.3) za m = 1) je:

D1 =

0 1 7

1 0 8

7 8 0

.Primenom kvadrirane L2 norme (kvadriranjem formule (3.2)) dobijamo:

D2 =

0 1 29

1 0 38

29 38 0

.Ukoliko promenljive nisu merene na istim skalama, tada pre formiranja matrice trebaizvr²iti njihovu standardizaciju pomo¢u formule (3.1). 4

3.1.2 Mere rastojanja za binarne promenljive

�esto se susre¢emo sa promenljivama koje imaju samo binarne vrednosti kao²to su: 0 ili 1, prisustvo ili odsustvo (neke karakteristike), pozitivne ili negativne(vrednosti), ta£no ili neta£no . . . Udaljenost takvih parova elemenata ne moºemoizmeriti pomo¢u p-dimenzionalnih mera koje smo do sada naveli. Zbog toga je ne-ophodno uvesti mere sli£nosti pomo¢u kojih ¢emo upore�ivati elemente na osnovuprisustva ili odsustva odre�enih karakteristika. Sli£ni elementi imaju vi²e zajed-ni£kih karakteristika nego ²to imaju oni koji su razli£iti. Binarne promenljive supromenljive pomo¢u kojih moºemo opisati prisustvo ili odsustvo posmatrane karak-teristike, pri £emu ona moºe imati samo dve vrednosti, 0 ili 1. Ona ima vrednost 0ukoliko element nema posmatranu karakteristiku a vrednost 1 ukoliko je poseduje.

Za prikazivanje binarnih promenljivih £esto se koristi tablica frekvencija (ta-bela 3.1). Neka su x i y p-dimenzionalne binarne promenljive.

y

1 0 ukupno

x1 a b a+b

0 c d c+d

ukupno a+c b+d p=a+b+c+d

Tabela 3.1: Tablica frekvencija

Page 12: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Mere rastojanja i sli£nosti 11

U ovoj tabeli a predstavlja broj 1-1 poklapanja, b je broj 1-0 poklapanja i tako dalje.

Objasni¢emo sada ovo na jednom primeru. Posmatrajmo binarne promenljiveza p=5 £ije su vrednosti na elementima i i k date u tabeli:

1 2 3 4 5

element i 1 0 0 1 1

element k 0 1 0 1 0

Ozna£imo sa xij vrednost j-te promenljive na i-tom elementu i sa xkj vrednost j-te

promenljive na k-tom elementu. Kvadriranjem Euklidove metrike,p∑

j=1

(xij − xkj)2,

dobijamo broj elemenata koji se ne poklapaju, odnosno, razli£iti su. U na²em slu£ajutaj broj je:

5∑j=1

(xij − xkj)2 = (1− 0)2 + (0− 1)2 + (0− 0)2 + (1− 1)2 + (1− 0)2 = 3.

Na osnovu tabele frekvencija, u na²em slu£aju je a=c=d=1 i b=2. Me�utim, izizraza:

(xij − xkj)2 =

{0, xij = xkj = 0 ili xij = xkj = 1

1, xij 6= xkj

moºemo zaklju£iti da ova metrika daje podjednaku zna£ajnost poklapanjima 0-0 i1-1. U nekim slu£ajevima je neophodno razdvojiti ih, ili £ak zanemariti poklapanje0-0, zato ²to poklapanje 1-1 moºe imati ja£i uticaj na sli£nost izme�u elemenata.Upravo u tom slu£aju se primenjuju tablice frekvencija.

Uvodimo sada neke koe�cijente sli£nosti za binarne promenljive:

• Sokal-Mi£enerov koe�cijent (daje podjednaku vrednost poklapanjima 0-0i 1-1)

a+ d

p. (3.4)

• Prvi Sokal-Snitov koe�cijent (duplira vrednost poklapanjima 0-0 i 1-1)

2(a+ d)

2(a+ d) + b+ c.

• Rodºers-Tanimotov koe�cijent (duplira vrednost parovima koji se ne po-klapaju)

Page 13: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Mere rastojanja i sli£nosti 12

a+ d

a+ d+ 2(b+ c).

• Rasel-Raov koe�cijent (ne uklju£uje 0-0 poklapanje u brojiocu)

a

p.

• �akarov koe�cijent (ne uklju£uje 0-0 poklapanje ni u brojiocu ni u imeniocu)

a

a+ b+ c.

• Koe�cijent �ekanovskog (ne uklju£uje 0-0 poklapanje ni u brojiocu ni uimeniocu, ali duplira vrednost 1-1 poklapanja)

2a

2a+ b+ c.

• Drugi Sokal-Snitov koe�cijent (ne uklju£uje 0-0 poklapanje ni u brojiocuni u imeniocu, ali duplira vrednost parovima koji se ne poklapaju)

a

a+ 2(b+ c).

• Koe�cijent Kulcinskog (odnos poklapanja 1-1 sa poklapanjima 1-0 i 0-1,pri £emu je poklapanje 0-0 isklju£eno)

a

b+ c.

De�nisali smo neke od mera rastojanja i koe�cijenata sli£nosti koje moºemokoristiti za formiranje matrica rastojanja odnosno matrica sli£nosti. Nave²¢emosada formule pomo¢u kojih moºemo iz rastojanja dobiti sli£nosti kao i iz mera sli£-nosti dobiti rastojanje. Dakle, ukoliko imamo meru rastojanja izmedju i-tog i k-togelementa, dik, tada meru sli£nosti moºemo odrediti kao:

sik =1

1 + dik

gde je 0 < sik ≤ 1 mera sli£nosti izme�u i-tog i k-tog elementa. Sa druge strane,meru rastojanja koja zadovoljava uslove metrike ne moºemo uvek dobiti pomo¢umere sli£nosti. Zadovoljava¢e uslove samo ukoliko je matrica sli£nosti nenegativnode�nitna. Pod tim uslovom i ukoliko je sii = 1 vaºi:

dik =√

2(1− sik).

Page 14: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Mere rastojanja i sli£nosti 13

Primer 2. Posmatrane su slede¢e osobine petoro ljudi: visina, teºina, boja o£iju,boja kose, dominantna ruka, pol, i njihove vrednosti su prikazane u tabeli:

Visina Teºina Boja o£iju Boja kose Dominantna ruka Pol

Osoba 1 1,65m 55kg plava sme�a desna ºenski

Osoba 2 1,75m 72kg braon plava desna mu²ki

Osoba 3 1,68m 84kg zelene sme�a desna mu²ki

Osoba 4 1,58m 50kg braon crna desna ºenski

Osoba 5 1,92m 90kg braon crna leva mu²ki

De�ni²imo 6 binarnih promenljivih X1, X2, X3, X4, X5, X6 na slede¢i na£in:

X1 =

{1, visina ≥ 1, 70m0, visina < 1, 70m

X4 =

{1, sme�a kosa0, druga boja

X2 =

{1, teºina ≥ 70kg0, teºina < 70kg

X5 =

{1, desna ruka0, leva ruka

X3 =

{1, braon o£i0, druga boja

X6 =

{1, ºenski0, mu²ki

Vrednosti binarnih promenljivih posmatrane na osobi 3 i osobi 4 su:

X1 X2 X3 X4 X5 X6

Osoba 3 0 1 0 1 1 0

Osoba 4 0 0 1 0 1 1

Tabela frekvencija tada ima slede¢i oblik:

osoba 4

1 0 ukupno

osoba 31 1 2 3

0 2 1 3

ukupno 3 3 6

Page 15: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Mere rastojanja i sli£nosti 14

Ukoliko primenimo koe�cijent sli£nosti (3.4) za popunjavanje matrice sli£nosti, tj

koe�cijenta+ d

p, tada za osobu 3 i osobu 4 on iznosi:

a+ d

p=

1 + 1

6=

1

3.

Primenjuju¢i ovaj koe�cijent na ostale parove osoba, matrica sli£nosti ima slede¢ioblik:

1 16

23

23

016

1 12

12

56

23

12

1 13

13

23

12

13

1 13

0 56

13

13

1

.

Na osnovu vrednosti iz matrice sli£nosti zaklju£ujemo da su osobe 2 i 5 najsli£nijedok osobe 1 i 5 imaju najmanje sli£nosti. 4

3.2 Mere rastojanja za parove promenljivih

Do sada smo de�nisali mere rastojanja i sli£nosti za parove elemenata. Me-�utim, £e²¢e se javlja problem grupisanja promenljivih. U tom slu£aju, za procenusli£nosti, naj£e²¢e se koriste koe�cijenti korelacije. Visoka korelacija pokazuje sli£-nost, a slaba korelacija ozna£ava nedostatak iste. Ukoliko su u pitanju binarnepromenljive, podatke moºemo prikazati pomo¢u tabela frekvencija (tabela 3.2). Ra-zlika izme�u ove tabele i tabele koju smo prethodno de�nisali je u tome ²to ovdepromenljive opisuju kategorije i za svaki par promenljivih imamo po n elemenatakoje opisujemo. Tada tabela izgleda ovako:

y

1 0 ukupno

x1 a b a+b

0 c d c+d

ukupno a+c b+d n=a+b+c+d

Tabela 3.2: Tablica frekvencija za parove promenljivih

Koe�cijent korelacije koji se primenjuje za binarne promenljive je:

r =ad− bc√

(a+ b)(c+ d)(a+ c)(b+ d). (3.5)

Page 16: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Mere rastojanja i sli£nosti 15

Koriste¢i korelacioni koe�cijent (3.5) moºemo pomo¢u χ2 statistike (r2 : χ2n) testirati

nezavisnost para promenljivih.

Primer 3. Posmatra¢emo sli£nost u pisanju prvih 10 brojeva na 11 evropskih jezika.Prikaza¢emo pore�enje jezika samo na osnovu pisanja brojeva. Kratkim pregledompravopisa brojeva u tabeli 3.4 moºemo zaklju£iti da su prva 5 jezika engleski, nor-ve²ki, danski, holandski i nema£ki dosta sli£ni. Tako�e, ima dosta sli£nosti i izme�ufrancuskog, ²panskog i italijanskog jezika, dok ma�arski ali i �nski nemaju sli£nostini sa jednim od navedenih jezika a ni me�usobno. Poljski jezik ima sli£nosti skorosa svim jezicima. Sve ove na²e zaklju£ke moºemo proveriti formiranjem tablice fre-kvencija tako ²to ¢emo porediti jezike gledaju¢i prva slova u pisanju brojeva (tabela3.3).

E No D H N Fr � I P M F

E 10

No 8 10

D 8 9 10

H 3 5 4 10

N 4 6 5 5 10

Fr 4 4 4 1 3 10

� 4 4 5 1 3 8 10

I 4 4 5 1 3 9 9 10

P 3 3 4 0 2 5 7 6 10

M 1 2 2 2 1 0 0 0 0 10

F 1 1 1 1 1 1 1 1 1 2 10

Tabela 3.3: Tablica saglasnosti prvih slova u pisanju brojeva

Na osnovu tabele 3.3 vidimo da norve²ki i engleski imaju isto prvo slovo za 8 od 10re£i kao i danski i engleski. Ostali brojevi u tabelici su dobijeni analogno. Rezultatiu tabeli potvr�uju na²e zaklju£ke da engleski, norve²ki, danski, holandski i nema£kiformiraju jednu grupu, zatim da francuski, ²panski, italijanski i poljski mogu formi-rati drugu grupu dok ma�arski i �nski ne pripadaju ni jednoj, odnosno svaki formirazasebnu grupu. 4

U dosada²njim primerima koristili smo subjektivne metode prilikom formira-nja grupa elemenata. Sada ¢emo predstaviti neke od metoda grupisanja koje neuklju£uju subjektivnost.

Page 17: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Mere rastojanja i sli£nosti 16

engle

ski(E)

norve

²ki(N

o)dansk

i(D)

holan

dski(H

)nema

£ki(N

e)fra

ncusk

i(Fr)

²pansk

i(�)

italija

nski(I)

poljsk

i(P)

ma�arsk

i(M)

�nski

(F)

one

enen

eenein

sun

uno

uno

jeden

egyyksi

two

toto

twee

zwei

deux

dos

due

dwa

ketto

kaksi

three

tretre

drie

drei

trois

tres

tretrz

yharom

kolm

e

four

�re�re

vier

vier

quatr

ecuatr

oqu

attro

cztery

negy

nelja

�ve

femfem

vijf

funf

cinq

cinco

cinqu

epie

cot

viisi

sixsek

ssek

szes

sechs

sixsei

ssei

szesc

hat

kuusi

seven

sjusyv

zeven

sieben

sept

siete

sette

siedem

het

seitse

man

eight

atte

otte

acht

acht

huit

ocho

otto

osiem

nyolc

kahdeksa

n

nine

nini

negen

neun

neuf

nueve

nove

dziew

ieckil

enc

yhdeksa

n

tenti

titie

nzeh

ndix

diez

dieci

dzies

iectiz

kymm

enen

Tabela 3.4: Pisanje brojeva na 11 jezika

Page 18: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Glava 4

Algoritmi klasterovanja

Postupak klaster analize se sastoji iz dva osnovna koraka, prvi je izbor odgova-raju¢e mere udaljenosti (sli£nosti) a drugi je izbor algoritma klasterovanja, odnosnoniza procedura za grupisanje elemenata tako da postoje male razlike unutar klastera,a velike izme�u klastera.

Postoje razli£iti algoritmi za re²avanje problema klasterovanja. Me�utim, nepostoji objektivno �najbolji� algoritam za klasterovanje jer odre�eni algoritam moºedati dobre rezultate na jednom skupu podataka, a lo²e na drugom, zato ²to klaste-rovanje zavisi od dimenzionalnosti, strukture i vrste podataka. Algoritme klastero-vanja moºemo klasi�kovati u odnosu na tipove podataka koje unosimo u algoritam,zatim na osnovu prisutnog preklapanja klastera, ali najzastupljenija je klasi�kacijana slede¢e metode:

• Hijerarhijske metode

• Nehijerarhijske metode

4.1 Hijerarhijske metode

Klasterovanje zasnovano na povezivanju, poznatije pod nazivom hijerarhij-sko klasterovanje, zasnovano je na osnovnoj ideji da su bliski elementi u ja£oj vezinego ²to su elementi koji su na ve¢oj udaljenosti. Hijerarhijski algoritmi stvarajuniz sukcesivnih particija skupa na klastere koriste¢i neki od kriterijuma. Pre toga,neophodno je najpre izra£unati udaljenost izme�u svakog novog elementa i svihostalih ve¢ odre�enih klastera. Na razli£itim rastojanjima ¢e se formirati razli£itiklasteri zajedno £ine¢i skup ugnjeºdenih klastera organizovanih u obliku drveta kojise naj£e²¢e prikazuju pomo¢u dendrograma. Ukoliko dendrogram prikaºemo ukoordinatnom sistemu, tada na x-osi moºemo rasporediti elemente dok se na y-osiobeleºavaju visine na kojoj se pojedini elementi spajaju.

Grupisanje elemenata u klastere je zasnovano na karakteristikama koje me-rimo kod svakog elementa. Uzmimo, na primer, dve karakteristike koje merimo kodsvakog elementa. U tom slu£aju, za gra�£ki prikaz podataka u cilju odre�ivanja

17

Page 19: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 18

grupa mo£emo uzeti dijagram rasturanja. Na osnovu dijagrama rasturanja moºemode�nisati prirodne grupe kao oblasti u dvodimenzionalnom prostoru sa velikom gu-stinom ta£aka koje su razdvojene od drugih oblasti, oblastima sa malom gustinomta£aka. Me�utim, ako de�ni²emo prirodne grupe na osnovu kriterijuma bliskosti,moºemo smatrati da elementi unutar grupe treba da budu bliºi jedni drugima, negoelementi u drugim grupama.

Osim gra�£kih metoda, kod kojih se subjektivnom procenom formiraju grupe,postoje i analiti£ki postupci pomo¢u kojih se prema skupu formalnih pravila vr²igrupisanje elemenata u grupe. U osnovi svih ovih metoda se nalazi matrica poda-taka, tj. matrica sa n redova (elemenata) i p kolona (promenljivih). Elementi ujednom redu odnose se na razli£ite karakteristike jednog elementa i formiraju njegovpro�l.

Dendrogram

Krajnji rezultat svih hijerarhijskih metoda grupisanja je dendrogram (tj. hi-jerarhijski drvo-dijagram). Dendrogram se moºe crtati horizontalno ili vertikalno,u zavisnosti od izbora samog istraºiva£a. Oba tipa daju iste informacije. U ovojdiskusiji predstavi¢emo vertikalni dendrogram.

Dendrogram omogu¢ava istraºiva£u da pro£ita �visinu� na kojoj su povezanielementi ili klasteri ili gde oba kombinovano formiraju novi, ve¢i klaster. Elementikoji su sli£niji jedan drugom kombinuju se na maloj visini, dok su predmeti kojise me�usobno vi²e razlikuju kombinovani na ve¢oj visini na dendrogramu. Stogarazlika u visini nam pokazuje koliko su bliske elemnti jedan drugom. �to je ve¢arazlika izme�u visina na kojima se klasteri kombinuju, lak²e moºemo uo£iti struk-turu podataka. U dendrogramu se netipi£ne vrednosti (eng. outlier) tj. podaci jakorazli£iti od ostalih uo£avaju kao izolovana grana.

Podela podataka u odre�eni broj grupa moºe se dobiti tako ²to �prese£emo�dendrogram na odgovaraju¢oj visini. Ako nacrtamo horizontalnu liniju na den-drogramu na odre�enoj visini, tada dobijamo jedno mogu¢e re²enje za grupisanjeelemenata. Broj vertikalnih linija koje se nalaze ispod te horizontalne linije ozna£avabroj klastera, a elementi koji se nalaze na kraju svih grana ispod te horizontalnelinije £ine £lanove klastera.

Jedan od problema kod hijerarhijskog klasterovanja je taj ²to ne postoji je-dinstven na£in prilikom odabira broja klastera. Na slici 4.2 a) vidimo da ukolikoprese£emo dendrogram na prikazan na£in tada dobijamo 2 klastera, dok na slici 4.2b), ukoliko prese£emo na drugom mestu, dobijamo 1 klaster i 2 zasebna elementa.

Za razliku od vertikalnih rastojanja, koja su klju£na u de�nisanju re²enja,horizontalna odstojanja izme�u elemenata su irelevantna. Program kojim crtamodendrogram je napravljen tako da se dendrogram moºe lako tuma£iti. Me�utim, zavelike skupove podataka ovaj cilj postaje nemogu¢.

Page 20: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 19

Slika 4.1: Primer dendrograma

Slika 4.2: Odre�ivanje broja klastera

Page 21: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 20

Hijerarhijske metode moºemo podeliti na dva tipa:

• Aglomerativne metode (metode udruºivanja ili spajanja)

• Divizione metode (metode razdvajanja ili deobe)

Aglomerativni hijerarhijski algoritmi polaze od toga da je svaki element samu grupi od jednog £lana. Tako, na po£etku, imamo onoliko klastera koliko imamo ielemenata. Bliske grupe se postepeno spajaju dok se na kraju ne na�u svi elementiu jednoj grupi.

Kod tehnike razdvajanja ide se obrnutim redosledom (slika 4.3), gde se odjedne grupe stvaraju dve, tako da elementi u jednoj podgrupi budu ²to udaljenijiod elemenata iz druge podgrupe. Ove podgrupe se dalje dele sve dok ne budesvaki element koji posmatramo u posebnoj grupi. Hijerarhijska podela je ura�enau n − 1 koraka. To je takozvana diviziona hijerarhijska metoda koja se, ipak, pri-menjuje mnogo re�e nego aglomerativna. U prvom koraku aglomerativne metode

postojin(n− 1)

2na£ina da se formiraju dvo£lani klasteri. Kod divizione hijerarhij-

ske metode zasnovane na istom principu imamo 2n−1− 1 na£ina da u prvom korakupodelimo grupu na dva neprazna klastera. Ovaj broj je znatno ve¢i od onog u slu-£aju aglomerativne metode. Da bi se izbegli tako veliki prora£uni, koriste se slede¢ikoraci prilikom klasterovanja:

1. U prvom koraku formiramo jedan klaster koji sadrºi svih n elemenata kojeposmatramo i koje ¢emo dalje analizirati, a tako�e ra£unamo i simetri£numatricu udaljenosti (sli£nosti) dimenzije n× n.

2. U drugom koraku traºimo par klastera koji imaju najmanje sli£nosti.

3. Delimo po£etni klaster na dva klastera, na primer, na klastere Ci i Cj.

4. Kada smo podelili klaster na Ci i Cj potrebno je da u matricu udaljenosti(sli£nosti) dodamo kolone i redove koji odgovaraju klasterima Ci i Cj. Oveudaljenosti moºemo izra£unati primenom jedne od metoda za ra£unanje kao²to su: metoda jednostrukog povezivanja, metoda potpunog povezivanja, me-toda prose£nog povezivanja, metoda Vard-a . . .

Kod ove metode se polazi od jednog klastera u kom se nalaze svi elementi, iiz njega izdvajamo po jedan element ili grupu. Algoritam ponavljamo od drugogkoraka sve dok se ne formira onoliko klastera koliko ima pojedina£nih elemenata.

Pretpostavimo sada da imamo sve informacije o odnosu izme�u n elemenataskupa A, odnosno, da imamo formiranu matricu udaljenosti D=[dij]. Kod aglome-rativne metode, na po£etku, svaki element xi ∈ A formira poseban klaster Ci

Ci = {xi}, xi ∈ A, i = 1, 2, · · · , n.

Page 22: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 21

Slika 4.3: Primer dendrograma primenom aglomerativne ili divizione metode

Nakon toga odre�uje se najbliºi par klastera, ozna£i¢emo ih sa Cp i Cq, d(Cp, Cq) =mini,j d(Ci, Cj), p, q, i, j ∈ {1, 2, · · · , n}. Klastere Cp i Cq spajamo u novi klasterCr, Cr = Cp ∪Cq. Tada su klasteri Cp i Cq zamenjeni klasterom Cr i neophodno jesada odrediti udaljenost izme�u novoformiranog klastera i preostalih klastera. Ovajpostupak ponavljamo sve dok svi klasteri ne budu spojeni.

Sli£nost izme�u klastera u sukcesivnim koracima se moºe izra£unati na vi²ena£ina i svaki od njih odre�uje novu metodu hijerarhijskog klasterovanja. Pretpo-stavimo da u nekom koraku algoritma hijerarhijskog klasterovanja imamo 3 klastera,Ci, Cj, Ck i neka su klasteri Ci i Cj najbliºi. Tada oni formiraju novi klaster Cm =Ci ∪ Cj. Metode za ra£unanje sli£nosti izme�u novog i postoje¢eg klastera su:

• Metoda jednostrukog (prostog) povezivanja (eng. single linkage), po-znata i kao metoda najbliºeg suseda.

Grupisanje se vr²i pomo¢u mera udaljenosti ili sli£nosti spajanjem najbliºihelemenata, gde termin najbliºi ozna£ava najmanju distancu ili najve¢u sli£nost.Prvo pronalazimo najbliºe klastere, u na²em slu£aju su to klasteri Ci i Cj,spajamo ih i oni sada formiraju novi klaster Cm. U slede¢em koraku merimoudaljenost izme�u klastera Cm i preostalih klastera pomo¢u formule:

d(Ci ∪ Cj, Ck) = min (d(Ci, Ck), d(Cj, Ck)).

Ovde d(Ci, Ck) i d(Cj, Ck) predstavljaju najmanje rastojanje izme�u eleme-nata iz klastera i i k i klastera j i k, respektivno. Rezultate ovog klasterova-nja moºemo predstaviti i gra�£ki, pomo¢u dendrograma na kome su klasteripredstavljeni pomo¢u grana. Grane se spajaju u £vorovima £ija je pozicijaodre�ena pomo¢u udaljenosti, odnosno, sli£nosti klastera. Dakle, klasteri se

Page 23: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 22

spajaju pomo¢u najkra¢ih veza i zbog toga ova tehnika ne moºe razlikovatislabo odvojene klastere, odnosno klastere elipti£nog oblika, kao ²to je prika-zano na slici 4.4 a). Ova metoda naj£e²¢e stavlja elemente u duga£ke i uskeklastere u obliku lanaca (slika 4.4 b)). Nedostatak ove metode je to ²to neuzima u obzir strukturu klastera i ima tendenciju da proizvodi duga£ke tankeklastere u kojima elementi u okviru jednog klastera imaju male razdaljine,a elementi koji se nalaze u klasterima na suprotnim krajevima lanca mogubiti dosta udaljeniji jedan od drugog u odnosu na elemente iz drugih klasterakoji se nalaze izme�u. Ova osobina moºe ponekad da dovede do pogre²neklasterizacije elemenata.

Slika 4.4: Metoda jednostrukog povezivanja

Primer 4. (Klasterovanje primenom metode jednostrukog povezivanja) Da bismoilustrovali metodu jednostrukog povezivanja posmatra¢emo slede¢u matricu udalje-nosti izme�u 5 elemenata:

1 2 3 4 5

1 0

2 9 0

3 3 7 0

4 6 5 9 0

5 11 10 2 8 0

U prvom koraku, svaki element formira jedan klaster, pa tako imamo 5 klastera,(1), (2), (3), (4), (5). U drugom koraku traºimo dva klastera koji su na najmanjojudaljenosti jedan od drugog. Analiziraju¢i matricu udaljenosti uo£avamo da su totre¢i, (3), i peti, (5), klaster. Dakle, oni sada formiraju novi klaster (35):

minij

(dij) = d53 = 2.

Sada menjamo matricu udaljenosti tako ²to bri²emo redove i kolone koji odgovarajuklasterima (3) i (5) a dodajemo red i kolonu koji odgovaraju novom klasteru (35),

Page 24: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 23

odnosno njegovoj udaljenosti od preostalih klastera. Pre toga je potrebno izra£unatite udaljenosti:

d(35)1 = min{d31, d51} = min{3, 11} = 3,

d(35)2 = min{d32, d52} = min{7, 10} = 7,

d(35)4 = min{d34, d54} = min{9, 8} = 8.

Redukovana matrica udaljenosti tada ima slede¢i oblik:

(35) 1 2 4

(35) 0

1 3 0

2 7 9 0

4 8 6 5 0

Posmatraju¢i sada ovu matricu uo£avamo da klasteri (1) i (35) imaju najmanjuudaljenost, d(35)1 = 3 i zbog toga sada oni formiraju novi klaster (135). Ponovora£unamo matricu udaljenosti izme�u novog klastera i preostalih klastera:

d(135)2 = min{d(35)2, d12} = min{7, 9} = 7,

d(135)4 = min{d(35)4, d14} = min{8, 6} = 6.

Ove vrednosti sada unosimo u matricu udaljenosti:

(135) 2 4(135) 0

2 7 0

4 6 5 0

Najmanju udaljenost sada imaju klasteri (2) i (4), d42 = 5, i zbog toga oni formirajunovi klaster (24). Udaljenost izme�u klastera (135) i (24) je:

d(135)(24) = min{d(135)2, d(135)4} = min{7, 6} = 6.

Krajnja matrica udaljenosti ima oblik:

(135) (24)[ ](135) 0

(24) 6 0

Page 25: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 24

Kona£no, klasteri (135) i (24) formiraju jedan klaster koji sadrºi svih 5 elemenata,(12345), pri £emu su oni spojeni na udaljenosti 6.Rezultate ovog spajanja moºemo ilustrovati i pomo¢u dendrograma (slika 4.5). 4

Slika 4.5: Dendrogram rastojanja primenom metode jednostrukog povezivanja 5elementa

Primer 5. (Metoda jednostrukog povezivanja 11 evropskih jezika) Posmatrajmotabelu 4.1 u kojoj se nalaze vrednosti koje predstavljaju razli£itost izme�u brojevaod 1 do 10 na 11 jezika. Ovu matricu smo dobili, koriste¢i Primer 3, tako ²to smood broja 10 (ukupan mogu¢i broj poklapanja prvih slova u pisanju brojeva) oduzelivrednosti iz tabele 3.3.

E No D H N Fr � I P M F

E 0

No 2 0

D 2 1 0

H 7 5 6 0

N 6 4 5 5 0

Fr 6 6 6 9 7 0

� 6 6 5 9 7 2 0

I 6 6 5 9 7 1 1 0

P 7 7 6 10 8 5 3 4 0

M 9 8 8 8 10 10 10 10 10 0

F 9 9 9 9 9 9 9 9 9 8 0

Tabela 4.1: Tablica razli£itosti prvih slova u pisanju brojeva

Page 26: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 25

Sada traºimo par elemenata koji imaju najmanju sli£nost. To su jezici danski inorve²ki, italijanski i francuski, italijanski i ²panski, £ija je udaljenost jednaka 1.Ukoliko numeri²emo jezike redosledom kojim su napisani, tada ovo moºemo zapisatina slede¢i na£in:

d32 = 1, d86 = 1, d87 = 1.

Iz tabele £itamo i da je d76 = 2. Kako u ovom koraku ne moºemo spojiti sva triklastera, 6, 7 i 8, odjednom, odlu£ujemo se da najpre spojimo klastere 6 i 8 u klaster(68) a zatim mu u slede¢em koraku dodamo i klaster 7. Tako�e, u ovom koraku,spajamo i klastere 2 i 3 u klaster (23). Nastavaljaju¢i postupak sve dok ne spojimosve klastere u jedan, dobijamo rezultate koje moºemo predstaviti dendrogramom(slika 4.6). 4

Slika 4.6: Dendrogram rastojanja primenom metode jednostrukog povezivanja 11jezika

• Metoda potpunog (kompletnog) povezivanja (eng. complete linkage),poznata i kao metoda najdaljeg suseda.

Podela elemenata u grupe kod ove metode se vr²i skoro na isti na£in kao i kodmetode jednostrukog povezivanja pri £emu je jedina razlika u tome ²to je u sva-koj fazi, rastojanje izme�u klastera, odre�eno maksimalnim rastojanjem bilokog elementa u prvom klasteru i bilo kog elementa u drugom klasteru. Metodapotpunog (kompletnog) povezivanja obezbe�uje da svi elementi u okviru kla-stera budu na nekoj najve¢oj mogu¢oj udaljenosti jedan od drugog, odnosno,da imaju najmanje sli£nosti.

Algoritam ove metode zapo£inje, kao i kod prethodnog, pronalaºenjem naj-bliºih klastera, u na²em slu£aju su to klasteri Ci i Cj. Oni nakon spajanja

Page 27: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 26

formiraju novi klaster Cm. U slede¢em koraku merimo udaljenost izme�u kla-stera Cm i preostalih klastera pomo¢u formule:

d(Ci ∪ Cj, Ck) = max (d(Ci, Ck), d(Cj, Ck)).

U ovom slu£aju d(Ci, Ck) i d(Cj, Ck) predstavljaju najve¢e rastojanje izme�uelemenata iz klastera i i k i klastera j i k, respektivno.

Primer 6. (Klasterovanje primenom metode kompletnog povezivanja) Posmatra-¢emo ponovo matricu udaljenosti kao u Primeru 4:

1 2 3 4 5

1 0

2 9 0

3 3 7 0

4 6 5 9 0

5 11 10 2 8 0

U prvom koraku imamo 5 klastera, jer svaki element formira jedan klaster. U drugomkoraku, kao i kod metode jednostrukog povezivanja, traºimo dva elementa koji suna najmanjoj udaljenosti. To su klasteri (3) i (5). Menjamo matricu udaljenostitako ²to bri²emo redove i kolone koji odgovaraju klasterima (3) i (5) i dodajemored i kolonu za klaster (35). Nove mere udaljenosti, kod ove metode, ra£unamo kaomaksimalnu udaljenost izme�u elemenata iz klastera (35) i preostalih klastera:

d(35)1 = max{d31, d51} = max{3, 11} = 11,

d(35)2 = max{d32, d52} = max{7, 10} = 10,

d(35)4 = max{d34, d54} = max{9, 8} = 9.

Nova matrica udaljenosti sada izgleda ovako:

(35) 1 2 4

(35) 0

1 11 0

2 10 9 0

4 9 6 5 0

Na osnovu ove matrice zaklju£ujemo da ¢emo u slede¢em koraku spojiti klastere (2)i (4) jer je njihovo rastojanje minimalno i iznosi d24 = 5. Sada ra£unamo rastojanjaizme�u klastera (24) i (35) kao i rastojanje klastera (24) i (1):

Page 28: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 27

d(24)(35) = max{d2(35), d4(35)} = max{10, 9} = 10,

d(24)1 = max{d21, d41} = max{9, 6} = 9.

Matrica rastojanja je tada:

(35) (24) 1(35) 0

(24) 10 0

1 11 9 0

U ovom koraku vidimo da ¢emo klasteru (24) pridruºiti klaster (1) jer je njihovorastojanje d(24)1 = 9 i ono je najmanje od svih rastojanja iz ove matrice. Dakle,sada imamo dva klastera, (124) i (35). Ostaje jo² da izra£unamo na kom rastojanju¢emo spojiti i ova dva klastera u jedan:

d(124)(35) = max{d1(35), d(24)(35)} = max{11, 10} = 11.

Ovo grupisanje moºemo prikazati i gra�£ki pomo¢u dendrograma (slika 4.7). 4

Slika 4.7: Dendrogram rastojanja primenom metode potpunog povezivanja 5 eleme-nata

Kada uporedimo sliku 4.5 i sliku 4.7 vidimo da se dendrogrami razlikuju utome ²to se element 1 kod jednostrukog povezivanja prvo priklju£uje klasteru (35)

Page 29: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 28

a kod metoda potpunog povezivanja prvo ga pridruºujemo klasteru (24). Tako�e serazlikuju i rastojanja izme�u ovih klastera.

Primer 7. (Metoda potpunog povezivanja 11 evropskih jezika) Kao i kod Primera5 koristimo tabelu razli£itosti izme�u prvih cifara brojeva od 1 do 10 pisanih na 11evropskih jezika:

E No D H N Fr � I P M F

E 0

No 2 0

D 2 1 0

H 7 5 6 0

N 6 4 5 5 0

Fr 6 6 6 9 7 0

� 6 6 5 9 7 2 0

I 6 6 5 9 7 1 1 0

P 7 7 6 10 8 5 3 4 0

M 9 8 8 8 10 10 10 10 10 0

F 9 9 9 9 9 9 9 9 9 8 0

Tabela 4.2: Tablica razli£itosti prvih slova u pisanju brojeva

Na po£etku traºimo par elemenata koji ima najmanju sli£nost. To su klasteri 2 i 3, 6i 8, 7 i 8. U prvom koraku dobijamo dva klastera, (23) i (68). Razlika izme�u metodejednostrukog i potpunog povezivanja jeste u tome ²to se matrica udaljenosti sadara£una maksimiziranjem rastojanja izme�u elemenata iz novoformiranih klastera ipreostalih klastera. Nastavljamo ovaj algoritam dok ne spojimo sve elemente u jedanklaster.Rezultate ove analize moºemo prikazati i gra�£ki pomo¢u dendrograma (slika 4.8).4

Upore�uju¢i sliku 4.6 i sliku 4.8 vidimo da i metoda jednostrukog poveziva-nja kao i metoda potpunog povezivanja spaja engleski, norve²ki i danski u jednugrupu a francuski, italijanski i ²panski u drugu grupu. Tako�e, i kod jedne i koddruge metode pridruºuje se poljski grupi gde se nalaze francuski, italijanski i ²pan-ski. Pored toga, obe metode pridruºuju ma�arski i �nski ostalim klasterima tek upretposlednjoj fazi. Me�utim, postoje i razlike kod ovih metoda kod pridruºivanjanema£kog i holandskog ostalim klasterima. Kod metode jednostrukog povezivanjanjih povezujemo u jedan klaster a zatim ih u pretposlednjem koraku pridruºujemoostalim klasterima, dok kod metode potpunog povezivanja nije tako. Ona dodajenema£ki u klaster gde se nalaze engleski, norve²ki i danski, dok holandski formiraposeban klaster sve dok ga ne spojimo sa klasterom koji sadrºi engleski, norve²ki,

Page 30: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 29

Slika 4.8: Dendrogram rastojanja primenom metode potpunog povezivanja 11 evrop-skih jezika

danski i nema£ki kao i sa klasterom gde se nalaze francuski, italijanski, ²panski ipoljski na nekom ve¢em rastojanju. Tako�e, na kraju, u jedan veliki klaster kodmetode jednostrukog povezivanja spajamo 3 klastera a kod metode potpunog pove-zivanja spajamo 2 klastera.

Klaster metoda prostog povezivanja i klaster metoda kompletnog povezivanjadaju iste rezultate u odnosu na monotone transformacije matrica sli£nosti i rastoja-nja. To zna£i da je hijerarhijska podela na klastere uvek ista (iako se elementi mogugrupisati u isti klaster na razli£itim nivoima sli£nosti). Ostale metode nemaju ovuosobinu.

• Metoda prose£nog povezivanja, ili metoda proseka (eng. average lin-

kage).

Rastojanje izme�u dva klastera kod metode proseka se ra£una kao prose£norastojanje svih parova elemenata, gde jedan £lan para pripada jednom klasterudok drugi £lan pripada drugom klasteru. Kao i kod prethodnih metoda, ra-stojanje izme�u elemenata moºe biti de�nisano kao udaljenost ili kao sli£nostelemenata.

Algoritam zapo£inje de�nisanjem matrice udaljenosti ili sli£nosti, a zatim pro-nalazimo najbliºe klastere Ci i Cj i spajamo ih u novi klaster Cm. Udaljenostizme�u novog klastera Cm i preostalih klastera ra£unamo na slede¢i na£in:

d(Ci ∪ Cj, Ck) =1

(ni + nj) · nk

·∑

u∈Ci∪Cj

∑v∈Ck

d(u, v) (4.1)

pri £emu su ni, nj i nk brojevi elemenata u klasterima Ci, Cj i Ck, redom.

Page 31: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 30

Metoda prose£nog povezivanja moºe da se koristi i za numeri£ka obeleºja i zapromenljive.

Primer 8. (Klasterovanje primenom metode prose£nog povezivanja) Posmatramomatricu udaljenosti iz Primera 4:

1 2 3 4 5

1 0

2 9 0

3 3 7 0

4 6 5 9 0

5 11 10 2 8 0

Algoritam zapo£injemo pronalaºenjem 2 najbliºa klastera, a zatim ih spajamo unovi klaster. To su klasteri (3) i (5). Novu matricu udaljenosti ra£unamo primenomformule 4.1.

d(35)1 =1

(1 + 1) · 1(d31 + d51) =

1

2· (3 + 11) = 7

d(35)2 =1

(1 + 1) · 1(d32 + d52) =

1

2· (7 + 10) = 8, 5

d(35)4 =1

(1 + 1) · 1(d34 + d54) =

1

2· (9 + 8) = 8, 5.

Sada imamo slede¢u matricu udaljenosti:

(35) 1 2 4

(35) 0

1 7 0

2 8, 5 9 0

4 8, 5 6 5 0

Najmanju udaljenost sada imaju klasteri (4) i (2) i zbog toga sada njih spajamo unovi klaster, pri £emu formiramo klastere (35), (24) i (1). Ponovo sada ra£unamorastojanje pomo¢u formule 4.1:

d(24)(35) =1

(1 + 1) · 2(d2(35) + d4(35)) =

1

4· (8, 5 + 8, 5) = 4, 25

d(24)1 =1

(1 + 1) · 1(d21 + d41) =

1

2· (9 + 6) = 7, 5

Page 32: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 31

Matrica rastojanja je:

(35) (24) 1(35) 0

(24) 4, 25 0

1 7 7, 5 0

Najmanje rastojanje imaju klasteri (24) i (35) i zbog toga oni sada formiraju klaster(2345). Na kraju, ra£unamo na kom rastojanju ¢emo povezati klastere (2345) i (1):

d(2345)1 =1

(2 + 2) · 1(d(24)1 + d(35)1) =

1

4· (7, 5 + 7) = 3, 625

Klasterovanje ovih elemenata predstavljamo i gra�£ki, pomo¢u dendrograma:

Slika 4.9: Dendrogram rastojanja sa ukr²tanjem primenom metode prose£nog pove-zivanja 5 elemenata

Kada smo primenili metodu prose£nog povezivanja na dati skup podataka vidimoda je do²lo do pojave inverzije, odnosno, dobili smo dendrogram sa ukr²tanjem.Tako�e, dendrogram moºemo prikazati i na druga£iji na£in, tako ²to ¢emo koristitiskalu koja nije monotona (slika 4.10). 4

Moºemo sada uporediti metodu jednostrukog povezivanja, potpunog povezi-vanja i metodu prose£nog povezivanja koriste¢i slike 4.5, 4.7 i 4.10. Vidimo da smokod sve tri metode prvo nastaju klasteri (35) i (24). Na slici 4.10 uo£avamo da seovde prvo spajaju klasteri (24) i (35) a zatim im se pridruºuje i klaster (1).

Page 33: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 32

Slika 4.10: Dendrogram rastojanja sa skalom koja nije monotona primenom metodeprose£nog povezivanja 5 elemenata

Primer 9. (Primena metode prose£nog povezivanja za klasterovanje 11 evropskihjezika) Kao i kod Primera 5 i Primera 7 koristimo slede¢u tabelu razli£itosti:

E No D H N Fr � I P M F

E 0

No 2 0

D 2 1 0

H 7 5 6 0

N 6 4 5 5 0

Fr 6 6 6 9 7 0

� 6 6 5 9 7 2 0

I 6 6 5 9 7 1 1 0

P 7 7 6 10 8 5 3 4 0

M 9 8 8 8 10 10 10 10 10 0

F 9 9 9 9 9 9 9 9 9 8 0

Tabela 4.3: Tablica razli£itosti prvih slova u pisanju brojeva

Prvi korak se ne razlikuje od prethodnih metoda, pa zbog toga i ovde prvo spajamoklastere 2 i 3 kao i klastere 6 i 8. Na dalje se algoritam razlikuje u na£inu ra£unanjamatrice sli£nosti (primenom formule 4.1).Na kraju, rezultate prikazujemo i gra�£kipomo¢u dendrograma (slika 4.11). 4

Page 34: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 33

Slika 4.11: Dendrogram rastojanja primenom metode prose£nog povezivanja 11evropskih jezika

Kada poredimo sliku 4.6 dendrograma jednostrukog povezivanja, sliku 4.8 den-drograma potpunog povezivanja i sliku 4.11 dendrograma prose£nog povezivanjauo£avamo da je metoda prose£nog povezivanja dosta sli£na metodi potpunog po-vezivanja. Me�utim, kako se rastojanja izme�u klastera ra£unaju na razli£it na£intada se i klasteri u ovim metodama spajaju na razli£itom rastojanju.

• Metoda Vard-a, poznata i kao metoda minimalne varijanse.

Kao i kod ostalih metoda, Vardova metoda po£inje sa n klastera, gde svakisadrºi po jedan element. Ovih n klastera se kombinuju tako da na kraju £inejedan klaster. Glavna razlika izme�u ovog algoritma i procedura povezivanja jeu postupku ujedinjenja. Algoritam Varda ne sastavlja grupe sa najmanjom di-stancom ve¢ u svakom koraku, prilikom formiranja novih klastera, maksimizirahomogenost unutar klastera. Vardova metoda je zasnovana na minimiziranju�gubitka informacija� prilikom pridruºivanja dve grupe i suma kvadrata gre-²aka se pove¢ava sa pove¢anjem gubitka informacija. Dakle, Vardov algoritamje de�nisan kao algoritam koji spaja grupe koje ¢e prouzrokovati najmanjiporast sume kvadrata gre²aka, koju de�ni²emo na slede¢i na£in:

SSE =n∑

i=1

(xi − x)′(xi − x), (4.2)

gde je xi vektor elemenata i-tog klastera i x ukupna sredina svih elemenata.

Ukupna suma kvadrata gre²aka unutar klastera (SSE, eng. sum of squared

errors) se ra£una u cilju utvr�ivanja koje se dve grupe spajaju u svakomkoraku algoritma.

Page 35: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 34

Pretpostavimo da pre po£etka grupisanja imamo n klastera. De�ni²imo SSEkao SSE = SSE1+SSE2+ · · ·+SSEn, gde je SSEi, i = 1, . . . , n suma kvadrataodstupanja svakog elementa unutar i-tog klastera od njegove sredine (centro-ida). Na svakom koraku tokom analize grupi²emo par klastera £ija kombinacijadaje najmanji porast sume kvadrata gre²aka, odnosno minimalni gubitak in-formacija. U po£etku, imamo n klastera i svaki sadrºi po ta£no jedan element.Tada je SSEi = 0, i = 1, . . . , n, pa je ukupna suma kvadrata gre²aka tako�ejednaka 0, SSE = 0. Kada su na kraju svi klasteri grupisani u jednu grupu,sumu kvadrata gre²aka ra£unamo po formuli (4.2).

Primenjuju¢i ovo na klastere Ci, Cj i Ck udaljenost moºemo izra£unati naslede¢i na£in:

d(Ci ∪ Cj, Ck) =(ni + nj) · nk

ni + nj + nk

· d2(tij, tk),

pri £emu tij ozna£ava centar klastera Ci∪Cj a tk centar klastera Ck, odnosno,d2(tij, tk) je kvadrat udaljenosti izme�u centara klastera.

Kao i kod ostalih metoda i kod Vardove metode rezultate moºemo ilustrovatipomo¢u dendrograma gde su na y-osi obeleºene vrednosti za SSE na kojimase spajaju klasteri.

Primer 10. (Primena metode Varda u ispitivanju snage sijalica) Na pet razli£itihproizvo�a£a sijalica ispitana je snaga koju daju. Sijalice su redom od 60W, 75W,100W i 150W. Na osnovu podataka snage iz tabele 4.12 za navedene sijalice formira-¢emo hijerarhisku strukturu elemenata kori²¢enjem metode Varda, a kao razdaljinuizme�u elemenata koristi¢emo kvadrat Euklidovog rastojanja. U tabeli podataka4.12 koristimo slede¢e oznake: y1-sijalica od 60W, y2-sijalica od 75W, y3-sijalica od100W, y4-sijalica od 150W, dok smo sa x1, x2, x3, x4 i x5 ozna£ili razli£ite proi-zvo�a£e sijalica. Kod ovog primera se vr²i grupisanje u odnosu na snagu koju dajusijalice.

y1 y2 y3 y4

x1 59,60 150 11,57 78,66

x2 59,28 149,30 100,34 71,05

x3 40,66 152,11 97,30 75,90

x4 63,91 147,95 95,58 77,14

x5 64,83 152,97 97,30 78,66

Tabela 4.4: Snaga sijalica razli£itih ja£ina kod razli£itih proizvo�a£a

Page 36: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 35

Ovaj problem moºemo re²iti pomo¢u programa SPSS. Nakon unosa podataka,odabira promenljivih na osnovu kojih se vr²i analiza kao i metode za analizu mo-ºemo dobiti rezultate analize. Pomo¢u ovog programa dobijamo i tabelu u kojoj jeprikazana ²ema spajanja elemenata (tabela 4.5)

Korak Kombinovanje klastera Koe�cijent Korak prvog pojavljivanja Slede¢i

Klaster 1 Klaster 2 Klaster 1 Klaster 2 korak

1 4 5 15,658 0 0 2

2 2 4 75,249 0 1 3

3 1 2 232,735 0 2 4

4 1 3 609,528 3 0 0

Tabela 4.5: �ema spajanja proizvo�a£a sijalica na osnovu njihove snage

U ovoj tabeli vidimo da se u prvoj fazi povezuju elementi 4 i 5 zato ²to je njihovorastojanje najmanje. Grupa kreirana njihovim spajanjem se pojavljuje opet u fazi 2²to nam govori poslednja kolona tabele. U fazi 2 klaster (45) se spaja sa elementom2. Ako je broj elemenata posmatranja veliki lak²e je pratiti kolonu koe�cijenata itraºiti velike skokove, nego pratiti dendrogram (slika 4.12). Na osnovu ovih podatakamoºemo odre�ivati broj grupa. 4

Slika 4.12: Dendrogram rastojanja primenom metoda Varda

Page 37: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 36

Pored navedenih aglomerativnih hijerarhijskih algoritama (metoda jednostru-kog povezivanja, metoda potpunog povezivanja, metoda prose£nog povezivanja, me-toda Varda) postoji jo² mnogo tipova, ali svi oni prate osnovni algoritam za formi-ranje grupa:

1. Po£injemo sa n klastera, od kojih svaki sadrºi ta£no po jedan element. Tako�ese, na po£etku, formira i simetri£na matrica udaljenosti (sli£nosti) dimenzijen× n, D = [dij] (S = [sij]).

2. U matrici udaljenosti (sli£nosti) traºimo par elemenata koji su na najmanjojudaljenosti (najsli£niji). Obeleºi¢emo te klastere sa Ci i Cj.

3. Spajamo ta dva klastera u jedan i tako dobijamo novi klaster Cm, Cm = Ci∪Cj.Zatim menjamo matricu udaljenosti (sli£nosti) tako ²to bri²emo redove i kolonekoji odgovaraju klasterima Ci i Cj a dodajemo red i kolonu koji odgovarajunovom klasteru Cm, odnosno njegovoj udaljenosti od preostalih klastera kojura£unamo pomo¢u neke od navedenih metoda.

Slika 4.13: Udaljenost izme�u klastera primenom algoritma (a) jednostrukog pove-zivanja, (b) potpunog povezivanja, (c) prose£nog povezivanja

4. Ponavljamo korak 2 i korak 3, n − 1 puta, odnosno, sve dok ne spojimo sveklastere u jedan zajedni£ki klaster. U toku algoritma, beleºimo vrednosti

Page 38: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 37

udaljenosti (sli£nosti) na kojima su spojeni klasteri, i na kraju ih predstavljamopomo¢u dendrograma.

Aglomerativni hijerarhijski algoritmi su jednostavni i njihova re²enja se mogu£itati iz dendrograma, ali interpretacija rezultata u tom slu£aju moºe biti subjek-tivna. Prednost ovog algoritma je to ²to nisu potrebne pretpostavke o broju klastera.Sa druge strane, nedostatak ovih metoda predstavlja to da oni ne uzimaju u obzirizvor gre²aka i varijacija pri £emu moºe do¢i do pojave ²uma ili autlajera (elemenatavan granica), koji ¢e se ili pojaviti kao dodatni klasteri ili £ak uzrokovati da se drugiklasteri spoje. Kod hijerarhijskog klasterovanja, tako�e, ne postoji mogu¢nost daalgoritam poni²ti ono ²to je prethodno napravio. To zna£i da jednom spojena dvaelementa, koji su moºda bili �pogre²no� grupisani u ranoj fazi, ne mogu biti ponovorazdvojeni, niti razdvojeni elementi mogu biti ponovo spojeni.

Prilikom re²avanja odre�enog problema, poºeljno je primeniti nekoliko razli£i-tih metoda klasterovanja, pa £ak i u okviru jedne metode, nekoliko razli£itih tipovamera rastojanja (sli£nosti). Ovo radimo zato ²to sama klaster analiza nije jedanspeci�£an algoritam, ve¢ je svaki problem druga£iji od prethodnog. Odgovaraju¢ialgoritam za grupisanje, funkcije rastojanja, broj o£ekivanih klastera. . . zavise odpojedina£nog skupa podataka kao i namene kori²¢enja rezultata.

Stabilnost re²enja dobijenog hijerarhijskom metodom moºemo proveriti prime-nom algoritma pre i posle dodavanja nekih malih gre²aka me�u podacima. Ukolikosu grupe dobro odvojene, tada ne bi trebalo da postoji razlika izme�u klastera prei posle ubacivanja gre²ke.

Tako�e se mogu javiti iste vrednosti u matrici udaljenosti (sli£nosti) i onemogu prouzrokovati vi²estruka re²enja za klasterovanje. To povla£i i vi²e razli£itihdendrograma za jedan isti problem. Ovo ne mora da predstavlja problem prilikomodre�ivanja grupacija, ali je neophodno utvrditi sve mogu¢e varijacije.

Neke mogu¢e strategije procene valjanosti dobijenih rezultata su:

1. Ponavljanje - Verovatno najbolji na£in provere dobijenog klasterskog re²enjajeste ponavljanje postupka na drugom slu£ajno odabranom uzorku;

2. Testiranje razlika izme�u klastera na promenljivama kori²¢enim za njihovoformiranje - Ovaj pristup podrazumeva kori²¢enje multivarijacione analize va-rijanse, ili vi²e jednostavnih analiza varijansi ili diskriminacione analize zavisnood broja promenljivih i klastera;

3. Testiranje razlika izme�u klastera na nekim relevantnim eksternim promen-ljivama - Postupak je identi£an kao i prethodni ali se testiranje razlika me�uklasterima vr²i na nekim relevantnim promenljivama koje nisu kori²¢ene upostupku klasterovanja;

4. Monte Karlo metode - Odnose se na sloºene postupke pore�enja dobijenogre²enja sa re²enjem koje predstavlja simulaciju na slu£ajno odabranim broje-vima.

Page 39: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 38

Kod nekih metoda hijerarhijskog klasterovanja i kod nekih skupova podatakamoºe se pojaviti inverzija. Inverzija se javlja ukoliko neki element priklju£imo posto-je¢em klasteru na manjoj udaljenosti (ve¢oj sli£nosti) od prethodnog pridruºivanja.Jedan primer pojave inverzije prikazan je na slici 4.14.

Slika 4.14: Pojava inverzije prilikom klasterovanja

Na slici vidimo da se klasteri A i B spajaju na rastojanju 20. U slede¢emkoraku klasteru (AB) dodajemo klaster C na rastojanju 32. Me�utim, vidimo da seklaster D dodaje klasteru (ABC) na manjem rastojanju, 30, nego ²to je klaster Cpridruºen klasteru (AB). Na slici (i) inverzija ukazuje na dendrogram sa ukr²tanjem,dok na slici (ii) inverzija se odnosi na dendrogram £ija skala nije monotona.

Razlike izme�u tehnika grupisanja

Nijedna od postoje¢ih tehnika grupisanja podataka u klastere se nije izdvojilakao najbolja i najupotrebljivanija. Problem je u tome ²to razli£ite tehnike moguda daju sasvim razli£ite rezultate. Veliki uticaj ima priroda originalnih podataka.Ukoliko postoji odre�eni stepen preklapanja izme�u podataka, vrlo je mogu¢e da ¢erazli£ite tehnike grupisanja dati i razli£ite rezultate. Potrebno je poznavati su²tinusvake metode, da bi dobijeni rezultati mogli da se protuma£e i da se usvoji rezultatdobijen metodom koja najvi²e odgovara prirodi samog problema. �esto su najboljioni rezultati koji se poklapaju sa intuicijom istraºiva£a. Tada matemati£ka metodasluºi samo za potvrdu hipoteze koja je unapred postavljena. Neki od zaklju£aka suda metoda prostog povezivanja £esto daje lo²e rezultate, a metoda proseka, kao imetoda Varda dobre. Tako�e se moºe desiti i da ne postoji nikakva prirodna podelagrupe elemenata na manje grupe, svaka od ovih metoda ¢e te grupe ipak podeliti.Tako da moºemo do¢i do pogre²nih zaklju£aka da postoji podela na manje grupe, au prirodi takva podela, a ni bilo kakva druga, ne postoji.

Page 40: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 39

Na slici 4.15 su prikazani neki od mogu¢ih rasporeda originalnih podataka.U slu£aju a) i b) sve tehnike ¢e verovatno dati iste klastere. U slu£aju c) neketehnike moºda ne¢e uspeti da izdvoje dva klastera. U slu£ajevima d), e) i f) ¢eve¢ina tehika imati pote²ko¢a u de�nisanju dva klastera. Veliku ulogu u grupisanjuima subjektivni faktor, odnosno sam pristup u odre�ivanju promenljivih na osnovukojih ¢e se vr²iti analiza. Izabrane promenljive moraju biti relevantne u odnosu naklasi�kaciju koja se traºi.

Slika 4.15: Mogu¢i rasporedi originalnih podataka kada postoje dva klastera

Odabir optimalnog broja klastera

Nakon izvr²ene klaster analize, potrebno je odabrati �najbolje� re²enje. Po-stoji niz na£ina na koje se to moºe u£initi, neki prili£no neformalni i subjektivni, aneki ne²to formalniji. U nastavku se opisuje jedna od neformalnih metoda.

Kada se sprovodi hijerarhijska analiza klastera, proces se moºe predstavitina dijagramu poznatom kao dendrogram. Ovaj dijagram ilustruje koji klasteri suspojeni u svakoj fazi analize i rastojanje izme�u klastera u trenutku pridruºivanja.U cilju odre�ivanja broja grupa, gra�£ki prikaz hijerarhijskog grupisanja, odnosnodendrogram, moºemo �prese¢i� na odre�enoj visini izborom ºeljenog broja grupa(kao na slici 4.2). Time smo dobili jedno od mogu¢ih re²enja problema grupisanja.Problem izbora broja grupa se moºe re²iti pra¢enjem vrednosti mere odstojanja prikojoj se dve grupe udruºuju u jednu. Kre¢u¢i se od prvog ka n− 1 koraku, vrednostmere rastojanja ¢e rasti, ali u po£etku sporije, a kasnije brºe tj. eksponencijalno.Ako se u okolini o£ekivanog broja grupa u odre�enom koraku zabeleºi velika promenavrednosti mere rastojanja izme�u grupa, tada taj broj grupa koji je prethodio tomkoraku progla²avamo optimalnim.

Page 41: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 40

4.2 Nehijerarhijske metode

Hijerarhijske metode grade klastere korak po korak, sve dok se sve jedinice po-smatranja ne na�u na dendrogramu. Tek nakon toga se pristupa odre�ivanju brojaklastera koji imaju zna£aja za istraºiva£a. Nehijerarhijske metode ili metode ra²-£lanjivanja polaze od unapred odre�enog broja klastera koji istraºiva£ sam de�ni²ena osnovu iskustva, ranijih analiza ili preporuke statisti£kog softvera. Nakon togase pristupa razvrstavanju elemenata koje posmatramo. Kod nehijerarhijske metodevaºi da svaki klaster sadrºi bar jedan element i svaki element pripada ta£no jednomklasteru (nepreklapaju¢e klasterovanje). Nasuprot hijerarhijskim metodama klaste-rovanja, nehijerarhijske metode ne podrazumevaju gra�£ki prikaz podataka pomo¢udendrograma. Za razliku od hijerarhijskih metoda, ovde se dozvoljava preme²tanjeelemenata iz ranije formiranih grupa. Nehijerarhijske metode klasterovanja su brºe,pouzdanije od hijerarhijskih, pretpostavlja se da je broj klastera poznat unapred,ili kao kod nekih metoda, varira tokom postupka klasterovanja. Glavni problemsa kojim su suo£eni svi nehijerarhijski postupci klasterovanja je kako odrediti brojklastera.

Postoje dva na£ina za razvrstavanje elemenata. Prvi je da se privremeno, naslu£ajan na£in, odrede elementi koji predstavljaju ta£ke grupisanja, pa se na osnovuudaljenosti od tih elemenata svi ostali elementi sme²taju u odgovaraju¢i klaster.Odre�uje se onoliko ta£aka grupisanja koliko je unapred de�nisano klastera. Na-kon toga se preme²taju elementi iz jednog u drugi klaster da bi bili ²to homogeniji.Taj postupak se ponavlja nekoliko puta. Drugi na£in ra²£lanjivanja je da se razvr-stavanje odvija na osnovu nekog unapred zadatog kriterijuma. Jedna od mogu¢ihstrategija za usvajanje ta£aka grupisanja jeste da na po£etku koristimo hijerarhijskipristup kako bi utvrdili koliko klastera postoji, a zatim da koristimo centre dobijeneiz ovog kao po£etne centre u nehijerarhijskoj metodi.

Naj£e²¢e kori²¢ena nehijerarhijska tehnika klasterovanja je algoritamK-sredi-na (eng. K-means), koji je inspirisan principima analize varijanse. U stvari, moºese smatrati kao analiza varijanse u obrnutom redosledu. Ako �ksiramo broj klasterai ozna£imo ih sa K, algoritam ¢e po£eti sa K slu£ajnih klastera, a zatim preme²tatielemente iz jednog u drugi klaster sa ciljem minimiziranja varijanse unutar klasterai maksimiziranja varijanse izme�u klastera.

Re²enje dobijeno ovakvom metodom (podela elemenata u klastere) ne morabiti jedinstveno. Algoritam ¢e samo prona¢i lokalni minimum sume kvadrata gre-²aka (SSE). Preporu£uje se da primenimo metodu koriste¢i razli£it broj klastera kaoi razli£ite ta£ke grupisanja a zatim od njih izabrati onaj koji daje minimalnu vred-nost kvadrata gre²ke.

Tipi£ni algoritam za metod ra²£lanjivanja podrazumeva slede¢e korake:

1. Proizvoljno odre�ujemo privremene ta£ke grupisanja.

2. Pronalazimo ta£ku u prostoru unutar svakog klastera tako da su udaljenosti

Page 42: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 41

elemenata svedene na minimum (udaljenost izme�u elemenata uglavnom ra-£unamo pomo¢u Euklidove metrike). Ova ta£ka se naziva klasterov centroid.Centroidi se uglavnom nalaze tamo gde je najve¢a gustina elemenata.

3. Centroidi se koriste kao nove ta£ke grupisanja za nove klastere jer su mnogorelevantniji za formiranje klastera nego inicijalne, proizvoljne ta£ke.

4. Ra£unamo udaljenosti svih elemenata koje posmatramo u odnosu na centroideradi zapo£injanja nove iteracije.

5. Odre�ujemo nove centroide unutar klastera.

6. Nastavljamo iteraciju sve do situacije kada preseljavanje jedinica posmatranjaiz jednog u drugi klaster vi²e ne doprinosi pobolj²anju homogenosti unutarklastera.

Primer 11. (Primena metode K-sredine u klasterovanju) Posmatra¢emo vrednosti 2promenljive X1 i X2 merenih na 4 elementa A, B, C i D. Vrednosti ovih promenljivihprikazali smo u tabeli:

opservacije

elementi x1 x2

A 5 3

B -1 1

C 1 -2

D -3 -2

Podeli¢emo sada ove elemente u K=2 klastera tako da elementi unutar jednog kla-stera imaju ²to manju a elementi iz razli£itih klastera ²to ve¢u udaljenost.U prvom koraku formiramo dve proizvoljne grupe, na primer neka jednu grupu £ineelementi A i B a drugu C i D. Zatim ra£unamo centroide (sredine) ovih grupa,(x1,x2):

koordinate centroida

klasteri x1 x2

(AB)5 + (−1)

2= 2

3 + 1

2= 2

(CD)1 + (−3)

2= −1

−2 + (−2)

2= −2

Page 43: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 42

U drugom koraku ra£unamo udaljenost svakog elementa od centroida pomo¢u Eu-klidove metrike i, ukoliko je potrebno, preme²tamo elemente u neku drugu grupu.Ukoliko se to desi, odnosno, ukoliko premestimo neki element, tada je neophodnoponovo izra£unati koordinate centroida. Za ra£unanje i-te koordinate centroida,i = 1, 2, . . . , p, koristimo slede¢e formule:

xi,novo =nxi + xjin+ 1

ako je j -ti element dodat grupi

xi,novo =nxi − xjin− 1

ako je j -ti element izba£en iz grupe

Ovde je sa n ozna£en ukupan broj elemenata u grupi pre preme²tanja sa centroidomx = (x1, x2, . . . , xp).

Kao ²to smo ve¢ videli u tabeli, koordinate centroida grupa (AB) i (CD) su (2,2) i(-1,-2), respektivno. Ukoliko element A sa koordinatama (5,3) prebacimo u grupu(CD), neophodno je ponovo izra£unati koordinate centroida novih grupa, odnosno,grupa (B) i (ACD):

koordinate centroida

klasteri x1,novo x2,novo

(B)2 · 2− 5

2− 1= −1

2 · 2− 3

2− 1= 1

(ACD)2 · (−1) + 5

2 = 1= 1

2 · (−2) + 3

2 + 1= −0, 33

Sada ¢emo izra£unati kvadrat Euklidovih rastojanja. Prvo ra£unamo rastojanje uko-liko nismo premestili element A:

d2(A, (AB)) = (5− 2)2 + (3− 2)2 = 10,

d2(A, (CD)) = (5 + 1)2 + (3 + 2)2 = 61.

Rastojanja izme�u elemenata ukoliko premestimo element A:

d2(A, (B)) = (5 + 1)2 + (3− 1)2 = 40,

d2(A, (ACD)) = (5− 1)2 + (3 + 0, 33)2 = 27, 09.

Odavde vidimo da je A bliºi centroidu grupe (AB) nego ²to je centru grupe (ACD)i zbog toga ne¢emo preme²tati element A iz grupe (AB).

Page 44: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 43

Pretpostavimo sada da smo prebacili element B iz grupe (AB) u grupu (CD). Ra-£unamo prvo udaljenosti ukoliko nismo premestili element B:

d2(B, (AB)) = (−1− 2)2 + (1− 2)2 = 10,

d2(B, (CD)) = (−1 + 1)2 + (1 + 2)2 = 9.

Ukoliko sada premestimo element B u grupu (CD):

d2(B, (A)) = (−1− 5)2 + (1− 3)2 = 40,

d2(B, (BCD)) = (−1 + 1)2 + (1 + 1)2 = 4.

Dakle, B je bliºe centroidu grupe (BCD) i zbog toga ga prebacujemo u tu grupu.Sada imamo klaster koja se sastoji od jednog elementa (A) sa koordinatama centro-ida (5,3) i klaster sa tri elementa (BCD) gde su koordinate centroida (-1,-1).

Razmotri¢emo sada i preme²tanje elementa C. Rastojanje elementa C od klastera(A) i (BCD) ukoliko ga nismo premestili:

d2(C, (A)) = (1− 5)2 + (−2− 3)2 = 41,

d2(C, (BCD)) = (1 + 1)2 + (−2 + 1)2 = 5.

Ukoliko je element C preme²ten u grupu (A):

d2(C, (AC)) = (1− 3)2 + (−2− 5)2 = 10, 25,

d2(C, (BD)) = (1 + 2)2 + (−2 + 5)2 = 11, 25.

Zaklju£ujemo da je element C bliºi centroidu klastera (BCD) i zbog toga ga ne¢emoprebacivati u klaster (A).

Ovakvim postupkom zaklju£ujemo da elemente A, B, C i D moºemo podeliti u 2klastera (A) i (BCD). Rastojanja izme�u elemenata i klastera moºemo predstavititabelom:

kvadrat rastojanja od centroida

elementi

klasteri A B C D

(A) 0 40 41 89

(BCD) 52 4 5 5

Page 45: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 44

Suma kvadrata rastojanja od centroida za

klaster A : 0

klaster (BCD) : 4 + 5 + 5 = 14.

Postoji jo² jedan na£in pomo¢u kojeg moºemo podeliti elemente u K=2 klastera.Primenjujemo u tom slu£aju slede¢u formulu:

minE =∑

d2i,c(i)

gde je d2i,c(i) kvadrat rastojanja elementa i od centroida (sredine) klastera kome pri-pada. Minimum traºimo me�u svim mogu¢im podelama elemenata u K=2 klastera.Elemente A, B, C i D moºemo podeliti u 2 klastera na 7 na£ina:

A, (BCD),

B, (ACD),

C, (ABD),

(AB), (CD),

(AC), (BD),

(AD), (BC).

Na primer, za klastere A i (BCD) moºemo izra£unati slede¢e vrednosti:

A : d2A,c(A) = 0

(BCD) : d2B,c(B) + d2C,c(C) + d2D,c(D) = 4 + 5 + 5 = 14

Tada je∑d2i,c(i) = 0 + 14 = 14.

Za ostale parove moºemo izrac£unati∑d2i,c(i) na analogan na£in:

B, (ACD) :∑d2i,c(i) = 48, 7,

C, (ABD) :∑d2i,c(i) = 27, 7,

D, (ABC) :∑d2i,c(i) = 31, 3,

Page 46: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Algoritmi klasterovanja 45

(AB), (CD) :∑d2i,c(i) = 28,

(AC), (BD) :∑d2i,c(i) = 27,

(AD), (BC) :∑d2i,c(i) = 51, 3.

Na osnovu ovih rezultata moºemo da zaklju£imo da minimalnu vrednost dobijamoukoliko formiramo dva klastera tako da prvi zadrºi samo element A a da se u dru-gom nalaze elementi (BCD), ²to je analogno zaklju£ku koji smo dobili i primenomprethodnog na£ina. 4

Da bismo utvrdili da li se dobijeni klasteri zaista me�usobno razlikuju moºemokoristiti neku od slede¢ih tehnika:

• Vizuelno posmatranje gra�£kih prikaza (dendrograma, razli£itih linijskih dija-grama . . . );

• Testiranje statisti£ke zna£ajnosti razlika izme�u klastera preko, na primer,analize varijanse;

• Upore�ivanje dobijenih rezultata sa rezultatima diskriminacione analize nadistim podacima;

• Posmatranje klastera u kontekstu karakteristika originalnih promenljivih naosnovu kojih je izvr²ena analiza.

Nakon klaster analize postavlja se pitanje koji broj klastera je od najve¢egzna£aja. Istraºiva£ sam treba da prosudi, u kontekstu svog istraºivanja, koji brojklastera i sa kakvim karakteristikama mu je potreban. Na dono²enje odluke uticajmogu da imaju slede¢i faktori:

• Statisti£ka zna£ajnost razlike izme�u klastera;

• Veli£ina klastera;

• Veli£ina uzorka;

• Dekompozicija klastera na nove klastere;

• Osobine klastera koje imaju smisla u kontekstu karakteristika originalnih pro-menljivih i samog istraºivanja;

• Karakteristike klastera koje su od interesa za istraºiva£a (menadºment predu-ze¢a);

• Karakteristike klastera u kontekstu promenljivih koje nisu uklju£ene u analizu(demografske, politi£ke karakteristike i sli£no).

Ovi algoritmi dobro funkcioni²u u pronalaºenju klastera sfernog oblika, kao iprilikom rada sa malim do umereno velikim bazama podataka. Za pronalaºenje kla-stera sa kompleksnijim oblicima i za klasterovanje velikog skupa podataka, potrebnoje pro²iriti ove metode.

Page 47: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Glava 5

Zaklju£ak

U ovom master radu obra�ivana je klaster analiza koja predstavlja istraºiva£kutehniku za analizu podataka i kao takva koristi se kao pogodan alat u mnogimoblastima nauke.

U radu smo se prvo dotakli de�nisanja razli£itih tipova mera rastojanja i sli£-nosti koje primenjene na istom skupu podataka mogu dati razli£ita re²enja. Zbogtoga je korisno znati koju meru kada treba primeniti. Zatim smo opisali i neke odnaj£e²¢e kori²¢enih metoda za klasterovanje.

Kao ²to smo videli, izbori koje istraºiva£ treba da napravi su mera udaljeno-sti, metoda klasterovanja i, £esto, broj klastera. Glavni problem u praksi jeste dase ne moºe izdvojiti objektivno �najbolji� algoritam za klasterovanje, jer odre�enialgoritam moºe dati dobre rezultate na jednom skupu podataka, a lo²e na drugom,zato ²to klasterovanje zavisi od dimenzionalnosti, strukture i vrste podataka.

46

Page 48: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

47

Literatura

[1] R. A. Johnson, D. W. Wichern, Applied Multivariate Statistical Analysis, sixthedition, Pearson Prentice Hall, 2007.

[2] W.Härdle, L. Simar, Applied Multivariate Statistical Analysis, second edition,Springer, 2007.

[3] W. Härdle, Z. Hlávka, Multivariate Statistics: Exercises and Solutions, Springer,2007.

[4] A. J. Izenman Modern Multivariate Statistical Techniques, Springer, 2008.

Page 49: KLASTER ANALIZA U STATISTI KOM ZAKLjU IVANjU Master rad · Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo£ekivano grupisanje jedinica posma-tranja, onda postoji

Biogra�ja

Katarina Krsti¢ ro�ena je 12. januara 1993. godine u Pirotu. Osnovnu ²kolu�8. septembar� u Pirotu zavr²ila je 2008. godine kao nosilac �Vukove diplome�. Istegodine je upisala Gimnaziju u Pirotu, prirodno-matemati£ki smer, koju je zavr²ila2012. godine sa odli£nim uspehom. Tokom ²kolovanja u£estvovala je na brojnimtakmi£enjima iz matematike, biologije i hemije.

Osnovne akademske studije upisala je ²kolske 2012/2013. godine na Depart-manu za matematiku Prirodno-matemati£kog fakulteta u Ni²u i zavr²ila ih 2016.godine. Iste godine upisala je master akademske studije na smeru verovatno¢a, sta-tistika i �nansijska matematika. Poslednji ispit na master akademskim studijamapoloºila je jula 2018. godine.

48