64
Sveuˇ ciliˇ ste J. J. Strossmayera u Osijeku Odjel za matematiku Diplomski studij financijske i poslovne matematike ˇ Zeljka Kiˇ s Klaster analiza i njena primjena u bankarstvu Diplomski rad Osijek, 2012.

Klaster analiza i njena primjena u bankarstvumdjumic/uploads/diplomski/KIš04.pdf · Klaster analizom je mogu ce posti ci bilo koji od sljede ca tri cilja ili njihovu kombinaciju:

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

  • Sveučilǐste J. J. Strossmayera u OsijekuOdjel za matematiku

    Diplomski studij financijske i poslovne matematike

    Željka Kǐs

    Klaster analiza i njena primjenau bankarstvu

    Diplomski rad

    Osijek, 2012.

  • Sveučilǐste J. J. Strossmayera u OsijekuOdjel za matematiku

    Diplomski studij financijske i poslovne matematike

    Željka Kǐs

    Klaster analiza i njena primjenau bankarstvu

    Diplomski rad

    Mentor: prof. dr. sc. Nataša ŠarlijaKomentor: prof. dr. sc. Mirta Benšić

    Osijek, 2012.

  • Sažetak: U radu je promotren problem grupiranja podataka u relativno homogene

    grupe. Tehnika koja se najčešće koristi za ovu namjenu je klaster analiza. Klaster ana-

    liza je opisana s teorijskog i praktičnog aspekta. Dani su koraci za provodenje klaster

    analize u praksi i provedeno je empirijsko istraživanje. Analiza je provedena na stvarnim

    podacima jedne hrvatske banke za segmentaciju klijenata. Dva konačna rješenja su

    opisana i interpretirana.

    Ključne riječi: klaster analiza, k-means algoritam, Wardova metoda, kriterij najma-

    njih kvadrata.

    Abstract: Problem of grouping data into relatively homogenous groups is presented.

    Cluster analysis is the most used technique for this purpose. Cluster analysis is de-

    scribed from theoretical and practical aspect. Steps for analysis in practice are given

    and empirical research is done. Analysis is performed on real data set from one of the

    Croatian banks for client segmentation. Two final solutions are described and inter-

    preted.

    Key words: cluster analysis, k-means algorithm, Ward’s method, Least squares cri-

    teria.

  • Sadržaj

    1 UVOD 1

    2 POJAM KLASTER ANALIZE 2

    2.1 Nedostaci klaster analize . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    3 KORACI PRI PROVODENJU KLASTER ANALIZE 4

    3.1 Postavljanje ciljeva klaster analize . . . . . . . . . . . . . . . . . . . . . 4

    3.1.1 Cilj istraživanja . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    3.1.2 Odabir varijabli za klasteriranje . . . . . . . . . . . . . . . . . . 5

    3.2 Dizajniranje istraživanja . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    3.2.1 Veličina i reprezentativnost uzorka . . . . . . . . . . . . . . . . 6

    3.2.2 Otkrivanje stršećih vrijednosti (outliera) . . . . . . . . . . . . . 6

    3.2.3 Standardizacija podataka . . . . . . . . . . . . . . . . . . . . . . 7

    3.2.4 Odabir mjere sličnosti objekata . . . . . . . . . . . . . . . . . . 8

    3.3 Kreiranje klastera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    3.4 Interpretacija klastera . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    3.5 Validacija i profiliranje klastera . . . . . . . . . . . . . . . . . . . . . . 10

    3.5.1 Cross-validacija . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    3.5.2 Profiliranje klastera . . . . . . . . . . . . . . . . . . . . . . . . . 11

    4 METODE KLASTERIRANJA 12

    4.1 Hijerarhijske metode klasteriranja . . . . . . . . . . . . . . . . . . . . . 12

    4.1.1 Metode povezivanja . . . . . . . . . . . . . . . . . . . . . . . . . 13

    4.1.2 Centroidna metoda . . . . . . . . . . . . . . . . . . . . . . . . . 18

    4.1.3 Wardova metoda . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    4.1.4 Prednosti i nedostaci hijerarhijskog klasteriranja . . . . . . . . . 19

    4.2 Nehijerarhijske metode klasteriranja . . . . . . . . . . . . . . . . . . . . 20

    4.2.1 Prednosti i nedostaci nehijerarhijskog klasteriranja . . . . . . . 21

    4.3 Odluka o broju klastera . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    5 MATEMATIČKO ZNAČENJE KLASTER

    ANALIZE 23

    5.1 Grupiranje objekata s jednim obilježjem . . . . . . . . . . . . . . . . . 24

    5.2 Grupiranje objekata s dva obilježja . . . . . . . . . . . . . . . . . . . . 28

    5.3 k-means algoritam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    5.4 Odabir optimalnog broja klastera . . . . . . . . . . . . . . . . . . . . . 32

    6 EMPIRIJSKI DIO: Segmentacija klijenata banke klaster analizom 34

    6.1 Prethodna istraživanja . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    6.2 Opis uzorka i varijabli za modeliranje . . . . . . . . . . . . . . . . . . . 36

  • 6.3 Provodenje klaster analize po koracima . . . . . . . . . . . . . . . . . . 38

    6.3.1 Postavljanje ciljeva i odabir varijabli za klasteriranje . . . . . . 38

    6.3.2 Dizajniranje istraživanja . . . . . . . . . . . . . . . . . . . . . . 38

    6.3.3 Kreiranje klastera: Rješenje 1 . . . . . . . . . . . . . . . . . . . 39

    6.3.4 Interpretacija i profiliranje klastera iz Rješenja 1 . . . . . . . . . 41

    6.3.5 Validacija klastera iz Rješenja 1 . . . . . . . . . . . . . . . . . . 48

    6.3.6 Kreiranje klastera: Rješenje 2 . . . . . . . . . . . . . . . . . . . 49

    6.3.7 Interpretacija i profiliranje klastera iz Rješenja 2 . . . . . . . . . 51

    6.3.8 Validacija klastera iz Rješenja 2 . . . . . . . . . . . . . . . . . . 54

    6.4 Zaključak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    7 PRIMJENA KLASTER ANALIZE U BANKARSTVU 55

    8 ZAKLJUČAK 56

  • 1

    1 UVOD

    Klaster analiza (engl. cluster analysis) je jedna od metoda multivarijantne analize.

    Multivarijantna analiza se temelji na principima multivarijantne statistike, koja uklju-

    čuje promatranje i analizu dviju ili vǐse varijabli istovremeno. Multivarijantna ana-

    liza se može provoditi u smislu istraživanja ili potvrdivanja veza medu varijablama.

    Istraživačke metode su vrlo korisne za razumijevanje, često vrlo kompleksnih, multi-

    varijantnih veza medu varijablama.

    Znanstvenici i istraživači se često susreću s problemima koji zahtijevaju podjelu

    podataka u grupe, bilo da je riječ o proizvodima, tvrtkama ili ljudima, te njihovim

    osobinama i sklonostima. Razlozi za to mogu biti različiti, od činjenice da je lakše

    obradivati manje grupe podataka, do potrebe za pronalaskom smislenih grupa unutar

    populacije. Najčešće korǐstena tehnika za ovu namjenu je klaster analiza i ona je jedan

    od prvih koraka prilikom rudarenja podataka (engl. data mining).

    Koristi se u prirodnim i društvenim znanostima, u biologiji za grupiranje svih živih

    organizama, u psihologiji za klasifikaciju zasnovanu na osobnosti i drugim osobnim

    značajkama, u ekonomiji i poslovanju za segmentacijsku analizu tržǐsta i ciljani mar-

    keting (engl. target marketing), sociologiji, te mnogim drugim područjima istraživanja.

    Cilj ovog rada je opisati klaster analizu s teorijskog aspekta, te u empirijskom dijelu

    prikazati moguću primjenu u kreditnom skoringu.

    U drugom poglavlju je opisan pojam klaster analize i njezini nedostaci.

    U trećem poglavlju je opisano provodenje klaster analize u pet koraka. Opisani

    su ciljevi koji se mogu postići klaster analizom. Objašnjeno je na što treba paziti

    prilikom odabira varijabli za klasteriranje, te kako dizajnirati istraživanje i odabrati

    mjeru sličnosti. Ukratko su opisane metode klasteriranja i nakon toga interpretacija

    klastera, ta kao završni korak, validacija i profiliranje klastera.

    U četvrtom poglavlju su detaljno opisane metode klasteriranja. Opisane su najčešće

    korǐstene metode hijerarhijskog i nehijerarhijskog klasteriranja, te njihove prednosti i

    nedostaci.

    Peto poglavlje je posvećeno matematičkoj osnovi klaster analize. Opisano je grupi-

    ranje objekata na temelju jednog i dva obilježja, te k-means algoritam.

    Šesto poglavlje je posvećeno empirijskom dijelu rada. Klaster analiza je provedena

    na stvarnim podacima jedne hrvatske banke za segmentaciju klijenata. Odabrana su

    dva konačna rješenja.

    U sedmom poglavlju je opisana primjena klaster analize u bankarstvu, te problemi

    do kojih može doći prilikom primjene.

  • 2

    2 POJAM KLASTER ANALIZE

    Pojam klaster analize se prvi puta spominje 1939. godine [1]. Klaster analiza je is-

    traživačka metoda, čija je osnovna namjena grupiranje objekata na temelju karakteris-

    tika koje posjeduju. Grupe koje pri tome nastaju i koje posjeduju zajedničke osobine,

    nazivaju se klasteri (engl. cluster). Cilj klaster analize je pronalaženje optimalnog grupi-

    ranja, takvog da je sličnost medu objektima unutar svake grupe maksimalna, a sličnost

    izmedu grupa minimalna. Objekti u istom klasteru su sličniji jedni drugima, nego što

    su objektima u drugim klasterima.

    Klaster analiza se razlikuje od klasifikacije. Kod klasifikacije je unaprijed poznat

    broj i struktura grupa, a cilj je rasporediti podatke u odgovarajuće grupe. Nasuprot

    tome, klaster analiza ne zahtjeva nikakve pretpostavke o broju i strukturi grupa u koje

    će podaci biti rasporedeni, nego se grupiranje vrši na osnovi sličnosti medu podacima.

    Ovdje se pojavljuje problem definiranja sličnosti, jer to uključuje veliku dozu subjek-

    tivnosti. Različiti odabiri mjere sličnosti, odnosno udaljenosti medu podacima, dovest

    će do formiranja različitih grupa.

    Klaster analiza je prvenstveno namijenjena grupiranju objekata (osoba, proizvoda,

    ponašanja ili bilo kakvih entiteta), ali može se koristiti i za grupiranje varijabli, uz

    primjenu odgovarajuće mjere sličnosti. Za grupiranje varijabli je pogodnija faktorska

    analiza (vidi [4]). U ovom radu je naglasak stavljen na grupiranje objekata i pojam

    ”objekt” u daljnjem tekstu označava slučajeve nad kojima se provodi klaster analiza.

    Objekti mogu imati jednu ili vǐse karakteristika, predstavljenih varijablama, prema ko-

    jima se grupiraju u klastere. Dakle, u matrici podataka se u stupcima nalaze varijable,

    a u redovima objekti i klasteriranje se provodi po redovima.

    Prilikom provodenja klaster analize, istraživači se susreću sa sljedećim pitanjima:

    • Kako mjeriti sličnost izmedu objekata?

    • Kako formirati klastere?

    • Koliko klastera formirati?

    Odgovori na ova pitanja dani su u radu.

    Istraživači moraju dobro poznavati problem, kao i teoriju koja stoji iza proma-

    tranog problema, kako bi mogli razlikovati ”dobra” grupiranja od ”loših”, te pronaći

    prirodan način grupiranja koji je smislen za promatrani problem. Takoder, moraju biti

    u mogućnosti objasniti nastanak klastera i protumačiti koje varijable i zašto utječu na

    to da pojedini objekt završi u svom klasteru. Konačno rješenje mora biti takvo da je

    moguće karakterizirati svaki klaster i dati mu ime ili oznaku koja ga najbolje opisuje.

    Klaster analizi treba pristupati s velikim oprezom, jer će ona rezultirati rješenjem i

    u slučaju da logička osnova za postojanje klastera ne postoji i to je jedan od njezinih

    najvećih nedostataka.

  • 3

    2.1 Nedostaci klaster analize

    1. Klaster analiza nema čvrstu statističku osnovu, prema kojoj bi se mogli izvesti

    jasni statistički zaključci o populaciji na osnovi uzorka. Mnogi je smatraju samo

    istraživačkom i opisnom tehnikom. Nǐsta ne garantira jedinstveno rješenje, jer

    formiranje klastera ovisi o svim koracima klaster analize i promjena samo jednog

    elementa mijenja rješenje.

    2. Klaster analiza će uvijek kreirati klastere, bez obzira na stvarno postojanje bilo

    kakve strukture podataka. Dakle, treba imati na umu da pronalazak klastera ne

    garantira njihovo stvarno postojanje. U obzir se trebaju uzeti jedino rješenja koja

    se mogu objasniti.

    3. Rješenja klaster analize se ne mogu generalizirati jer u potpunosti ovise o var-

    ijablama i podacima koji se koriste pri analizi. Dodavanje varijabli može imati

    značajan utjecaj na konačno rješenje.

    Dakle, klaster analiza u potpunosti ovisi o odlukama istraživača i svaka njegova odluka

    treba biti potkrijepljena teorijskom osnovom.

  • 4

    3 KORACI PRI PROVODENJUKLASTER ANAL-

    IZE

    Provodenje klaster analize se može promatrati kroz sljedećih 5 koraka [4]:

    1. Postavljanje ciljeva klaster analize

    2. Dizajniranje istraživanja

    3. Kreiranje klastera

    4. Interpretacija klastera

    5. Validacija i profiliranje klastera.

    3.1 Postavljanje ciljeva klaster analize

    Primarni cilj klaster analize je podijeliti skup objekata u dvije ili vǐse grupa na temelju

    sličnosti objekata za odabrane karakteristike. Kako bi ostvario taj cilj, istraživač prvo

    mora odrediti cilj istraživanja i varijable koje najbolje karakteriziraju objekte i koje su

    izravno povezane s ciljem istraživanja.

    3.1.1 Cilj istraživanja

    Klaster analizom je moguće postići bilo koji od sljedeća tri cilja ili njihovu kombinaciju:

    Opisivanje taksonomije – klaster analiza se najčešće koristi kao istraživačka tehnika

    u svrhu otkrivanja prirodnih grupa unutar podataka. Taksonomija (grč. tassein

    - svrstati; nomos - zakon, znanost) je znanstvena disciplina koja na temelju

    sličnosti i razlika taksonomske jedinice kategorizira i razvrstava u skupine. U

    početku se termin ”taksonomija” odnosio samo na znanost o klasifikaciji živih

    organizama. Sada se taj termin koristi u mnogo širem smislu i odnosi se na

    klasifikaciju stvari (živa i neživa bića, mjesta, pojmovi, dogadaji, itd.), kao i

    na principe te klasifikacije [20]. Taksonomija je empirijski zasnovana klasifikacija

    objekata.

    Klaster analiza se takoder može koristiti za potvrdivanje ili odbacivanje prethodno

    postavljenih hipoteza o strukturi podataka. Tada kažemo da se koristi u svrhu

    potvrdivanja i empirijski dobiveni rezultati se mogu usporediti s teorijski do-

    bivenim rezultatima.

    Pojednostavljenje podataka – istraživač se može susresti s velikom količinom po-

    dataka, koje je teško obraditi i koji nemaju smisla dok se ne podjele u manje

    grupe. Definiranjem strukture podataka, klaster analiza ujedno pruža pojednos-

    tavljeni prikaz podataka. Tako da je moguće analizirati grupe sličnih podataka,

  • 5

    umjesto pojedinačnih podataka. Svaki podatak je tada karakteriziran osobinama

    klastera kojemu pripada.

    Otkrivanje veza medu podacima – pronalaženjem klastera se otkrivaju veze medu

    podacima koje u većini slučajeva nije moguće otkriti promatranjem pojedinačnih

    podataka.

    3.1.2 Odabir varijabli za klasteriranje

    Ovo je jedna od najvažnijih odluka pri provodenju klaster analize jer istraživač odabi-

    rom varijabli izravno utječe na moguća rješenja klaster analize. Odabir varijabli treba

    provesti u skladu s teorijskim i praktičnim načelima. Treba odabrati one varijable

    koje najbolje karakteriziraju objekte nad kojima se provodi analiza i koje su povezane

    s ciljem klaster analize koji se želi postići. Istraživač treba biti svjestan utjecaja koji

    svaka varijabla ima na rješenje, kao i činjenice da klaster analiza ne razlikuje irelevantne

    varijable od relevantnih.

    Problem koji može značajno utjecati na rješenje je multikolinearnost varijabli. Mul-

    tikolinearnost se odnosi na medusobnu povezanost vǐse varijabli, odnosno veliku ko-

    relaciju izmedu njih. Multikolinearnost predstavlja problem i kod drugih multivarijant-

    nih tehnika jer je teško odrediti pravi utjecaj koreliranih varijabli. U klaster analizi,

    multikolinearnost djeluje kao proces dodjeljivanja težina koreliranim varijablama i one

    tada imaju dominantan utjecaj na mjeru sličnosti, a time i na konačno rješenje.

    Promotrimo jednostavan primjer. Pretpostavimo da želimo grupirati klijente na

    temelju 10 karakteristika, odnosno varijabli i da smo izračunavanjem koeficijenta ko-

    relacije utvrdili da je od toga 8 varijabli visoko korelirano. Dakle, dobili smo dva skupa

    varijabli, jedan od 8 varijabli i drugi od preostale 2 varijable. Ako bi u analizu uključili

    svih 10 varijabli, 8 koreliranih varijabli bi imalo 4 puta veću šansu za utjecanje na

    mjeru sličnosti. Rezultat bi bio dominiran koreliranim varijablama. U ovom slučaju bi

    trebalo iz skupa koreliranih varijabli odabrati samo dvije, kako bi imale ravnopravan

    utjecaj na rješenje u odnosu na nekorelirane varijable.

    Postoji nekoliko pristupa rješavanju problema multikolinearnosti. Jedan od načina

    je odrediti skupove varijabli s približno jednakim koeficijentom korelacije i iz svakog

    skupa odabrati jednak broj varijabli, kao u prethodnom primjeru. Drugi način je

    uključiti u analizu samo one varijable koje imaju najmanju korelaciju s ostalim var-

    ijablama, ukoliko je to moguće. Treća mogućnost je od nekoliko koreliranih varijabli

    definirati jednu.

    Takoder, poželjno je u analizu uključiti samo one varijable s kojima se postižu

    najveće razlike izmedu klastera. Istraživač treba proučiti dobivene rezultate i isključiti

    iz analize one varijable kod kojih se ne postižu razlike izmedu klastera, jer je jedino

    na taj način moguće dobiti klastere koji se maksimalno razlikuju i koje je moguće

    profilirati.

  • 6

    3.2 Dizajniranje istraživanja

    Nakon postavljanja cilja klaster analize i odabranih varijabli, a prije samog izvodenja

    analize, potrebno je pronaći odgovore na još neka pitanja, kao što su reprezentativnost

    uzorka i otkrivanje stršećih vrijednosti, trebaju li podaci biti standardizirani, te koju

    mjeru sličnosti odabrati.

    3.2.1 Veličina i reprezentativnost uzorka

    Veličina uzorka nije uvjetovana nikakvim statističkim zahtjevima, kao što je to slučaj

    kod nekih drugih statističkih metoda. Uzorak treba biti dovoljno velik da adekvatno

    predstavlja populaciju i njezinu strukturu, odnosno sve relevantne grupe, posebno male.

    Što je uzorak manji, teže je uočiti razliku izmedu stršećih podataka (engl. outliers)

    i relevantnih malih grupa podataka. Veći uzorci osiguravaju veći broj podataka i u

    malim grupama i olakšavaju njihovu identifikaciju. Veličina uzorka je povezana i s

    ciljem analize. Ukoliko je cilj analize otkrivanje malih grupa unutar populacije, tada je

    bitno da uzorak bude veći. Ako je cilj podijeliti podatke u nekoliko većih grupa, tada

    nije toliko bitna razlika izmedu stršećih podataka i relevantnih podataka.

    Klaster analiza je dobra onoliko koliko je dobra reprezentativnost uzorka.

    3.2.2 Otkrivanje stršećih vrijednosti (outliera)

    Klaster analiza je osjetljiva na postojanje stršećih vrijednosti. Stršeće vrijednosti su

    objekti koji su drugačiji od svih ostalih. Oni mogu predstavljati:

    1. Neprirodne objekte, koji nisu dobri predstavnici populacije i u tom slučaju oz-

    biljno narušavaju reprezentativnost uzorka i rješenja, te trebaju biti uklonjeni.

    2. Reprezentativne objekte, ali koji čine male i beznačajne segmente unutar popu-

    lacije i koji nisu povezani s ciljem analize. Njih takoder treba ukloniti, kako bi

    rješenje sadržavalo klastere koji predstavljaju relevantne segmente populacije.

    3. Reprezentativne objekte koji predstavljaju bitne segmente populacije, ali su slabo

    zastupljeni u uzorku. Njih treba zadržati u uzorku.

    Stršeće vrijednosti je moguće otkriti:

    1. Grafičkim prikazivanjem podataka.

    2. Primjenom neke od mjera sličnosti ili udaljenosti i izračunavanjem sličnosti/uda-

    ljenosti izmedu svih objekata. Objekti najrazličitiji/ najudaljeniji od svih ostalih

    predstavljaju stršeće vrijednosti.

    3. Njihovim pojavljivanjem u konačnom rješenju klaster analize kao klastera s jed-

    nim ili nekoliko članova.

  • 7

    3.2.3 Standardizacija podataka

    Istraživač treba razmotriti mogućnost standardizacije podataka ukoliko varijable koje

    su uključene u analizu imaju različite mjerne jedinice ili veliku disperziju podataka.

    Mjere udaljenosti su osjetljive na različite mjerne jedinice i magnitude podataka, a

    varijable s velikom disperzijom podataka, odnosno velikom standardnom devijacijom,

    imaju veći utjecaj na konačno rješenje nego što bi trebale imati. Ne postoji jasno pravilo

    o tome da li podatke treba standardizirati ili ne. Neki istraživači sugeriraju standard-

    izaciju, dok drugi tvrde da ona nema značajan utjecaj. Ono što je sigurno je to da

    ju ne treba primjenjivati bez razmatranja mogućih posljedica, kao što je uklanjanje

    prirodnih veza medu podacima.

    Standardizacija varijabli

    Najčešće korǐsten oblik standardizacije je standardizacija varijabli. Ona se provodi

    oduzimanjem srednje vrijednosti varijable od stvarnih vrijednosti varijable i podjelom

    dobivene razlike sa standardnom devijacijom za svaku varijablu. Varijable u standard-

    iziranom obliku imaju srednju vrijednost 0 i standardnu devijaciju 1. Tako se elimini-

    raju razlike u standardnoj devijaciji, kako izmedu varijabli, tako i za svaku varijablu

    posebno. Takoder, sve varijable imaju jednaku mjernu skalu i lakše ih je usporediti, te

    je lakše usporediti i interpretirati rješenja dobivena klaster analizom.

    Standardizacija objekata (slučajeva)

    Ponekad standardizacija varijabli nije prikladna za promatrani problem, posebno

    ako se radi o osobama (klijentima, kupcima i sl.) koje želimo grupirati prema njihovim

    navikama i preferencijama. Naime, može se pojaviti utjecaj ”stila odgovaranja”.

    Pretpostavimo da želimo grupirati kupce supermarketa prema važnosti koju daju

    pojedinom čimbeniku na njihovu odluku o kupnji odredenog proizvoda i da provodimo

    anketu koja se sastoji od pitanja rangiranih ljestvicom od 1 do 10. Nekim kupcima će

    svi čimbenici biti važni i na sva pitanja će odgovoriti velikom ocjenom, dok će neki

    smatrati da im nǐsta nije važno i na sve će odgovoriti lošom ocjenom. Tako će nastati

    klasteri ljudi koji odgovaraju pozitivno na sve, negativno na sve i neki klasteri izmedu.

    Dakle, nastanak klastera je uvjetovan specifičnim stilom odgovaranja i to nije ono

    što smo željeli postići. Ono što želimo otkriti je utjecaj pojedine varijable, odnosno

    čimbenika na svakog kupca i pronaći klastere kupaca sa sličnim preferencijama.

    U ovom slučaju, standardizacijom po varijablama se ne bi nǐsta postiglo. Prikladnije

    je provesti standardizaciju ”po redovima”, odnosno po slučajevima (kupcima). Tako

    kupci neće biti standardizirani prema prosječnom odgovoru svih kupaca za pojedino

    pitanje (varijablu), nego prema individualnom prosjeku. Ovakav način standardizacije

    je prikladan i za druge podatke koji reprezentiraju osobne stavove.

  • 8

    3.2.4 Odabir mjere sličnosti objekata

    Sličnost predstavlja stupanj podudaranja svih objekata u zadanim karakteristikama i

    izražava se matematički formuliranim mjerama sličnosti. Najčešće se sličnost tumači

    kao udaljenost izmedu objekata. Što je udaljenost manja, objekti su sličniji. Sličnost

    se računa za sve parove objekata i tako se bilo koji objekt može usporediti sa svim

    ostalim objektima, a najsličniji objekti grupirati u klastere. Takoder, ako su prikazani

    grafički, objekti unutar klastera trebaju biti blizu jedan drugome, a različiti klasteri

    trebaju biti udaljeni.

    Sličnost izmedu objekata se može mjeriti na različite načine, ali sljedeća tri načina

    se najčešće koriste:

    • mjere udaljenosti,

    • mjere korelacije,

    • mjere asocijacije.

    Odabir mjere sličnosti ovisi prvenstveno o tipu podataka. Podaci mogu biti kvan-

    titativni ili kvalitativni. Kvantitativni podaci se nazivaju i metričkim podacima, jer

    se njihov odnos može prikazati metrikom, odnosno nekom funkcijom udaljenosti. Oni

    opisuju objekte ne samo prema posjedovanju odredenog atributa, nego i po količini ili

    stupnju atributa kojeg posjeduju (npr. dob, neto plaća). Za ovakve podatke su prik-

    ladne mjere udaljenosti i mjere korelacije.

    Za razliku od kvantitativnih podataka, kvalitativni podaci opisuju objekte samo

    prema prisutnosti ili odsutnosti odredenog atributa (npr. spol, bračno stanje). Njihov

    odnos se ne može prikazati metrikom, stoga su za ovakve podatke prikladne mjere

    asocijacije.

    U slučaju provodenja klaster analize po varijablama, a ne po objektima (slučajevima),

    kao mjera sličnosti se najčešće koristi korelacija izmedu varijabli.

    Mjere udaljenosti

    Mjere sličnosti koje se najčešće koriste u klaster analizi su mjere udaljenosti. One

    predstavljaju sličnost kao blizinu objekata jednih drugima po varijablama koje su

    uključene u analizu. Mjere udaljenosti su zapravo mjere različitosti, jer veća vrijed-

    nost predstavlja manju sličnost.

    Postoji nekoliko mjera udaljenosti koje se koriste. Najčešće se koristi Euklidska

    udaljenost, kvadrirana Euklidska udaljenost i Manhattan udaljenost. Definicije ovih

    udaljenosti su dane u Poglavlju 5. Upotreba različitih mjera udaljenosti rezultira ra-

    zličitim rješenjima. Istraživač treba provesti analizu s različitim mjerama udaljenosti i

    usporediti rezultate.

  • 9

    Mjere korelacije

    Upotreba mjera korelacije se preporučuje ukoliko je cilj klaster analize pronalazak

    uzoraka koji se pojavljuju u profilima objekata. Slično izračunavanju koeficijenta ko-

    relacije varijabli, ovdje se računa koeficijent korelacije izmedu objekata. Matricu po-

    dataka je potrebno invertirati kako bi stupci predstavljali objekte, a redovi varijable.

    Koeficijent korelacije izmedu dvaju stupaca tada predstavlja sličnost profila dvaju ob-

    jekata. Visoka korelacija upućuje na veliku sličnost, a niska na malu sličnost u profilima.

    Iako je ovo intuitivno najlogičnija mjera sličnosti, rijetko se koristi. U većini slučajeva

    je naglasak na pronalasku objekata sa sličnim vrijednostima karakteristika (varijabli),

    iako možda imaju različit profil po ostalim karakteristikama, što se postiže mjerama

    udaljenosti. Mjere korelacije pronalaze slične profile po svim karakteristikama i ne uzi-

    maju u obzir veličinu razlike u karakteristikama.

    Mjere asocijacije

    Mjere asocijacije se koriste za usporedivanje kvalitativnih podataka. Pomoću njih

    se odreduje stupanj slaganja izmedu svakog para objekata po svim atributima željenih

    karakteristika. Mnogi računalni programi imaju ograničenu podršku za mjere asoci-

    jacije, te ih je istraživač prinuden prvo sam izračunati i zatim uvrstiti u program za

    provodenje klaster analize.

    3.3 Kreiranje klastera

    Nakon postavljenog cilja klaster analize, odabranih varijabli koje će biti uključene u

    analizu i odabrane mjere sličnosti na temelju koje će objekti biti usporedeni, preostaje

    odabrati sljedeće:

    • metodu grupiranja objekata u klastere,

    • broj klastera koji će biti formirani.

    Postoje različite metode klasteriranja, ali u načelu se dijele na hijerarhijske i nehije-

    rarhijske ili partitivne. Od hijerarhijskih metoda se najčešće koriste metode povezivanja

    i Wardova metoda, a od nehijerarhijskih k-means metoda. U praksi je najčešći slučaj

    kombiniranja obiju metoda.

    Prilikom odluke o broju klastera koji će se formirati, istraživač treba odlučiti izmedu

    manjeg broj klastera uz manju homogenost unutar klastera i većeg broja klastera i

    veće homogenosti unutar klastera. Kako se broj klastera smanjuje, tako se povećava

    heterogenost unutar klastera. Treba odabrati najjednostavnije rješenje uz prihvatljivu

    razinu heterogenosti unutar klastera.

    Metode klasteriranja su detaljno opisane u Poglavlju 4.

  • 10

    3.4 Interpretacija klastera

    Nakon pronalaska jednog ili vǐse zadovoljavajućih rješenja klaster analize, dobivena

    rješenja je potrebno interpretirati. U slučaju vǐse rješenja, odabire se ono koje se može

    najbolje interpretirati u skladu s teorijskom i empirijskom osnovom.

    Interpretacija klastera predstavlja detaljno proučavanje svakog klastera s ciljem

    otkrivanja karakteristika svojstvenih samo njemu i dodjeljivanje imena ili oznake koja

    najbolje opisuje otkrivene karakteristike i strukturu klastera.

    Mjera koja se najčešće koristi prilikom interpretacije je centroid klastera, odnosno

    srednja vrijednost objekata u klasteru po svim varijablama. Ukoliko su varijable bile

    standardizirane prije provodenja analize, mogu se uzeti originalne vrijednosti varijabli.

    Kako bi se pronašle karakteristike koje najbolje opisuju svaki klaster, treba pronaći i

    proučiti one varijable čije se srednje vrijednosti najvǐse razlikuju po klasterima. Tehnika

    koje se ovdje može koristiti je analiza varijance (ANOVA). Za nezavisnu (kategorijalnu)

    varijablu se uzima varijabla s brojevima klastera kojima objekti pripadaju, dok se za

    zavisne varijable uzimaju one za koje se želi testirati da li postoji značajna razlika u

    srednjim vrijednostima po klasterima.

    Interpretacija klastera je ključni element u odabiru konačnog rješenja klaster ana-

    lize.

    3.5 Validacija i profiliranje klastera

    Validacijom konačnog rješenja se želi osigurati reprezentativnost rješenja, mogućnost

    generalizacije na druge objekte, te stabilnost rješenja. Takoder se želi ispitati praktično

    značenje dobivenog rješenja. Ne postoji metoda koja provjerava sve navedene zahtjeve,

    ali sljedeće metode mogu poslužiti kao osnova i pomoć pri donošenju zaključaka.

    3.5.1 Cross-validacija

    Cross-validacija predstavlja direktan pristup provjeravanju reprezentativnosti rješenja.

    Poželjno bi bilo provesti klaster analizu na drugom uzorku i tada usporediti dobivena

    rješenja, ali to često nije moguće zbog vremenskih i troškovnih ograničenja ili nedo-

    stupnosti drugih uzoraka (posebno ako se radi o klijentima, potrošačima i sl.). Iz tog

    razloga, uzorak se može podijeliti na dva dijela slučajnim odabirom i na svakom dijelu

    provesti klaster analizu. Svaki dio se analizira posebno i rezultati se usporede.

    Druga mogućnost je da se centri klastera dobiveni jednim rješenjem koriste kao

    početni centri drugog rješenja i rješenja se usporede.

    Takoder, uzorak treba izmiješati slučajnim odabirom i ponovno provesti analizu,

    kako bi se provjerilo da rješenje ne ovisi o poretku podataka.

    Za svaku od navedenih metoda, stabilnost rješenja se može procijeniti brojem ob-

    jekata svrstanih u isti klaster za različita rješenja. Vrlo stabilno rješenje će rezultirati

  • 11

    s manje od 10% objekata različito svrstanih, stabilno s 10 do 20%, a donekle stabilno

    s 20 do 25% različito svrstanih objekata.

    3.5.2 Profiliranje klastera

    Posljednji korak koji se provodi u klaster analizi i koji takoder služi kao sredstvo vali-

    dacije konačnog rješenja je profiliranje klastera. Prilikom profiliranja klastera, uključuju

    se u razmatranje i varijable koje nisu bile uključene u samu analizu (ukoliko takve pos-

    toje), kako bi se vidjelo da li postoje razlike izmedu klastera i kod tih varijabli, te

    kako bi se klasteri što bolje opisali. Ukoliko je konačno rješenje uistinu dobro, razlike

    bi trebale postojati. Ovdje se takoder može koristiti ANOVA.

  • 12

    4 METODE KLASTERIRANJA

    Pronalaženje svih mogućih grupa je vremenski i računski vrlo zahtjevan posao. Za veliki

    broj podataka, ni vrlo jaka računala nisu u stanju riješiti ovaj problem. Iz tog razloga

    su razvijene različite metode i algoritmi koji rješavaju ovaj problem na način koji je

    najbliži optimalnom. U načelu, razlikujemo hijerarhijske i nehijerarhijske metode klas-

    teriranja, koje se dalje mogu podijeliti prema načinu grupiranja podataka u klastere.

    4.1 Hijerarhijske metode klasteriranja

    Hijerarhijske metode se izvode nizom od n − 1 uzastopnih spajanja ili dijeljenja po-dataka, gdje je n broj podataka, te se s obzirom na to mogu podijeliti na aglomerativne

    (engl. agglomerative) ili gomilajuće i divizivne (engl. divisive) ili dijeleće.

    Aglomerativne metode polaze od pojedinog objekta, odnosno u prvom koraku svaki

    objekt čini jedan klaster. Nakon toga se dva najsličnija objekta grupiraju u jedan

    klaster. Zatim se tom klasteru dodaje novi objekt ili se druga dva pojedina objekta

    grupiraju u novi klaster. Ove početne grupe se tada dalje spajaju prema medusobnim

    sličnostima toliko dugo dok se sve podgrupe ne sjedine u jedan klaster.

    Divizivne metode djeluju u suprotnom smjeru. One polaze od svih objekata udruženih

    u jedan klaster, te ih zatim dijele u dvije podgrupe, tako da su objekti u jednoj grupi

    što udaljeniji, odnosno različitiji od objekata u drugoj grupi. Ove podgrupe se dalje

    dijele u različite podgrupe toliko dugo dok svaki pojedini objekt ne čini zaseban klaster,

    odnosno dok broj klastera ne bude jednak broju objekata. Aglomerativna i divizivna

    metoda su ilustrirane na Slici 1.

    Slika 1: Hijerarhijsko klasteriranje

  • 13

    Osnova za obje metode je matrica sličnosti (udaljenosti) izmedu svih objekata

    (x1, x2, . . . , xn), koja je simetrična, dimenzije n× n i prikazuje se na sljedeći način:

    x1 x2 x3 . . . xn

    D =

    x1x2x3

    ...

    xn

    0d(x2, x1) 0d(x3, x1) d(x3, x2) 0

    ......

    . . .

    d(xn, x1) d(xn, x2) d(xn, x3) . . . 0

    .

    U nastavku se kao mjera sličnosti koristi mjera udaljenosti, ali mogu se takoder

    koristiti i ostale mjere sličnosti.

    Rezultati aglomerativne i divizivne metode se mogu grafički prikazati u obliku

    dvodimenzionalnog hijerarhijskog dijagrama, nalik stablu, poznatog pod nazivom den-

    drogram. Uobičajeno je na osi apscisa prikazati objekte, a na osi ordinata udaljenosti

    izmedu njih. No, zbog preglednosti rješenja, osi se mogu i zamijeniti. Grane stabla pred-

    stavljaju klastere i one se spajaju u čvorovima, čije pozicije duž ordinate označavaju

    udaljenosti na kojima su se spajanja dogodila.

    U praksi se vǐse koristi aglomerativna metoda, koja je takoder češće implementirana

    u računalne programe, nego divizivna metoda. Stoga je u ovom radu detaljnije obradena

    aglomerativna metoda. Ona se može podijeliti u tri grupe prema načinu na koji se

    odreduje sličnost medu klasterima, a to su metode povezivanja, metoda varijance ili

    Wardova metoda i centroidna metoda.

    4.1.1 Metode povezivanja

    Metode povezivanja (engl. linkage methods) se dijele na tri različite metode prema

    načinu odredivanja reprezentanta klastera:

    1. jednostruko povezivanje (engl. single-linkage method ili nearest-neighbor method)

    - metoda minimalne udaljenosti ili najbližeg susjeda,

    2. potpuno povezivanje (engl. complete-linkage method ili farthest-neighbor method)

    - metoda maksimalne udaljenosti ili najdaljeg susjeda,

    3. prosječno povezivanje (engl. average linkage) - metoda prosječne udaljenosti.

    Spajanje klastera pod ovim kriterijima ilustrirano je na Slici 2. Na slici je vidljivo

    da je jednostruko povezivanje rezultat spajanja klastera prema udaljenosti najbližih

  • 14

    objekata dvaju klastera. Potpuno povezivanje za kriterij spajanja klastera uzima udalje-

    nost njihovih najdaljih objekata, dok je prosječno povezivanje rezultat spajanja klastera

    prema prosječnoj udaljenosti izmedu parova svih objekata klastera.

    Slika 2: Udaljenost izmedu klastera: a)jednostruko povezivanje, b)potpuno povezi-vanje, c)prosječno povezivanje

    Algoritam 4.1.1 Osnovni aglomerativni hijerarhijski algoritam za grupi-

    ranje n objekata

    Korak 1 Učitati n klastera (objekata) i n×n simetričnu matricu udaljenosti (sličnosti)D = {dik}.

    Korak 2 Pretražiti matricu udaljenosti i pronaći najblǐzi (najsličniji) par klastera.

    Neka je dUV udaljenost izmedu ”najsličnijih ” klastera U i V .

    Korak 3 Spojiti klastere U i V . Označiti novi klaster (UV ). Obrisati retke i stupce u

    matrici udaljenosti koji odgovaraju klasterima U i V . Dodati novi redak i stupac

    u matricu udaljenosti, formiran prema udaljenostima izmedu klastera (UV ) i

    preostalih klastera.

    Korak 4 Ponoviti Korak 2 i Korak 3 n− 1 puta. Zabilježiti klastere koji su se spojilii razine (udaljenosti) na kojima se to dogodilo. (Izvor: [9])

    Algoritam završava kada su svi klasteri spojeni u jedan, odnosno nakon n − 1koraka. Ovaj algoritam se koristi za sve tri metode povezivanja, samo što se u Koraku

    3 udaljenost izmedu klastera različito definira.

    Prilikom primjene hijerarhijskog klasteriranja, bitni su zapravo rezultati koji nas-

    taju spajanjem klastera na odredenim razinama, odnosno grupiranje objekata u željeni

    broj klastera.

  • 15

    Jednostruko povezivanje

    Metoda jednostrukog povezivanja definira sličnost izmedu dvaju klastera kao naj-

    manju udaljenost izmedu bilo kojeg objekta iz jednog klastera i bilo kojeg objekta iz

    drugog klastera.

    Klasteri se formiraju od individualnih objekata povezivanjem najbližih susjeda, gdje

    izraz ”najbliži susjed” označava najmanju udaljenost ili najveću sličnost. Prva dva ob-

    jekta koja se spajaju u klaster su ona dva koja imaju najmanju medusobnu udaljenost.

    Drugi objekti se spajaju s prvim klasterom na temelju najmanje udaljenosti izmedu

    njih i objekata već formiranog klastera. U svakom sljedećem koraku, udaljenost izmedu

    dva klastera se odreduje na temelju udaljenosti njihova dva najbliža objekta.

    Budući da metoda jednostrukog povezivanja povezuje klastere prema najkraćoj vezi

    izmedu njih, metoda ne može razlikovati loše razdvojene klastere. To može dovesti do

    formiranja ulančanih klastera, gdje su objekti na suprotnim krajevima lanca različiti

    i može dovesti do pogrešnih zaključaka. Stoga, istraživač treba provjeriti da li uistinu

    postoji takva struktura podataka ili je to rezultat lošeg odabira metode.

    Za provodenje metode, u skladu s Algoritmom 4.1.1, prvo je potrebno pronaći

    najmanju udaljenost u matrici udaljenosti D = {dik} i spojiti odgovarajuće objekte,nazovimo ih U i V , kako bi dobili klaster (UV ). U Koraku 3 udaljenost izmedu klastera

    (UV ) i bilo kojeg drugog klastera W računa se na sljedeći način:

    d(UV )W = min{dUW , dVW}, (1)

    gdje su dUW i dVW udaljenosti izmedu najbližih susjeda klastera U i W i klastera

    V i W , respektivno [9].

    Primjer 4.1.1 S ciljem ilustriranja metode jednostrukog povezivanja promotrimo sljedeću

    matricu udaljenosti izmedu 5 objekata:

    1 2 3 4 5

    D = {dik} =

    12345

    04 09 5 01 3 6 07 2 10 5 0

    Odredimo klastere i rezultat prikažimo grafički.

    Svaki od pet objekata predstavlja jedan klaster. Pretraživanjem matrice D, utvrdeno

    je da su najblǐzi objekti 4 i 1, a njihova udaljenost iznosi 1:

    minik

    (dik) = d41 = 1.

  • 16

    Objekti 4 i 1 se spajaju u prvi klaster (41).

    Udaljenost izmedu klastera (41) i preostalih objekata 2, 3 i 5:

    d(41)2 = min{d42, d12} = min{3, 4} = 3d(41)3 = min{d43, d13} = min{6, 9} = 6d(41)5 = min{d45, d15} = min{5, 7} = 5.

    Brisanjem redaka i stupaca matrice D koji odgovaraju objektima 4 i 1 i dodavanjem

    novog prvog retka i prvog stupca koji odgovaraju klasteru (41), te uvrštavanjem do-

    bivenih udaljenosti, dobiva se nova matrica udaljenosti:

    (41) 2 3 5

    (41)235

    03 06 5 05 2 10 0

    Ponovnim pretraživanjem matrice udaljenosti, utvrdeno je da su najblǐzi objekti 5 i 2,

    a njihova udaljenost iznosi 2:

    minik

    (dik) = d52 = 2.

    Objekti 5 i 2 se spajaju u drugi klaster (52).

    Udaljenost izmedu klastera (52) i klastera (41):

    d(52)(41) = min{d5(41), d2(41)} = min{5, 3} = 3.

    Udaljenost izmedu klastera (52) i preostalog objekta 3:

    d(52)3 = min{d53, d23} = min{10, 5} = 5.

    Matrica udaljenosti sada izgleda:

    (41) (52) 3

    (41)(52)3

    03 06 5 0

    Matrica udaljenosti se ponovno pretražuje s ciljem pronalaska minimalne udaljenosti.

    Utvrdeno je da je minimalna udaljenost ona izmedu klastera (41) i (52) i iznosi 3:

    minik

    (dik) = d(41)(52) = 3.

  • 17

    Klasteri (41) i (52) se spajaju u jedan klaster (4152). Udaljenost izmedu tog klastera i

    preostalog objekta 3 iznosi 5:

    d(4152)3 = min{d(41)3, d(52)3} = min{6, 5} = 5.

    Konačna matrica udaljenosti postaje:

    (4152) 3

    (4152)3

    [05 0

    ]

    Konačno, na udaljenosti 5, klaster (4152) se spaja s objektom 3 u jedan klaster (41523)

    sastavljen od svih pet objekata.

    Grafički, dobiveni rezultati se mogu prikazati sljedećim dendrogramom, na kome su

    jasno vidljive udaljenosti na kojima su se spajanja klastera dogodila.

    Potpuno povezivanje

    Metoda potpunog povezivanja se izvodi na sličan način kao metoda jednostrukog

    povezivanja, ali s jednom bitnom razlikom. U svakom koraku, sličnost izmedu dvaju

    klastera je odredena udaljenošću njihovih najudaljenijih elemenata. Potpuno povezi-

    vanje osigurava da je udaljenost izmedu svih objekata u klasteru maksimalna.

    Korak 1 i 2 Algoritma 4.1.1 se provode analogno, pronalaskom minimalne udal-

    jenosti u matrici udaljenosti D = {dik} i spajanjem odgovarajućih objekata (nazovimo

  • 18

    ih U i V ) u prvi klaster (UV ). U Koraku 3, udaljenost izmedu klastera (UV ) i bilo

    kojeg drugog klastera W računa se na sljedeći način:

    d(UV )W = max{dUW , dVW}, (2)

    gdje su dUW i dVW udaljenosti izmedu najdaljih elemenata klastera U i W i klastera

    V i W , respektivno [9].

    Prosječno povezivanje

    Prosječno povezivanje definira udaljenost izmedu dva klastera kao prosječnu uda-

    ljenost izmedu svih parova objekata, gdje jedan član para pripada jednom, a drugi

    drugom klasteru.

    Korak 1 i 2 Algoritma 4.1.1 se takoder provode analogno, pronalaskom minimalne

    udaljenosti u matrici udaljenosti D = {dik} i spajanjem odgovarajućih objekata (na-zovimo ih U i V ) u prvi klaster (UV ). U Koraku 3, udaljenost izmedu klastera (UV ) i

    bilo kojeg drugog klastera W računa se na sljedeći način:

    d(UV )W =

    ∑i

    ∑k

    dik

    N(UV )NW, (3)

    gdje je dik udaljenost izmedu objekta i u klasteru (UV ) i objekta k u klasteru W , a

    N(UV ) i NW je ukupan broj elemenata klastera (UV ) i klastera W , respektivno [9].

    Metoda potpunog povezivanja uzima u obzir sve informacije o svim parovima ele-

    menata dvaju klastera, zbog čega se preferira u odnosu na dvije prethodne metode.

    4.1.2 Centroidna metoda

    U ovoj metodi se sličnost izmedu klastera definira kao udaljenost izmedu centroida

    klastera. Centroid klastera je srednja vrijednost objekata u klasteru po svim vari-

    jablama uključenim u klaster analizu. Vrijednost centroida se mijenja kako se dodaju

    novi objekti u klaster. Ova metoda se najvǐse koristi u prirodnim znanostima (biologiji),

    ali može rezultirati zbunjujućim rezultatima i ovdje neće biti detaljnije obradena.

    4.1.3 Wardova metoda

    Wardova metoda se razlikuje od prethodnih metoda po tome što prilikom spajanja

    klastera analizira varijancu izmedu objekata i zove se još metoda minimalne varijance.

    Ova metoda minimizira sumu kvadrata izmedu bilo koja dva klastera koja bi se mogla

    formirati. U svakom koraku se spajaju ona dva klastera za koja je porast ukupne sume

    kvadrata po svim varijablama u svim klasterima minimalna. Preporučena udaljenost

    za ovu metodu je kvadrirana Euklidska udaljenost.

  • 19

    Ova metoda se smatra dosta efikasnom i teži kreiranju klastera s malim brojem

    objekata i s približno jednakim brojem objekata u svakom klasteru. Na ovu metodu

    utječu outlieri, jer oni utječu na sumu kvadrata.

    4.1.4 Prednosti i nedostaci hijerarhijskog klasteriranja

    Hijerarhijske metode su prve metode za klasteriranje koje su razvijene i dugo su bile

    najpopularnije metode. One nude nekoliko prednosti, ali takoder imaju i nekoliko ne-

    dostataka u odnosu na nehijerarhijske metode.

    Prednosti hijerarhijskog klasteriranja:

    • Jednostavnost i brzina – hijerarhijske metode jednim provodenjem rezultirajucijelim skupom mogućih rješenja i istraživač tako može odjednom analizirati sva

    moguća rješenja.

    • Mjere sličnosti – široka upotreba hijerarhijskih metoda je dovela do razvoja mjerasličnosti za gotovo svaki tip varijabli i vrstu istraživanja.

    Nedostaci hijerarhijskog klasteriranja:

    • Hijerarhijske metode mogu ponekad dovesti do pogrešnih zaključaka, ako supočetni objekti pogrešno svrstani, jer ove metode ne omogućuju preraspodjelu

    početno ”pogrešno” svrstanih objekata. Iz tog razloga, konačna raspodjela klastera

    treba uvijek biti pažljivo ispitana. Poželjno je isprobati nekoliko metoda i unutar

    svake metode nekoliko različitih načina definiranja udaljenosti (sličnosti). Ako

    su klasteri dobiveni različitim metodama približno konzistentni, onda su objekti

    ispravno grupirani.

    • Kao i većina ostalih metoda za klasteriranje, hijerarhijske metode su osjetljivena postojanje stršećih vrijednosti, posebno metoda potpunog povezivanja. Kako

    bi smanjio utjecaj outliera, istraživač može provesti analizu nekoliko puta uz

    brisanje potencijalnih outliera. Svaki podatak treba biti obrisan s posebnim opre-

    zom, kako ne bi došlo do gubitka vrijednih informacija.

    • Premda se ove metode smatraju brzima, njihova upotreba na velikim uzorcimaje ograničena računalnim resursima, jer matrica udaljenosti mora biti spremljena

    u memoriju računala. Za uzorak od npr. 500 podataka, u memoriju mora biti

    spremljeno 125000 udaljenosti. U slučaju jako velikih uzoraka, istraživač može

    slučajnim odabirom odabrati manju podgrupu i na njoj provesti analizu, ali treba

    paziti na reprezentativnost te podgrupe.

  • 20

    4.2 Nehijerarhijske metode klasteriranja

    Nehijerarhijske metode klasteriranja su namijenjene grupiranju objekata u unaprijed

    odreden broj klastera. Provode se u dva osnovna koraka:

    1. Odredivanje početnih točaka klastera (engl. cluster seeds).

    Početne točke (centri) svakog klastera se mogu odabrati na dva načina:

    Odabirom istraživača – istraživač može odabrati početne točke prema nekom

    prethodnom istraživanju provedenom nad podacima, iz iskustva ili cilja koji

    želi postići, ukoliko zna kakvi su profili klastera koje želi dobiti. Takoder,

    mogući broj klastera se može otkriti hijerarhijskim metodama i zatim oda-

    brati početne točke prema rješenju hijerarhijske metode.

    Slučajnim odabirom – ukoliko ne postoji predznanje o profilima klastera koji

    trebaju nastati, početne točke se odabiru slučajnim odabirom. Slučajan od-

    abir se može provesti odabirom bilo kojeg objekta ili prema nekim zakoni-

    tostima koje želimo da objekti zadovoljavaju (npr. maksimalna udaljenost

    ili prvi objekt koji nema nedostajuće vrijednosti).

    Računalni programi općenito podržavaju obje metode. Istraživač treba biti svjes-

    tan utjecaja koji odabir početnih točaka ima na konačno rješenje, jer će odabir

    drugih točaka rezultirati drugačijim rješenjem. Ukoliko su odabrane slučajnim o-

    dabirom, analizu svakako treba provesti vǐse puta uz drugi odabir početnih točaka

    i usporediti rezultate.

    2. Dodjeljivanje objekata klasteru koji je najprikladniji prema zadanom

    kriteriju.

    Nakon odabranih početnih točaka, slijedi dodjeljivanje svakog objekta nekoj od

    točaka na temelju sličnosti. Postoje različite metode provodenja ovog procesa, ali

    njihov osnovni cilj je dodijeliti objekt onoj točki koja mu je najsličnija. Neke

    metode dozvoljavaju prerasporedivanje objekata u druge klastere, ako su im

    sličniji od njihovih početnih klastera.

    Nehijerarhijski algoritmi se mogu podijeliti na serijske (sekvencijalne), paralelne i

    optimizacijske.

    Serijski algoritmi odabiru jednu početnu točku i pridružuju joj sve objekte koji se

    nalaze unutar definirane udaljenosti. Zatim odabiru drugu točku i dodjeljuju joj sve

    objekte unutar definirane udaljenosti, itd. Nedostatak ove metode je u tome što se

    jednom dodijeljeni objekti ne mogu premještati u druge klastere, čak i ako su njihove

    početne točke bliže.

    Paralelni algoritmi odabiru sve početne točke odjednom i dodjeljuju im objekte

    unutar definirane udaljenosti. Takoder ne omogućuju preraspodjelu objekata.

  • 21

    Optimizacijski algoritmi omogućuju preraspodjelu objekata. Najpoznatiji algoritam

    koji se koristi je k-means algoritam. Njegova upotreba je postala toliko proširena

    da se naziv ”k-means” ponekad odnosi na sve optimizacijske metode klasteriranja. k-

    means metoda, kako sam naziv govori, je metoda k-srednjih vrijednosti. Ova metoda

    rasporeduje objekte u unaprijed odredeni broj klastera k, te zatim iterativno pre-

    rasporeduje objekte po klasterima, dok se ne postigne neki zadani numerički kriterij.

    Postizanje kriterija je povezano s postizanjem cilja klaster analize, a to je pronalazak

    što kompaktnijih i bolje separiranih klastera. Stoga se teži minimizaciji udaljenosti ob-

    jekata unutar klastera i maksimizaciji udaljenosti izmedu klastera. k-means algoritam

    je naveden u Poglavlju 5.

    4.2.1 Prednosti i nedostaci nehijerarhijskog klasteriranja

    Nehijerahijske metode su široko prihvaćene, ali svaka dobra primjena ovisi o sposob-

    nosti istraživača da odabere najbolje rješenje.

    Prednosti nehijerarhijskog klasteriranja:

    • U odnosu na hijerarhijske metode, rezultati su manje osjetljivi na postojanjeoutliera, na upotrebu mjere sličnosti i na uključivanje neodgovarajućih varijabli

    u analizu.

    • Prikladne su za puno veći broj podataka nego hijerarhijske, jer ne zahtijevajuračunanje i spremanje u memoriju računala matrice udaljenosti izmedu svih ob-

    jekata, nego samo udaljenosti svakog objekta do centroida klastera.

    Nedostaci nehijerarhijskog klasteriranja:

    • Konačno rješenje ovisi o odabiru početnih točaka i odabir različitih početnihtočaka će dovesti do različitih rješenja. Preporučuje se odabir početnih točaka

    u skladu s teorijskom osnovom ili prethodnom analizom podataka, te izvodenje

    analize uz različit odabir početnih točaka. Svako rješenje treba analizirati kako

    bi se pronašlo ono koje najbolje predstavlja strukturu podataka.

    • Nehijerarhijske metode nisu efikasne ukoliko se želi analizirati veliki broj različitihmogućih rješenja, jer pronalazak svakog rješenja predstavlja posebnu analizu,

    za razliku od hijerarhijskih metoda gdje se sva rješenja dobiju samo jednom

    analizom.

    4.3 Odluka o broju klastera

    Odluka o broju klastera je možda najteža odluka pri provodenju klaster analize, bilo

    da se radi o hijerarhijskim ili nehijerarhijskim metodama, jer treba odabrati onaj

    broj klastera koji najbolje reprezentira strukturu podataka. Ne postoji jedinstvena

  • 22

    procedura za odredivanje broja klastera. Istraživač mora sam odlučiti koji je broj

    klastera najprikladniji za promatrani problem, što zahtjeva analizu nekoliko potencijal-

    nih rješenja. Svi klasteri moraju biti različiti po varijablama nad kojima je provedena

    analiza. Klasteri s jednim članom ili malim brojem članova općenito nisu prihvatljivi i

    treba ih posebno proučiti, jer oni mogu predstavljati outliere koji nisu otkriveni ranijim

    istraživanjem. Stoga, ako je moguće, treba ih eliminirati i ponovno provesti analizu.

    U praksi se najčešće koristi kombinacija hijerarhijskih i nehijerarhijskih metoda,

    jer se nedostaci jedne metode mogu nadopuniti drugom metodom. Prvo se pomoću

    hijerarhijskih metoda odredi skup svih mogućih rješenja, zatim se odrede potencijalno

    prihvatljiva rješenja i broj klastera. Nakon toga se nehijerarhijskom metodom podaci

    rasporede u odgovarajući broj klastera.

    U hijerarhijskim metodama se kao kriterij za odabir broja klastera (poznat pod

    nazivom ”pravilo zaustavljanja”, engl. stopping rule) koristi mjera heterogenosti. He-

    terogenost se odnosi na različitost objekata unutar klastera za svaki uzastopni korak u

    hijerarhijskoj metodi. Ako se dogodi veliki porast u mjeri heterogenosti, to znači da su

    se spojila dva prilično različita klastera i tada se odabire prethodno rješenje.

    Heterogenost se može mjeriti na različite načine, a to uvelike ovisi i o računalnom

    programu koji se koristi. Većina programa pruža mogućnost izračunavanja aglomera-

    cijskog koeficijenta, koji mjeri heterogenost kao udaljenost objekata unutar klastera

    od centroida klastera (ako se koristi mjera udaljenosti) ili sumu kvadrata odstupanja

    objekata unutar klastera od centroida (ako se koristi Wardova metoda). Aglomeracijski

    koeficijent se računa za sva moguća rješenja, odnosno pri svakom koraku provodenja

    hijerarhijske metode. Ukoliko je postotak promjene aglomeracijskog koeficijenta velik

    za dva uzastopna rješenja, uzima se prethodno rješenje u kojemu se kritično spajanje

    klastera još nije dogodilo. Takoder se može proučavati i promjena u standardnoj devi-

    jaciji za svaki novonastali klaster.

    Iz praktičnih razloga i u skladu s ciljem klaster analize, istraživač može unaprijed

    sam odrediti koliki mu broj klastera odgovara, npr. može reći da u obzir dolaze samo

    rješenja od 3 do 6 klastera i proučavati samo takva rješenja.

    Kod nehijerarhijskih metoda se obično koriste matematički definirani kriteriji za

    odabir broja klastera. Većina ih se zasniva na minimiziranju sume kvadrata udaljenosti

    objekata unutar klastera, te maksimiziranju sume kvadrata udaljenosti izmedu klastera.

    Vǐse riječi o tome će biti u Poglavlju 5.

  • 23

    5 MATEMATIČKO ZNAČENJE KLASTER

    ANALIZE

    Matematički, problem grupiranja podataka u homogene grupe promatramo kao pro-

    blem grupiranja elemenata nekog skupa A s n ≥ 2 elemenata u disjunktne podskupoveπ1, ..., πk, 1 ≤ k ≤ n, takve da vrijedi:

    k∪i=1

    πi = A, πi∩

    πj = ∅, i ̸= j, nj := |πj| ≥ 1, j = 1, .., k, (4)

    na osnovi jednog ili vǐse obilježja uz korǐstenje raznih kriterijskih funkcija cilja. Ovako

    definirane rastave skupa A na podskupove π1, ..., πk, koji zadovoljavaju (4), zvat ćemo

    particija skupa A i označavati Π = {π1, ..., πk}. Elemente particije, odnosno skupoveπ1, ..., πk zvat ćemo klasteri. Skup svih particija skupa A sastavljenih od k klastera,

    koje zadovoljavaju (4) označavat ćemo P(A, k) [14].

    U većini slučajeva, zbog velikog broja podataka, nije moguće odrediti sva moguća

    grupiranja i onda odrediti najbolje. Broj načina grupiranja n podataka u k nepraznih

    skupova se naziva Stirlingov broj druge vrste1 i označava se S(n, k), a njegova ekspli-

    citna formula glasi:

    S(n, k) =1

    k!

    k∑j=0

    (−1)k−j(k

    j

    )jn. (5)

    Stirlingov broj druge vrste zapravo predstavlja skup svih particija skupa A sastavljenih

    od k klastera.

    Primjer 5.0.1 Provjerimo koliko iznosi Stirlingov broj druge vrste za 20 objekata koje

    želimo grupirati u 5 nepraznih skupova:

    S(20, 5) =1

    5!

    5∑j=0

    (−1)5−j(5

    j

    )j20 =

    =1

    5!

    ((−1)4

    (5

    1

    )120 + (−1)3

    (5

    2

    )220 + (−1)2

    (5

    3

    )320 + (−1)1

    (5

    4

    )420 +

    +(−1)0(5

    5

    )520

    )=

    =1

    120

    (5− 10 · 1048576 + 10 · 3486784401− 5 · 1, 1 · 1012 + 9, 5 · 1013

    )=

    = 7, 46 · 1011

    Zaključujemo da je broj svih mogućih načina grupiranja 20 objekata u 5 nepraznih

    skupova vrlo velik broj.

    1Stirlingovi brojevi su dobili naziv po Jamesu Stirlingu, koji ih je uveo u 18. stoljeću. PostojeStirlingovi brojevi prve i druge vrste. Stirlingovi brojevi prve vrste predstavljaju broj permutacija nelemenata sa k disjunktnih ciklusa. Stirlingovi brojevi druge vrste predstavljaju broj načina grupiranjan elemenata u k disjunktnih skupova. Obje vrste brojeva imaju veliko značenje u kombinatorici [16].

  • 24

    Cilj klaster analize u matematičkom smislu je pronalazak optimalne particije. Op-

    timalna particija je ona koja ima svojstvo da je udaljenost objekata unutar klastera

    minimalna, a izmedu klastera maksimalna, te koja zadovoljava (4). Problem traženja

    optimalne particije spada u NP-teške probleme2 nekonveksne optimizacije općenito

    nediferencijabilne funkcije vǐse varijabli, koja najčešće posjeduje značajan broj sta-

    cionarnih točaka [14].

    Kako bi mogli primjeniti odredene kriterije za pronalazak optimalne particije, po-

    daci moraju biti prikazani skupom realnih brojeva (u slučaju objekata s jednim obilje-

    žjem) ili skupom vektora (u slučaju objekata s vǐse obilježja). U empirijskom dijelu ovog

    rada se koristi kriterij najmanjih kvadrata, stoga je taj kriterij u nastavku detaljnije

    objašnjen (za LAD kriterij optimalnosti vidi [14]).

    5.1 Grupiranje objekata s jednim obilježjem

    Pretpostavimo da je zadan skup realnih brojeva A = {a1, . . . , an}, medu kojima možebiti jednakih. Neka ovaj skup predstavlja skup objekata koji imaju samo jedno obilježje

    i na osnovi tog obilježja ih treba grupirati u k klastera koji zadovoljavaju (4) (npr.

    klijente banke želimo grupirati samo prema neto plaći). Kao mjeru sličnosti koristit

    ćemo neku od funkcija udaljenosti.

    Definicija 5.1.1 Funkciju d : R× R −→ R+, za koju vrijedi:

    1) d(x, y) ≥ 0, ∀x, y ∈ R (pozitivnost),

    2) d(x, y) = 0 ⇐⇒ x = y (strogost),

    3) d(x, y) = d(y, x), ∀x, y ∈ R (simetričnost),

    4) d(x, y) ≤ d(x, z) + d(z, y),∀x, y, z ∈ R (nejednakost trokuta).

    zovemo funkcija udaljenosti ili razdaljinska funkcija, odnosno metrika na skupu R.

    Napomena 5.1.1 Funkciju d : R × R −→ R+ koja zadovoljava uvjete 1) i 2), aline zadovoljava nejednakost trokuta, a u nekim slučajevima ni svojstvo simetričnosti

    zovemo kvazimetrička funkcija.

    Za vektore x = [x1, x2, ..., xn]T ,y = [y1, y2, ..., yn]

    T , xi, yi ∈ R, i = 1, . . . , n, mogu sedefinirati sljedeće funkcije:

    2Polinomijalni problemi (P-problemi) – problemi koji su rješivi u polinomijalnom vremenu.Nepolinomijalni problemi (NP-problemi) – nisu poznati algoritmi koji rješavaju ove probleme u poli-nomijalnom vremenu. Za njih se u polinomijalnom vremenu može samo provjeriti da li je odredenainstanca problema ujedno i njegovo rješenje.Nepolinomijalno teški problemi (NP-teški problemi) – problemi za koje nismo sigurni da su u NPklasi, tj. ne možemo u polinomijalnom vremenu provjeriti da li je odredena instanca problema ujednoi njegovo rješenje [8].

  • 25

    • d1(x,y) =n∑

    i=1

    |xi − yi| – l1 metrička funkcija (Manhattan udaljenost)

    • d2(x,y) =

    √√√√ n∑i=1

    (xi − yi)2 – l2 metrička funkcija (Euklidska udaljenost)

    • dLS(x,y) =n∑

    i=1

    (xi − yi)2 – Least Squares (LS) kvazimetrička funkcija

    • dp(x,y) =( n∑

    i=1

    |xi − yi|p) 1

    p, p > 1 – lp metrička funkcija (metrika Minkowskog)

    • d∞(x,y) = max{|xi − yi|, i = 1, . . . , n} – l∞ metrička funkcija (Čebǐsevljeva uda-ljenost)

    Napomena 5.1.2 Primjetimo da u skupu R vrijedi:d1(x, y) = d2(x, y) = d∞(x, y) = dp(x, y), p ≥ 1, ∀x, y ∈ R.

    Treba odrediti reprezentant (aproksimaciju) skupa A = {a1, . . . , an}, odnosno re-alan broj takav da svi elementi skupa A budu ”što bliže” tom broju. Pri tome pojam

    ”što bliže” shvaćamo kao najbolju l1, l2, lp ili l∞ aproksimaciju, ovisno o funkciji uda-

    ljenosti koja se koristi. U ovom radu se koristi LS kvazimetrička funkcija i Euklidska

    udaljenost.

    Zapǐsimo skup A pomoću vektora a = [a1, . . . , an]T ∈ Rn. Tražimo vektor α =

    [α, . . . , α]T ∈ Rn tako da d(a,α) bude minimalno, odnosno tražimo rješenje sljedećegproblema:

    d2(a,α) =

    √√√√ n∑i=1

    (ai − α)2 =: G(α) → minα

    . (6)

    Ako je G(α∗) ≤ G(α), za svaki α ∈ R, onda je G2(α∗) ≤ G2(α), za svaki α ∈ R.Zato u cilju traženja α∗ ∈ R, koji je rješenje problema (6), možemo minimizirati

    d22(a,α) =n∑

    i=1

    (ai − α)2 → minα

    . (7)

  • 26

    Pokažimo da je rješenje problema (7) aritmetička sredina brojeva a1, . . . , an:

    ∂( n∑

    i=1

    (ai − α)2)

    ∂α= 0

    n∑i=1

    2(ai − α)(−1) = 0

    n∑i=1

    (ai − α) = 0

    n∑i=1

    ai − nα = 0

    α =1

    n

    n∑i=1

    ai

    ⇒ α∗ = 1n

    n∑i=1

    ai =: a. (8)

    Aritmetička sredina realnih brojeva a1, . . . , an je jedinstveni broj koji ima svo-

    jstvo da je suma kvadrata odstupanja brojeva ai do nekog čvrstog realnog broja naj-

    manja onda ako je taj čvrsti broj upravo aritmetička sredina a. Što se može sažeti u

    sljedeća dva svojstva [14]:

    n∑i=1

    (ai − λ)2 ≥n∑

    i=1

    (ai − a)2, ∀λ ∈ R, (9)

    n∑i=1

    (ai − a) = 0. (10)

    Problem najbolje l2 aproksimacije funkcije koja je zadana na konačnom skupu

    točaka obično se u literaturi naziva problem najmanjih kvadrata. Dok se prin-

    cip odredivanja aproksimacije tako da suma kvadrata odstupanja svih mjerenja od

    aproksimacije α bude minimalna, naziva princip najmanjih kvadrata3 ili češće metoda

    najmanjih kvadrata [15].

    Uvedimo sada oznaku argminx∈D

    h(x) za skup svih točaka u kojima funkcija h : D →

    R, D ⊂ R, postiže globalni minimum. Ovaj skup može biti i jednočlan. Prema [14]svakom klasteru πj ∈ Π, j = 1, . . . , k, možemo pridružiti njegov centar cj, uz zadanukvazimetričku funkciju d : R× R → R+, na sljedeći način

    cj = c(πj) := argminx∈R

    ∑ai∈πj

    d(x, ai). (11)

    3Princip najmanjih kvadrata postavio je Carl Friedrich Gauss 1795. godine [15]

  • 27

    Ako na skupu svih particija P(A, k) skupa A sastavljenih od k klastera, koje zadovo-ljavaju (4) definiramo kriterijsku funkciju cilja F : P(A, k) → R+

    F(Π) =k∑

    j=1

    ∑ai∈πj

    d(cj, ai), (12)

    onda d-optimalnu particiju Π∗ tražimo rješavanjem sljedećeg optimizacijskog problema

    F(Π∗) = minΠ∈P(A,k)

    F(Π). (13)

    Ovime se postiže da optimalna particija Π∗ ima minimalnu sumu odstupanja (”rasi-

    panja”) elemenata klastera oko svog centra, odnosno nastoji se postići što bolja unu-

    trašnja kompaktnost i separiranost klastera.

    Definicija 5.1.2 Kažemo da je particija Π∗ optimalna u smislu najmanjih kvadrata

    (LS-optimalna) ako je Π∗ rješenje optimizacijskog problema (12)-(13), a kvazimetrička

    funkcija d : R× R → R+ definirana s

    d(a, b) = (a− b)2. (14)

    Kako je ranije navedeno, rješenje problema minimizacije u smislu najmanjih kvadrata

    je aritmetička sredina podataka. Dakle, prema (8), centri c1, . . . , ck klastera π1, . . . , πk

    odredeni su s

    cj = argminx∈R

    ∑ai∈πj

    (ai − x)2 =1

    |πj|∑ai∈πj

    ai, j = 1, . . . , k. (15)

    Funkcija cilja (12) odredena je s

    F(Π) =k∑

    j=1

    ∑ai∈πj

    (cj − ai)2. (16)

    Primjer 5.1.1 Neka je zadan skup A = {0, 4, 8, 12}. Odrediti sve dvočlane particijeskupa A koje zadovoljavaju (4) i pronaći LS-optimalnu particiju, te odrediti vrijednosti

    kriterijske funkcije cilja F , definirane s (16).

    Sve dvočlane particije skupa A prikazane su u Tablici 1, ima ih 7. LS-optimalna par-

    ticija je Π = {{0, 4}, {8, 12}}, jer na njoj kriterijska funkcija cilja F postǐze najmanjuvrijednost.

  • 28

    π1 π2 c1 c2 F(Π){0} {4, 8, 12} 0 8 32{4} {0, 8, 12} 4 20

    374.67

    {8} {0, 4, 12} 8 163

    74.67{12} {0, 4, 8} 12 4 32{0,4} {8,12} 2 10 16{0, 8} {4, 12} 4 8 64{0, 12} {4, 8} 6 6 80

    Tablica 1: Particije, centri i vrijednosti funkcije F

    5.2 Grupiranje objekata s dva obilježja

    Pretpostavimo sada da želimo objekte grupirati na osnovi dva obilježja (npr. klijente

    u banci želimo grupirati prema neto plaći i ukupnim godinama radnog staža). Neka je

    zadan konačan skup A = {a1, . . . , an} vektora iz R2, medu kojima može biti jed-nakih, gdje su ai = (xi, yi) ∈ R2, i = 1, . . . , n, n ≥ 2, koje želimo grupirati uk klastera koji zadovoljavaju (4). Analogno jednodimenzionalnom slučaju, možemo

    definirati reprezentante skupa vektora, ovisno o funkciji udaljenosti.

    Definicija 5.2.1 Funkciju d : R2×R2 −→ R+, koja ima svojstvo pozitivne definitnosti

    d(x,y) ≥ 0, ∀x,y ∈ R2 & d(x,y) = 0 ⇔ x = y

    zovemo kvazimetrička funkcija na R2.

    Koristit ćemo dva tipa funkcija:

    • dLS(x,y) = ∥x− y∥22 = (x− y)T (x− y) – LS kvazimetrička funkcija

    • d2(x,y) = ∥x− y∥2 =√(x− y)T (x− y) – l2 metrička funkcija (Euklidska uda-

    ljenost)

    Odredimo reprezentant skupa vektora iz R2 u smislu najmanjih kvadrata. Analognojednodimenzionalnom slučaju, treba pronaći rješenje sljedećeg problema:

    ∥ai − u∥22 → minu∈R2

    , u = (u1, u2) ∈ R2. (17)

    Možemo ga zapisati na sljedeći način:

    ∥ai − u∥22 = (ai − u)T (ai − u) =n∑

    i=1

    ((xi − u1)2 + (yi − u2)2) → minu1,u2

    . (18)

  • 29

    Odredimo parcijalne derivacije:

    ∂u1

    n∑i=1

    ((xi − u1)2 + (yi − u2)2) = 0

    n∑i=1

    ((xi − u1) = 0

    n∑i=1

    xi − nu1 = 0

    ⇒ u1 =1

    n

    n∑i=1

    xi. (19)

    Analogno,

    ∂u2

    n∑i=1

    ((xi − u1)2 + (yi − u2)2) = 0

    ⇒ u2 =1

    n

    n∑i=1

    yi. (20)

    Dakle, dobiveni vektor u =( 1n

    n∑i=1

    xi,1

    n

    n∑i=1

    yi

    )je reprezentant skupa vektora iz R2 i

    naziva se centroid.

    Centroid skupa vektora

    c(A) = (x, y) ∈ R2, x = 1n

    n∑i=1

    xi, y =1

    n

    n∑i=1

    yi, (21)

    jedinstveni je vektor koji ima svojstvo da je suma kvadrata odstupanja točaka (xi, yi)

    do neke čvrste točke iz R2 najmanja onda ako je ta čvrsta točka upravo centroid (x, y).Ističu se sljedeća dva svojstva [14]:

    n∑i=1

    ∥ai − u∥22 ≥n∑

    i=1

    ∥ai − c(A)∥22, ∀u ∈ R2, (22)

    n∑i=1

    (ai − c(A)) = 0. (23)

    Napomena 5.2.1 Analogno se može definirati centroid skupa vektora iz Rn.

    Svakom klasteru πj ∈ Π, j = 1, . . . , k, možemo pridružiti njegov centar cj, uzzadanu kvazimetričku funkciju d : R2 × R2 → R+, na sljedeći način

    cj = c(πj) := argminx∈R2

    ∑ai∈πj

    d(x, ai). (24)

  • 30

    Analogno jednodimenzionalnom slučaju, na skupu svih particija P(A, k) skupa A sas-tavljenih od k klastera, koje zadovoljavaju (4) definiramo kriterijsku funkciju cilja

    F : P(A, k) → R+ na sljedeći način

    F(Π) =k∑

    j=1

    ∑ai∈πj

    d(cj, ai), (25)

    a d-optimalnu particiju Π∗ tražimo rješavanjem sljedećeg optimizacijskog problema

    F(Π∗) = minΠ∈P(A,k)

    F(Π). (26)

    Definicija 5.2.2 Neka je A = {ai = (xi, yi) ∈ R2, i = 1, . . . ,m} skup vektora izR2. Kažemo da je particija Π∗ optimalna u smislu najmanjih kvadrata (LS-optimalna)ako je Π∗ rješenje optimizacijskog problema (25)-(26), a kvazimetrička funkcija d :

    R2 × R2 → R+ definirana sd(a, b) = ∥a− b∥22 (27)

    Kako je ranije navedeno, rješenje optimizacijskog problema u slučaju skupa vektora,

    u smislu najmanjih kvadrata, je centroid skupa vektora. Dakle, prema (21), centri

    c1, . . . , ck klastera π1, . . . , πk odredeni su s

    cj = argminu∈R2

    ∑ai∈πj

    ∥ai − u∥22 =1

    |πj|∑ai∈πj

    ai, j = 1, . . . , k. (28)

    Funkcija cilja (25) odredena je s

    F(Π) =k∑

    j=1

    ∑ai∈πj

    ∥cj − ai∥22. (29)

    5.3 k-means algoritam

    Problem traženja optimalne particije je problem globalne optimizacije, što je vrlo složen

    problem. Najčešće korǐsten algoritam za pronalaženje particije dosta bliske optimalnoj

    je k-means algoritam4.

    Intuitivno:

    • Treba odrediti najbolje grupiranje objekata u k klastera.

    • Najbolje grupiranje je ono u kojemu su elementi klastera što bliži jedni drugima.

    • Pretpostavimo da u svakom klasteru postoji jedna točka kojoj su svi elementiklastera bliži nego elementi drugog klastera. Nazovimo ju ”centar” klastera.

  • 31

    Slika 3: Ilustracija centara klastera

    Algoritam se može primjeniti uz pretpostavku da smo na neki način dobro procjenili

    početne centre klastera ili početnu particiju.

    Algoritam 5.3.1 Standardni k-means algoritam

    Korak 0 Učitati n, k, skup A i izabrati početne centre c01, . . . , c0k.

    Korak 1 Primjenom principa minimalnih udaljenosti odrediti početnu particiju Π =

    {π1, . . . , πk} tako da neki a ∈ A pripadne onom klasteru čiji je centar najblǐzielementu a. Izračunati centre c1, . . . , ck klastera π1, . . . , πk i početnu vrijednost

    funkcije cilja F0 = F(Π).

    Korak 2 Formirati novu particiju Λ = λ1, . . . , λk tako da neki a ∈ A pripadne onomklasteru čiji je centar najblǐzi elementu a. Izračunati njihove centroide l1, . . . , lk

    i novu vrijednost funkcije cilja F1 = F(Λ)

    Korak 3 Ako je F1 < F0, staviti cj = lj, j = 1, . . . , k; F0 = F1 i prijeći na Korak 2.

    U protivnom, STOP [14].

    Konačna raspodjela objekata u klastere, bit će zavisna od početne particije ili

    početnog odabira centara. Prilikom traženja LS-optimalne particije skupa podataka

    s jednim obilježjem, početni centri c1, . . . , ck klastera π1, . . . , πk u Koraku 0 Algoritma

    5.3.1 mogu se odrediti na sljedeći način:

    • sortirati skup podataka A = {a1, . . . , an} prema veličini od najmanjeg premanajvećem;

    4Izraz ”k-means” je prvi puta upotrijebio James MacQueen 1967. g., dok je standardni algoritamprvi puta predložio Stuart Lloyd 1957. g. Algoritam kakvog danas poznajemo su objavili Hartigan iWong 1979. g. [1]

  • 32

    • razdijeliti skup A na k približno jednakih podskupova π1, . . . , πk, zadržavajućipri tome sortirani redosljed elemenata;

    • za c0j , j = 1, . . . , k, uzeti aritmetičku sredinu skupa πj.

    Primjedba 5.3.1 Aritmetička sredina ā skupa podataka A = {a1, . . . , an} je veličinakoja podjednako ovisi o svim podacima. Ako medu podacima postoje ekstremne vri-

    jednosti, tada će upravo te vrijednosti značajno utjecati na aritmetičku sredinu i na

    formiranje klastera.

    Primjer 5.3.1 Neka je zadan skup A = {2, 3, 5, 10, 11, 12, 30}. Primjenom k-meansalgoritma pronaći dvočlanu particiju što blǐzu LS-optimalnoj.

    Iteracija π1 π2 c1 c2 F(Π)1 {2, 3, 5, 10} {11, 12, 30} 5 17.67 266.672 {2, 3, 5, 10, 11} {12, 30} 6.2 21 228.83 {2,3,5,10,11,12} {30} 7.17 30 94.84

    Tablica 2: Iterativan postupak pronalaženja LS-optimalne particije

    U Tablici 2 je prikazan iterativan tijek pronalaženja LS-optimalne particije prim-

    jenom Algoritma 5.3.1, uz početne centre c1 = 5 i c2 = 16. LS-optimalna particija je

    Π = {{2, 3, 5, 10, 11, 12}, {30}}. Broj 30 predstavlja stršeću vrijednost u skupu A i uskladu s Primjedbom 5.3.1 čini zaseban klaster.

    5.4 Odabir optimalnog broja klastera

    Ukoliko broj klastera nije moguće odrediti iz prirode problema ili ukoliko nije zadan

    unaprijed, potrebno je pronaći optimalan broj klastera.

    Jedan od načina je promatranje kriterijske funkcije cilja. Naime, porastom broja

    klastera, optimalna vrijednost funkcije cilja opada. Stoga za optimalan broj klastera

    se može uzeti onaj za koji je vrijednost funkcije cilja naglo pala. Postoji i nekoliko

    matematički definiranih indeksa čije se vrijednosti takoder mogu promatrati, npr.

    Davis-Bouldinov indeks, Dunnov indeks (vidi [14]) i Calinski-Harabaszev indeks.

    Calinski-Harabaszev indeks se može primjeniti prilikom traženja LS-optimalne par-

    ticije i korǐsten je u empirijskom dijelu rada, a njegova formula za jednodimenzionalan

    slučaj glasi:

    VCH =

    (n− k)k∑

    j=1

    nj(cj − c)2

    (k − 1)k∑

    j=1

    ∑ai∈πj

    (cj − ai)2, (30)

  • 33

    uz oznake definirane u (4) i (11), pri čemu je c =1

    n

    n∑i=1

    ai, centar (aritmetička sredina)

    skupa A. Indeks se analogno može primjeniti i na vǐse dimenzija. Poželjna je što veća

    vrijednost navedenog indeksa, jer će kompaktniji i bolje separirani klasteri rezultirati

    većom vrijednosti indeksa.

  • 34

    6 EMPIRIJSKI DIO: Segmentacija klijenata banke

    klaster analizom

    Kako je ranije navedeno, klaster analiza ima vrlo široko područje primjene. U nastavku

    će biti prikazana moguća primjena u bankarstvu i kreditnom skoringu.

    S razvojem kreditne industrije i sve složenije bankarske prakse dolazi do razvoja

    statističkih modela koji služe za donošenje kreditnih odluka. Kreditni skoring je postao

    najvažniji alat kojeg koriste financijske i kreditne institucije s ciljem predvidanja kred-

    itnih sposobnosti zajmotražitelja.

    Kreditni skoring (engl. credit scoring) je sistem dodjeljivanja bodova zajmotražitelju

    čiji zbroj predstavlja numeričku vrijednost koja pokazuje koliko je vjerojatno da za-

    jmotražitelj kasni u otplati kredita. Kredit skoring sistem dodjeljuje jednu kvantita-

    tivnu mjeru, nazvanu skor, potencijalnom komitentu predstavljajući buduće ponašanje

    u otplati kredita. Kreditni skor se izračunava na temelju skor-kartice, koja obuhvaća

    skupinu karakteristika koje su raspodijeljene prema atributima, od kojih svaki ima

    statistički izveden skor ili ”težinu”. Koriste se samo one karakteristike za koje je

    statistički provjereno da su prediktori budućeg ponašanja pri otplati kredita. Dobiveni

    kreditni skor predstavlja rang listu rizika, što je veći skor, manji je rizik i obratno. Fi-

    nancijska institucija odreduje graničnu vrijednost skora koja dijeli ”dobre” komitente

    od ”loših”, te s obzirom na vrijednost skora odobrava ili ne odobrava kredit [19].

    Diskriminantna analiza i linearna regresija su bile najčešće korǐstene metode za

    izgradnju skor-kartica u prošlosti. Novije metode uključuju logističku regresiju, probit

    analizu, matematičko programiranje, Markovljeve lance, ekspertne sustave, genetičke

    algoritme, neuronske mreže, itd. [5].

    Neovisno o tome koja se metoda koristi za izgradnju kredit skoring modela, cilj

    je izgraditi takav model koji sa što većom točnošću razlikuje dobre klijente od loših.

    Klaster analiza se pri tome pokazala vrlo korisnom i koristi se za grupiranje klijenata

    prema zajedničkim karakteristikama, kako bi se smanjio postotak pogrešno klasifici-

    ranih klijenata.

    6.1 Prethodna istraživanja

    Sljedeća istraživanja prikazuju moguću primjenu klaster analize u kreditnom skoringu

    u kombinaciji s drugim metodama.

    Punj i Steward [13] predlažu metodu koja kombinira Wardovu metodu s k-means

    metodom. Smisao ove metode je u tome što hijerarhijske metode mogu odrediti broj

    klastera i početne centre klastera, dok nehijerarhijske metode, kao što je k-means

    metoda, mogu dati bolje konačno rješenje. Gopalakrishnan, Sridhar i Krishnamurthy

    [2], te Sung [17] predlažu hibridni model koji koristi neuronske mreže i algoritme klaster

    metode. Kuo, Ho, i Hu [10] su izgradili metodu od dvije faze, koja koristi samoorga-

  • 35

    nizirajuće mape5 za odredivanje broja klastera, a zatim pomoću k-means algoritma

    rasporeduje podatke u klastere.

    Na osnovi navedenih studija, Nan-Chen Hsieh [6] predstavlja hibridni pristup u

    dizajniranju efektivnog modela kreditnog skoringa koji se temelji na tehnikama klas-

    teriranja i neuronskih mreža. Hibridni skoring model ima dvije faze. Cilj prve faze

    je pomoću klaster analize odrediti pripadnost klijenata skupini ”dobrih” ili ”loših”, te

    otkriti nereprezentativne podatke u uzorku. Cilj druge faze je pronaći najbolju arhitek-

    turu neuronske mreže, trenirati ju na podacima procesiranima klaster analizom, te iz-

    graditi kredit skoring model. Model je primijenjen i testiran na stvarnim njemačkim i

    australskim kreditnim podacima. Njemački uzorak se sastojao od 1000 aplikanata, 700

    dobrih i 300 loših, a australski od 690 aplikanata, 468 dobrih i 222 loša. Klaster anal-

    iza je provedena u dva koraka, prvo je uz pomoć samoorganizirajućih mapa odreden

    broj klastera i centar svakog klastera. Utvrdeno je da se najbolja segmentacija uzoraka

    postiže podjelom svakog uzorka u četiri klastera, od kojih dva predstavljaju tendenciju

    prema dobrom, a dva prema lošem kreditnom statusu. Zatim je upotrebljen k-means

    algoritam za rasporedivanje aplikanata u klastere i eliminiranje nereprezentativnih uzo-

    raka iz svakog klastera. Niti jedan uzorak nije sadržavao izolirane klastere (klastere s

    malim brojem podataka), ali je njemački uzorak imao nekonzistentan klaster (klaster

    koji sadrži i dobre i loše aplikante). Taj klaster je podijeljen u dva dijela prema origi-

    nalnom kreditnom statusu aplikanata (engl. class-wise classification), kako bi se moglo

    pratiti njihovo buduće ponašanje. Svakom aplikantu je dodana oznaka klastera ko-

    jemu pripada, utvrdena je najbolja arhitektura neuronske mreže i napravljen je model.

    Pokazano je da se ovakav hibridni model može koristiti u izgradnji efektivnog kredit

    skoring modela, jer su greške manje, a preciznost modela značajno veća.

    Nan-Chen Hsieh i Lun-Ping Hung [7] su istraživali mogućnosti multi-klasifikacijskog

    pristupa u kreditnom skoringu. Ovaj pristup uključuje tri različite metode izgradnje

    modela na podacima procesiranima klaster analizom. Metode koje se koriste su neu-

    ronske mreže, Bayesove mreže i SVM6. Klaster analiza je provedena u dva koraka, prvo

    je pomoću Bayesovog informacijskog kriterija odreden broj klastera, zatim je primi-

    jenjen k-means algoritam. Model je primijenjen i testiran na istim njemačkim kredit-

    nim podacima, kao i prethodno opisani hibridni model. Primjenom Bayesovog kriterija

    utvrdeno je da je optimalan broj klastera tri. Nakon primjene k-means algoritma za-

    ključeno je da su sva tri klastera nekonzistentna, stoga je svaki klaster podijeljen na

    dva dijela prema originalnom kreditnom statusu aplikanata. Testiranjem krajnjeg mod-

    ela je zaključeno da model koji koristi multi-klasifikacijski pristup daje bolje rezultate,

    5Samoorganizirajuća mapa (engl. self-organizing map) je vrsta neuronske mreže, trenirana nenad-gledanim učenjem s ciljem reprezentiranja vǐse-dimenzionalnih podataka u dvije dimenzije. Omogućujekontinuirano dodavanje podataka klasteru s najbližim centrom, bez obzira na početno zadane uvjetei tako odreduje optimalan broj klastera i njihove centre [6].

    6SVM (engl. support vector machine) – metoda potpornih vektora je metoda nadgledanog učenjakoja analizira podatke i prepoznaje uzorke, te se koristi za klasifikaciju i regresijsku analizu [18].

  • 36

    nego svaka metoda primijenjena posebno.

    Usporedujući ova dva kredit-skoring modela izgradena na istom uzorku može se

    zaključiti da broj klastera ovisi o kriteriju koji se koristi.

    Danuta Zakrzewska [21] je istražila mogućnost kombiniranja klaster analize sa sta-

    blima odlučivanja. Modeli su izgradeni na stvarnim njemačkim i japanskim kreditnim

    podacima. Prvo su pomoću klaster analize uzorci podijeljeni u klastere, zatim je pomoću

    stabla odlučivanja izgraden model za svaki klaster posebno. Pokazano je da su rezul-

    tati modela bolji ukoliko je uzorak podijeljen u klastere, u odnosu na rezultate modela

    izgradenog na cijelom uzorku.

    Upotrebu klaster analize u bihevioralnom skoringu istražili su Michael K. Lim i So

    Young Sohn [11]. Oni predlažu dinamični skoring model u kojem su klijenti kojima je

    odobren kredit podijeljeni u klastere, a period vraćanja kredita je podijeljen u segmente.

    Pokazano je da ovakav model omogućuje ranije predvidanje statusa klijenta. Model

    je testiran na stvarnim podacima jedne vodeće korejske banke na uzorku od 1040

    klijenata kojima je odobren kredit uz vrijeme otplate 18 mjeseci. K-means algoritmom

    je uzorak podijeljen u tri klastera, a vrijeme promatranja od 12 mjeseci je podijeljeno

    na kvartale. Neuronske mreže su trenirane posebno za svaki klaster i svaki kvartal, te

    je izgradeno 12 skoring modela. Usporedujući rezultate modela izgradenog na cijelom

    uzorku i dinamičnog modela, utvrdeno je da se jednaki postotak pogrešne klasifikacije

    postiže puno ranije s dinamičnim modelom. Za klaster u kojemu su ekonomski bolje

    stojeći klijenti potrebno je 6 mjeseci, a za klaster s loše stojećim klijentima samo 3

    mjeseca. Za klaster sa ”srednjim slojem” potrebno je 9 mjeseci (uz razinu značajnosti

    0.10). Zaključeno je da je 9 mjeseci dovoljno za predvidanje kreditnog statusa svih

    klijenata.

    6.2 Opis uzorka i varijabli za modeliranje

    Klaster analiza je provedena na stvarnim podacima jedne hrvatske banke. Uzorak se

    sastojao od 1956 klijenata banke kojima je odobren kredit, opisanih sa sljedećih 13

    varijabli.

    Naziv i opis varijabli:

    Spol – spol klijenta – kategorijalna varijabla.

    Kategorije: 101 - žene; 102 - muškarci; 100 - bez odgovora.

    Dobar/Loš – izlazna varijabla koja pokazuje kako je klijent vraćao kredit, je li klijent

    dobar ili loš. Loš je ako je u promatranom periodu kasnio u plaćanju barem 1

    rate kredita 3 mjeseca ili vǐse – kategorijalna varijabla.

    Kategorije: 101 - loš; 102 - dobar; 100 - bez odgovora.

    Stručna sprema – stručna sprema klijenta – kategorijalna varijabla.

  • 37

    Kategorije: 101 - nkv; 102 - pkv; 103 - nss; 104 - kv; 105 - sss; 106 - všs; 107 -

    vss, mr, dr; 100 - bez odgovora.

    Radni staž – ukupni radni staž koji uključuje i godine i mjesece, npr. ako klijent

    ima 10 godina i 3 mjeseca radnog staža, tada je u ovoj koloni upisan broj 10,25

    (10+(3/12)) – kontinuirana varijabla koja je kategorizirana.

    Kategorije: 101 - ≤ 5; 102 - 5,01 – 10,00; 103 - 10,01 – 15,00; 104 - 15,01 – 19,00;105 - 19,01 – 24,00; 106 - 24,01 – 50,00; 100 - bez odgovora.

    Bračno stanje – bračno stanje klijenta – kategorijalna varijabla.

    Kategorije: 101 - samac; 102 - u braku; 103 - rastavljen; 104 - udovac; 105 -

    izvanbračna zajednica; 100 - bez odgovora.

    Broj članova kućanstva – broj članova kućanstva klijenta – diskretna numerička

    varijabla.

    Kategorije: 101 - 1; 102 - 2, 3; 103 - 4, 5; 104 - 6, 7, 8, 9, 12; 100 - bez odgovora.

    Stanovanje – stambeni status klijenta – kategorijalna varijabla.

    Kategorije: 101 - vlastiti stambeni prostor; 102 - unajmljeni; 103 - kod roditelja;

    104 - ostalo; 100 - bez odgovora.

    Neto plaća – neto plaća klijenta u kn – kontinuirana varijabla koja je kategorizirana.

    Kategorije: 101 - do 2500; 102 - do 3500; 103 - do 5000; 104 - do 9000; 105 - vǐse

    od 9000; 100 - bez odgovora.

    Mjesečne obustave – mjesečne obustave na plaću u kn – kontinuirana varijabla koja

    je kategorizirana.

    Kategorije: 101 - nema; 102 - ima; 100 - bez odgovora.

    Administrativne obustave – mjesečne obustave na plaću u kn – kontinuirana vari-

    jabla koja je kategorizirana.

    Kategorije: 101 - 0; 102 - 1 – 700; 103 - 701 – 1500; 104 - 1501 – 2000; 105 - vǐse

    – 2000; 100 - bez odgovora.

    Sudužnik – ima li klijent po tom kreditu sudužnika ili nema – kategorijalna varijabla.

    Kategorije: 101 - nema sudužnika; 102 - ima sudužnika.

    Poslodavac – tip poslodavca gdje je dužnik zaposlen – kategorijalna varijabla.

    Kategorije: 101 - trgovačko društvo; 102 - obrt; 103 - slobodna zanimanja; 104 -

    javna uprava; 105 - javne ustanove; 106 - financijske institucije; 107 - umirovlje-

    nik; 108 - ostalo; 100 - bez odgovora.

  • 38

    6.3 Provodenje klaster analize po koracima

    6.3.1 Postavljanje ciljeva i odabir varijabli za klasteriranje

    Postavljanje ciljeva – cilj istraživanja je otkrivanje prirodnog grupiranja podataka

    (taksonomije), te otkrivanje veza medu podacima, u ovom slučaju klijentima

    banke. Treba pronaći klijente koji posjeduju zajedničke karakteristike vezane uz

    plaću, radni staž i stručnu spremu, poslodavca kod kojeg su zaposleni, te bračni i

    stambeni status. Osim istraživanja strukture podataka, cilj je i pronalazak takvog

    rješenja s kojim je moguće izgraditi kredit skoring model za svaki klaster.

    Odabir varijabli – varijable su odabrane u skladu sa željenim ciljem.

    U analizu su uključene sljedeće varijable: Korisnik mastera, Stručna sprema,

    Radni staž, Bračno stanje, Broj članova kućanstva, Stanovanje, Neto

    plaća, Mjesečne obustave, Sudužnik i Poslodavac.

    Iz anali