Click here to load reader

FAKULTET ELEKTROTEHNIKE I RAČUNARSTVA 1. … · LOGISTIČKA REGRESIJA ... izvornih varijabli na mali broj indeksa koji su linearna kombinacija izvornih varijabli i koji se zovu glavne

  • View
    218

  • Download
    0

Embed Size (px)

Text of FAKULTET ELEKTROTEHNIKE I RAČUNARSTVA 1. … · LOGISTIČKA REGRESIJA ... izvornih varijabli na...

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 1/39

    FAKULTET ELEKTROTEHNIKE I RAUNARSTVA

    Prof.dr.sc. N. Bogunovi

    Prof.dr.sc. B. Dalbelo Bai

    OTKRIVANJE ZNANJA U SKUPOVIMA

    PODATAKA

    Multivarijantna analiza

    1. Uvod u multivarijantnu analizu

    2. Metoda glavnih komponenata

    3. Grupiranje podataka

    4. Diskriminantna analiza

    biljeke za predavanja

    ak.god. 2003/04

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 2/39

    1. Uvod u multivarijatnu statistiku

    The objective of the data analysis is to extract relevant information contained in the data which can then be used to solve a given problem. Exploratory data analysis, EDA vs. Hypothesis Testing

    Data mining Postoje razliite klasifikacije multivarijatnih metoda. Mjerne skale: nominalna, ureajna, intervalna, racionalna (zadnje dvije ine metriku skalu) Broj varijabli: za varijable mjerene na zadnje tri skale broj varijabli je odgovarajui. Za nominalne varijable koje imaju 2 vrijednosti definira se jedna dummy varijabla, (npr. varijabla spol, varijabla poprima vrijednosti: 0 muki i 1 enski). Za nominalnu varijablu s 3 vrijednosti potrebno je formulirati tri varijable. Neka je dano: n entiteta, p varijabli Pretpostavimo podjelu tog skupa u dvije grupe.

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 3/39

    DEPENDANCE METHODS prisutnost ili odsutnost relacije izmeu dva skupa (zavisne i nezavisne) varijable INTERDEPENDANCE METHODS - ako je nemogue unaprijed odrediti skup varijabli koje su zavisne i skup varijabli koje su nezavisne nego je potrebno odrediti kako i zato su varijable meusobno u relaciji

    DEPENDANCE METHODS Dependance methods nadalje dijelimo prema:

    Broju nezavisnih varijabli (jedna ili vie) Broju zavisnih varijabli (jedna ili vie) Vrsti mjerne skale zavisne varijable Vrsti mjerne skale nezavisne varijable

    Jedna zavisna varijabla i jedna nezavisna varijabla (univarijatna statistika, za razliku od multivarijatne)

    Jedna zavisna i vie nezavisnih varijabli

    Primjer: strunjak za marketing eli utvrditi vezu izmeu namjere kupnje (NK) nekog proizvoda i niza nezavisnih varijabli: prihoda(P), obrazovanja(O), godine(G), naina ivota(N) itd. Linearni model:

    NK=0+ 1P + 2O+ 3G +4N +

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 4/39

    REGRESIJA Jedna zavisna i vie nezavisnih varijabli sve mjerene na metrikoj skali. ANOVA (Analiza varijance) Nezavisna varijabla mjerena na nominalnoj skali (primjer: umjesto da se biljei toni prihod, prihod se kategorizira kao visok, srednji, nizak.) ANOVA je tehnika za procjenu parametara linearnog modela kada su nezavisne varijable nominalne. ANOVA je posebni sluaj regresije (nezavisne varijable su kategorizirane). U najjednostavnijem sluaju ANOVA se svodi na t-test ako nominalna varijabla poprima dvije vrijednosti. (Primjer: Da li spol utjee na razinu kolesterola u krvi? Da li profesija utjee na razinu kolesterola u krvi? Da li spol i profesija zajedno utjeu na razinu kolesterola u krvi?) DISKRIMINANTNA ANALIZA Pretpostavimo da namjeru kupnje mjerimo na nominalnoj skali (kupci i oni koji to nisu) dok su nezavisne varijable mjerene na metrikoj skali. elimo odrediti da li se dvije grupe (kupci i oni koji to nisu) znaajno razlikuju s obzirom na nezavisne varijable, i ako da, mogu li nezavisne varijable biti upotrebljene za predvianje ili klasifikaciju potencijalnih kupaca u jednu od dvije grupe. 2- grupe DA je poseban sluaj multiple regresije. LOGISTIKA REGRESIJA Pretpostavka diskriminantne analize je da podaci dolaze iz multivarijatne normalne distribucije. Logistika regresija se primjenjuje kada su te pretpostavke naruene i kada je zavisna varijabla kombinacija nominalne i metrike varijable.

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 5/39

    Vie od jedne zavisne i jedna ili vie nezavisnih varijabli. KANONSKA KORELACIJSKA ANALIZA Je tehnika za analizu relacije izmeu dviju skupova varijabli. U naem primjeru ako nas kao zavisna varijable uz namjeru kupnje prehrambenog proizvoda jo interesira i miljenje kupca o okusu proizvoda. (Multipla regresija je poseban sluaj CCA) MDA - DISKRIMINANTNA ANALIZA S VIE GRUPA Pretpostavimo da potencijalne kupce podijelimo u tri grupe. Kako se te tri grupe razlikuju u odnosu na nezavisne varijable? Kako razviti metodu diskriminacije za budue kupce?

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 6/39

    INTERDEPENDANCE METHODS

    Nema eksplicitno zadanih skupova zavisnih i nezavisnih varijabli. Potrebno je identificirati kako i zato su varijable korelirane jedna s drugom. METODA GLAVNIH KOMPONENATA

    - metoda za redukciju podataka. Reducira veliki broj varijabli na mali broj kompozitnih varijabli.

    FAKTORSKA ANALIZA Pokuava identificirati mali broj faktora koji su odgovorni za korelaciju izmeu velikog broja varijabli. FA tehnika redukcije podataka. Identificira grupe varijabli tako da su korelacije varijabli unutar grupe vee nego one izmeu grupa. (Primjer kolski psiholog pokuava analizirati korelaciju izmeu ocjena razliitih kolegija predmeta za uenike u koli) GRUPIRANJE PODATAKA Tehnika grupiranja elemenata (objekata, entiteta, opservacija) tako da su elementi unutar jednog klastera slini u odnosu na obiljeja (varijable) koje ih opisuju. Naroito interesantna u bio znanostima za razvijanje taksonomija. Primjer: grupiranje prehrambenih artikala prema vrijednostima nutrijenata (vitaminima, mineralima, ugljikohidratima), grupiranje potencijalnih kupaca prema kupovnim navikama.

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 7/39

    2. METODA GLAVNIH KOMPONENATA

    ili Karhunen-Love transformacija

    ili Hotellingova transformacija

    (engl. Principal Component Analysis - PCA)

    - Karl Pearson 1901. godine prvi opisao PCA

    - Hotelling 1933. dao opis izrauna glavnih komponenti

    - Primjena za vie varijabli tek s razvojem raunala

    Jedna od najjednostavnijih metoda multivarijatne statistike.

    Cilj je nainiti novi koordinatni sustav s manjim brojem dimenzija od

    izvornog koji naglaava glavne uzorke varijacija podataka

    Primjena:

    redukcija dimenzionalnosti podataka (reducira broj

    izvornih varijabli na mali broj indeksa koji su linearna

    kombinacija izvornih varijabli i koji se zovu glavne

    komponente)

    interpretacija podataka (glavne komponente

    objanjavaju varijabilnost podataka na najkoncizniji nain,

    na taj nain pokazuje neke skrivene povezanosti,

    meuodnose podataka. Podaci se prikazuju na nain koji

    nije uobiajen, ali sadri mnogo bitnih informacija o skupu

    izvornih podataka)

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 8/39

    Cilj metode glavnih komponeneta:

    X1, X2, Xp varijabli (svojstava), mjerenih na n objekata (sva

    mjerenja se prikazuju n x p matricom),

    treba nai Y1, Y2, Yp tako da su nekorelirani

    (odsustvo korelacije indeksi odraavaju razliite dimenzije

    podataka)

    i da vrijedi Var(Y1) Var(Y2) Var(Y p)

    Yi se nazivaju glavne komponente

    - varijance veine Yi zanemarivo male -> varijabilnost skupa

    podataka se moe opisati s malim brojem glavnih komponenata Yi

    - PCA provediva samo ako su izvorne varijable korelirane

    najbolje ako su jako korelirane - tada ima redundancije u

    izvornim varijablama koje mjere istu stvar, na primjer 20-30

    varijabli predstavi se sa 2-3 glavne komponente.

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 9/39

    Osnovne definicije: Neka je X sluajni vektor , elementi od X su sluajne varijable.

    =

    pX

    XX

    XL

    2

    1

    Tada je oekivanje sluajnog vektora vektor definiran sa:

    ( )

    ( )( )

    ( )

    =

    pXE

    XEXE

    XEL

    2

    1

    ,

    gdje je )( iXE oekivanje sluajne varijable iX , oznaimo ga s i .

    Varijanca sluajnog vektora X je

    ( ) ( )( )[ ]22 XEXEXVar == . Za pji .,2,1, K= definirajmo realne brojeve:

    ( )( ) ( )( )[ ] ( ) ( ) ( )jijijjiiij XEXEXXEXEXXEXEc == . Za ji , ijc zovemo kovarijanca sluajnih varijabli iX , jX i esto je

    oznaavamo s ( )ji XXCov , . Simetrinu matricu definiranu na slijedei nain:

    =

    pppp

    p

    p

    ccc

    cccccc

    ......... ...............................

    ......... .........

    21

    22221

    11211

    nazivamo kovarijaciona matrica sluajnog vektora X . Kada je oekivanje sluajnog vektora nula (nul-vektor) tada je kovarijaciona matrica jednaka

    autokorelacionoj matrici sluajnog vektora X koja je definirana sa:

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 10/39

    )( TXXER = .

    GLAVNE KOMPONENTE

    Neka je ( )TpXXX ,,1 K= sluajni vektor s kovarijacionom matricom i neka su njene svojstvene vrijednosti dane s 021 p K .

    Pogledajmo linearne kombinacije :

    ppT XlXlXlXlY 122111111 +++== K

    ppT XlXlXlXlY 222211222 +++== K

    M

    pphhhThh XlXlXlXlY +++== K2211

    M

    pppppTpp XlXlXlXlY +++== K2211

    Glavne komponente su nekorelirane linearne kombinacije pYYY ,,, 21 K ije

    varijance su najvee mogue.

    Linearne kombinacije kh YY , su nekorelirane ako vrijedi ( ) 0, =hk YYCov . Prva glavna komponenta je linarna kombinacija s najveom varijancom, odnosno

    ona koja maksimizira izraz ( )1YVar , uz uvjet da vrijedi 111 =llT .

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 11/39

    Glavne komponente definiramo na slijedei nain:

    Prva glavna komponenta je linearna kombinacija XlY T11 = koja

    maksimizira izraz ( )XlVar T1 , uz uvjet 111 =llT . Druga glavna komponenta je linearna kombinacija XlY T22 = koja

    maksimizira izraz ( )XlVar T2 , uz uvjet 122 =ll T i ( ) 0, 21 =XlXlCov TT .

    h-ta glavna komponenta je linearna kombinacija XlY Thh = koja

    maksimizira izraz ( )XlVar Th , uz uvjet 1=hTh ll i ( ) 0, =XlXlCov TkTh za hk < .

    p-ta glavna komponenta je linearna kombinacija XlY Tpp = koja

    maksimizira izraz ( )XlVar Tp , uz uvjet 1=pTp ll i ( ) 0, =XlXlCov TkTp za pk < .

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 12/39

    Objanjenje metode glavnih komponenata

    Varijance i kovarijance linearnih kombinacija Yi (tj. glavnih komponenti) dane su formulama:

    ( ) hhThh llYVar == za ph ,,2,1 K= ( ) 0, == kThkh llYYCov za pkh ,,2,1, K=

    Kovarijaciona matrica podataka je realna i simetrina tj. vrijedi

    =T , te je pozitivno definitna , odnosno

    xxx > ,0 .

    Kovarijaciona matrica je dimenzije p x p i ima p nenegativnih svojstvenih vrijednosti.

    Svaka se simetrina matrica moe napisati kao produkt svojih svojstvenih vektora i svojstvenih vrijednosti na slijedei nain:

    Tppp

    TT eeeeee +++= K222111 ,

    odnosno

    QQT = , gdje je

    Q matrica svojstvenih vektora matrice ,

    je dijagonalna matrica koja na dijagonali ima svojstvene vrijednosti matrice .

    Svojstvene vrijednosti ( ) definirane kao nul-toke jednadbe

    ( ) 0det =I , a svojstveni vektori (e ) se dobivaju iz jednadbe

    ee = .

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 13/39

    Tvrdnja 1. Neka je B pozitivno definitna matrica sa svojstvenim vrijednostima

    021 p K i pripadnim normaliziranim svojstvenim vektorima

    peee ,,, 21 K . Tada je

    10max =

    xxBxx

    T

    T

    x (postie se za 1ex = ) i vrijedi takoer

    1,1max + = kT

    T

    eex xxBxx

    k

    K

    (postie se za 1+= kex , 1,,2,1 = pk K ).

    Tvrdnja 2. Neka je kovarijaciona matrica sluajnog vektora ( )TpXXX ,,1 K= i neka su dani parovi svojstvena vrijednost - svojstveni vektor

    ( ) ( ) ( )pp eee ,,,,,, 2211 K kovarijacione matrice , gdje je 021 p K . (Ako su neke svojstvene vrijednosti h jednake, tada izbor pripadnog

    svojstvenog vektora he i hY nije jedinstven.) Oznaimo koordinate vektora he

    ovako: [ ]Tphhhh eeee K,, 21= . Tada je h-ta glavna komponenta dana sa pphhh

    Thh XeXeXeXeY +++== K2211 za ph ,,2,1 K=

    i vrijedi

    ( ) hhThh eeYVar == za ph ,,2,1 K= ( ) 0, == kThhk eeYYCov za kh .

    Tvrdnja 3. Ukupna varijanca je jednaka

    ( ) ( )=

    =+++=p

    jjp XVartr

    1

    222

    21 K

    ( )=

    =+++=p

    hhp YVar

    121 K

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 14/39

    Primjer. Pretpostavimo da sluajne varijable 321 ,, XXX imaju kovarijacionu

    matricu:

    200052021

    .

    Moe se provjeriti da tada parovi svojstvena vrijednost-svojstveni vektor izgledaju

    ovako:

    83.51 = [ ]0,924.0,383.01 =Te 00.22 = [ ]1,0,02 =Te 17.03 = [ ]0,383.0,924.03 =Te

    Glavne komponente su tada :

    2111 924.0383.0 XXXeYT ==

    322 XXeYT ==

    2133 383.0924.0 XXXeYT +==

    Varijanca prve glavne komponente je

    ( ) ( ) 1211 83.5924.0383.0 === XXVarYVar , kovarijanca izmeu prve i druge glavne komponente je

    ( ) ( ) 0,924.0383.0, 32121 == XXXCovYYCov . Sada raunamo trag:

    17.000.283.5251 32123

    22

    21 ++=++=++=++ = 8

    Prve dvije komponente sudjeluju s udjelom ( ) 98.08

    283.5=

    + od ukupne

    varijance. U ovom sluaju je jasno da bi komponente 2,1 YY mogle dobro zamjeniti

    tri originalne varijable s vrlo malo gubitaka informacije.

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 15/39

    Geometrijska interpretacija metode glavnih komponenata

    elimo li vidjeti to bi bile glavne komponente nekog konkretnog skupa uzoraka

    moramo definirati neke pojmove deskriptivne statistike. Neka je

    { }nxxxX K,, 21= neki skup uzoraka, tada je srednja vrijednost dana s

    .11

    =

    =n

    iin

    x

    Uzorci mogu biti viedimenzionalni podaci, odnosno svaki uzorak ix moe biti p-

    dimenzionalni vektor

    =

    pi

    i

    i

    i

    x

    x

    x

    L

    2

    1

    x .

    Tada vektor srednjih vrijednosti definiramo kao:

    =

    ==

    =

    =

    =

    =

    pn

    i

    pi

    n

    ii

    n

    ii

    n

    ii

    xn

    xn

    xn

    xn

    L

    L

    2

    1

    1

    1

    2

    1

    1

    1

    1

    1

    1

    1.

    Ako su podaci dvodimenzionalni, tada je vektor srednjih vrijednosti

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 16/39

    PRIKAZ VEKTORA SREDNJIH VRIJEDNOSTI

    Varijanca skupa uzoraka S je p-dimenzionalni vektor dan izrazom:

    ( )

    ( )

    ( )

    ( )

    =

    =

    =

    =

    =

    =

    n

    i

    ppi

    n

    ii

    n

    ii

    n

    ii

    xn

    xn

    xn

    n

    1

    2

    1

    222

    1

    211

    1

    22

    11

    11

    11

    11

    L

    xs .

    Komponente ovog vektora mjere rairenost (spread) skupa uzoraka du svih p

    osi koje razapinju p-dimenzionalni prostor.

    Razliite komponente uzoraka mogu biti meusobno u korelaciji, npr. vrijednost

    varijable ax raste kada raste vrijednost varijable bx . Ovo svojstvo je sadrano u

    kovarijanci abcov od ax i bx definiranoj kao:

    ( )( )=

    =n

    i

    bbi

    aaiab xxn 11

    1cov .

    Matrica C dimenzije p x p dana sa [ ] nbaab ,,1,cov K==C , odnosno

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 17/39

    ( ) ( )( )

    ( )( ) ( )

    =

    =

    ==

    ==

    n

    i

    ppi

    n

    i

    ppii

    n

    i

    ppii

    n

    ii

    pppp

    p

    p

    xn

    xxn

    xxn

    xn

    ccc

    ccc

    ccc

    1

    2

    1

    11

    1

    11

    1

    211

    21

    22221

    11211

    11

    11

    11

    11

    ......... ...............................

    .........

    .........

    L

    MOM

    L

    C

    Naziva se kovarijaciona matrica uzoraka. Kovarijaciona matrica za skup

    uzoraka koji ima vektor srednjih vrijednosti nula postaje autokorelaciona matrica

    definirana ovako:

    ( )

    ( )

    =

    ==

    ==

    n

    i

    pi

    n

    i

    pii

    n

    i

    pii

    n

    ii

    xn

    xxn

    xxn

    xn

    R

    1

    2

    1

    1

    1

    1

    1

    21

    11

    11

    11

    11

    L

    MOM

    L

    (Napomene: Nazivi SS i SSCP za sum of squares i cross product; R= XXT)

    Geometrijski gledano, metoda glavnih komponenata je izbor novog koordinatnog

    sustava dobivenog ortogonalnom transformacijom originalnog sustava

    GEOMETRIJSKA INTERPRETACIJA GLAVNIH KOMPONENATA

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 18/39

    Prva glavna komponenta je smjer du kojeg je varijanca podataka najvea. Druga glavna komponenta je smjer maksimalne varijance podataka u prostoru okomitom na prvu glavnu komponentu.

    Novi koordinatni sustav razapinju pripadni svojstveni vektori najveih svojstvenih vrijednosti kovarijacione matrice skupa podataka.

    Redukcija dimenzionalnosti metodom glavnih komponenata

    Primjer slike u boji.

    Metoda glavnih komponenata -> za redukciju dimenzionalnosti podataka, (uz to

    manje bitnih gubitaka).

    Izvorni, p-dim podaci se projekcijom prevode u k-dim pri emu vrijedi,

    pk <

    Ideja: napraviti projekciju tih n uzoraka iz p-dim prostora N u k -dim potprostor M,

    ali tako da ti projicirani uzorci budu to sliniji originalnim uzorcima.

    Projekcija uzoraka iz prostora N u potprostor M dobija se mnoenjem uzorka

    transponiranom matricom matrice V, (p x k matrica) iji stupci predstavljaju bazu potprostora M izraenu preko baze N izvornog prostora. Odnosno,

    iiT yxV = ,

    gdje je ix uzorak u prostoru N, a iy uzorak u prostoru M.

    Potprostor u koji se vri projekcija treba biti tako odabran da je pogreka

    rekonstrukcije najmanja mogua, tj. da se projekcijom izgubi to je manje

    mogue informacije o izvornom podatku.

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 19/39

    Primjer. Dan je skup toaka u 3-dim prostoru. Traimo 2-dim prikaz podataka

    koji to vjernije opisuje originalni skup podataka.

    PRIKAZ PODATAKA U ORIGINALNOM PROSTORU

    Projekcija na Y-Z ravninu, vjernije uva izvorne podatke nego projekcija na X-Z. PROJEKCIJA PODATAKA NA RAVNINU

    PCA najbolje oodreuje potprostor koji uva najvie informacija!

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 20/39

    Neka je dan p-dimenzionalni prostor uzoraka i X skup n-uzoraka iz tog prostora.

    Vektor srednjih vrijednosti uzoraka dan je izrazom:

    .11

    =

    =n

    iixn

    Ako srednja vrijednost skupa uzoraka nije nula, tada svakom uzorku iz S

    oduzmemo vektor srednjih vrijednosti, odnosno

    )(xt ii = .

    Tada e taj dobiveni skup uzoraka T imati vektor srednjih vrijednosti nula.

    Da bi odredili potprostor M u koji e se projicirati skup uzoraka T potrebno je

    odrediti kovarijacionu matricu skupa uzoraka T , te njene svojstvene vrijednosti i

    jedinine svojstvene vektore.

    Kovarijaciona matrica rauna se prema formuli:

    ( ) ( ) jin

    l

    Tjljili ttn

    xxn

    ji1

    11

    1),(1

    ,, =

    =

    =

    C .

    Svojstvene vrijednosti ( ) definirane su kao nul-toke jednadbe,

    ( ) 0det = CI .

    Broj svojstvenih vrijednosti kovarijacione matrice C (dim p x p) je p.

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 21/39

    Svojstveni vektori e i svojstvene vrijednosti su povezani jednadbom,

    ee =C .

    Svakom svojstvenom vektoru odgovara jedna svojstvena vrijednost,

    Jednoj svojstvenoj vrijednosti moe odgovarati beskonano mnogo

    svojstvenih vektora, (meusobno kolinearni)

    Svakoj svojstvenoj vrijednosti pripada samo jedan jedinini svojstveni

    vektor.

    Svojstveni vektori koji pripadaju razliitim svojstvenim vrijednostima

    meusobno su ortogonalni.

    Baza k-dimenzionalnog potprostora M odreena je pomou 'vodeih' k

    jedininih svojstvenih vektora kovarijacione matrice C (inae ih ima p!).

    Pod pojmom 'vodei' jedinini svojstveni vektori podrazumijevaju se jedinini

    svojstveni vektori koji pripadaju najveim svojstvenim vrijednostima.

    { }( ) ( )( ) ( )

    ( ) ( ) , )( , .......................................................

    2)( ,

    1)( , ,......,,

    2

    p)i (ki

    p)i (i

    p)i (iB

    k

    kM

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 23/39

    Rekonstrukcija podataka i pripadna pogreka U sluaju da metodu glavnih komponenata elimo koristiti za kompresiju

    podataka ili za slanje podataka kanalima nedostatne irine (manje od dimenzije

    podataka), tada e nas zanimati i rekonstrukcija podataka nakon slanja

    (kompresije) i greka koja pri tome nastaje.

    Formula za rekonstrukciju uzorka ix iz vektora glavnih komponenata je:

    ==

    ki

    i

    i

    pk

    pp

    k

    k

    ii

    y

    y

    y

    yVx...

    ......... ...............................

    .........

    ......... 2

    1

    21

    222

    21

    112

    11

    '

    eee

    eee

    eee

    .

    XT (p x n) = V (p x k) UT (k x n)

    Uslijed gubitka informacije koji je uzrokovan projekcijom, javlja se pogreka

    rekonstrukcije (udaljenost izmeu uzoraka), a njen kvadrat je tono jednak sumi

    svih svojstvenih vrijednosti koje su odbaene:

    +=

    ===p

    kiiiiii

    1

    , xVVxxx T .

    Srednja kvadratna pogreka rekonstrukcije svih uzoraka iz skupa S je:

    =

    =n

    iiin 1

    1 xVVx T .

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 24/39

    Primjer primjene metode glavnih komponenata redukciju dimenzionalnosti podataka u obradi slike

    Boja u RGB zapisu je predstavljena kao vektor u trodimenzionalnom

    prostoru iju bazu ine vektori R, G i B koji odgovaraju crvenoj, plavoj i

    zelenoj boji. Dakle, svaki slikovni element (engl. pixel) je jedan vektor u

    prostoru koji razapinju vektori R, G i B.

    Slika je skup 3-dimenzionalnih podataka.

    ORIGINALNA SLIKA U BOJI

    Pretvorbu slike u boji u crno bijelu sliku, odnosno u nijanse sive, moemo gledati kao projekciju elemenata skupa iz 3-dimenzionalnog (R, G i B) prostora u

    1-dimenzionalan prostor.

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 25/39

    PCA odreuje smjer u kojem e projekcija imati najveu varijancu,

    odnosno crno-bijela projekcija slike e zadrati najvie informacija o boji.

    (nije najbolji nain pretvorbe!)

    smjer prve glavne komponente je vektor u prostoru RGB - boja ijih

    razliitih nijansi na slici ima najvie.

    Primjer - na slici koja veinom ima nijanse crvene boje, bolje e izgledati

    projekcija na os R (crvena), nego projekcija na G (zelena) ili B (plava).

    PROJEKCIJA NA OS R (CRVENA)

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 26/39

    PROJEKCIJA NA OS B (PLAVA)

    PROJEKCIJA U SMJERU PRVE GLAVNE KOMPONENTE

    Projekcija u smjeru prve glavne komponente uvijek daje najvjerniju crno-bijelu

    sliku.

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 27/39

    Literatura:

    Johnson, R. A.; Wichern, D. W.: Applied Multivariate Statistical

    Analysis, Prentice Hall; 5th edition, 2002.

    Poljak, T., Metoda glavnih komponenata, diplomski rad, Matematiki

    odjel Prirodoslovno-matematikog fakulteta, 2003.

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 28/39

    3. GRUPIRANJE PODATAKA (engl. CLUSTER ANALIZA)

    engl. Taxonomy analysis Cilj: Pridruiti objekte u grupe na temelju slinosti objekata. Slinost je predefinirani kriterij koji se rauna iz opaanja (mjerenja) na objektima. Pitanja:

    Koju mjeru slinosti ili razliitosti (engl. similarity, dissimilarity) koristiti ?

    Koji algoritam grupiranja koristiti?

    Za grupiranje objekata metrika, za grupiranje varijabli korelacijski koeficijenti

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 29/39

    Mjera udaljenosti (engl. dissimilarity measure) je mjera razliitosti podataka Mjera udaljenosti ili metrika d je funkcija sa X x X u R koja

    zadovoljava uvjete:

    D (xk, xl) 0, za xk=xl, D (xk, xl) = 0 (pozitivna definitnost)

    D (xk, xl) = D (xl, xk) (simetrinost) D (xk, xl) D (xk, xj) + D (xj, xl) (pravilo trokuta)

    Metrika:

    L2, Euklidska, D (xk, xj) = || xk xj || = ( i (xki xji)2 )1/2 specijalni sluaj metrika Minkowski za r = 2

    D (xk, xj) = ( i | xki xji|r )1/r

    (primjer: skup toaka u 2-dim prostoru koji je od neke vrste toke, sredita, udaljen za odabranu konstantnu vrijednost r je krunica)

    L1, Manhattan ili Cityblock specijalni sluaj metrika

    Minkowski za r = 1 (primjer: skup toaka u 2-dim prostoru koji je od neke vrste toke, sredita, udaljen za odabranu konstantnu vrijednost r je dijamant)

    Za binarne vektora L1 je Hammingova udaljenost

    L, za r formula se naziva ebievljeva udaljenost: D (xk, xi) = Max1 jN { | xkj xij| }

    (primjer: skup toaka u 2-dim prostoru koji je od neke vrste toke, sredita, udaljen za odabranu konstantnu vrijednost r je kvadrat)

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 30/39

    Primjer:

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 31/39

    Statistika udaljenost: Mahalonobisova udaljenost (1948.g.)

    d(x,y) = sqrt [ (x-y)'-1(x-y)],

    gdje je -1 inverz matrice varijanci-kovarijanci.

    Ta je udaljenost pozitivno definitna kvadratna forma oblika x'Ax, sdje je A= -1 i poopenje je euklidske udaljenosti ako varijable imaju razliite standardne devijacije i korelirane su! Na primjer ako se Mahalanobisova udaljenost koristi za raunanje udaljenosti jedne multivarijatne opservacije od centra populacije:

    = = =p

    i jjp

    j ijiixxvxxD

    1 12 )()(

    gdje su (x1, x2, , xp) vrijednosti varijabli X1, X2, , Xp, a vij je element u i-tom retku i j-tom stupcu inverzne matrice varijanci kovarijanci. (Primjer: skup toaka u 2-dim prostoru koji je od neke vrste toke, sredita, udaljen za odabranu konstantnu vrijednost r je elipsa)

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 32/39

    Vrste grupiranja: Particijska Hijerarhijska

    Parametarska

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 33/39

    Hijerarhijska grupiranja rezultat grupiranja DENDOGRAM

    Tree Diagram for 22 CasesComplete Linkage

    Euclidean distances

    0 1 2 3 4 5 6 7 8

    Linkage Distance

    PorscheCorvette

    EagleIsuzuFordBuick

    ToyotaMazda

    VolvoSaabBMW

    MercedesAudi

    NissanMitsub.PontiacHonda

    VWDodge

    ChryslerOlds

    Acura

    Aglomerativna (bottom-up) (poinju individualnim objektom, inicijalno n objekat n grupa, najsliniji objekti se grupiraju, grupe se stapaju u skladu s odabranim kriterijem)

    Divizivna (top-down) (rade suprotno, inicijalno svih n

    podataka je jedna grupa, koja se dijeli na podgrupe, podgrupe se dijele dalje u skladu s odabranim kriterijem)

    Particijska grupiranja nisu hijerarhijske (engl. flat)

    K srednjih vrijednosti , (k means) SOM

    Parametarski model

    EM algoritam

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 34/39

    Aglomerativna hijerarhijska grupiranja

    Metode povezivanja (linkage methods)

    - pogodne za varijable i objekte

    single linkage

    complete linkage

    average linkage

    Primjer: Grupiranje 4 podataka u 2-dim prostoru

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 35/39

    Single linkage Povezivanje na temelju minimalne udaljenosti ili povezivanje najblieg susjeda Podaci u proceduri mogu biti udaljenosti ili slinosti izmeu objekata. Najblii susjed odreuje najmanju udaljenost ili najveu slinost izmeu podataka. Zbog naina spajanja ne moe razlikovati slabo odjeljive grupe, ali moe odijeliti ne-elipsoidalne grupe. Ima tendenciju stvaranja duljih lanaca na ijim se krajevima jedinke mogu bitno razlikovati.

    Average Linkage Povezivanje na temelju srednje udaljenosti izmeu grupa. Udaljenost je srednja vrijednost udaljenosti svih parova u grupama.

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 36/39

    Povezivanje na temelju maksimalne udaljenosti udaljenost izmeu dvije grupe (elementa) je odreena najveom udaljenou. Osigurava da su svi objekti u grupi unutar neke maksimalne udaljenosti.

    Uoava se slinost dendograma complete linkage i average linkage, ali se povezivanje deava na razliitim razinama udaljenosti. Ulaz u postupak povezivanja moe biti i korelacijske matrica. Slinost izmeu dviju varijabli mjeri se produkt-moment korelacijskim koeficijentom. Varijable s velikim negativnim korel. koef. smatraju se jako udaljenima, a one s veim pozitivnim smatraju se bliskima. Zakljuci: hijerarhijske aglomerativne metode su osjetljive na outliere nema mogunosti preispitivanja ve pridjeljenih (krivo) objekata grupama dobro je probati vie metoda i vie mjera udaljenosti te provjeriti

    konzistentnost rjeenja stabilnost grupiranja moe se provjeriti dodavanjem perturbacija. Ako su

    grupe jasno odjeljive grupiranje prije i poslije perturbacija se trebaju slagati

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 37/39

    Particijske metoda: Algoritam k srednjih vrijednosti najpoznatiji

    ALGORITAM k SREDNJIH VRIJEDNOSTI Odnosi se na particiju objekata, a ne varijabli. Ne koristi matricu slinosti pa je zahvalnija metoda za vei skup podataka. Ukratko:

    1. odabere se k poetnih centara grupa 2. sve se vrijednosti rasporede u k grupa po pravilu minimalne

    udaljenosti 3. rauna se novih k centroida 4. ponavljaj korake 2 i 3 dok vie nama promjena

    Algoritam k - srednjih vrijednosti (engl. k means algoritam) je postupak grupiranja na temelju minimizacije kriterijske funkcije: Nc J = j=1Jj, pri emu je Jj = x Sj || x Zj ||2. Nc predstavlja broj elemenata od k grupa, dok Sj predstavlja skup uzoraka iji je centar Zj. Cilj algoritma je nai k sredita grupa Z1, Z2, ..., Zk za N poetnih neraspodjeljenih uzoraka. Broj k se zadaje na poetku, zajedno sa uzorcima, i za njega vrijedi: 0 < k < N. Specifinost algoritma je ta da ovisi o redoslijedu uzimanja uzoraka.

    Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 38/39

    Algoritam: 1. izabiremo k sredita grupa Z1 (1), Z2 (1), ..., Zk (1). Metoda izbora

    poetnih sredita grupa je proizvoljna. Postoji nekoliko tipova uobiajenih izbora pa prema tome i nekoliko tipova algoritma k srednjih vrijednosti.

    2. u m tom koraku (iteraciji) razdjeljujemo uzorke x1, x2, ..., xN u k grupa pomou relacije:

    x Sj (m) ako je || x Zj (m) || < || x Zi (m) ||, i = 1, 2, .., N; i j. Sj (m) predstavlja skup uzoraka u m tom koraku iji je centar Zj.

    3. izraunavamo nova sredita grupa Zj (m+1), j = 1, 2, ..., k tako da je kriterijska funkcija

    J = kj=1 x Sj(m) || x Zj (m+1) ||2 minimalna. Sredita grupa koja minimiziraju kriterijsku funkciju u m toj iteraciji su aritmetike srednje vrijednosti uzoraka pojedinih grupa Zj (m+1) = 1/Nj ( x=Sj(m) x ) za j = 1, 2, ..., k; Nj je broj uzoraka u grupi.

    4. ako je Zj (m+1) = Zj (m) za sve j =1, 2, ..., k, postupak zavrava.

    Ukoliko taj uvjet nije ispunjen, ponavljamo postupak od koraka 2. Na rezultat grupiranja pomou algoritma k srednjih vrijednosti utjee:

    broj grupa izbor poetnih sredita grupa

    Algoritam zahtjeva eksperimentiranje sa razliitim vrijednostima k i razliitim poetnim konfiguracijama centara. Nema openitog dokaza o konvergenciji algoritma.

  • Otkrivanje znanja u skupovima podataka Metoda glavnih komponeneta

    Prof.dr.sc. Bojana Dalbelo Bai 39/39

    Metoda glavnih komponenata i grupiranje Moe se raditi PCA prije grupiranja kako bi se reducirao veliki broj varijabli i time smanjilo ukupno raunanje. Rezultati se sa i bez predprocesiranja s PCA mogu razlikovati!

    Literatura:

    Hartigan, J.A., Clustering Algorithms, John Wiley & Sons, 1975.