177
Multivarijatna analiza podataka Statističko modeliranje, prediktivna analitika Doc. dr.sc. Vesna Lužar-Stiffler CAIR Centar d.o.o. – “The House of Statistics” i Sveučilište u Zagrebu Zagreb, Hrvatska e-mail: [email protected] URL: www.cair-center.hr Medicinski fakultet Sveučilišta u Zagrebu Doktorski studij Prosinac 2010

Multivarijatna analiza podataka · STATISTIČKO MODELIRANJE, PREDIKTIVNA ANALITIKA 4. Metode za klasifikaciju Diskriminativna analiza (Fisherova) Kanonička diskriminativna analiza

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

  • Multivarijatna analiza podatakaStatističko modeliranje, prediktivna analitika

    Doc. dr.sc. Vesna Lužar-StifflerCAIR Centar d.o.o. – “The House of Statistics”iSveučilište u ZagrebuZagreb, Hrvatska

    e-mail: [email protected]: www.cair-center.hr

    Medicinski fakultet Sveučilišta u ZagrebuDoktorski studij Prosinac 2010

    mailto:[email protected]://www.cair-center.hr/

  • SadržajMULTIVARIJATNA ANALIZA PODATAKA 1. Uvod i primjeri metoda multivarijatne analize 2. Metode za redukciju podataka, ekstrakciju važnih faktora i

    grafičke prikaze◼ Komponentna analiza◼ Faktorska analiza◼ Multidimenzionalno skaliranje (MDS), Biplot, CoPlot

    3. Metode za analizu veza među skupovima varijabli◼ Multivarijatna regresijska analiza◼ Kanonička korelacijska anali

    STATISTIČKO MODELIRANJE, PREDIKTIVNA ANALITIKA 4. Metode za klasifikaciju

    ◼ Diskriminativna analiza (Fisherova)◼ Kanonička diskriminativna analiza◼ Logistička regresija◼ Stabla za odlučivanje

    5. Metode za grupiranje podataka: Klaster analiza◼ Metoda k sredina (k-means)◼ Hijerarhijske metode

    2

  • 3

    Preporučena literatura

    Sharma, S., 1996. Applied Multivariate Techniques. John Wiley & Sons, Inc.

    Dillon W.R., M.Goldstein, 1984. Multivariate Analysis: Methods and Applications. John Wiley & Sons, Inc.

    A. K. Jain and R. C. Dubes. Algorithms for

    Clustering Data. Printice Hall, 1988.

  • 4

    Dio 1.

    Pregled i primjeri multivarijatne analize

  • 5

    Dio 1.1

    Uvod i primjeri multivarijatnih statistika

  • 6

    Cilj

    ◼ Prepoznati i odabrati prikladan tip analize za traženje odgovora na pojedina (tipična) pitanja u multivarijatnim istraživanjima.

  • 7

    Univarijatne imultivarijatne statistike

    Univarijatne statistike

    ◼ Analizira se svaka zavisna variabla (ZV)zasebno.

    Primjeri: srednja vrijednost, t-test, ANOVA

    Multivarijatne statistike

    ◼ Analizira se više zavisnih varijabli odjednom.

    Primjeri: vektor srednjih vrijednosti, Hotelling’s T2, MANOVA (multivarijatna ANOVA)

  • 8

    Prednosti multivarijatnih metoda

    Univarijatne statistike◼ Sa porastom broja ZV raste rizik pogreške I.

    reda (tj. odbacivanja istinite nulte hipoteze) ◼ Razmatraju se samo veze nezavisnih varijabli

    (NV) sa ZV, a ne i veze između ZV.

    Multivarijatne statistike◼ Pogreška I. reda se kontrolira tako što se čitav

    skup zavisnih varijabli razmatra zajedno u višedimenzionalnom prostoru.

    ◼ Razmatraju se veze

    između ZV i između ZV i NV.

  • 9

    Primjene multivarijatnihstatistika

    Multivarijatne statistike se mogu koristiti za traženje odgovora na razna pitanja u istraživačkim projektima.

    Razmotrimo nekoliko primjera primjene multivarijatnih statistika u

    znanstvenim istraživanjima.

  • 10

    Usporedba učinkovitosti lijekova

    Farmaceutska tvrtka želi usporediti učinkovitost◼ Dvaju različitih formulacija (standardne i nove)

    lijeka za liječenje depresije i obs.-komp. ponaš.

    Kako mjeriti učinkovitost? ◼ Rezultat na testu depresivnosti

    ◼ Rezultati na 2 različita testa obsesivno-kompulsivnog ponašanja.

    U ovom primjeru:

    2 kategorije JEDNE nezavisne varijable (2 lijeka),

    3 zavisne varijable.

  • 11

    Usporedba učinkovitosti lijekova

    Farmaceutska tvrtka želi usporediti učinkovitost◼ Dvaju različitih formulacija (standardne i nove)

    lijeka za liječenje depresije i obs.-komp. ponaš.

    ◼ 3 različite doze (50, 100, 200 mg).

    Kako mjeriti učinkovitost? ◼ Rezultat na testu depresivnosti

    ◼ Rezultati na 2 različita testa obsesivno-kompulsivnog ponašanja.

    U ovom primjeru

    2 nezavisne varijable (2 3 faktorijalni dizajn),

    3 zavisne varijable.

  • 12

    Multivarijatna analiza varijance: MANOVA

    Proširenje ANOVA-e na više varijabli.

    Testira se značajnost ◼ razlika između grupa

    ◼ istovremeno po više zavisnih varijabli

    ◼ uzimajući u obzir korelacije između zavisnih varijabli.

    Pitanje u istraživanju: “Postoje li signifikantne razlike između 2 ili više grupa na skupu zavisnih varijabli?”

  • 13

    Primjer korporacijskog treninga

    Tvrtka želi usporediti učinkovitost 3 metode za obučavanje zaposlenika u studiji sa ponovljenim mjerenjima.

    Učinkovitost je definirana kao:

    ◼ Rezultat na testu poznavanja korporacijskih pravila

    ◼ Rezultat na testu vještina potrebnih za radno mjesto.

    Zaposlenici su testirani u 3 vremenska intervala

    ◼ Nakon 2 tjedna

    ◼ Nakon 4 tjedna

    ◼ Nakon 6 tjedana

  • 14

    Dijagnostička korisnost /primjenjivost instrumenta

    Kako se ponaša novi psihološki instrument u usporedbi sa standardnim instrumentom?▪ Standardni instrument je sastavljen od 12

    pitanja (na osnovu dijagnostičkih kriterija) i mora ga administrirati educirani ispitivač.

    ▪ Novi (testirani) instrument sadrži 20 pitanja i ispunjava se bez ispitivača.

    Primjer sa▪ 12 kvantitativnih prediktora (nezavisnih

    varijabli) i

    ▪ 20 kvantitativnih zavisnih varijabli.

  • 15

    Multivarijatna multipla regresija

    Testira se značajnost linearnih veza između skupa prediktora i skupa zavisnih varijabli uzimajući u obzir korelacije između zavisnih varijabli.

    Pitanje u istraživanju:

    “Da li varijabilitet skupa kvantitativnih prediktora na adekvatan način opisuje/ predviđa skup kvantitativnih zavisnih varijabli?”

  • 16

    Kanonička korelacijska analiza

    ◼ U kanoničkoj korelacijskoj analizi se testira ista hipoteza kao i u multivarijatnoj regresiji, ali se još

    ◼ Interpretiraju veze prediktora sa kanoničkim varijablama zavisnih varijablama,

    ◼ Interpretiraju veze zavisnih varijabli sa kanoničkim varijablama prediktora,

    ◼ Istražuje koliko dimenzija međusobno dijele skupovi zavisnih i nezavisnih varijabli.

  • 17

    Primjer patološkog kockanja

    Istraživači žele koristiti odgovore na pitanja u upitniku za klasifikaciju ljudi u 3 grupe:

    ◼ Opsesivne kockare,

    ◼ Osobe koje igraju na sreću (“bingo”) i

    ◼ Osobe bez afiniteta prema kockanju (kontrolna skupina)

    3 skupine učesnika je odgovorilo na upitnik sa 12 pitanja.

    Pitanje: Koje linearne kombinacije (12) odgovora objašnjavaju većinu varijabiliteta između 3 grupe kockara?

  • 18

    Profiliranje i predviđanje

    Kartičarska tvrtka želi (prije izdavanja kreditne kartice) iskoristiti financijske informacije za odlučivanje da li će potencijalni klijent biti rizičan (napr. neuredan platiša) ili ne.

    Kardiolog želi razumjeti koja kombinacija varijabli (sist./dijast. tlak, dob, spol, težina, laboratorijski nalazi, …) najbolje predviđa rizik od infarkta.

  • 19

    Diskriminativna analiza

    Diskriminativna analiza (DA) je metoda za redukciju dimenzija (varijabli) koja se može primijeniti za određivanje linearne kombinacije varijabli na kojoj su kategorije tj grupe najviše udaljene. DA je konceptualno slična logističkoj regresiji za multivarijatne podatke, a MANOVI po računalnom pristupu.

  • 20

    Primjer: bol lica i vilice (TMJ)

    Istraživači žele razumjeti simptome bolesti temporomandibular jaw disorder (TMJ). 120+ pacijenata je odgovorilo na 14 pitanja o simptomima. Mnogo od tih odgovora je u međusobnoj asocijaciji (vezi).

    Istraživač želi ◼ reducirati ukupan broj varijabli sa 14 na neki

    manji broj i ◼ eliminirati potencijalne probleme vezane uz

    kolinearnost (visoke korelacije među varijablama).

  • 21

    Komponentna analiza

    Metoda za redukciju dimenzija (ukupnog broja varijabli)

    ◼ Kreiraju se nove varijable koje su linearne kombinacije skupa početnih, koreliranih varijabli,

    ◼ Nove varijable su nekorelirane (“ortogonalne”)

    ◼ Ne pretpostavlja se postojanje latentne (skrivene) faktorske strukture.

    Praktično pitanje:

    “Kako reducirati skup od 14 koreliranih varijabli na manji skup nekoreliranih varijabli?”

  • 22

    Primjer: bol lica i vilice (TMJ)

    Istraživači žele otkriti da li percepcije simptoma pacijenata odražavaju nekoliko “latentnih” (skrivenih) faktora bolesti ili jedan jedini.

    Prikupljeni su odgovori od 120+ pacijenata na 14 pitanja vezana uz simptome bolesti TMJ◼ Eksplorativnom se analizom identificiraju mogući

    “latentni” faktori bolesti. ◼ Konfirmativnim se analizom testiraju postavljene

    hipoteze o faktorima bolesti.

  • 23

    Faktorska analiza

    Eksplorativna faktorska analiza je tehnika za traženje “latentnih” varijabli. Često se pogrešno brka sa komponentnom analizom.

    Metode faktorske analize se koriste kada se pretpostavlja da postoji “skrivena” faktorska struktura, tj. da se sa malim brojem latentnih dimenzija može jednostavnije opisati mjereni proces ili ponašanje.

  • 24

    Pitanja u istraživanjima faktorskom analizom

    ◼ “Jesu li percepcije matematike rezultat jednog jedinog stava-mišljenja ili ima više skrivenih sustava koji svi zajedno doprinose percepcijama o matematici?”

    ◼ “Da li je rast nekog živog organizma rezultat jednostavnog procesa rasta ili postoji više latentnih sustava koji zasebno pridonose rastu organizma?”

    ◼ “Da li je ekonomski rast jednostavan sustav ili je rezultat nekoliko latentnih varijabli koje su u međusobnoj vezi i zajednički pridonose ekonomskom okruženju?”

  • 25

    Morfološki tipovi

    Istraživački tim nastoji istražiti da li se na osnovu morfoloških karakteristika mlađih osoba muškog spola iz RH može identificirati manji broj homogenih grupa -morfoloških tipova.

  • 26

    Klaster analiza

    Klaster: skup objekata (entiteta/ opservacija) koji su

    ◼ međusobno slični ako pripadaju istom klasteru,

    ◼ međusobno različiti ako pripadaju različitim klasterima.

    Klaster analiza

    ◼ Traženje sličnosti među objektima na osnovu izmjerenih karakteristika i grupiranje sličnih objekata u klastere.

  • 27

    Bogatstvo informacija u odnosu na jednostavnost

    Multivarijatna analiza uzima u obzir kompleksne, višedimenzionalne odnose među varijablama. MV statistike mogu biti složene za interpretaciju. ◼ Razlog zašto se univarijatne metode češće

    koriste – lakše ih je razumjeti

    ◼ Ulaganje vremena i truda u razumijevanje višedimenzionalnih veza može biti profitabilno, vrijedno truda. Ali …

    ◼ Katkada je priroda problema tako kompleksna da se treba vratiti na univarijatnu analizu radi razumijevanja.

  • 28

    Treba imati na umu da analiza nikada ne može biti bolja od podataka na kojima se primjenjuje

    ◼ Navesti pitanja koja će se istraživati.

    ◼ Dizajnirati studiju kojom će se moći istražiti navedena pitanja.

    ◼ Definirati i dokumentirati plan istraživanja.

    ◼ Izmjeriti varijable u skladu sa planom.

    ◼ Oprezno pregledati podatke (pogreške i neobične opservacije – “outlier”-e ).

    Ne može biti “Garbage In, Roses Out.” (Tabachnik and Fidell 2001)

  • 53

    Dio 2

    Metode za redukciju podataka, ekstrakciju važnih faktora i grafičke prikaze

    ◼ 2.1 Metoda glavnih komponenata

    ◼ 2.2. Faktorska analiza

    ◼ 2.3. Grafičke metode

  • 54

    2.1 Metoda glavnih komponenata (PCA)

    Ciljevi:

    ◼ Objasniti ključne koncepte PCA metode

    ◼ Opisati strategije za određivanje broja glavnih komponenata

    ◼ Demo na primjeru: PAIN podaci (Jmp i SAS)

  • Suviše varijabli

    55

    Systolic

    blood

    pressure

    Diastolic

    blood

    pressure

    Diet

    Exercise

    LDL Cholesterol

    HDL Cholesterol

    Medication

  • Moguća rješenja

    ◼ Eliminacija nekih redundantnih varijabli. Može dovesti do gubitka važnih informacija koje

    su na jedinstven način sadržane u eliminiranim varijablama.

    ◼ Kreiranje kompozitnih skorova iz varijabli (sume ili prosjeci). Gubitak varijabiliteta među varijablama Više kompozitnih skorova može i nadalje biti

    kolinearno◼ Kreiranje ponderiranih linearnih kombinacija

    varijabli uz zadržavanje većine varijabiliteta Manje varijabli; mali ili nikakav gubitak

    varijabiliteta Nove varijable (lin. kombinacije) nisu

    kolinearne.

    56

  • Metoda glavnih komponenata (PCA)

    ◼ Je metoda za redukciju dimenzija (ulaznih varijabli), kojom se kreiraju nove varijable koje se zovu glavne komponente

    ◼ Kreira se onoliko komponenata koliko ima ulaznih varijabli.

    ◼ Problemi

    Komponente nisu uvijek direktno iterpretabilne

    Odabir malog broja “važnih” komponenata

    57

  • Glavne komponente (PC)

    ◼ Su ponderirane linearne kombinacije ulaznih varijabli

    ◼ Su međusobno ortogonalne i nezavisne

    ◼ generiraju se tako da se sa prvom komponentom izvuće najveći dio varijabiliteta sadržan u ulaznim varijablama (x1,x2,…xp), sa slijedećom komponentom najveći preostali dio varijabiliteta itd.

    58

  • Geometrijska svojstva Sa LS regresijom se

    minimizira suma kvadrata vertikalnih udaljenosti do (regresijskog) pravca(okomitih na x os)

    Se PCA se minimizira suma kvadrata udaljenosti okomitih na PC os.

    59y1

    y2

    ..

    .

    ..

    ...

    .

    ..

    ..

    ...

    ..

    y2

    ..

    .

    ..

    ...

    .

    ..

    ..

    ...

    ..

    PC os

    Regresijskipravac

  • Detalji PCA metode

    60

    j glavnih komponenata su LS rješenje (po metodi najmanjih kvadrata) slijedećeg modela:

    Y = XB

    gdje

    Y n x p matrica skorova na komponentama

    X n x j matrica standardiziranih (ili centriranih) ulaznih varijabli

    B j x p matrica svojstvenih vektora korelacijske (ili kovarijančne) matrice ulaznih varijabli.

  • Koliko komponenata zadržati?

    61

    ◼ “Scree plot” svostvenih vrijednosti (eng. eigenvalues):

    ◼ Proporcija varijanceobjašnjena svakomkomponentom:

    ◼ Kumulativna varijancaobjašnjena komponentama:

    ◼ Svoj. vrijednost i > 1

    1 2

    1 2

    or .. ( )

    ..

    ( )

    i i

    p

    k

    tr

    tr

    + + +

    + + +

    R

    R

    **

    * * * *

  • Koliko komponenata zadržati?

    PB kriterij (Momirović i sur., 1971)

    Intenzivno računarske metode

    ◼ simulacijske metode,

    ◼ randomizacijske metode,

    ◼ bootstrap

    Statistički testovi

    ◼ Samo za komponentnu analizu na matrici kovarijanci (centriranim podacima)

    62

  • Skorovi glavnih komponenata

    Skorovi glavnih komponenata mogu se kreirati

    ◼ za svaku observaciju u X (matrici ulaznih podataka)

    ◼ na svakoj glavnoj komponenti

    ◼ na standardiziranim ili originalnim ulaznim varijablama.

    63

  • Grafička eksploracija PC-a

    64

    Outlier?

  • Pretpostavke za PCA

    Podaci koji nedostaju – nedostaju na slučajan način (missing at random)

    Nema outliera (stršećih podataka)

    Singularnost - nije matematički problem (jer nema invertiranja matrica, kao npr. u regresiji)

    65

  • PRIMJER: “PAIN” PODACI TEMPOROMANDIBULARJAW DISORDER (TMJ)

    66

    http://www.deardoctor.com/img/inthisissue/issue6/jaw_pain.jpghttp://drhamiltonoc.com/images/jaw-pic1.jpghttp://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpghttp://i24.ebayimg.com/05/s/08/0e/77/13_2.JPGhttp://www.physicalsense.biz/treatment/whatwetreat/images/jaw-pain.jpg

  • Ulazne varijable

    hurtchew Does it hurt when you chew?

    hurtwide Does it hurt when you open wide or take a big bite?

    noise Does your jaw make a noise so that it bothers you or others?

    stiffjaw Stiff jaw (in the morning)?

    cracking Locking/cracking of jaw joint (in the morning)?

    painslp Does the pain or discomfort disturb your sleep?

    painrout Does the pain or discomfort interfere with your daily routine or other activities?

    paintab Do you take tablets for pain or discomfort?

    amhdache Headache (in the morning)?

    earpain Do you have ear pain or pain in front of the ears?

    grind Has anyone ever heard you grinding your teeth in your sleep, or are you aware of it yourself?

    clampset Are you aware that you clamp or set your jaw?

    sorejaw Sore jaw or teeth (in the morning)?

    facepain Do you have pain in the face, jaw, eyes, throat, neck, or temples?

    67

  • Distribucije

    68

    Mean 4,4958678

    Std Dev 1,0418251Mean 5,4793388

    Std Dev 1,0731509

    Mean 5,0082645

    Std Dev 1,076227

    hurtchew hurtwide noise

  • Matrica korelacija

    69

    hurtchew hurtwide noise stiffjaw cracking painslp painrout paintab amhdach earpain grind clampset sorejaw facepain dayslost

    hurtchew 1,0000 0,9186 0,7395 0,8335 0,7467 0,0601 0,0481 0,1070 0,0136 0,1459 0,2000 0,1874 0,0907 0,3428 0,4090

    hurtwide 0,9186 1,0000 0,7541 0,8474 0,7022 0,0438 0,0003 0,0819 -0,0015 0,0918 0,1579 0,1311 0,0308 0,3561 0,3418

    noise 0,7395 0,7541 1,0000 0,7420 0,5986 0,0946 0,0773 0,1199 0,0635 0,0998 0,1605 0,1426 0,0178 0,2799 0,2382

    stiffjaw 0,8335 0,8474 0,7420 1,0000 0,6755 -0,0232 -0,0575 0,0116 -0,0675 0,1090 0,1477 0,1054 0,0496 0,2244 0,2860

    cracking 0,7467 0,7022 0,5986 0,6755 1,0000 0,0751 0,0723 0,1820 0,0372 0,1565 0,2230 0,1275 0,1279 0,1766 0,3441

    painslp 0,0601 0,0438 0,0946 -0,0232 0,0751 1,0000 0,7594 0,7860 0,8634 0,1667 0,0664 0,1925 0,1521 0,3490 0,4497

    painrout 0,0481 0,0003 0,0773 -0,0575 0,0723 0,7594 1,0000 0,6806 0,7415 0,1261 0,1411 0,1335 0,1000 0,1980 0,4205

    paintab 0,1070 0,0819 0,1199 0,0116 0,1820 0,7860 0,6806 1,0000 0,7548 0,1426 0,0849 0,1315 0,1682 0,2964 0,5102

    amhdach 0,036 -0,0015 0,0635 -0,0675 0,0372 0,8634 0,7415 0,7548 1,0000 0,1310 0,0413 0,1232 0,1545 0,2853 0,3845

    earpain 0,1459 0,0918 0,0998 0,1090 0,1565 0,1667 0,1261 0,1426 0,1310 1,0000 0,7299 0,7663 0,7646 0,0917 0,3975

    grind 0,2000 0,1579 0,1605 0,1477 0,2230 0,0664 0,1411 0,0849 0,0413 0,7299 1,0000 0,6943 0,6795 0,1438 0,3690

    clampset 0,1874 0,1311 0,1426 0,1054 0,1275 0,1925 0,1335 0,1315 0,1232 0,7663 0,6943 1,0000 0,6541 0,1773 0,3844

    sorejaw 0,0907 0,0308 0,0178 0,0496 0,1279 0,1521 0,1000 0,1682 0,1545 0,7646 0,6795 0,6541 1,0000 0,1545 0,4024

    facepain 0,3428 0,3561 0,2799 0,2244 0,1766 0,3490 0,1980 0,2964 0,2853 0,0917 0,1438 0,1773 0,1545 1,0000 0,3977

    dayslost 0,4090 0,3418 0,2382 0,2860 0,3441 0,4497 0,4205 0,5102 0,3845 0,3975 0,3690 0,3844 0,4024 0,3977 1,0000

  • Matrica korelacija – “color map”

    70

  • Svojstvene vrijednosti i “scree plot”

    71

    Number Eigenvalue Percent CumPercent

    1 5,1183 34,122 34,1222 3,4912 23,275 57,3973 2,6600 17,733 75,1314 0,8332 5,555 80,6855 0,5646 3,764 84,4496 0,4058 2,706 87,1557 0,3809 2,539 89,6948 0,3091 2,061 91,7559 0,2813 1,875 93,63110 0,2245 1,497 95,12811 0,1924 1,283 96,41012 0,1865 1,243 97,65313 0,1608 1,072 98,72514 0,1190 0,794 99,51815 0,0722 0,482 100,000

    Prve 3 komponente sadržavaju 75% ukupnog varijabiliteta= (5.1 + 3.5 + 2.7)/15

    Lakat?

  • 72

    2.1 Faktorska analiza (FA)

    Ciljevi:

    ◼ Objasniti razlike između PCA i FA (metode zajedničkih faktora)

    ◼ Opisati nekoliko metoda za ekstrakciju faktora

    ◼ Objasniti razliku između ortogonalne i kose (oblique) rotacije faktora

    ◼ Demo na primjeru: PAIN podaci (Jmp i SAS)

  • Zašto FA?

    Očekujemo da su ulazne/ opservirane/ manifestne varijable funkcije varijabli koje ne možemo direktno opservirati (latentne varijable)

    ◼ Da identificiramo latentne varijable kako bi naučili nešto interesantno o ponašanju naše populacije.

    ◼ Da identificiramo odnose među pojedinim latentnim varijablama.

    ◼ Da pokažemo da je mali broj latentnih varijabli odgovoran za proces ili ponašanje koje smo izmijerili (da bismo pojednostavili teoriju).

    ◼ Da opišemo korelacije među opserviranim varijablama.

    73

  • Osnovna podjela FA

    Metode za eksplorativnu FA

    ◼ Cilj: eksploracija

    Konfirmativna FA

    ◼ Cilj: potvrda neke unaprijed postavljene hipoteze

    Ovdje: samo eksplorativna FA

    74

  • 75

    Eksplorativna FA

    F1:Consumer

    confidence

    F2: Buying

    power

    New Home

    Buys

    Durable

    Goods Buys

    Borrowing

    Income

    Import

    Purchases

    u1

    u2

    u3

    u4

    u5

    ?

  • 76

    Components versus Factors, Revisited

    Glavne komponente –

    simptomi

    Latentni faktori –

    bolest

  • 77

    Model zajedničkih faktora

    Y = X + E

    gdje

    Y manifestne varijable

    X zajednički faktori

    ponderi (koeficijenti)

    E unikni faktori + varijanca pogreške

  • 78

    Pretpostavke za metodu zajedničkih faktora

    ◼ Unikni faktori (reziduali) su međusobno nekorelirani.

    ◼ Unikni faktori (reziduali) su nekorelirani sa zajedničkim (latentnim) faktorima.

    Uz ta ograničenja, mogu se naći rješenja (za danu korelacijsku matricu R):

    or R = β β+U R -U = β β

  • 79

    PCA vs FA

    PCA FA

    Sve komponente zajedno

    sadrže ukupno 100%

    varijance (svih ulaznih

    varijabli).

    Svi faktori zajedno ne

    sadrže nužno ukupno 100%

    varijance (svih ulaznih

    varijabli).

    Komponente se izvode iz

    varijabli i opisuju 100%

    varijabiliteta podataka.

    Faktori su procjene latentnih

    varijabli i opisuju samo

    zajednički dio varijabiliteta

    manifestnih varijabli.

  • 80

    Ograničenja eksploratorne FA

    Faktorski skorovi nisu linearne kombinacije ulaznih varijabli. Oni su procjene latentnih faktora. Treba izbjegavati “namještanje rezultata”:◼ Pažljivim izborom manifestnih varijabli.

    ◼ Primjenom rotacije za interpretaciju faktora.

    ◼ Izvođenjem konfirmativne analize za testiranje hipoteze o adekvatnosti faktorskog rješenja

  • 81

    Pregled metoda za ekstrakciju faktora

    Analiza glavnih faktora (Principal Factor Analysis - PFA)◼ Računarski efikasna◼ Najčešće se koristi.

    Maximum Likelihood FA (FA najveće vjerodostojnosti – MLFA)◼ Manje računarski efikasna (iterativna procedura)◼ Bolje procjene nego sa PFA na velikim uzorcima.◼ Mogu se testirati hipoteze o broju faktora.

    Priorne procjene komunaliteta su obično kvadrati multiplih korelacija svake pojedine varijable sa svim ostalim varijablama.

  • 82

    Koliko faktora?

    ◼ Proporcija varijance opisana sa Minimalnim brojem faktora potrebnih da opišu

    100% zajedničke varijance.

    ◼ Scree test Točka gdje se nalazi “lakat” u krivulji

    ◼ Kriteriji bazirani na interpretabilnosti Barem 3 varijable imaju visoke koeficijente

    (loading) na svakom faktoru Varijable na pojedinom faktoru dijele zajedničko

    konceptualno značenje Varijable na različitim faktorima mjere različite

    konstrukte (latentne faktore) Rotirani faktori demonstriraju “jednostavnu

    strukturu”.

  • DEMO: “PAIN” PODACI TEMPOROMANDIBULARJAW DISORDER (TMJ)

    83

    http://www.deardoctor.com/img/inthisissue/issue6/jaw_pain.jpghttp://drhamiltonoc.com/images/jaw-pic1.jpghttp://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpghttp://i24.ebayimg.com/05/s/08/0e/77/13_2.JPGhttp://www.physicalsense.biz/treatment/whatwetreat/images/jaw-pain.jpg

  • Komunaliteti (priorni)

    84

    Prior Communality Estimates: SMC

    hurtche

    w

    hurtwid

    e

    noise stiffjaw crackin

    g

    painslp painrou

    t

    paintab amhdac

    he

    earpain grind clamps

    et

    sorejaw facepai

    n

    0.878 0.878 0.628 0.775 0.612 0.823 0.657 0.673 0.782 0.738 0.650 0.658 0.652 0.308

    SMC: Na dijagonalu reducirane matrice R-U se na početkupostavljaju (Rj

    2) kvadrati multiplih korelacija j-te varijable sa svim ostalim varijablama (j=1,p).

  • Svojstvene vrijednosti reducirane matrice (R-U)

    85

    Preliminary Eigenvalues: Total = 42.2227014

    Average = 3.01590724

    Eigenvalue Difference Proportion Cumulative

    1 22.1866011 8.8566626 0.5255 0.5255

    2 13.3299385 5.4335408 0.3157 0.8412

    3 7.8963977 7.3961789 0.1870 1.0282

    4 0.5002189 0.2362913 0.0118 1.0400

    5 0.2639276 0.0650434 0.0063 1.0463

    6 0.1988841 0.1909592 0.0047 1.0510

    7 0.0079249 0.0792444 0.0002 1.0512

    8 -0.0713195 0.1620991 -0.0017 1.0495

    9 -0.2334186 0.0273054 -0.0055 1.0440

    10 -0.2607240 0.0411412 -0.0062 1.0378

    11 -0.3018652 0.0570478 -0.0071 1.0306

    12 -0.3589130 0.0828409 -0.0085 1.0221

    13 -0.4417539 0.0514436 -0.0105 1.0117

    14 -0.4931974 -0.0117 1.0000

    3 faktora na osnovu “proportion”kriterija

  • Scree plot

    86

  • Test značajnosti za broj faktora (3)

    87

    Significance Tests Based on 121 Observations

    Test DF Chi-Square Pr > ChiSq

    H0: No

    common

    factors

    91 1356.7888

  • Matrica sklopa (factor pattern)

    88

    Factor Pattern

    Factor1 Factor2 Factor3

    hurtchew 0.94910 -0.11071 -0.04773

    hurtwide 0.94297 -0.14657 -0.10148

    noise 0.78511 -0.05376 -0.08561

    stiffjaw 0.86188 -0.19845 -0.05177

    cracking 0.75905 -0.04229 -0.01028

    painslp 0.16230 0.90769 -0.21114

    painrout 0.11640 0.77729 -0.17748

    paintab 0.19416 0.78821 -0.19268

    amhdache 0.10793 0.87939 -0.22613

    earpain 0.23652 0.32783 0.82067

    grind 0.27884 0.21407 0.74109

    clampset 0.26239 0.31251 0.72470

    sorejaw 0.16759 0.32315 0.74447

    facepain 0.38357 0.27465 -0.0576

    Korelacije faktora imanifestnih varijabli

    Variance Explained by Each Factor

    Factor Weighted Unweighted

    Factor1 29.9257685 4.19235839

    Factor2 18.4760420 3.33128063

    Factor3 10.4227732 2.49250606

    Pomicanjevilice

    Utjecajboli naživot

    Stiskanje iškripanjezubima

  • Matrica sklopa (factor pattern):grafikon

    89

  • 90

    Dali su faktori u korelaciji?

    Buying

    Power

    Consumer

    Confidence

    Buying

    Power

    Consumer

    Confidence

    Orthogonalna

    Oblique

    Metode za rotaciju faktora

  • 91

    Metode za rotaciju faktora

    Varimax-Orthogonalna:

    ◼ Maksimizira se varijanca kolona matrice sklopa.

    Promax-Oblique – u 2 koraka:

    ◼ 1. Varimax rotacija

    ◼ 2. Relaksiraju se uvijeti ortogonalnosti i dalje se rotira.

    U SAS-u je moguće koristiti još niz drugih metoda za rotaciju

  • 92

    Rezultati faktorske analize

    Svojstvene vrijednosti (1, 2,… p)

    U FA se ispisuju svojstvene vrijednosti reducirane matrice korelacija (R-U).

    ◼ U PCA, svojstvene vrijednosti matrice R.

    ◼ Pravilo i> 1 ima manje smisla primijeniti u FA.

    ◼ Scree plot svojstvenih vrijednosti je koristan u FA.

  • 93

    Rezultati faktorske analize

    Matrica sklopa (Factor Pattern Matrix)

    ◼ Matrica standardiziranih regresijskih koeficijenata za Y = XB + E

    ◼ Jednaka je matrici korelacija između početnih varijabli i ekstrahiranih (ortogonalnih) zajedničkih faktora.

  • 94

    Rezultati faktorske analize

    Rotirana matrica sklopa

    ◼ Matrica standardiziranih regresijskih koeficijenata za rotirane faktore

    ◼ Jednaka je matrici korelacija između početnih varijabli i rotiranih zajedničkih faktora (za ortogonalne rotacije).

  • 95

    Rezultati faktorske analize

    Matrica strukture

    ◼ Kreira se samo za oblique (kose) rotacije

    ◼ To je matrica korelacija ulaznih varijablii i rotiranih zajedničkih faktora.

  • 96

    Rezultati faktorske analize

    Matrica referenčne strukture

    ◼ Kreira se samo za oblique (kose) rotacije

    ◼ To je matrica semiparcijalnih korelacija između ulaznih varijabli i zajedničkih faktora, nakon eliminacije efekata ostaih faktora iz svakog pojedinog faktora.

  • 97

    Rezultati faktorske analize

    Korelacije između faktora◼ generiraju se samo za oblique (kose)

    rotacije

    Grafikoni faktora

    Konačne procjene komunaliteta◼ R2 za predviđanje varijabli iz faktora

    ◼ Zovu se kvadrati kanoničkih korelacija (squared canonical correlations) (u ML metodi)

    Varijance objašnjene svakim faktorom

  • DEMO: “PAIN” PODACI TEMPOROMANDIBULARJAW DISORDER (TMJ)

    98

    http://www.deardoctor.com/img/inthisissue/issue6/jaw_pain.jpghttp://drhamiltonoc.com/images/jaw-pic1.jpghttp://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpghttp://i24.ebayimg.com/05/s/08/0e/77/13_2.JPGhttp://www.physicalsense.biz/treatment/whatwetreat/images/jaw-pain.jpg

  • Ortogonalna rotacija

    99

  • Rotirana matrica sklopa

    100

    Rotated Factor Pattern

    Factor1 Factor2 Factor3

    hurtchew 0.95158 0.03084 0.09422

    hurtwide 0.95904 0.01259 0.03239

    noise 0.78672 0.07526 0.04504

    stiffjaw 0.88236 -0.06184 0.05018

    cracking 0.74922 0.05982 0.11462

    painslp 0.02799 0.94176 0.08435

    painrout 0.00150 0.80258 0.07133

    paintab 0.07747 0.82742 0.07400

    amhdache -0.01810 0.91270 0.05254

    earpain 0.06377 0.08949 0.90821

    grind 0.13556 0.01174 0.80887

    clampset 0.10451 0.10757 0.81805

    sorejaw 0.00754 0.09952 0.82267

    facepain 0.33392 0.32564 0.09137

  • 101

    2.3 Grafičke metode

    Ciljevi:

    ◼ Objasniti i demonstrirati metodu multidimenzionalnog skaliranja (MDS)

    ◼ Opisati i demonstrirati grafičku metodu CoPlot

    ◼ Opisati i demonstrirati grafičku metodu BIPLOT

    ◼ Demo na primjerima: PAIN, CARS i Anthrax kod djece (Jmp i SAS)

  • MDS

    primarni cilj multidimenzionalnog skaliranja je mapiranje objekata (opservacija, pacijenata, događaja) iz više- u nižedimenzionalni (napr dvodimenzionalni) prostor tako da njihov relativni položaj u tom prostoru odražava stupanj izmjerene sličnosti među objektima.

    Sličnosti među opservacijama u podacima se transformiraju u udaljenosti na mapi (zemljovidu) tako da su slične opservacije međusobno bliže nego što su one koje su manje slične.

    102

  • MDS analiza zračnih udaljenosti između 10 američkih gradova

    103

  • MDS analiza zračnih udaljenosti između 10 američkih gradova

    104

  • MDS za CARS podatke

    105

    Varijablekoje su uvisokojkorelaciji

  • Nedostatci MDS metode

    Iako opservacije čine ključnu ulogu u određivanju udaljenosti na MDS mapi, one se ne prikazuju na konačnom grafičkom prikazu. (Ne mogu se na istoj mapi prikazati istodobno i varijable i opservacije)

    Osi MDS mape nemaju neko inherentno značenje (što ograničana interpretabilnost)

    106

  • CoPlot

    Je novija metoda za grafičku analizu multivarijatnih podataka koja omogućuje simultanu analizu opservacija i varijabli

    CoPlot-om se mapiraju opservacije ivarijable na takav način da njihovi odnosi ostaju sačuvani, što omogućuje bogatiju interpretaciju.

    107

  • Neke primjene CoPlot-a

    Evaluacija učinkovitosti banaka,

    Socioekonomske razlike među gradovima,

    Karakteristike uspješnih spajanja i akvizicija,

    Karakteristike automobila,

    U medicini (antraks u dječjoj populaciji, D.M. Bravata i sur.)

    108

  • Koraci u generiranju CoPlot-a*

    109

    Original Data Matrix (Y)

    Variable 1 Variable 2 Variable 3

    Observation 1 y11 y 12 y 13

    Observation 2 y 21 y 22 y 23

    Observation 3 y 31 y 32 y 33

    Observation 4 y 41 y 42 y 44

    Step 1: Standardize the data so that all the variables are on the same scale where .

    Standardized Data Matrix (Z)

    Variable 1 Variable 2 Variable 3

    Observation 1 z11 z 12 z 13

    Observation 2 z 21 z 22 z 23

    Observation 3 z 31 z 32 z 33

    Observation 4 z 41 z 42 z 43

    s

    yyz

    j

    ij

    jij−

    =

    Step 2: Create a distance matrix that describes the distance between each of the observations where. zzD qrk

    rprpq−=

    =1

    Distance Matrix (D)

    Observation 1 Observation 2 Observation 3 Observation 4

    Observation 1 0 d 12 d 13 d 14

    Observation 2 d 21 0 d 23 d 24

    Observation 3 d 31 d 32 0 d 34

    Observation 4 d 41 d 42 d43 0

    /* Prema D.M. Bravata i sur., Statistics in Medicine, 2007

    Originalna matricapodataka (nxp)

    Standardizirana matricapodataka (sredine=0,st.dev=1)

    Matrica udaljenosti(nxn)

  • Koraci u generiranju CoPlot-a*

    110

    Step 4: Add projections of vectors representing the variables.

    Step 3: Generate map of distances among observations.

  • Alternativan prikaz CARS podataka

    111

    Variables Only Observations Only

    BOJA (zemlja porijekla): bijela=US, siva=Europa, crna=Japan)

  • Podatci o Antraksu u djece

    demographic information (e.g., age, gender, nationality),

    symptom and disease progression information (e.g., source of infection such as inhalational or gastrointestinal, symptoms when patient first presented for treatment, whether the patient developed secondary meningoencephalitis, survival information), and

    treatment information (e.g., whether the patient received antibiotics or anti-serum)

    112

  • Podatci o Antraksu u djece:varijable

    Source of infection (such as inhalational vsgastrointestinal)

    Age (years) Year of publication of case report Gender U.S. versus non-U.S. cases Any antibiotics Penicillin-based antibiotics Any serum (either anthrax-specific or general

    anti-serum) Died Developed meningoencephalitis

    113

  • Inicijalna CoPlot mapa djece s antraksom

    114

    Gender i age suNajmanje važne(najkraći vektori),pa ih je bolje eliminirati

  • CoPlot mapa djece s antraksom, boja: izvor infekcije

    115

    BOJA:bijela: kožat.siva=gastrotestinals.siva=udisanjecrna=ostalo

    Bez gender i age

    Outlier: 2.5 god djevojčica(udisanje, preživjela,Serum)

  • CoPlot mapa djece s antraksom, boja: preživjeli/umrli

    116

    BOJA:Bijela=preživjeliCrna=umrli

  • BIPLOT

    Kao i CoPlot omogučuje simultani prikaz opservacija i varijabli

    Baziran je na (SVD) dekompoziciji matrice podataka:

    X = G H’

    U BIPLOTu se retci nx2 matrice G prikazuju kao točke, koje odgovaraju opservacijama, a retci p x 2 matrice se prikazuju kao vektori, koji odgovaraju varijablama.

    117

  • BIPLOT za PAIN podatke

    118

  • BIPLOT za podatke PROTEIN CONSUMPTION IN EUROPE

    119

  • SadržajMULTIVARIJATNA ANALIZA PODATAKA 1. Uvod i primjeri metoda multivarijatne analize 2. Metode za redukciju podataka, ekstrakciju važnih faktora i

    grafičke prikaze◼ Komponentna analiza◼ Faktorska analiza◼ Multidimenzionalno skaliranje (MDS), Biplot, CoPlot

    3. Metode za analizu veza među skupovima varijabli◼ Multivarijatna regresijska analiza◼ Kanonička korelacijska anali

    STATISTIČKO MODELIRANJE, PREDIKTIVNA ANALITIKA 4. Metode za klasifikaciju

    ◼ Diskriminativna analiza (Fisherova)◼ Kanonička diskriminativna analiza◼ Logistička regresija◼ Stabla za odlučivanje

    5. Metode za grupiranje podataka: Klaster analiza◼ Metoda k sredina (k-means)◼ Hijerarhijske metode

    147

  • 148

    Dio 4

    Metode za klasifikaciju:

    ◼ 4.1 Diskriminativna analiza (Fisherova) i kanonička diskriminativna analiza

    ◼ 4.2 Logistička regresija

    ◼ 4.3 Stabla za odlučivanje

  • 4.1 Diskriminativna analiza (Fisherova) i kanonička diskriminativna analiza

    Ciljevi◼ Razumijeti ciljeve diskriminativne

    analize (DA).◼ Identificirati sličnosti između DA i

    multivarijatnih generalnih linearnih modela.

    ◼ Objasniti kako se izvodi kanonička DA.

    ◼ Demo: PIZZA podaci. Interpretirati rezultate kanoničke diskriminativne analize (SAS, SAS/EG).

    149

  • 150

    Pitanja u istraživanjima

    ◼ Kardiolog želi razumjeti koja kombinacija varijabli (sist./dijast. tlak, dob, spol, težina, laboratorijski nalazi, …) najbolje predviđa rizik od infarkta.

    ◼ Kartičarska tvrtka želi (prije izdavanja kreditne kartice) iskoristiti financijske i demografske informacije o klijentu u odlučivanju da li budući klijent predstavlja potencijalni rizik za tvrtku.

    ◼ Ministarstvo znanosti, obrazovanja i športa želi koristiti rezultate testova/ispita i varijable ponašanja u razredu za identifikaciju učenika kojima je potreban dodatni program učenja.

    ◼ Osiguravajuće društvo želi razumjeti koje demografske varijable i varijable ponašanja karakteriziraju različite tipove vozača.

  • 151

    Zašto DA?

    Sa DA možemo

    ◼ Interpretirati rezultate kroz identifikaciju varijabli na kojima se grupe najviše razlikuju

    ◼ Koristiti linearnu kombinaciju varijabli za predviđanje pripadnosti pojedinoj grupi.

    ◼ Provjeriti (validirati) model na “novim” podacima

  • 152

    “Vođena” analiza podataka

    Ima niz metoda za klasifikaciju observacija na osnovu danog skupa varijabli. No,

    ◼ Diskriminativna analiza NIJE KLASTER analiza

    ◼ Za provođenje diskriminativne analize potrebno je imati informaciju o pripadnosti grupi (za razliku od klaster analize)

    ◼ Diskriminativnom se analizom pronalazi linearna kombinacija prediktora koja najbolje diferencira grupe

    ◼ Te se linearne kombinacije mogu primijeniti u budućnosti (tj. kada grupna pripadnost NIJE poznata) za predviđanje pripadnosti grupi.

  • 153

    Ciljevi DA

    1. Interpretacija: “Kako se grupe razlikuju?”

    Naći i interpretirati linearne kombinacije varijabli koje optimalno predviđaju grupne razlike.

    2. Klasifikacija: “Koliko se točno mogu observacije klasificirati u grupe?”

    Primjenom funkcija varijabli predviđa se pripadnost pojedinoj grupi i procjenjuje pogreška.

  • 154

    Podjela metoda diskriminativne analize

    Klasična Fisherova diskriminativna analiza (FDA)◼ Linearni model (za jednake matrice

    kovarijanci po grupama)

    ◼ Kvadratni model (za nejednake matrice kovarijanci po grupama)

    Kanonička diskriminativna analiza (KDA)

    Neparametarske metode

  • 155

    Usporedba FDA i KDA(uz pretpostavku da je br.varijabli > br. grupa)

    FDA (linearna)

    Br.funkcija = br.grupa

    Opservacije se skoriraju prema sličnosti sa centroidima grupa. Skorovi se transformiraju u vjerojatnosti pripadnosti grupama

    Primjenjuje se kada je primarni cilj klasifikacija

    PROC DISCRIM

    KDA

    Br.funkcija = br.grupa – 1

    Traže se funkcije koje maksimalno razdvajaju centroide grupa

    Primjenjuje se kada je primarni cilj interpretacija (kako se grupe razlikuju)

    PROC CANDISC i PROC DISCRIM

  • 156

    Fisherova diskriminativna analiza(linearni model, jednake matrice varijanci i kovarijanci)

    2 2

    2(x) (x) ( )t tD d g t= +

    Mahalanobisova

    udaljenost-2(ln(prior))

    Posteriornavjerojatnostpripadnostigrupi j

    Kvadrat udaljenostiopservacije x do grupe t

    Klasifikacija: Opservacija x se klasificira u grupu za koju je(posteriorna) vjerojatnost da joj pripada najveća

  • Mahalanobisova udaljenost

    Neka su xi i xj dvije multivarijatne opservacije (i-ti i j-ti redak nxp matrice X). Zbog jednostavnosti pretpostavimo da su podaci centrirani.

    Neka je S kovarijančna matrica (S=X’X/n)

    Tada se Euklidska udaljenost između xi i xjmože izraziti kao dE (xi , xj ) = (xi - xj )’ (xi - xj )

    = (xik - xjk )2

    a Mahalanobisova udaljenost kaodM (xi , xj ) = (xi - xj )’ S

    -1(xi - xj )

    157

  • Mahalanobisova udaljenost

    U usporedbi sa običnom Euklidskom udaljenosti (i nekim drugim udaljenostima), prednost Mahalanobisove udaljenosti je u tome što eksplicitno uzima u obzir eventualne korelacije između varijabli.

    158

  • DEMO: PIZZA PODACIVarijable: mois prot fat ash sodium carb calGrupa: Brand (g=10)

    159

    http://www.yorkblog.com/onlyyork/Pizza-Capricciosa.jpghttp://www.magmapizza.com/wp-content/uploads/2010/02/3_pizzas.jpghttp://www.finestchef.com/Mexican Pizza.jpghttp://www.correllconcepts.com/Encyclopizza/01_Intro/pizza_pepperoni_pizza.jpg

  • 164

    Preliminarna eksploracija

    Brandovi (marke) pizze se razlikuju po količini vlage (MOIS)

    Isto semožeprovjeritiza ostalevarijable

  • 167

    Rezultati DA

    Multivarijatni testovi

    Testira se hipoteza (Ho) da su svi centroidi (multivarijatne sredine) jednaki

    Ho se odbacuje

  • 168

    Rezultati: Posteriorne vjerojatnosti pripadnosti grupama (brandovima)

    Klasificiranjeu grupu sanajvećomvjerojatnostipripadnosti

  • 169

    Rezultati DA (zbirni): Mjere točnosti klasifikacije (na podacima za razvoj modela )

    Od ukupno 32observacije pizze D 30 (93.75%)ihje na (osnovu DA)klasificiranou D, a 2 u C

  • 170

    Rezultati

    pogreške klasifikacije

    2/32 = 0.0625

    Procjena ukupne pogreške = 10.33%

    Napomena: da je procjena pogreške suviše “optimistička”,Treba je procjeniti na neovisnim podacima

  • 178

    Kanonička diskriminativna analiza: Multivarijatni linearni model

    Linearni model u KDA je ustvari isti kao i u MANOVA-i: Y = X + E

    ◼ Pretpostavke su iste kao i u MANOVA-i

    ◼ Ako podaci nisu multivarijatno normalno distribuirani, tada je obično bolje

    primijeniti neparametarski model ili

    transformirati varijable.

  • 179

    Ključni rezultati KDA

    Kanoničke diskriminativne funkcije/varijable (CAN)

    ◼ Odredjivanje broja značajnih CAN varijabli (multivarijatni testovi)

    Korelacije izmedju početnih varijabli (prediktora) i CAN varijabli

    ◼ Interpretacija CAN varijabli

    Centroidi grupa na kanoničkim varijablama

    Grafički prikaz opservacija/grupa u prostoru prvih 2 CAN varijabli

  • 180

    Kako se prikazuju rezultati KDA?- u prostoru prvih 2 CAN varijabli

  • 181

    Broj kanoničkih diskriminativnih varijabli/funkcija

    ◼ Broj kanoničkih diskriminativnih varijabli je minimum broja prediktora i broja grupa - 1: k=min(p,g-1).

    ◼ U primjeru sa promotivnim strategijama broj varijabli je 4, a strategija 3, pa je br. kan.diskr. funkcija = min(4,3-1) =2.

    ◼ Na osnovu multivarijatnih testova se odredjuje koliko CAN varijabli treba zadržati

  • 183

    Kanonička diskriminativna analiza (CAN) i spremanje CAN varijabli u dataset CAN (out=can)

    Insert code➔ispod “proc discrim” upisati: can ncan=4 out=can

  • DEMO: PIZZA PODACIVarijable: mois prot fat ash sodium carb calGrupa: Brand (g=10)

    184

    http://www.yorkblog.com/onlyyork/Pizza-Capricciosa.jpghttp://www.magmapizza.com/wp-content/uploads/2010/02/3_pizzas.jpghttp://www.finestchef.com/Mexican Pizza.jpghttp://www.correllconcepts.com/Encyclopizza/01_Intro/pizza_pepperoni_pizza.jpg

  • 185

    Rezultati CAN

    Canonical

    Correlation

    Adjusted

    Canonical

    Correlation

    Approximate

    Standard

    Error

    Squared

    Canonical

    Correlation

    Eigenvalues of Inv(E)*H

    = CanRsq/(1-CanRsq)

    Eigenvalue

    Differenc

    e Proportion Cumulative

    1 0.997704 0.997599 0.000265 0.995414 217.0622 177.6426 0.7689 0.7689

    2 0.987552 . 0.001431 0.975260 39.4196 15.3281 0.1396 0.9085

    3 0.979870 . 0.002305 0.960146 24.0914 22.5183 0.0853 0.9939

    4 0.781906 0.775787 0.022475 0.611376 1.5732 1.4462 0.0056 0.9995

    5 0.335722 0.308307 0.051313 0.112710 0.1270 0.1047 0.0004 0.9999

    6 0.147726 . 0.056569 0.021823 0.0223 0.0172 0.0001 1.0000

    7 0.071200 . 0.057538 0.005069 0.0051 0.0000 1.0000

    Kanoničke korelacije mjere jakost veze između početnih varijabli i grupa

  • 186

    Rezultati CAN:odredjivanje koliko CAN varijabli treba zadržati

    Test of H0: The canonical correlations in the current row and all that follow are zero

    Likelihood

    Ratio

    Approximate

    F Value Num DF Den DF Pr > F

    1 0.00000152 249.60 63 1605.6

  • 187

    Rezultati CAN

    Zatvoriti i ponovno izvesti (RUN)

    Matrica struktura(korelacije kanoničkih varijablisa početnim varijablama):CAN1: -carb, protCAN2: -mois,cal,fat….

  • 188

    Rezultati CAN: grafički prikaz

    Grafički prikazati CAN varijable:

    ◼ Odabrati view➔server list➔

    kliknuti na CAN

    ◼ Graph➔line plot➔ odabrati

  • 189

    Line plot: Task roles TAB

  • 190

    Line plot: Appearance>Interpolations TAB

    OdabratiScatter za sveGrupe (A-J)

  • 191

    Opservacije/grupe u prostoru prvih 2 kanoničkih varijabli/dimenzija

    Grupe (brandovi pizze) prikazani u prostoru prvih 2 kanoničkih dimenzija

    Manjeugljikohidrata(carb)

    Više vlage (moist),manje kalorijai masti

    manje vlage (moist),viče kalorijai masti

    Višeugljikohidrata(carb)

  • 192

    4.2 Logistička regresija

    Logistička

    Regresijska

    Analiza

    Linearna

    Regresijska

    Analiza

    Zavisna var. Analiza

    Kategorijska

    Kvantitativna

  • 193

    Tipovi logističkih regresija

    Zav.

    varijabla

    Tip

    Logističke Regresije

    Two

    Categories

    Three

    or More

    CategoriesOrdinalna

    Binarna

    Nominalna

    Binary

    YES NO

    Nominal

    Ordinal

  • 194

    Logistic Regression Curve

    x

    0.0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1.0

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

    Pro

    babili

    ty

  • 195

    Logit Transformacija

    Logističkom regresijom se modelira transformacija vjerojatnosti, koja se zove LOGIT transformacija

    Gdje je

    i indeks opservacije.

    pi je vjerojatnost da se neki događaj (napr. prodaja) dogodi za opservaciju (napr. osobu) i.

    log je prirodni log (sa bazom e).

    −=

    i

    ii

    p

    pp

    1log)logit(

  • 196

    Pretpostavka

    Logit

    Transform

    pi

    Predictor

    Logit (pi)

    Predictor

  • 197

    Model logističke regresije

    logit (pi) = 0 + 1X1 + εigdje

    logit (pi) je logit transformacija vjerojatnosti događaja za opservaciju i

    0 intercept (koeficijent – slobodni član) regresijskog pravca

    1 koeficijent nagiba regresijskog pravca

    εi pogreška (residual) za opservaciju i

  • DEMO: MORFOLOŠKE KARAKTERISTIKE HRVATA(ROČNICI HRVATSKE VOJSKE)

    198

    Anja Habus-Korbar, Mag.rad, PMF – Biologija/Toksikologija

    http://www.google.com/imgres?imgurl=http://www.walydesign.com/imagethumb.php%3Fs%3Dimages/mements.jpg%26w%3D495&imgrefurl=http://www.walydesign.com/measurements/&usg=__uuCA9fFzJoeZL86kWFA9Qq7o1Lc=&h=409&w=495&sz=35&hl=en&start=1&zoom=1&itbs=1&tbnid=2VdHx0n6WnCMGM:&tbnh=107&tbnw=130&prev=/images%3Fq%3Dbody%2Bmeasurements%2Bfor%2Bmen%26hl%3Den%26gbv%3D2%26tbs%3Disch:1

  • 199

    Primjeri

    Marketing: Pronalaženje odvojenih grupa klijenata radi kreiranja ciljanih marketinških programa

    Osiguranje: identifikacija grupa osiguranika sa visokim iznosima šteta

    Maloprodaja: pronalaženje grupa trgovina sa sličnim karakteristikama prodaje

    Antropometrija: identifikacija različitih morfoloških tipova

  • Podaci

    38 morfoloških karakteristika

    5 regija:

    ◼ Jastrebarsko (1),

    ◼ Koprivnica (2)

    ◼ Pula (3),

    ◼ Sinj (4) i

    ◼ Požega (6)

    n= 4200 ročnika

    200

    Područje A (sjeverozapad)

    Područje B (jugoistok)

  • Rezultati kanoničke diskriminativne analize

    201

    regije

  • Rezultati logističke regresije

    202

    Varijabla DFProcjenakoeficijenta

    St.grješka Wald 2 Pr >2

    Stand.procjenakoef.

    Omjerrizika

    Slobodni

    član

    1 35.2716 6.27080 31.64

  • Predviđena vjerojatnost i najvažnije prediktorske varijable

    203

    Prikaz odnosa vjerojatnosti pripadnosti području A i mjera SL i SZ

  • 204

    4.3 Klasifikacijska stabla ilistabla za odlučivanje

    Data mining metoda (metoda statističkog učenja) koja se može koristiti za klasifikaciju (predikciju (predviđanje) pripadnosti klasi (kategoriji))

    Vrlo popularna u računarstvu, statistici i raznim područjima primjene.

    Metoda za “nadzirano učenje” (u terminologiji data mining-a)

    Alternativne metode:

    ◼ Neuralne mreže

    ◼ Logistička regresija

    ◼ SVM

    ◼ Nearest Neighbors, etc.

    Računarski intenzivne metode

  • 205

    Primjer: Rizik za infarkt (MI)Obs smoking obese hypertension mi

    1 prev yes no yes

    2 prev no no no

    3 prev no yes no

    4 prev no yes no

    5 prev yes yes yes

    6 current no no yes

    7 current yes yes yes

    8 current yes no yes

    9 current yes yes yes

    10 never no no no

    11 never yes no no

    12 never no yes yes

    13 never no yes yes

    14 never no yes yes

  • 206

    Klasifikacijsko stablo

    smoking

    obesehypertension

    prev

    current

    never

    yesyesno no

    MI=yes

    MI=yes

    MI=noMI=yesMI=no

  • 207

    Pravila klasifikacijskog stabla

    Smoking=prev

    ◼ and obese=yes ➔MI

    ◼ and obese=no➔not MI

    Smoking=current➔MI

    Smoking=never

    ◼ and hypertension=no➔not MI

    ◼ and hypertension=yes➔MI

  • 208

    Primjer: Telekomunikacijski “churn”

    Moguće pred.varijable (“inputs”)

    ◼ x1= promjena # poziva

    ◼ x2= dob

    ◼ …..

    Izlaz (Response) (“target”)

    ◼ Y = 1 ako “churner”,

    ◼ 0 ako “nonchurner”

  • 209

    Klasifikacijsko stablo

    31/100

    X1 >-5 X1= 30

    0

    1/50

    1

    14/20

    Npr. Telcox1= promjena # pozivax2= dobY = 1 ako “churner”,

    0 ako “nonchurner”Napomena:16/30 na training uzorku14/32 na validation uzorku

    R1: 16/30(14/32)

    R3: 14/20R2: 1/50

    15/70

    split on variable values

    “leaves” are classifications

    (e.g., 0/1)

  • 210

    Primjer klasifikacijskog stabla iz SAS Enterprise Miner-a

  • DEMO: MORFOLOŠKE KARAKTERISTIKE HRVATA(ROČNICI HRVATSKE VOJSKE)

    211

    http://www.google.com/imgres?imgurl=http://www.walydesign.com/imagethumb.php%3Fs%3Dimages/mements.jpg%26w%3D495&imgrefurl=http://www.walydesign.com/measurements/&usg=__uuCA9fFzJoeZL86kWFA9Qq7o1Lc=&h=409&w=495&sz=35&hl=en&start=1&zoom=1&itbs=1&tbnid=2VdHx0n6WnCMGM:&tbnh=107&tbnw=130&prev=/images%3Fq%3Dbody%2Bmeasurements%2Bfor%2Bmen%26hl%3Den%26gbv%3D2%26tbs%3Disch:1

  • Stablo za klasifikaciju u područje A ili B

    212

  • Interpretacija/ opis stabla

    Prvo je razdvajanje na temelju širine lica: ◼ ako su novaci užeg lica, vjerojatnost pripadnosti

    području A je 95%.◼ ako imaju šire lice, vjerojatnost za područje A je

    manja i iznosi 22% (odnosno vjerojatnost za pripadnost području B je 78%).

    Navedeni se čvor ponovno grana na temelju širine zdjelice te je za one ročnike koji su šireg lica, a uže zdjelice procijenjeno s 91% da pripadaju području B, dok su oni šireg lica i šire zdjelice većinom procijenjeni kao pripadnici područja A (69%).

    Itd.

    213

  • 214

    Dio 5

    Klaster analiza

  • 215

    Ciljevi

    ◼ Definirati klastering i “ne-vođenu”analizu podataka.

    ◼ Objasniti različite tipove klaster analize .

    ◼ Objasniti nekoliko ključnih mjera udaljenosti koje se koriste za procjenu sličnosti između eksperimentalnih jedinica.

  • 216

    Definicija

    “Klaster analiza je skup metoda za kreiranje smislene i informativne klasifikacije prethodno neklasificiranih podataka, na osnovu vrijednosti varijabli opserviranih/izmjerenih na svakoj eksperimentalnoj jedinici.”

    B. S. Everitt (1998), “The Cambridge Dictionary of Statistics”

  • 217

    …još definicija

    Klaster: skup objekata (entiteta/ opservacija) koji su

    ◼ međusobno slični ako pripadaju istom klasteru,

    ◼ međusobno različiti ako pripadaju različitim klasterima.

    Klaster analiza

    ◼ Traženje sličnosti među objektima na osnovu izmjerenih

    karakteristika i grupiranje sličnih objekata u klastere.

    U data miningu: “nevođeno učenje” (klase nisu definirane)

    Tipične primjene:

    ◼ Dobivanje uvida u distribucije podataka

    ◼ Segmentacija

    ◼ Početan korak za daljnje analize

  • 218

    Kvaliteta: Što je dobar klastering?

    Dobra klaster metoda će proizvesti kvalitetne klastere

    sa

    ◼ Visokim intra-klasnim sličnostima (unutar klastera)

    ◼ Niskim inter-klasnim sličnostima (između klastera)

    Kvaliteta rezultata klasteringa ovisi o

    ◼ Primijenjenoj mjeri sličnosti i

    ◼ Načinu implementacije/metodi.

    Kvaliteta klaster metode se takodjer mjeri

    sposobnošću metode da otkrije neke ili sve skrivene

    oblike u podatcima.

  • 219

    Sličnost/različitost: matrica udaljenosti između objekata

    npx...

    nfx...

    n1x

    ...............ip

    x...if

    x...i1

    x

    ...............1p

    x...1f

    x...11

    x

    Matrica podataka (nxp)

    0...)2,()1,(

    :::

    )2,3()

    ...ndnd

    0dd(3,1

    0d(2,1)

    0

    Matrica različitosti (nxn)Između n objekata

    Za mjerenje sličnosti/različitosti se obično koriste udaljenosti

  • 220

    Tipovi klaster metoda

    Hijerarhijsko klasteriranje

    Optimizacijsko (partitivno) klasteriranje◼ K-means (k-sredina)

    ◼ K-medoids

    Kombinacije k-means i hijerarhijskog klasteriranja

    Metode bazirane na funkcijama gustoće vjerojatnosti

  • 221

    Agglomerative DivisiveIteration

    1

    2

    3

    4

    Hijerarhijsko klasteriranje

  • 222

    Optimizacijsko (Partitivno) klasteriranje: k-sredina

    k “Seeds” Opservacije

    XX

    X

    X

    Početno stanje Konačno stanje

    Stara lokacija

    X

    XX X

    X

    XX

    X

    Nova lokacija

  • 223

    Heuristička iteracija

    1. Nađi inicijalnu particiju n objekata u g grupa.

    2. Izračunaj promjenu pogreške nastalu premještanjem svake observacije iz svog klastera u drugi.

    3. Odaberi one promjene pri kojima se pogreška najviše umanji.

    4. Ponavljaj korake 2 i 3 sve dok više nije moguće pomacima umanjiti pogrešku.

  • 224

    Mjere sličnosti - ciljevi

    ◼ Definirati sličnost i što čini “dobru” mjeru sličnosti.

    ◼ Opisati nekoliko mjera sličnosti.

  • 225

    Što je sličnost?

    Iako konceptualno jasan pojam, često ga je teško precizno kvantificirati.

    Što je sličnije patki: vrana ili pingvin?

    Varijable i metrika koje koristimo za “izračunavanje” sličnosti (napr. Euklidska ili Pearsonov korelacijski koeficijent) bitno utječu na klastere koje ćemo dobiti.

  • 226

    Što čini dobru mjeru sličnosti

    1. simetrija: d(x,y) = d(y,x)

    2. Ako je d(x,y) 0 tada je x y

    3. Ako je d(x,y) = 0 tada je x = y

    Neke od popularnih mjera sličnosti (napr. korelacija) ne zadovoljavaju sva navedena svojstva.

  • 227

    Mjere sličnosti/udaljenosti

    Ovisno o skali mjerenja (binarna, nominalna, ordinalna, intervalna, kvocjentna)

    Za intervalne su najpopularnije◼ Udaljenosti Minkowskog:

    ◼ Za q=1 ➔ Manhattan

    ◼ Za q=2 ➔ Euklidska

    qq

    pp

    qq

    jx

    ix

    jx

    ix

    jx

    ixjid )||...|||(|),(

    2211−++−+−=

  • 228

    Euklidska udaljenost kao mjera sličnosti za kvantitativne varijable

    Pitagorin teorem: Kvadrat nad hipotenuzom = sumi kvadrata nad katetama.

    ( )=

    −=d

    i

    iiE wxD1

    2

    x1

    x2

    (x1,

    x2)

    (0, 0)

    =

    =2

    1

    22

    i

    ixh

  • 229

    City block (Manhattan) udaljenost je udaljenost između 2 točke mjerena po ortogonalnim koord. osima.

    =

    −=d

    i

    iiM wxD1

    1

    “City Block” udaljenost kao mjera sličnosti za kvantitativne varijable

    (w1,w2)

    (x1,x2)

  • 230

    1 2 3 4 5 … 17

    Gene A 01100100100111001

    Gene B 01110000111111011

    DH = 00010100011000010 = 5

    Gene expression levels under 17 conditions

    (low=0, high=1)

    =

    −=d

    i

    iiH wx D1

    Hamming udaljenost kao mjera sličnosti za binarne varijable

  • 231

    Hijerarhijske metode:mjere udaljenosti između klastera

    Single linkage: najmanja udaljenost između jednog objekta u

    jednom klasteru i jednog u drugom:

    dis(Ki, Kj) = min(tip, tjq)

    Complete linkage: najveća udaljenost između jednog objekta u

    jednom klasteru i jednog u drugom:

    dis(Ki, Kj) = max(tip, tjq)

    Average linkage: prosječna udaljenost između jednog objekta u

    jednom klasteru i jednog u drugom:

    dis(Ki, Kj) = avg(tip, tjq)

    Centroid: udaljenost između centroida dvaju klastera

    dis(Ki, Kj) = dis(Ci, Cj)

    Ward: suma kvadrata između klastera po svim varijablama

  • 232

    Hijerarhijske metode – prema metodi združivanja klastera

    Average Linkage

    Centroid Linkage

    Complete Linkage

    Density Linkage

    Single Linkage

    Ward’s

    itd

  • 233

    Primjer: Poverty

    Varijable:

    ◼ Birth rate

    ◼ Death rate

    Objekti:

    ◼ 97 zemalja (1995.god)

    Metoda:

    ◼ Hijerarhijska, average linkage

  • 234

    Koraci

    Pridružite dataset poverty

    Odaberite analyze➔multivariate➔cluster

    analysis

    Task

    roles TAB

  • 235

    Koraci

    options

  • 236

    Rezultati: dendogram

  • 237

    Varijable:birth ratedeath rateinfant death rate

  • 238

    Primjer: Croatian coast beach sand

    Rad: Tracing compositional variability and source rocks of beach sands along the Croatian coast using cluster analysis(B.Lužar-Oberiter, V.Lužar-Stiffler,et.al.)

    varijable ◼ 20tak minerala mjerenih kao kompozitne

    varijable (udio)

    Metoda:◼ Hijerarhijska, average

    ◼ Standardizacija varijabli: raspon

  • 239

  • Prikaz klastera na prve 2 kanoničke dimenzije

    240

  • Prikaz klastera na prve 2 kanoničke dimenzije

    241

  • Interpretacija uz pomoč stabla

    242