Upload
others
View
9
Download
0
Embed Size (px)
Multivarijatna analiza podatakaStatističko modeliranje, prediktivna analitika
Doc. dr.sc. Vesna Lužar-StifflerCAIR Centar d.o.o. – “The House of Statistics”iSveučilište u ZagrebuZagreb, Hrvatska
e-mail: [email protected]: www.cair-center.hr
Medicinski fakultet Sveučilišta u ZagrebuDoktorski studij Prosinac 2010
mailto:[email protected]://www.cair-center.hr/
SadržajMULTIVARIJATNA ANALIZA PODATAKA 1. Uvod i primjeri metoda multivarijatne analize 2. Metode za redukciju podataka, ekstrakciju važnih faktora i
grafičke prikaze◼ Komponentna analiza◼ Faktorska analiza◼ Multidimenzionalno skaliranje (MDS), Biplot, CoPlot
3. Metode za analizu veza među skupovima varijabli◼ Multivarijatna regresijska analiza◼ Kanonička korelacijska anali
STATISTIČKO MODELIRANJE, PREDIKTIVNA ANALITIKA 4. Metode za klasifikaciju
◼ Diskriminativna analiza (Fisherova)◼ Kanonička diskriminativna analiza◼ Logistička regresija◼ Stabla za odlučivanje
5. Metode za grupiranje podataka: Klaster analiza◼ Metoda k sredina (k-means)◼ Hijerarhijske metode
2
3
Preporučena literatura
Sharma, S., 1996. Applied Multivariate Techniques. John Wiley & Sons, Inc.
Dillon W.R., M.Goldstein, 1984. Multivariate Analysis: Methods and Applications. John Wiley & Sons, Inc.
A. K. Jain and R. C. Dubes. Algorithms for
Clustering Data. Printice Hall, 1988.
4
Dio 1.
Pregled i primjeri multivarijatne analize
5
Dio 1.1
Uvod i primjeri multivarijatnih statistika
6
Cilj
◼ Prepoznati i odabrati prikladan tip analize za traženje odgovora na pojedina (tipična) pitanja u multivarijatnim istraživanjima.
7
Univarijatne imultivarijatne statistike
Univarijatne statistike
◼ Analizira se svaka zavisna variabla (ZV)zasebno.
Primjeri: srednja vrijednost, t-test, ANOVA
Multivarijatne statistike
◼ Analizira se više zavisnih varijabli odjednom.
Primjeri: vektor srednjih vrijednosti, Hotelling’s T2, MANOVA (multivarijatna ANOVA)
8
Prednosti multivarijatnih metoda
Univarijatne statistike◼ Sa porastom broja ZV raste rizik pogreške I.
reda (tj. odbacivanja istinite nulte hipoteze) ◼ Razmatraju se samo veze nezavisnih varijabli
(NV) sa ZV, a ne i veze između ZV.
Multivarijatne statistike◼ Pogreška I. reda se kontrolira tako što se čitav
skup zavisnih varijabli razmatra zajedno u višedimenzionalnom prostoru.
◼ Razmatraju se veze
između ZV i između ZV i NV.
9
Primjene multivarijatnihstatistika
Multivarijatne statistike se mogu koristiti za traženje odgovora na razna pitanja u istraživačkim projektima.
Razmotrimo nekoliko primjera primjene multivarijatnih statistika u
znanstvenim istraživanjima.
10
Usporedba učinkovitosti lijekova
Farmaceutska tvrtka želi usporediti učinkovitost◼ Dvaju različitih formulacija (standardne i nove)
lijeka za liječenje depresije i obs.-komp. ponaš.
Kako mjeriti učinkovitost? ◼ Rezultat na testu depresivnosti
◼ Rezultati na 2 različita testa obsesivno-kompulsivnog ponašanja.
U ovom primjeru:
2 kategorije JEDNE nezavisne varijable (2 lijeka),
3 zavisne varijable.
11
Usporedba učinkovitosti lijekova
Farmaceutska tvrtka želi usporediti učinkovitost◼ Dvaju različitih formulacija (standardne i nove)
lijeka za liječenje depresije i obs.-komp. ponaš.
◼ 3 različite doze (50, 100, 200 mg).
Kako mjeriti učinkovitost? ◼ Rezultat na testu depresivnosti
◼ Rezultati na 2 različita testa obsesivno-kompulsivnog ponašanja.
U ovom primjeru
2 nezavisne varijable (2 3 faktorijalni dizajn),
3 zavisne varijable.
12
Multivarijatna analiza varijance: MANOVA
Proširenje ANOVA-e na više varijabli.
Testira se značajnost ◼ razlika između grupa
◼ istovremeno po više zavisnih varijabli
◼ uzimajući u obzir korelacije između zavisnih varijabli.
Pitanje u istraživanju: “Postoje li signifikantne razlike između 2 ili više grupa na skupu zavisnih varijabli?”
13
Primjer korporacijskog treninga
Tvrtka želi usporediti učinkovitost 3 metode za obučavanje zaposlenika u studiji sa ponovljenim mjerenjima.
Učinkovitost je definirana kao:
◼ Rezultat na testu poznavanja korporacijskih pravila
◼ Rezultat na testu vještina potrebnih za radno mjesto.
Zaposlenici su testirani u 3 vremenska intervala
◼ Nakon 2 tjedna
◼ Nakon 4 tjedna
◼ Nakon 6 tjedana
14
Dijagnostička korisnost /primjenjivost instrumenta
Kako se ponaša novi psihološki instrument u usporedbi sa standardnim instrumentom?▪ Standardni instrument je sastavljen od 12
pitanja (na osnovu dijagnostičkih kriterija) i mora ga administrirati educirani ispitivač.
▪ Novi (testirani) instrument sadrži 20 pitanja i ispunjava se bez ispitivača.
Primjer sa▪ 12 kvantitativnih prediktora (nezavisnih
varijabli) i
▪ 20 kvantitativnih zavisnih varijabli.
15
Multivarijatna multipla regresija
Testira se značajnost linearnih veza između skupa prediktora i skupa zavisnih varijabli uzimajući u obzir korelacije između zavisnih varijabli.
Pitanje u istraživanju:
“Da li varijabilitet skupa kvantitativnih prediktora na adekvatan način opisuje/ predviđa skup kvantitativnih zavisnih varijabli?”
16
Kanonička korelacijska analiza
◼ U kanoničkoj korelacijskoj analizi se testira ista hipoteza kao i u multivarijatnoj regresiji, ali se još
◼ Interpretiraju veze prediktora sa kanoničkim varijablama zavisnih varijablama,
◼ Interpretiraju veze zavisnih varijabli sa kanoničkim varijablama prediktora,
◼ Istražuje koliko dimenzija međusobno dijele skupovi zavisnih i nezavisnih varijabli.
17
Primjer patološkog kockanja
Istraživači žele koristiti odgovore na pitanja u upitniku za klasifikaciju ljudi u 3 grupe:
◼ Opsesivne kockare,
◼ Osobe koje igraju na sreću (“bingo”) i
◼ Osobe bez afiniteta prema kockanju (kontrolna skupina)
3 skupine učesnika je odgovorilo na upitnik sa 12 pitanja.
Pitanje: Koje linearne kombinacije (12) odgovora objašnjavaju većinu varijabiliteta između 3 grupe kockara?
18
Profiliranje i predviđanje
Kartičarska tvrtka želi (prije izdavanja kreditne kartice) iskoristiti financijske informacije za odlučivanje da li će potencijalni klijent biti rizičan (napr. neuredan platiša) ili ne.
Kardiolog želi razumjeti koja kombinacija varijabli (sist./dijast. tlak, dob, spol, težina, laboratorijski nalazi, …) najbolje predviđa rizik od infarkta.
19
Diskriminativna analiza
Diskriminativna analiza (DA) je metoda za redukciju dimenzija (varijabli) koja se može primijeniti za određivanje linearne kombinacije varijabli na kojoj su kategorije tj grupe najviše udaljene. DA je konceptualno slična logističkoj regresiji za multivarijatne podatke, a MANOVI po računalnom pristupu.
20
Primjer: bol lica i vilice (TMJ)
Istraživači žele razumjeti simptome bolesti temporomandibular jaw disorder (TMJ). 120+ pacijenata je odgovorilo na 14 pitanja o simptomima. Mnogo od tih odgovora je u međusobnoj asocijaciji (vezi).
Istraživač želi ◼ reducirati ukupan broj varijabli sa 14 na neki
manji broj i ◼ eliminirati potencijalne probleme vezane uz
kolinearnost (visoke korelacije među varijablama).
21
Komponentna analiza
Metoda za redukciju dimenzija (ukupnog broja varijabli)
◼ Kreiraju se nove varijable koje su linearne kombinacije skupa početnih, koreliranih varijabli,
◼ Nove varijable su nekorelirane (“ortogonalne”)
◼ Ne pretpostavlja se postojanje latentne (skrivene) faktorske strukture.
Praktično pitanje:
“Kako reducirati skup od 14 koreliranih varijabli na manji skup nekoreliranih varijabli?”
22
Primjer: bol lica i vilice (TMJ)
Istraživači žele otkriti da li percepcije simptoma pacijenata odražavaju nekoliko “latentnih” (skrivenih) faktora bolesti ili jedan jedini.
Prikupljeni su odgovori od 120+ pacijenata na 14 pitanja vezana uz simptome bolesti TMJ◼ Eksplorativnom se analizom identificiraju mogući
“latentni” faktori bolesti. ◼ Konfirmativnim se analizom testiraju postavljene
hipoteze o faktorima bolesti.
23
Faktorska analiza
Eksplorativna faktorska analiza je tehnika za traženje “latentnih” varijabli. Često se pogrešno brka sa komponentnom analizom.
Metode faktorske analize se koriste kada se pretpostavlja da postoji “skrivena” faktorska struktura, tj. da se sa malim brojem latentnih dimenzija može jednostavnije opisati mjereni proces ili ponašanje.
24
Pitanja u istraživanjima faktorskom analizom
◼ “Jesu li percepcije matematike rezultat jednog jedinog stava-mišljenja ili ima više skrivenih sustava koji svi zajedno doprinose percepcijama o matematici?”
◼ “Da li je rast nekog živog organizma rezultat jednostavnog procesa rasta ili postoji više latentnih sustava koji zasebno pridonose rastu organizma?”
◼ “Da li je ekonomski rast jednostavan sustav ili je rezultat nekoliko latentnih varijabli koje su u međusobnoj vezi i zajednički pridonose ekonomskom okruženju?”
25
Morfološki tipovi
Istraživački tim nastoji istražiti da li se na osnovu morfoloških karakteristika mlađih osoba muškog spola iz RH može identificirati manji broj homogenih grupa -morfoloških tipova.
26
Klaster analiza
Klaster: skup objekata (entiteta/ opservacija) koji su
◼ međusobno slični ako pripadaju istom klasteru,
◼ međusobno različiti ako pripadaju različitim klasterima.
Klaster analiza
◼ Traženje sličnosti među objektima na osnovu izmjerenih karakteristika i grupiranje sličnih objekata u klastere.
27
Bogatstvo informacija u odnosu na jednostavnost
Multivarijatna analiza uzima u obzir kompleksne, višedimenzionalne odnose među varijablama. MV statistike mogu biti složene za interpretaciju. ◼ Razlog zašto se univarijatne metode češće
koriste – lakše ih je razumjeti
◼ Ulaganje vremena i truda u razumijevanje višedimenzionalnih veza može biti profitabilno, vrijedno truda. Ali …
◼ Katkada je priroda problema tako kompleksna da se treba vratiti na univarijatnu analizu radi razumijevanja.
28
Treba imati na umu da analiza nikada ne može biti bolja od podataka na kojima se primjenjuje
◼ Navesti pitanja koja će se istraživati.
◼ Dizajnirati studiju kojom će se moći istražiti navedena pitanja.
◼ Definirati i dokumentirati plan istraživanja.
◼ Izmjeriti varijable u skladu sa planom.
◼ Oprezno pregledati podatke (pogreške i neobične opservacije – “outlier”-e ).
Ne može biti “Garbage In, Roses Out.” (Tabachnik and Fidell 2001)
53
Dio 2
Metode za redukciju podataka, ekstrakciju važnih faktora i grafičke prikaze
◼ 2.1 Metoda glavnih komponenata
◼ 2.2. Faktorska analiza
◼ 2.3. Grafičke metode
54
2.1 Metoda glavnih komponenata (PCA)
Ciljevi:
◼ Objasniti ključne koncepte PCA metode
◼ Opisati strategije za određivanje broja glavnih komponenata
◼ Demo na primjeru: PAIN podaci (Jmp i SAS)
Suviše varijabli
55
Systolic
blood
pressure
Diastolic
blood
pressure
Diet
Exercise
LDL Cholesterol
HDL Cholesterol
Medication
Moguća rješenja
◼ Eliminacija nekih redundantnih varijabli. Može dovesti do gubitka važnih informacija koje
su na jedinstven način sadržane u eliminiranim varijablama.
◼ Kreiranje kompozitnih skorova iz varijabli (sume ili prosjeci). Gubitak varijabiliteta među varijablama Više kompozitnih skorova može i nadalje biti
kolinearno◼ Kreiranje ponderiranih linearnih kombinacija
varijabli uz zadržavanje većine varijabiliteta Manje varijabli; mali ili nikakav gubitak
varijabiliteta Nove varijable (lin. kombinacije) nisu
kolinearne.
56
Metoda glavnih komponenata (PCA)
◼ Je metoda za redukciju dimenzija (ulaznih varijabli), kojom se kreiraju nove varijable koje se zovu glavne komponente
◼ Kreira se onoliko komponenata koliko ima ulaznih varijabli.
◼ Problemi
Komponente nisu uvijek direktno iterpretabilne
Odabir malog broja “važnih” komponenata
57
Glavne komponente (PC)
◼ Su ponderirane linearne kombinacije ulaznih varijabli
◼ Su međusobno ortogonalne i nezavisne
◼ generiraju se tako da se sa prvom komponentom izvuće najveći dio varijabiliteta sadržan u ulaznim varijablama (x1,x2,…xp), sa slijedećom komponentom najveći preostali dio varijabiliteta itd.
58
Geometrijska svojstva Sa LS regresijom se
minimizira suma kvadrata vertikalnih udaljenosti do (regresijskog) pravca(okomitih na x os)
Se PCA se minimizira suma kvadrata udaljenosti okomitih na PC os.
59y1
y2
..
.
..
...
.
..
..
...
..
y2
..
.
..
...
.
..
..
...
..
PC os
Regresijskipravac
Detalji PCA metode
60
j glavnih komponenata su LS rješenje (po metodi najmanjih kvadrata) slijedećeg modela:
Y = XB
gdje
Y n x p matrica skorova na komponentama
X n x j matrica standardiziranih (ili centriranih) ulaznih varijabli
B j x p matrica svojstvenih vektora korelacijske (ili kovarijančne) matrice ulaznih varijabli.
Koliko komponenata zadržati?
61
◼ “Scree plot” svostvenih vrijednosti (eng. eigenvalues):
◼ Proporcija varijanceobjašnjena svakomkomponentom:
◼ Kumulativna varijancaobjašnjena komponentama:
◼ Svoj. vrijednost i > 1
1 2
1 2
or .. ( )
..
( )
i i
p
k
tr
tr
+ + +
+ + +
R
R
**
* * * *
Koliko komponenata zadržati?
PB kriterij (Momirović i sur., 1971)
Intenzivno računarske metode
◼ simulacijske metode,
◼ randomizacijske metode,
◼ bootstrap
Statistički testovi
◼ Samo za komponentnu analizu na matrici kovarijanci (centriranim podacima)
62
Skorovi glavnih komponenata
Skorovi glavnih komponenata mogu se kreirati
◼ za svaku observaciju u X (matrici ulaznih podataka)
◼ na svakoj glavnoj komponenti
◼ na standardiziranim ili originalnim ulaznim varijablama.
63
Grafička eksploracija PC-a
64
Outlier?
Pretpostavke za PCA
Podaci koji nedostaju – nedostaju na slučajan način (missing at random)
Nema outliera (stršećih podataka)
Singularnost - nije matematički problem (jer nema invertiranja matrica, kao npr. u regresiji)
65
PRIMJER: “PAIN” PODACI TEMPOROMANDIBULARJAW DISORDER (TMJ)
66
http://www.deardoctor.com/img/inthisissue/issue6/jaw_pain.jpghttp://drhamiltonoc.com/images/jaw-pic1.jpghttp://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpghttp://i24.ebayimg.com/05/s/08/0e/77/13_2.JPGhttp://www.physicalsense.biz/treatment/whatwetreat/images/jaw-pain.jpg
Ulazne varijable
hurtchew Does it hurt when you chew?
hurtwide Does it hurt when you open wide or take a big bite?
noise Does your jaw make a noise so that it bothers you or others?
stiffjaw Stiff jaw (in the morning)?
cracking Locking/cracking of jaw joint (in the morning)?
painslp Does the pain or discomfort disturb your sleep?
painrout Does the pain or discomfort interfere with your daily routine or other activities?
paintab Do you take tablets for pain or discomfort?
amhdache Headache (in the morning)?
earpain Do you have ear pain or pain in front of the ears?
grind Has anyone ever heard you grinding your teeth in your sleep, or are you aware of it yourself?
clampset Are you aware that you clamp or set your jaw?
sorejaw Sore jaw or teeth (in the morning)?
facepain Do you have pain in the face, jaw, eyes, throat, neck, or temples?
67
Distribucije
68
Mean 4,4958678
Std Dev 1,0418251Mean 5,4793388
Std Dev 1,0731509
Mean 5,0082645
Std Dev 1,076227
hurtchew hurtwide noise
…
Matrica korelacija
69
hurtchew hurtwide noise stiffjaw cracking painslp painrout paintab amhdach earpain grind clampset sorejaw facepain dayslost
hurtchew 1,0000 0,9186 0,7395 0,8335 0,7467 0,0601 0,0481 0,1070 0,0136 0,1459 0,2000 0,1874 0,0907 0,3428 0,4090
hurtwide 0,9186 1,0000 0,7541 0,8474 0,7022 0,0438 0,0003 0,0819 -0,0015 0,0918 0,1579 0,1311 0,0308 0,3561 0,3418
noise 0,7395 0,7541 1,0000 0,7420 0,5986 0,0946 0,0773 0,1199 0,0635 0,0998 0,1605 0,1426 0,0178 0,2799 0,2382
stiffjaw 0,8335 0,8474 0,7420 1,0000 0,6755 -0,0232 -0,0575 0,0116 -0,0675 0,1090 0,1477 0,1054 0,0496 0,2244 0,2860
cracking 0,7467 0,7022 0,5986 0,6755 1,0000 0,0751 0,0723 0,1820 0,0372 0,1565 0,2230 0,1275 0,1279 0,1766 0,3441
painslp 0,0601 0,0438 0,0946 -0,0232 0,0751 1,0000 0,7594 0,7860 0,8634 0,1667 0,0664 0,1925 0,1521 0,3490 0,4497
painrout 0,0481 0,0003 0,0773 -0,0575 0,0723 0,7594 1,0000 0,6806 0,7415 0,1261 0,1411 0,1335 0,1000 0,1980 0,4205
paintab 0,1070 0,0819 0,1199 0,0116 0,1820 0,7860 0,6806 1,0000 0,7548 0,1426 0,0849 0,1315 0,1682 0,2964 0,5102
amhdach 0,036 -0,0015 0,0635 -0,0675 0,0372 0,8634 0,7415 0,7548 1,0000 0,1310 0,0413 0,1232 0,1545 0,2853 0,3845
earpain 0,1459 0,0918 0,0998 0,1090 0,1565 0,1667 0,1261 0,1426 0,1310 1,0000 0,7299 0,7663 0,7646 0,0917 0,3975
grind 0,2000 0,1579 0,1605 0,1477 0,2230 0,0664 0,1411 0,0849 0,0413 0,7299 1,0000 0,6943 0,6795 0,1438 0,3690
clampset 0,1874 0,1311 0,1426 0,1054 0,1275 0,1925 0,1335 0,1315 0,1232 0,7663 0,6943 1,0000 0,6541 0,1773 0,3844
sorejaw 0,0907 0,0308 0,0178 0,0496 0,1279 0,1521 0,1000 0,1682 0,1545 0,7646 0,6795 0,6541 1,0000 0,1545 0,4024
facepain 0,3428 0,3561 0,2799 0,2244 0,1766 0,3490 0,1980 0,2964 0,2853 0,0917 0,1438 0,1773 0,1545 1,0000 0,3977
dayslost 0,4090 0,3418 0,2382 0,2860 0,3441 0,4497 0,4205 0,5102 0,3845 0,3975 0,3690 0,3844 0,4024 0,3977 1,0000
Matrica korelacija – “color map”
70
Svojstvene vrijednosti i “scree plot”
71
Number Eigenvalue Percent CumPercent
1 5,1183 34,122 34,1222 3,4912 23,275 57,3973 2,6600 17,733 75,1314 0,8332 5,555 80,6855 0,5646 3,764 84,4496 0,4058 2,706 87,1557 0,3809 2,539 89,6948 0,3091 2,061 91,7559 0,2813 1,875 93,63110 0,2245 1,497 95,12811 0,1924 1,283 96,41012 0,1865 1,243 97,65313 0,1608 1,072 98,72514 0,1190 0,794 99,51815 0,0722 0,482 100,000
Prve 3 komponente sadržavaju 75% ukupnog varijabiliteta= (5.1 + 3.5 + 2.7)/15
Lakat?
72
2.1 Faktorska analiza (FA)
Ciljevi:
◼ Objasniti razlike između PCA i FA (metode zajedničkih faktora)
◼ Opisati nekoliko metoda za ekstrakciju faktora
◼ Objasniti razliku između ortogonalne i kose (oblique) rotacije faktora
◼ Demo na primjeru: PAIN podaci (Jmp i SAS)
Zašto FA?
Očekujemo da su ulazne/ opservirane/ manifestne varijable funkcije varijabli koje ne možemo direktno opservirati (latentne varijable)
◼ Da identificiramo latentne varijable kako bi naučili nešto interesantno o ponašanju naše populacije.
◼ Da identificiramo odnose među pojedinim latentnim varijablama.
◼ Da pokažemo da je mali broj latentnih varijabli odgovoran za proces ili ponašanje koje smo izmijerili (da bismo pojednostavili teoriju).
◼ Da opišemo korelacije među opserviranim varijablama.
73
Osnovna podjela FA
Metode za eksplorativnu FA
◼ Cilj: eksploracija
Konfirmativna FA
◼ Cilj: potvrda neke unaprijed postavljene hipoteze
Ovdje: samo eksplorativna FA
74
75
Eksplorativna FA
F1:Consumer
confidence
F2: Buying
power
New Home
Buys
Durable
Goods Buys
Borrowing
Income
Import
Purchases
u1
u2
u3
u4
u5
?
76
Components versus Factors, Revisited
Glavne komponente –
simptomi
Latentni faktori –
bolest
77
Model zajedničkih faktora
Y = X + E
gdje
Y manifestne varijable
X zajednički faktori
ponderi (koeficijenti)
E unikni faktori + varijanca pogreške
78
Pretpostavke za metodu zajedničkih faktora
◼ Unikni faktori (reziduali) su međusobno nekorelirani.
◼ Unikni faktori (reziduali) su nekorelirani sa zajedničkim (latentnim) faktorima.
Uz ta ograničenja, mogu se naći rješenja (za danu korelacijsku matricu R):
or R = β β+U R -U = β β
79
PCA vs FA
PCA FA
Sve komponente zajedno
sadrže ukupno 100%
varijance (svih ulaznih
varijabli).
Svi faktori zajedno ne
sadrže nužno ukupno 100%
varijance (svih ulaznih
varijabli).
Komponente se izvode iz
varijabli i opisuju 100%
varijabiliteta podataka.
Faktori su procjene latentnih
varijabli i opisuju samo
zajednički dio varijabiliteta
manifestnih varijabli.
80
Ograničenja eksploratorne FA
Faktorski skorovi nisu linearne kombinacije ulaznih varijabli. Oni su procjene latentnih faktora. Treba izbjegavati “namještanje rezultata”:◼ Pažljivim izborom manifestnih varijabli.
◼ Primjenom rotacije za interpretaciju faktora.
◼ Izvođenjem konfirmativne analize za testiranje hipoteze o adekvatnosti faktorskog rješenja
81
Pregled metoda za ekstrakciju faktora
Analiza glavnih faktora (Principal Factor Analysis - PFA)◼ Računarski efikasna◼ Najčešće se koristi.
Maximum Likelihood FA (FA najveće vjerodostojnosti – MLFA)◼ Manje računarski efikasna (iterativna procedura)◼ Bolje procjene nego sa PFA na velikim uzorcima.◼ Mogu se testirati hipoteze o broju faktora.
Priorne procjene komunaliteta su obično kvadrati multiplih korelacija svake pojedine varijable sa svim ostalim varijablama.
82
Koliko faktora?
◼ Proporcija varijance opisana sa Minimalnim brojem faktora potrebnih da opišu
100% zajedničke varijance.
◼ Scree test Točka gdje se nalazi “lakat” u krivulji
◼ Kriteriji bazirani na interpretabilnosti Barem 3 varijable imaju visoke koeficijente
(loading) na svakom faktoru Varijable na pojedinom faktoru dijele zajedničko
konceptualno značenje Varijable na različitim faktorima mjere različite
konstrukte (latentne faktore) Rotirani faktori demonstriraju “jednostavnu
strukturu”.
DEMO: “PAIN” PODACI TEMPOROMANDIBULARJAW DISORDER (TMJ)
83
http://www.deardoctor.com/img/inthisissue/issue6/jaw_pain.jpghttp://drhamiltonoc.com/images/jaw-pic1.jpghttp://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpghttp://i24.ebayimg.com/05/s/08/0e/77/13_2.JPGhttp://www.physicalsense.biz/treatment/whatwetreat/images/jaw-pain.jpg
Komunaliteti (priorni)
84
Prior Communality Estimates: SMC
hurtche
w
hurtwid
e
noise stiffjaw crackin
g
painslp painrou
t
paintab amhdac
he
earpain grind clamps
et
sorejaw facepai
n
0.878 0.878 0.628 0.775 0.612 0.823 0.657 0.673 0.782 0.738 0.650 0.658 0.652 0.308
SMC: Na dijagonalu reducirane matrice R-U se na početkupostavljaju (Rj
2) kvadrati multiplih korelacija j-te varijable sa svim ostalim varijablama (j=1,p).
Svojstvene vrijednosti reducirane matrice (R-U)
85
Preliminary Eigenvalues: Total = 42.2227014
Average = 3.01590724
Eigenvalue Difference Proportion Cumulative
1 22.1866011 8.8566626 0.5255 0.5255
2 13.3299385 5.4335408 0.3157 0.8412
3 7.8963977 7.3961789 0.1870 1.0282
4 0.5002189 0.2362913 0.0118 1.0400
5 0.2639276 0.0650434 0.0063 1.0463
6 0.1988841 0.1909592 0.0047 1.0510
7 0.0079249 0.0792444 0.0002 1.0512
8 -0.0713195 0.1620991 -0.0017 1.0495
9 -0.2334186 0.0273054 -0.0055 1.0440
10 -0.2607240 0.0411412 -0.0062 1.0378
11 -0.3018652 0.0570478 -0.0071 1.0306
12 -0.3589130 0.0828409 -0.0085 1.0221
13 -0.4417539 0.0514436 -0.0105 1.0117
14 -0.4931974 -0.0117 1.0000
3 faktora na osnovu “proportion”kriterija
Scree plot
86
Test značajnosti za broj faktora (3)
87
Significance Tests Based on 121 Observations
Test DF Chi-Square Pr > ChiSq
H0: No
common
factors
91 1356.7888
Matrica sklopa (factor pattern)
88
Factor Pattern
Factor1 Factor2 Factor3
hurtchew 0.94910 -0.11071 -0.04773
hurtwide 0.94297 -0.14657 -0.10148
noise 0.78511 -0.05376 -0.08561
stiffjaw 0.86188 -0.19845 -0.05177
cracking 0.75905 -0.04229 -0.01028
painslp 0.16230 0.90769 -0.21114
painrout 0.11640 0.77729 -0.17748
paintab 0.19416 0.78821 -0.19268
amhdache 0.10793 0.87939 -0.22613
earpain 0.23652 0.32783 0.82067
grind 0.27884 0.21407 0.74109
clampset 0.26239 0.31251 0.72470
sorejaw 0.16759 0.32315 0.74447
facepain 0.38357 0.27465 -0.0576
Korelacije faktora imanifestnih varijabli
Variance Explained by Each Factor
Factor Weighted Unweighted
Factor1 29.9257685 4.19235839
Factor2 18.4760420 3.33128063
Factor3 10.4227732 2.49250606
Pomicanjevilice
Utjecajboli naživot
Stiskanje iškripanjezubima
Matrica sklopa (factor pattern):grafikon
89
90
Dali su faktori u korelaciji?
Buying
Power
Consumer
Confidence
Buying
Power
Consumer
Confidence
Orthogonalna
Oblique
Metode za rotaciju faktora
91
Metode za rotaciju faktora
Varimax-Orthogonalna:
◼ Maksimizira se varijanca kolona matrice sklopa.
Promax-Oblique – u 2 koraka:
◼ 1. Varimax rotacija
◼ 2. Relaksiraju se uvijeti ortogonalnosti i dalje se rotira.
U SAS-u je moguće koristiti još niz drugih metoda za rotaciju
92
Rezultati faktorske analize
Svojstvene vrijednosti (1, 2,… p)
U FA se ispisuju svojstvene vrijednosti reducirane matrice korelacija (R-U).
◼ U PCA, svojstvene vrijednosti matrice R.
◼ Pravilo i> 1 ima manje smisla primijeniti u FA.
◼ Scree plot svojstvenih vrijednosti je koristan u FA.
93
Rezultati faktorske analize
Matrica sklopa (Factor Pattern Matrix)
◼ Matrica standardiziranih regresijskih koeficijenata za Y = XB + E
◼ Jednaka je matrici korelacija između početnih varijabli i ekstrahiranih (ortogonalnih) zajedničkih faktora.
94
Rezultati faktorske analize
Rotirana matrica sklopa
◼ Matrica standardiziranih regresijskih koeficijenata za rotirane faktore
◼ Jednaka je matrici korelacija između početnih varijabli i rotiranih zajedničkih faktora (za ortogonalne rotacije).
95
Rezultati faktorske analize
Matrica strukture
◼ Kreira se samo za oblique (kose) rotacije
◼ To je matrica korelacija ulaznih varijablii i rotiranih zajedničkih faktora.
96
Rezultati faktorske analize
Matrica referenčne strukture
◼ Kreira se samo za oblique (kose) rotacije
◼ To je matrica semiparcijalnih korelacija između ulaznih varijabli i zajedničkih faktora, nakon eliminacije efekata ostaih faktora iz svakog pojedinog faktora.
97
Rezultati faktorske analize
Korelacije između faktora◼ generiraju se samo za oblique (kose)
rotacije
Grafikoni faktora
Konačne procjene komunaliteta◼ R2 za predviđanje varijabli iz faktora
◼ Zovu se kvadrati kanoničkih korelacija (squared canonical correlations) (u ML metodi)
Varijance objašnjene svakim faktorom
DEMO: “PAIN” PODACI TEMPOROMANDIBULARJAW DISORDER (TMJ)
98
http://www.deardoctor.com/img/inthisissue/issue6/jaw_pain.jpghttp://drhamiltonoc.com/images/jaw-pic1.jpghttp://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpghttp://i24.ebayimg.com/05/s/08/0e/77/13_2.JPGhttp://www.physicalsense.biz/treatment/whatwetreat/images/jaw-pain.jpg
Ortogonalna rotacija
99
Rotirana matrica sklopa
100
Rotated Factor Pattern
Factor1 Factor2 Factor3
hurtchew 0.95158 0.03084 0.09422
hurtwide 0.95904 0.01259 0.03239
noise 0.78672 0.07526 0.04504
stiffjaw 0.88236 -0.06184 0.05018
cracking 0.74922 0.05982 0.11462
painslp 0.02799 0.94176 0.08435
painrout 0.00150 0.80258 0.07133
paintab 0.07747 0.82742 0.07400
amhdache -0.01810 0.91270 0.05254
earpain 0.06377 0.08949 0.90821
grind 0.13556 0.01174 0.80887
clampset 0.10451 0.10757 0.81805
sorejaw 0.00754 0.09952 0.82267
facepain 0.33392 0.32564 0.09137
101
2.3 Grafičke metode
Ciljevi:
◼ Objasniti i demonstrirati metodu multidimenzionalnog skaliranja (MDS)
◼ Opisati i demonstrirati grafičku metodu CoPlot
◼ Opisati i demonstrirati grafičku metodu BIPLOT
◼ Demo na primjerima: PAIN, CARS i Anthrax kod djece (Jmp i SAS)
MDS
primarni cilj multidimenzionalnog skaliranja je mapiranje objekata (opservacija, pacijenata, događaja) iz više- u nižedimenzionalni (napr dvodimenzionalni) prostor tako da njihov relativni položaj u tom prostoru odražava stupanj izmjerene sličnosti među objektima.
Sličnosti među opservacijama u podacima se transformiraju u udaljenosti na mapi (zemljovidu) tako da su slične opservacije međusobno bliže nego što su one koje su manje slične.
102
MDS analiza zračnih udaljenosti između 10 američkih gradova
103
MDS analiza zračnih udaljenosti između 10 američkih gradova
104
MDS za CARS podatke
105
Varijablekoje su uvisokojkorelaciji
Nedostatci MDS metode
Iako opservacije čine ključnu ulogu u određivanju udaljenosti na MDS mapi, one se ne prikazuju na konačnom grafičkom prikazu. (Ne mogu se na istoj mapi prikazati istodobno i varijable i opservacije)
Osi MDS mape nemaju neko inherentno značenje (što ograničana interpretabilnost)
106
CoPlot
Je novija metoda za grafičku analizu multivarijatnih podataka koja omogućuje simultanu analizu opservacija i varijabli
CoPlot-om se mapiraju opservacije ivarijable na takav način da njihovi odnosi ostaju sačuvani, što omogućuje bogatiju interpretaciju.
107
Neke primjene CoPlot-a
Evaluacija učinkovitosti banaka,
Socioekonomske razlike među gradovima,
Karakteristike uspješnih spajanja i akvizicija,
Karakteristike automobila,
U medicini (antraks u dječjoj populaciji, D.M. Bravata i sur.)
108
Koraci u generiranju CoPlot-a*
109
Original Data Matrix (Y)
Variable 1 Variable 2 Variable 3
Observation 1 y11 y 12 y 13
Observation 2 y 21 y 22 y 23
Observation 3 y 31 y 32 y 33
Observation 4 y 41 y 42 y 44
Step 1: Standardize the data so that all the variables are on the same scale where .
Standardized Data Matrix (Z)
Variable 1 Variable 2 Variable 3
Observation 1 z11 z 12 z 13
Observation 2 z 21 z 22 z 23
Observation 3 z 31 z 32 z 33
Observation 4 z 41 z 42 z 43
s
yyz
j
ij
jij−
=
Step 2: Create a distance matrix that describes the distance between each of the observations where. zzD qrk
rprpq−=
=1
Distance Matrix (D)
Observation 1 Observation 2 Observation 3 Observation 4
Observation 1 0 d 12 d 13 d 14
Observation 2 d 21 0 d 23 d 24
Observation 3 d 31 d 32 0 d 34
Observation 4 d 41 d 42 d43 0
/* Prema D.M. Bravata i sur., Statistics in Medicine, 2007
Originalna matricapodataka (nxp)
Standardizirana matricapodataka (sredine=0,st.dev=1)
Matrica udaljenosti(nxn)
Koraci u generiranju CoPlot-a*
110
Step 4: Add projections of vectors representing the variables.
Step 3: Generate map of distances among observations.
Alternativan prikaz CARS podataka
111
Variables Only Observations Only
BOJA (zemlja porijekla): bijela=US, siva=Europa, crna=Japan)
Podatci o Antraksu u djece
demographic information (e.g., age, gender, nationality),
symptom and disease progression information (e.g., source of infection such as inhalational or gastrointestinal, symptoms when patient first presented for treatment, whether the patient developed secondary meningoencephalitis, survival information), and
treatment information (e.g., whether the patient received antibiotics or anti-serum)
112
Podatci o Antraksu u djece:varijable
Source of infection (such as inhalational vsgastrointestinal)
Age (years) Year of publication of case report Gender U.S. versus non-U.S. cases Any antibiotics Penicillin-based antibiotics Any serum (either anthrax-specific or general
anti-serum) Died Developed meningoencephalitis
113
Inicijalna CoPlot mapa djece s antraksom
114
Gender i age suNajmanje važne(najkraći vektori),pa ih je bolje eliminirati
CoPlot mapa djece s antraksom, boja: izvor infekcije
115
BOJA:bijela: kožat.siva=gastrotestinals.siva=udisanjecrna=ostalo
Bez gender i age
Outlier: 2.5 god djevojčica(udisanje, preživjela,Serum)
CoPlot mapa djece s antraksom, boja: preživjeli/umrli
116
BOJA:Bijela=preživjeliCrna=umrli
BIPLOT
Kao i CoPlot omogučuje simultani prikaz opservacija i varijabli
Baziran je na (SVD) dekompoziciji matrice podataka:
X = G H’
U BIPLOTu se retci nx2 matrice G prikazuju kao točke, koje odgovaraju opservacijama, a retci p x 2 matrice se prikazuju kao vektori, koji odgovaraju varijablama.
117
BIPLOT za PAIN podatke
118
BIPLOT za podatke PROTEIN CONSUMPTION IN EUROPE
119
SadržajMULTIVARIJATNA ANALIZA PODATAKA 1. Uvod i primjeri metoda multivarijatne analize 2. Metode za redukciju podataka, ekstrakciju važnih faktora i
grafičke prikaze◼ Komponentna analiza◼ Faktorska analiza◼ Multidimenzionalno skaliranje (MDS), Biplot, CoPlot
3. Metode za analizu veza među skupovima varijabli◼ Multivarijatna regresijska analiza◼ Kanonička korelacijska anali
STATISTIČKO MODELIRANJE, PREDIKTIVNA ANALITIKA 4. Metode za klasifikaciju
◼ Diskriminativna analiza (Fisherova)◼ Kanonička diskriminativna analiza◼ Logistička regresija◼ Stabla za odlučivanje
5. Metode za grupiranje podataka: Klaster analiza◼ Metoda k sredina (k-means)◼ Hijerarhijske metode
147
148
Dio 4
Metode za klasifikaciju:
◼ 4.1 Diskriminativna analiza (Fisherova) i kanonička diskriminativna analiza
◼ 4.2 Logistička regresija
◼ 4.3 Stabla za odlučivanje
4.1 Diskriminativna analiza (Fisherova) i kanonička diskriminativna analiza
Ciljevi◼ Razumijeti ciljeve diskriminativne
analize (DA).◼ Identificirati sličnosti između DA i
multivarijatnih generalnih linearnih modela.
◼ Objasniti kako se izvodi kanonička DA.
◼ Demo: PIZZA podaci. Interpretirati rezultate kanoničke diskriminativne analize (SAS, SAS/EG).
149
150
Pitanja u istraživanjima
◼ Kardiolog želi razumjeti koja kombinacija varijabli (sist./dijast. tlak, dob, spol, težina, laboratorijski nalazi, …) najbolje predviđa rizik od infarkta.
◼ Kartičarska tvrtka želi (prije izdavanja kreditne kartice) iskoristiti financijske i demografske informacije o klijentu u odlučivanju da li budući klijent predstavlja potencijalni rizik za tvrtku.
◼ Ministarstvo znanosti, obrazovanja i športa želi koristiti rezultate testova/ispita i varijable ponašanja u razredu za identifikaciju učenika kojima je potreban dodatni program učenja.
◼ Osiguravajuće društvo želi razumjeti koje demografske varijable i varijable ponašanja karakteriziraju različite tipove vozača.
151
Zašto DA?
Sa DA možemo
◼ Interpretirati rezultate kroz identifikaciju varijabli na kojima se grupe najviše razlikuju
◼ Koristiti linearnu kombinaciju varijabli za predviđanje pripadnosti pojedinoj grupi.
◼ Provjeriti (validirati) model na “novim” podacima
152
“Vođena” analiza podataka
Ima niz metoda za klasifikaciju observacija na osnovu danog skupa varijabli. No,
◼ Diskriminativna analiza NIJE KLASTER analiza
◼ Za provođenje diskriminativne analize potrebno je imati informaciju o pripadnosti grupi (za razliku od klaster analize)
◼ Diskriminativnom se analizom pronalazi linearna kombinacija prediktora koja najbolje diferencira grupe
◼ Te se linearne kombinacije mogu primijeniti u budućnosti (tj. kada grupna pripadnost NIJE poznata) za predviđanje pripadnosti grupi.
153
Ciljevi DA
1. Interpretacija: “Kako se grupe razlikuju?”
Naći i interpretirati linearne kombinacije varijabli koje optimalno predviđaju grupne razlike.
2. Klasifikacija: “Koliko se točno mogu observacije klasificirati u grupe?”
Primjenom funkcija varijabli predviđa se pripadnost pojedinoj grupi i procjenjuje pogreška.
154
Podjela metoda diskriminativne analize
Klasična Fisherova diskriminativna analiza (FDA)◼ Linearni model (za jednake matrice
kovarijanci po grupama)
◼ Kvadratni model (za nejednake matrice kovarijanci po grupama)
Kanonička diskriminativna analiza (KDA)
Neparametarske metode
155
Usporedba FDA i KDA(uz pretpostavku da je br.varijabli > br. grupa)
FDA (linearna)
Br.funkcija = br.grupa
Opservacije se skoriraju prema sličnosti sa centroidima grupa. Skorovi se transformiraju u vjerojatnosti pripadnosti grupama
Primjenjuje se kada je primarni cilj klasifikacija
PROC DISCRIM
KDA
Br.funkcija = br.grupa – 1
Traže se funkcije koje maksimalno razdvajaju centroide grupa
Primjenjuje se kada je primarni cilj interpretacija (kako se grupe razlikuju)
PROC CANDISC i PROC DISCRIM
156
Fisherova diskriminativna analiza(linearni model, jednake matrice varijanci i kovarijanci)
2 2
2(x) (x) ( )t tD d g t= +
Mahalanobisova
udaljenost-2(ln(prior))
Posteriornavjerojatnostpripadnostigrupi j
Kvadrat udaljenostiopservacije x do grupe t
Klasifikacija: Opservacija x se klasificira u grupu za koju je(posteriorna) vjerojatnost da joj pripada najveća
Mahalanobisova udaljenost
Neka su xi i xj dvije multivarijatne opservacije (i-ti i j-ti redak nxp matrice X). Zbog jednostavnosti pretpostavimo da su podaci centrirani.
Neka je S kovarijančna matrica (S=X’X/n)
Tada se Euklidska udaljenost između xi i xjmože izraziti kao dE (xi , xj ) = (xi - xj )’ (xi - xj )
= (xik - xjk )2
a Mahalanobisova udaljenost kaodM (xi , xj ) = (xi - xj )’ S
-1(xi - xj )
157
Mahalanobisova udaljenost
U usporedbi sa običnom Euklidskom udaljenosti (i nekim drugim udaljenostima), prednost Mahalanobisove udaljenosti je u tome što eksplicitno uzima u obzir eventualne korelacije između varijabli.
158
DEMO: PIZZA PODACIVarijable: mois prot fat ash sodium carb calGrupa: Brand (g=10)
159
http://www.yorkblog.com/onlyyork/Pizza-Capricciosa.jpghttp://www.magmapizza.com/wp-content/uploads/2010/02/3_pizzas.jpghttp://www.finestchef.com/Mexican Pizza.jpghttp://www.correllconcepts.com/Encyclopizza/01_Intro/pizza_pepperoni_pizza.jpg
164
Preliminarna eksploracija
Brandovi (marke) pizze se razlikuju po količini vlage (MOIS)
Isto semožeprovjeritiza ostalevarijable
167
Rezultati DA
Multivarijatni testovi
Testira se hipoteza (Ho) da su svi centroidi (multivarijatne sredine) jednaki
Ho se odbacuje
168
Rezultati: Posteriorne vjerojatnosti pripadnosti grupama (brandovima)
Klasificiranjeu grupu sanajvećomvjerojatnostipripadnosti
169
Rezultati DA (zbirni): Mjere točnosti klasifikacije (na podacima za razvoj modela )
Od ukupno 32observacije pizze D 30 (93.75%)ihje na (osnovu DA)klasificiranou D, a 2 u C
170
Rezultati
pogreške klasifikacije
2/32 = 0.0625
Procjena ukupne pogreške = 10.33%
Napomena: da je procjena pogreške suviše “optimistička”,Treba je procjeniti na neovisnim podacima
178
Kanonička diskriminativna analiza: Multivarijatni linearni model
Linearni model u KDA je ustvari isti kao i u MANOVA-i: Y = X + E
◼ Pretpostavke su iste kao i u MANOVA-i
◼ Ako podaci nisu multivarijatno normalno distribuirani, tada je obično bolje
primijeniti neparametarski model ili
transformirati varijable.
179
Ključni rezultati KDA
Kanoničke diskriminativne funkcije/varijable (CAN)
◼ Odredjivanje broja značajnih CAN varijabli (multivarijatni testovi)
Korelacije izmedju početnih varijabli (prediktora) i CAN varijabli
◼ Interpretacija CAN varijabli
Centroidi grupa na kanoničkim varijablama
Grafički prikaz opservacija/grupa u prostoru prvih 2 CAN varijabli
180
Kako se prikazuju rezultati KDA?- u prostoru prvih 2 CAN varijabli
181
Broj kanoničkih diskriminativnih varijabli/funkcija
◼ Broj kanoničkih diskriminativnih varijabli je minimum broja prediktora i broja grupa - 1: k=min(p,g-1).
◼ U primjeru sa promotivnim strategijama broj varijabli je 4, a strategija 3, pa je br. kan.diskr. funkcija = min(4,3-1) =2.
◼ Na osnovu multivarijatnih testova se odredjuje koliko CAN varijabli treba zadržati
183
Kanonička diskriminativna analiza (CAN) i spremanje CAN varijabli u dataset CAN (out=can)
Insert code➔ispod “proc discrim” upisati: can ncan=4 out=can
DEMO: PIZZA PODACIVarijable: mois prot fat ash sodium carb calGrupa: Brand (g=10)
184
http://www.yorkblog.com/onlyyork/Pizza-Capricciosa.jpghttp://www.magmapizza.com/wp-content/uploads/2010/02/3_pizzas.jpghttp://www.finestchef.com/Mexican Pizza.jpghttp://www.correllconcepts.com/Encyclopizza/01_Intro/pizza_pepperoni_pizza.jpg
185
Rezultati CAN
Canonical
Correlation
Adjusted
Canonical
Correlation
Approximate
Standard
Error
Squared
Canonical
Correlation
Eigenvalues of Inv(E)*H
= CanRsq/(1-CanRsq)
Eigenvalue
Differenc
e Proportion Cumulative
1 0.997704 0.997599 0.000265 0.995414 217.0622 177.6426 0.7689 0.7689
2 0.987552 . 0.001431 0.975260 39.4196 15.3281 0.1396 0.9085
3 0.979870 . 0.002305 0.960146 24.0914 22.5183 0.0853 0.9939
4 0.781906 0.775787 0.022475 0.611376 1.5732 1.4462 0.0056 0.9995
5 0.335722 0.308307 0.051313 0.112710 0.1270 0.1047 0.0004 0.9999
6 0.147726 . 0.056569 0.021823 0.0223 0.0172 0.0001 1.0000
7 0.071200 . 0.057538 0.005069 0.0051 0.0000 1.0000
Kanoničke korelacije mjere jakost veze između početnih varijabli i grupa
186
Rezultati CAN:odredjivanje koliko CAN varijabli treba zadržati
Test of H0: The canonical correlations in the current row and all that follow are zero
Likelihood
Ratio
Approximate
F Value Num DF Den DF Pr > F
1 0.00000152 249.60 63 1605.6
187
Rezultati CAN
Zatvoriti i ponovno izvesti (RUN)
Matrica struktura(korelacije kanoničkih varijablisa početnim varijablama):CAN1: -carb, protCAN2: -mois,cal,fat….
188
Rezultati CAN: grafički prikaz
Grafički prikazati CAN varijable:
◼ Odabrati view➔server list➔
kliknuti na CAN
◼ Graph➔line plot➔ odabrati
189
Line plot: Task roles TAB
190
Line plot: Appearance>Interpolations TAB
OdabratiScatter za sveGrupe (A-J)
191
Opservacije/grupe u prostoru prvih 2 kanoničkih varijabli/dimenzija
Grupe (brandovi pizze) prikazani u prostoru prvih 2 kanoničkih dimenzija
Manjeugljikohidrata(carb)
Više vlage (moist),manje kalorijai masti
manje vlage (moist),viče kalorijai masti
Višeugljikohidrata(carb)
192
4.2 Logistička regresija
Logistička
Regresijska
Analiza
Linearna
Regresijska
Analiza
Zavisna var. Analiza
Kategorijska
Kvantitativna
193
Tipovi logističkih regresija
Zav.
varijabla
Tip
Logističke Regresije
Two
Categories
Three
or More
CategoriesOrdinalna
Binarna
Nominalna
Binary
YES NO
Nominal
Ordinal
194
Logistic Regression Curve
x
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Pro
babili
ty
195
Logit Transformacija
Logističkom regresijom se modelira transformacija vjerojatnosti, koja se zove LOGIT transformacija
Gdje je
i indeks opservacije.
pi je vjerojatnost da se neki događaj (napr. prodaja) dogodi za opservaciju (napr. osobu) i.
log je prirodni log (sa bazom e).
−=
i
ii
p
pp
1log)logit(
196
Pretpostavka
Logit
Transform
pi
Predictor
Logit (pi)
Predictor
197
Model logističke regresije
logit (pi) = 0 + 1X1 + εigdje
logit (pi) je logit transformacija vjerojatnosti događaja za opservaciju i
0 intercept (koeficijent – slobodni član) regresijskog pravca
1 koeficijent nagiba regresijskog pravca
εi pogreška (residual) za opservaciju i
DEMO: MORFOLOŠKE KARAKTERISTIKE HRVATA(ROČNICI HRVATSKE VOJSKE)
198
Anja Habus-Korbar, Mag.rad, PMF – Biologija/Toksikologija
http://www.google.com/imgres?imgurl=http://www.walydesign.com/imagethumb.php%3Fs%3Dimages/mements.jpg%26w%3D495&imgrefurl=http://www.walydesign.com/measurements/&usg=__uuCA9fFzJoeZL86kWFA9Qq7o1Lc=&h=409&w=495&sz=35&hl=en&start=1&zoom=1&itbs=1&tbnid=2VdHx0n6WnCMGM:&tbnh=107&tbnw=130&prev=/images%3Fq%3Dbody%2Bmeasurements%2Bfor%2Bmen%26hl%3Den%26gbv%3D2%26tbs%3Disch:1
199
Primjeri
Marketing: Pronalaženje odvojenih grupa klijenata radi kreiranja ciljanih marketinških programa
Osiguranje: identifikacija grupa osiguranika sa visokim iznosima šteta
Maloprodaja: pronalaženje grupa trgovina sa sličnim karakteristikama prodaje
Antropometrija: identifikacija različitih morfoloških tipova
Podaci
38 morfoloških karakteristika
5 regija:
◼ Jastrebarsko (1),
◼ Koprivnica (2)
◼ Pula (3),
◼ Sinj (4) i
◼ Požega (6)
n= 4200 ročnika
200
Područje A (sjeverozapad)
Područje B (jugoistok)
Rezultati kanoničke diskriminativne analize
201
regije
Rezultati logističke regresije
202
Varijabla DFProcjenakoeficijenta
St.grješka Wald 2 Pr >2
Stand.procjenakoef.
Omjerrizika
Slobodni
član
1 35.2716 6.27080 31.64
Predviđena vjerojatnost i najvažnije prediktorske varijable
203
Prikaz odnosa vjerojatnosti pripadnosti području A i mjera SL i SZ
204
4.3 Klasifikacijska stabla ilistabla za odlučivanje
Data mining metoda (metoda statističkog učenja) koja se može koristiti za klasifikaciju (predikciju (predviđanje) pripadnosti klasi (kategoriji))
Vrlo popularna u računarstvu, statistici i raznim područjima primjene.
Metoda za “nadzirano učenje” (u terminologiji data mining-a)
Alternativne metode:
◼ Neuralne mreže
◼ Logistička regresija
◼ SVM
◼ Nearest Neighbors, etc.
Računarski intenzivne metode
205
Primjer: Rizik za infarkt (MI)Obs smoking obese hypertension mi
1 prev yes no yes
2 prev no no no
3 prev no yes no
4 prev no yes no
5 prev yes yes yes
6 current no no yes
7 current yes yes yes
8 current yes no yes
9 current yes yes yes
10 never no no no
11 never yes no no
12 never no yes yes
13 never no yes yes
14 never no yes yes
206
Klasifikacijsko stablo
smoking
obesehypertension
prev
current
never
yesyesno no
MI=yes
MI=yes
MI=noMI=yesMI=no
207
Pravila klasifikacijskog stabla
Smoking=prev
◼ and obese=yes ➔MI
◼ and obese=no➔not MI
Smoking=current➔MI
Smoking=never
◼ and hypertension=no➔not MI
◼ and hypertension=yes➔MI
208
Primjer: Telekomunikacijski “churn”
Moguće pred.varijable (“inputs”)
◼ x1= promjena # poziva
◼ x2= dob
◼ …..
Izlaz (Response) (“target”)
◼ Y = 1 ako “churner”,
◼ 0 ako “nonchurner”
209
Klasifikacijsko stablo
31/100
X1 >-5 X1= 30
0
1/50
1
14/20
Npr. Telcox1= promjena # pozivax2= dobY = 1 ako “churner”,
0 ako “nonchurner”Napomena:16/30 na training uzorku14/32 na validation uzorku
R1: 16/30(14/32)
R3: 14/20R2: 1/50
15/70
split on variable values
“leaves” are classifications
(e.g., 0/1)
210
Primjer klasifikacijskog stabla iz SAS Enterprise Miner-a
DEMO: MORFOLOŠKE KARAKTERISTIKE HRVATA(ROČNICI HRVATSKE VOJSKE)
211
http://www.google.com/imgres?imgurl=http://www.walydesign.com/imagethumb.php%3Fs%3Dimages/mements.jpg%26w%3D495&imgrefurl=http://www.walydesign.com/measurements/&usg=__uuCA9fFzJoeZL86kWFA9Qq7o1Lc=&h=409&w=495&sz=35&hl=en&start=1&zoom=1&itbs=1&tbnid=2VdHx0n6WnCMGM:&tbnh=107&tbnw=130&prev=/images%3Fq%3Dbody%2Bmeasurements%2Bfor%2Bmen%26hl%3Den%26gbv%3D2%26tbs%3Disch:1
Stablo za klasifikaciju u područje A ili B
212
Interpretacija/ opis stabla
Prvo je razdvajanje na temelju širine lica: ◼ ako su novaci užeg lica, vjerojatnost pripadnosti
području A je 95%.◼ ako imaju šire lice, vjerojatnost za područje A je
manja i iznosi 22% (odnosno vjerojatnost za pripadnost području B je 78%).
Navedeni se čvor ponovno grana na temelju širine zdjelice te je za one ročnike koji su šireg lica, a uže zdjelice procijenjeno s 91% da pripadaju području B, dok su oni šireg lica i šire zdjelice većinom procijenjeni kao pripadnici područja A (69%).
Itd.
213
214
Dio 5
Klaster analiza
215
Ciljevi
◼ Definirati klastering i “ne-vođenu”analizu podataka.
◼ Objasniti različite tipove klaster analize .
◼ Objasniti nekoliko ključnih mjera udaljenosti koje se koriste za procjenu sličnosti između eksperimentalnih jedinica.
216
Definicija
“Klaster analiza je skup metoda za kreiranje smislene i informativne klasifikacije prethodno neklasificiranih podataka, na osnovu vrijednosti varijabli opserviranih/izmjerenih na svakoj eksperimentalnoj jedinici.”
B. S. Everitt (1998), “The Cambridge Dictionary of Statistics”
217
…još definicija
Klaster: skup objekata (entiteta/ opservacija) koji su
◼ međusobno slični ako pripadaju istom klasteru,
◼ međusobno različiti ako pripadaju različitim klasterima.
Klaster analiza
◼ Traženje sličnosti među objektima na osnovu izmjerenih
karakteristika i grupiranje sličnih objekata u klastere.
U data miningu: “nevođeno učenje” (klase nisu definirane)
Tipične primjene:
◼ Dobivanje uvida u distribucije podataka
◼ Segmentacija
◼ Početan korak za daljnje analize
218
Kvaliteta: Što je dobar klastering?
Dobra klaster metoda će proizvesti kvalitetne klastere
sa
◼ Visokim intra-klasnim sličnostima (unutar klastera)
◼ Niskim inter-klasnim sličnostima (između klastera)
Kvaliteta rezultata klasteringa ovisi o
◼ Primijenjenoj mjeri sličnosti i
◼ Načinu implementacije/metodi.
Kvaliteta klaster metode se takodjer mjeri
sposobnošću metode da otkrije neke ili sve skrivene
oblike u podatcima.
219
Sličnost/različitost: matrica udaljenosti između objekata
npx...
nfx...
n1x
...............ip
x...if
x...i1
x
...............1p
x...1f
x...11
x
Matrica podataka (nxp)
0...)2,()1,(
:::
)2,3()
...ndnd
0dd(3,1
0d(2,1)
0
Matrica različitosti (nxn)Između n objekata
Za mjerenje sličnosti/različitosti se obično koriste udaljenosti
220
Tipovi klaster metoda
Hijerarhijsko klasteriranje
Optimizacijsko (partitivno) klasteriranje◼ K-means (k-sredina)
◼ K-medoids
Kombinacije k-means i hijerarhijskog klasteriranja
Metode bazirane na funkcijama gustoće vjerojatnosti
221
Agglomerative DivisiveIteration
1
2
3
4
Hijerarhijsko klasteriranje
222
Optimizacijsko (Partitivno) klasteriranje: k-sredina
k “Seeds” Opservacije
XX
X
X
Početno stanje Konačno stanje
Stara lokacija
X
XX X
X
XX
X
Nova lokacija
223
Heuristička iteracija
1. Nađi inicijalnu particiju n objekata u g grupa.
2. Izračunaj promjenu pogreške nastalu premještanjem svake observacije iz svog klastera u drugi.
3. Odaberi one promjene pri kojima se pogreška najviše umanji.
4. Ponavljaj korake 2 i 3 sve dok više nije moguće pomacima umanjiti pogrešku.
224
Mjere sličnosti - ciljevi
◼ Definirati sličnost i što čini “dobru” mjeru sličnosti.
◼ Opisati nekoliko mjera sličnosti.
225
Što je sličnost?
Iako konceptualno jasan pojam, često ga je teško precizno kvantificirati.
Što je sličnije patki: vrana ili pingvin?
Varijable i metrika koje koristimo za “izračunavanje” sličnosti (napr. Euklidska ili Pearsonov korelacijski koeficijent) bitno utječu na klastere koje ćemo dobiti.
226
Što čini dobru mjeru sličnosti
1. simetrija: d(x,y) = d(y,x)
2. Ako je d(x,y) 0 tada je x y
3. Ako je d(x,y) = 0 tada je x = y
Neke od popularnih mjera sličnosti (napr. korelacija) ne zadovoljavaju sva navedena svojstva.
227
Mjere sličnosti/udaljenosti
Ovisno o skali mjerenja (binarna, nominalna, ordinalna, intervalna, kvocjentna)
Za intervalne su najpopularnije◼ Udaljenosti Minkowskog:
◼ Za q=1 ➔ Manhattan
◼ Za q=2 ➔ Euklidska
pp
jx
ix
jx
ix
jx
ixjid )||...|||(|),(
2211−++−+−=
228
Euklidska udaljenost kao mjera sličnosti za kvantitativne varijable
Pitagorin teorem: Kvadrat nad hipotenuzom = sumi kvadrata nad katetama.
( )=
−=d
i
iiE wxD1
2
x1
x2
(x1,
x2)
(0, 0)
=
=2
1
22
i
ixh
229
City block (Manhattan) udaljenost je udaljenost između 2 točke mjerena po ortogonalnim koord. osima.
=
−=d
i
iiM wxD1
1
“City Block” udaljenost kao mjera sličnosti za kvantitativne varijable
(w1,w2)
(x1,x2)
230
1 2 3 4 5 … 17
Gene A 01100100100111001
Gene B 01110000111111011
DH = 00010100011000010 = 5
Gene expression levels under 17 conditions
(low=0, high=1)
=
−=d
i
iiH wx D1
Hamming udaljenost kao mjera sličnosti za binarne varijable
231
Hijerarhijske metode:mjere udaljenosti između klastera
Single linkage: najmanja udaljenost između jednog objekta u
jednom klasteru i jednog u drugom:
dis(Ki, Kj) = min(tip, tjq)
Complete linkage: najveća udaljenost između jednog objekta u
jednom klasteru i jednog u drugom:
dis(Ki, Kj) = max(tip, tjq)
Average linkage: prosječna udaljenost između jednog objekta u
jednom klasteru i jednog u drugom:
dis(Ki, Kj) = avg(tip, tjq)
Centroid: udaljenost između centroida dvaju klastera
dis(Ki, Kj) = dis(Ci, Cj)
Ward: suma kvadrata između klastera po svim varijablama
232
Hijerarhijske metode – prema metodi združivanja klastera
Average Linkage
Centroid Linkage
Complete Linkage
Density Linkage
Single Linkage
Ward’s
itd
233
Primjer: Poverty
Varijable:
◼ Birth rate
◼ Death rate
Objekti:
◼ 97 zemalja (1995.god)
Metoda:
◼ Hijerarhijska, average linkage
234
Koraci
Pridružite dataset poverty
Odaberite analyze➔multivariate➔cluster
analysis
Task
roles TAB
235
Koraci
options
236
Rezultati: dendogram
237
Varijable:birth ratedeath rateinfant death rate
238
Primjer: Croatian coast beach sand
Rad: Tracing compositional variability and source rocks of beach sands along the Croatian coast using cluster analysis(B.Lužar-Oberiter, V.Lužar-Stiffler,et.al.)
varijable ◼ 20tak minerala mjerenih kao kompozitne
varijable (udio)
Metoda:◼ Hijerarhijska, average
◼ Standardizacija varijabli: raspon
239
Prikaz klastera na prve 2 kanoničke dimenzije
240
Prikaz klastera na prve 2 kanoničke dimenzije
241
Interpretacija uz pomoč stabla
242