Upload
others
View
12
Download
0
Embed Size (px)
Citation preview
UNIVERZITET U NIŠU
PRIRODNO MATEMATIČKI FAKULTET
DEPARTMAN ZA MATEMATIKU
ANALIZA GLAVNIH KOMPONENATA I
PRIMENE
Master rad
Mentor: Student:
Prof. dr Aleksandar Nastić Bojan Lakić
Niš, 2018.
2
Sadržaj
1. Osnovni pojmovi i metode za smanjenje dimenzija podataka ..................................................... 4
1.1. Kovarijansa ............................................................................................................................ 7
1.2. Korelacija .............................................................................................................................. 8
1.3. Statistički pregled podataka .................................................................................................. 9
1.3.1. Linearne transformacije ................................................................................................ 14
1.3.2. Mahalanobis transformacija ........................................................................................ 15
2. Analiza glavnih komponenata .................................................................................................... 15
2.1. Standardizovana linearna kombinacija ................................................................................ 15
2.2. Uzoračke glavne komponente ............................................................................................. 20
2.3. Interpretacija glavnih komponenata .................................................................................... 22
2.4. Asimptotska svojstva glavnih komponenata ....................................................................... 26
2.5. Analiza normalizovanih glavnih komponenata ................................................................... 28
2.6. Metod glavnih komponenata kod faktorske analize ............................................................ 29
2.6.1. Ortogonalni faktorski model ........................................................................................ 30
2.6.2. Kovarijansna struktura za ortogonalni faktorski model ............................................... 31
2.6.3. Metod glavnih komponenata ........................................................................................ 33
2.6.4. Rešenje faktorskog modela metodom glavnih komponenata ....................................... 36
2.7. Primer bostonskih nekretnina .............................................................................................. 38
3. Primena analize glavnih komponenata ....................................................................................... 41
DODATAK A ................................................................................................................................ 62
LITERATURA ............................................................................................................................... 72
3
Uvod
Multivarijaciona statistička analiza podataka zahteva tehnike koje se razlikuju od tehnika
predviđenih za ispitivanje jednodimenzionalnih podataka. Pri ispitivanju višedimenzionalnih
podataka koriste se metode koji nisu standardne i uključuju matrice. Multivarijaciona analiza nam
pomaže da zaobiđemo standardnu proceduru i da na određeni način brže dođemo do šire slike
datih podataka, tj. njihovih osobina.
U prvom delu rada biće predstavljeni neki osnovni pojmovi kao i metode koje se koriste za
smanjenje dimenzije podataka.
U drugom delu biće predstavljena sama analiza glavnih komponenata (kao i analiza
normalizovanih glavnih komponenata) kao jedna od metoda smanjenja dimenzija podataka.
Analiza glavnih komponenata se bavi objašnjavanjem varijansno-kovarijansne strukture skupa
slučajnih promenljivih kroz nekoliko linearnih kombinacija ovih slučajnih promenljivih. Njeni
opšti ciljevi su smanjenje broja promenljivih i njihovo tumačenje. Iako je, na primer, p
komponenata potrebno da bi se reprodukovala ukupna varijabilnost sistema, često se većina ove
varijabilnosti može objasniti manjim brojem k glavnih komponenata.
Kroz različite primere u trećem delu master rada biće predstavljena analiza glavnih
komponenata kao metoda koja se pokazala veoma korisnom u praksi. Analiza glavnih
komponenata često otkriva odnose koji nisu prethodno bili uočeni i time omogućava neka nova
tumačenja. Analiza glavnih komponenata služi i kao posredni korak u mnogo većim
istraživanjima.
4
Glava 1
Osnovni pojmovi i metode za smanjenje dimenzija
podataka
Multivarijaciona statistička analiza se bavi analizom i razumevanjem podataka velikih
dimenzija. Pretpostavimo da je dat skup xi, i=1,…,n slučajno odabranih vektora slučajne
promenljive X u prostoru Rp, odnosno pretpostavimo da svaki slučajan vektor xi ima p dimenzija:
xi = (xi1, xi2, ..., xip),
koje predstavljaju posmatranu vrednost vektora slučajne promenljive X prostora Rp. Stoga,
slučajna promenljiva X je sačinjena od p proizvoljnih slučajnih promenljivih:
X = (X1, X2, ..., Xp),
gde je Xj, j=1,...,p, jednodimenzionalna slučajna promenljiva.
Postavlja se pitanje kako početi sa analizom ovakvog tipa podataka. Najpre treba posmatrati
date podatke, da bi kasnije izvukli određene zaključke iz njih. Ovakav vid posmatranja uključuje
deskriptivne tehnike. Pitanja na koja se mogu dobiti odgovori uz pomoć pomenutih tehnika su:
Postoje li komponente u X sa većom disperzijom od drugih?
Da li se od nekih elemenata slučajne promenljive X mogu napraviti određene podgrupe datih
podataka?
Postoje li suvišni elementi među komponentama slučajne promenljive X?
Koliko je “normalna” raspodela podataka?
Postoje li “malodimenzionalne” linearne kombinacije slučajne promenljive X koje ispoljavaju
“neuobičajeno” ponašanje?
5
Jedan od problema deskriptivnih tehnika za podatke velikih dimenzija, jeste način na koji
ljudski mozak vrši opažanje. Dvodimenzionalne podatke je lako predstaviti i posmatrati. Uz
pomoć modernih, interaktivnih računarskih tehnologija, moguće je videti 3D rotacije u realnom
vremenu i tako posmatrati trodimenzionalne podatke.
Veći problem kod ovih tehnika nastaje kod dimenzija većih ili jednakih 5, osim u slučaju
kada se višedimenzionalne komponente mogu predstaviti kao malodimenzionalne komponente.
Međutim, suvišne podgrupe mogu se prepoznati isključivo grafičkom analizom.
Napomenućemo neke osnovne deskriptivne i grafičke tehnike koje omogućavaju prostu
analizu podataka.
Kutija dijagram je jednostavna tehnika koja se koristi kod jednodimenzionalnih slučajnih
promenljivih, a koja može da uporedi raspodele slučajnih promenljivih između različitih grupa
elemenata. Kutija dijagram je grafička tehnika koja, prema tome, daje sliku o slučajnih
promenljivih.
Zatim, postoji nekoliko tehnika multivarijacione analize, npr. Endrjuove krive i dijagram
paralelnih koordinata, koje omogućavaju grafičke prikaze kao odgovore na gore navedena
pitanja. Suvišni elementi i elementi uzoraka koji zahtevaju posebnu pažnju, mogu se otkriti uz
pomoć Endrjuovih krivih (predstavljanje podataka pomoću krive) i dijagrama paralelnih
koordinata.
Dijagram paralelnih koordinata predstavlja tehniku zasnovanu na nedekartovom
koordinatnom sistemu i samim tim dozvoljava uvid u više od četiri dimenzije kod slučajnih
promenljvih. Ideja je jednostavna: umesto iscrtavanja uzoraka u ortogonalnom koordinatnom
sistemu, crtaju se koordinate uzoraka u sistemu paralelnih osa.
Osnovni problem grafičkih prikaza multivarijacionih podataka jeste dimenzionalnost.
Dijagrami rasejanja su se pokazali veoma korisnim za iscrtavanje dvodimenzionalnih ili
trodimenzionalnih slučajnih promenljivih jednih pored drugih; pomažu razumevanje odnosa
među promenljivama u skupu podataka. Rasejanje u silaznoj putanji pokazuje da, kako raste
vrednost slučajne promenljive po horizontalnoj osi, tako se vrednost slučajne promenljive po
6
vertikalnoj osi smanjuje. Analogno se tumači uzlazno rasejanje. Dijagrami rasejanja se koriste
onda kada slučajne promenljive imaju do tri dimenzije.
Slika 1.1. Dijagram rasejanja za komponente X5 i X6 iz primera 2.1. Prave novčanice su kružići, a lažne novčanice
su zvezdice.
Prethodno opisane jednostavne grafičke tehnike mogu pomoći shvatanje strukture podataka i
zavisnosti među njima. Grafičke tehnike su zasnovane ili na jednodimenzionalnim
(dvodimenzionalnim) oblicima podataka ili na transformacijama miltivarijacionih podataka koji
se lako mogu posmatrati. Većina tehnika je veoma korisna u fazi modelovanja, ali na žalost, ne
daju punu sliku o njima. Jedan od razloga jeste taj što predstavljeni grafičke tehnike obuhvataju
samo određene dimenzije podataka i ne fokusiraju se na dimenzije ili delove analiziranih
podataka koji nose glavnu strukturu podataka. U ovom delu biće predstavljene moćne tehnike za
smanjenje broja dimenzija podataka.
Za početak, koristiće se osnovne i jednostavne tehnike za opisivanje zavisnosti, konstruisani
od elementarnih činjenica iz teorije verovatnoće i osnova statistike (na primer, kovarijansa i
korelacija između dve slučajne promenljive).
Multivarijaciona analiza se može primeniti za smanjenje dimenzija podataka i korišćenjem
matrica. Odeljak 1.3 pokazuje kako se matrične operacije koriste za definisanje statističkog
pregleda skupa podataka. Rezultati će se pokazati veoma korisnim za veći deo trećeg poglavlja.
7
1.1 Kovarijansa
Kovarijansa je mera zavisnosti između slučajnih promenljivih. Za dve slučajne promenljive X
i Y, kovarijansa se definiše sa:
),)E(E()E(),Cov(σXY YXXYYX (1.1)
gde je E f-ja matematičkog očekivanja slučajnih promenljivih X i Y.
Kovarijansa slučajne promenljive X sa samom sobom je varijansa
).,Cov()Var(σXX XXX (1.2)
Ako je X p-dimenzionalna slučajna promenljiva, tj. X = (X1 ,…, Xp)T onda se od kovarijansi
pojedinačnih komponenata vektora formira kovarijansna matrica:
PP1P
P111
XXXX
XXXX
σσ
σσ
. (1.3)
Uzoračke verzije ovih vrednosti su:
n
1i
2
iXX
n
1i
iiXY xxn
1s,yyxx
n
1s (1.4)
gde su
n
1i
ixn
1x i
n
1i
iyn
1y .
Za p-dimenzionalnu proizvoljnu slučajnu promenljivu, može se dobiti uzoračka kovarijansna
matrica (odeljak 1.3).
8
PP1P
P111
XXXX
XXXX
SS
SS
S . (1.5)
1.2 Korelacija
Koeficijent korelacije između dve slučajne promenljive X i Y se definiše na osnovu
kovarijanse na sledeći način:
,
VarVar
,CovρXY
YX
YX (1.6)
gde važi da je 1.ρ1 XY
Koeficijent korelacije ρ se ne menja ukoliko se slučajne promenljive X i Y zamene
proizvoljnim linearnim funkcijama ξ = aX+b, η = cY+d. Samim tim, korelacija je korisnija od
kovarijanse kao mera povezanosti između dve proizvoljne slučajne promenljive.
Uzoračka verzija XYρ za je sledeća
YYXX
XYXY
ss
sr . (1.7)
Apsolutna vrednost korelacije je uvek manja ili jednaka 1, dok ima vrednost nula ako je
kovarijansa nula i obrnuto. Za p-dimenzionalne vektore (X1,..., Xp)T postoji korelaciona matrica
PP1P
P111
XXXX
XXXX
ρρ
ρρ
ρ
. (1.8)
Njena uzoračka verzija, uzoračka korelaciona matrica je predstavljena na sledeći način
PP1P
P111
XXXX
XXXX
rr
rr
R . (1.9)
9
Teorema 1.1 omogućava ispitivanje nezavisnosti među komponentama proizvoljne normalne
dvodimenzionalne slučajne promenljive. Odnosno, može se proveriti da li je korelacija nula.
Nažalost, raspodela statistike rXY za proizvoljnu dvodimenzionalnu slučajnu promenljivu (X,Y) je
komplikovana. Raspodela statistike XYr se lakše određuje ako je (X,Y) normalna
dvodimenzionalna slučajna promenljiva.
Teorema 1.1 Ako su X i Y nezavisne, onda je ρ(X,Y) = Cov(X,Y) = 0.
Dokaz. Kako su X i Y nezavisne, tada je E(XY) = E(X)E(Y), pa odavde direktno sledi da je
Cov(X,Y) = E(XY) – E(X)E(Y) = E(X)E(Y) – E(X)E(Y) = 0. ■
Uopšteno gledano, obrnuto ne važi, što pokazuje sledeći primer.
Primer 1.1 Posmatraćemo slučajnu promenljivu X sa standardnom normalnom raspodelom i
slučajnu promenljivu Y = X2, koja sigurno nije nezavisna od slučajne promenljive X.
Imamo da je
Cov(X,Y) = E(XY) − E(X)E(Y) = E(X3) = 0 (zato što je E(X) = 0 i E(X2) = 1).
Zato je takođe ρ(X,Y) = 0. ■
Napomena 1.1 Za dve proizvoljne slučajne promenljive sa normalnom raspodelom, važi
Teorema 1.1 i u drugom smeru: ako je za dve proizvoljne slučajne promenljive sa normalnom
raspodelom kovarijansa jednaka nuli, onda su te dve slučajne promenljive nezavisne.
1.3 Statistički pregled podataka
Rad se dalje fokusira na reprezentaciju osnovnih deskriptivnih statistika (srednje vrednosti,
uzoračke kovarijanse i uzoračke korelacije) u matričnom obliku, s obzirom na to da se često
primenjuju linearne transformacije nad podacima. Matrični oblik dozvoljava direktno dobijanje
odgovarajuće karakteristike transformisanih slučajnih promenljivih.
10
Osnovne karakteristike matrice
Matrica X je sistem brojeva od n vrsta i p kolona
npn2n1
2p2221
1p1211
xxx
xxx
xxx
X . (1.10)
Matricu X drugačije obeležavamo sa pnX ili ijxX gde je i=1,…,n i j=1,…,p.
Rang matrice pnX , u oznaci r(X) je maksimalan broj linearno nezavisnih vektora vrsta
(kolona). Skup od k vrsta xj matrice pnX je linearno nezavisan ako iz pj
k
1j
j 0xc
sledi da je
cj=0, k1,...,jj, , gde su c1,…,ck skalari.
Trag matrice pnX je suma njenih dijagonalnih elemenata
p
1i
iixtr X .
Transponovana matrica matrice pnX je matrica npT X . Vrste (kolone) matrice X su
kolone (vrste) matrice TX . Odavde važi XX
TT . Ako je data matrica npY , tada važi da je
TTTXYXY .
Kvadratna matrica je matrica kod koje je broj vrsta jednak broju kolona, tj. n=p i oznaka
kvadratne matrice je ppX .
Dijagonalna matrica je kvadratna matrica reda p kod koje su elementi van glavne dijagonale
jednaki nuli xij=0, i,j=1,…,p.
Idempotentna matrica je kvadratna matrica reda p kod koje važi XXX .
Ortogonalna matrica je kvadratna matrica reda p kod koje važi p
TTIXXXX .
Simetrična matrica je kvadratna matrica reda p kod koje su elementi simetrično raspoređeni u
odnosu na glavnu dijagonalu, tj. jiij xx za sve uređene parove (i,j).
11
Determinanta kvadratne matrice ppX se definiše na sledeći način
ppτ11τ
τ...xx1det XX ,
gde se sumiranje vrši po svim permutacijama τ od {1,2,…,p}, gde je 0τ ako se permutacija
može napisati kao proizvod parnog broja transpozicija, dok je u suprotnom 1τ .
Ako je 0X i ppX , onda postoji inverzna matrica matrice X, u oznaci 1
X i važi da je
p
11IXXXX .
Sopstvene vrednosti i sopstveni vektori
Neka je data matrica ppX . Ako postoji scalar λ i vektor γ tako da je
γXγ λ , (1.11)
onda je λ sopstvena vrednost, a γ sopstveni vektor matrice X.
Pretpostavimo da matrica X ima p sopstvenih vektora λ1,λ2,…,λp i neka je data dijagonalna
matrica )λ,...,diag(λ p1Λ . Tada je
p
1j
jλΛX , (1.12)
p
1j
jλtrtr ΛX . (1.13)
Spektralna dekompozicija
Svaka simetrična matrica ppX može biti zapisana u obliku
p
1j
T
jjj
T λ γγΓΛΓX (1.14)
12
gde je )λ,...,diag(λ p1Λ i gde je ),...,( p1 γγΓ ortogonalna matrica koja se sastoji od sopstvenih
vektora γj matrice X. Izraz (1.14) se naziva spektralna dekompozicija matrice X.
Kvadratna forma
Kvadratna forma )Q(n simetrične matrice p)(pX i vektora pRn je
ji
p
1i
p
1j
ij
T nnx)Q(
Xnnn (1.15)
Ako je 0)Q( n za svako 0n , tada je kvadratna forma pozitivno definitna.
Ako je 0)Q( n za svako 0n i postoji neko 0n0 tako da je 0)Q( n , tada je kvadratna
forma pozitivno semidefinitna.
Matrica X je pozitivno definitna (semidefinitna) ako je njena odgovarajuća kvadratna forma
)Q( pozitivno definitna (semidefinitna). Ovo obeležavamo sa 0)0(X .
Sada kada su predstavljene osnovne karakteristike matrice kao i određene osobine, statistike
obrađene u odeljcima 1.1 i 1.2 mogu se predstaviti i u matričnoj formi. ,,Centar gravitacije” za
uzorak obima n u Rp je definisan vektorom x čije su komponente srednje vrednosti p slučajnih
promenljivih
n1XxTT
p1n
1)x,...,x( , (1.16)
gde je T
n
1,1,...,1n1 .
Varijansa uzorka obima n se može okarakterisati kao matrica kovarijansi za p slučajnih
promenljivih. Uzoračke kovarijanse definisane u (1.4) su elementi sledeće matrice:
X11XXXxxXXS nn
TTTTT
n
1
n
1
n
1. (1.17)
Ova matrica se ekvivalentno definiše na sledeći način:
13
Tn
1in
1ii xxxxS
. (1.18)
Formula kovarijanse (1.18) se može napisati kao HXXST
n
1 sa matricom centriranja
T
n
1nnn 11IH . (1.19)
Matrica centriranja je simetrična i idempotentna
TTTTTT2
n
1
n
1
n
1
n
1
n
1
n
1nnnnnnnnnnnnnnn 11111111I11I11IH
H11I nnn T
n
1. (1.20)
Kao posledica, S je pozitivno semidefinitna matrica, tj. S ≥ 0.
Zaista, za sve a ∈ Rp,
0yn
1
n
1
n
1
n
1 p
1j
2
j
TTTTTT
yyHXaHXaHXaXaSaaT (1.21)
za .HXay
Dobro je poznato, iz jednodimenzionalnog slučaja, da uzoračka varijansa 2n
1j
i xxn
1
pokazuje pristrasnost reda .n
1
Koeficijent korelacija uzorka između i-te i j-te slučajne promenljive je XiXjr , (1.9). Tada se
uzoračka korelaciona matrica R može napisati u obliku
R = D-1/2SD-1/2 (1.22)
gde je D-1/2 dijagonalna matrica sa elementima 1/2
XiXi )(S na glavnoj dijagonali.
14
1.3.1 Linearne transformacije
Mnoge praktične primene nameću proučavanje linearnih transformacija početnih podataka,
što pokreće pitanje kako izračunati konačnu statistiku posle tolikih linearnih transformacija.
Neka je A matrica dimenzija (q × p) i neka je Y matrica transformisanih podataka date
matrice
T
n1
T )y,...,(y XAY (1.23)
gde je X matrica dimenzija pn .
Vektor yi = (yi1,..., yiq) ∈ Rq se može posmatrati kao i-ti uzorak q-dimenzionalne proizvoljne
slučajne promenljive XY A . U stvari, imamo da je .T
ii Axy Direktno se dobijaju srednje
vrednosti i uzoračke kovarijanse slučajnih promenljivih (kolona) iz matrice podataka Y :
xA1AX1Yy nn TT
n
1
n
1 (1.24)
T
X
TTT
Yn
1
n
1AASHXAAXHYYS . (1.25)
U slučaju da je linearna transformacija nehomogena, tj,
,ii bAxy (1.26)
gde je b vektor dimenzija 1q , samo se izraz (1.24) menja, tj. bxAy . Formule (1.24) i
(1.25) su korisne u slučaju kada je q = 1, tj. i
T
i xy aXay ⇔ yi = aTxi, i = 1,..., n:
xayT ,
aSaS X
T
Y .
15
1.3.2 Mahalanobis transformacija
Poseban slučaj prethodno objašnjenih linernih transformacija je
n1,...,i,xxz i
1/2
i S . (1.26)
Za transformisanu matricu podataka T
n1 )z,...,(zZ uzoračka kovarijansna matrica je
p
T
Zn
1IHZZS . (1.27)
Dakle, Mahalanobis transformacija eliminiše korelacije između slučajnih promenljivih i
standardizuje varijansu svake slučajne promenljive. Ako se primeni izraz (1.24), koristeći
1/2 SA , dobija se matrica kovarijansi, na način pokazan u izrazu (1.27).
Glava 2
Analiza glavnih komponenata
Analiza glavnih komponenti predstavlja statističku analizu redukcije dimenzionalnosti skupa
podataka, koji sadrže veliki broj međusobno povezanih promenljivih, tako da bude obuhvaćena
što veća količina varijanse podataka. To se postiže izračunavanjem novog skupa nekorelisanih
promenljivih, zvanih glavne komponente, koje predstavljaju linearne kombinacije originalnih
promenljvih. Prvih nekoliko glavnih komponenti obuhvata najveći deo varijanse sadržane u
originalnim promenljivama.
2.1 Standardizovana linearna kombinacija
Analiza glavnih komponenata postoji sa ciljem smanjenja broja datih dimenzija. Prost način
za smanjenje dimenzija je upotreba samo jednog elementa posmatranog vektora i odbacivanje
16
svih ostalih elemenata. Zbog mogućnosti smanjenja tačnosti u tumačenju podataka, prethodno
opisani metod nije najpraktičniji. Alternativni metod podrazumeva posmatranje srednje vrednosti
1p
1j
j
1 Xp svih elemenata vektora X=(X1,…,Xp). Kako svi elementi vektora X imaju isti značaj, ni
ovaj metod nije baš pogodan za smanjenje dimenzija.
Pristupačniji metod jeste posmatranje ponderisane srednje vrednosti, tj.
p
1j
jj
T XδXδ tako da je 1δp
1j
2
j
(2.1)
Vektor δ=(δ1,…,δp)T u ovom slučaju može biti prilagođen traženju i otkrivanju specifičnih
svojstava. Formulu (2.1) nazivamo standardizovana linearna kombinacija (SLK).
Slika 2.1. Proizvoljna standardizovana linearna kombinacija.
Postavlja se pitanje koju SLK izabrati? Odgovor može biti npr. maksimiziranje varijanse za
δTX tj. odabir δ prema
17
δXδXδ VarmaxVarmax T
1δ:δ
T
1δ:δ . (2.2)
Pri traženju vrednosti za δ preko spektralne dekompozicije kovarijacione matrice Ʃ=Var(X)
otkriva se mogućnost više načina za izračunavanje iste.
Na slikama 2.1 i 2.2 prikazane su dve projekcije sa srednjom vrednošću nula. Slika 2.1
prikazuje proizvoljnu projekciju. U gornjem delu se nalazi ,,skupˮ tačaka i linija projektovanih
podataka. U srednjem delu prikazane su projektovane vrednosti u izabranom pravcu. Donji deo
pokazuje varijacije stvarne projekcije, kao i procenat ukupne varijanse.
Slika 2.2 pokazuje projekciju koja obuhvata većinu varijanse podataka.
Slika 2.2 Najinteresantnija standardizovana linearna kombinacija.
Standardizovana linearna kombinacija sa najvećom varijansom, dobijenom iz maksimiziranja,
jeste prva glavna komponenta .γy 11 X Standardizovana linearna kombinacija sa drugom
najvećom varijanso ,γy 22 X predstavlja drugu glavnu komponentu. Na ovaj način, zapisivanjem
vrednosti u matrici, rezultat za slučajnu promenljivu X, sa očekivanjem E(X)=µ i varijansom
Var(X)=Ʃ=ΓΛΓT, gde je Γ=(γ1,γ2,…,γp) i Λ=diag(λ1,λ2,…,λp), predstavlja transformaciju
glavnih komponenata, koja je definisana sa
18
Y = ΓT(X-µ). (2.3)
Centrirana slučajna promenljiva X u prethodnoj formuli se koristi u cilju dobijanja nulte
vrednosti glavnih komponenata promenljive Y.
Definicija 2.1 Multinormalna raspodela slučajne promenljive X sa očekivanjem E(X)=µ i
varijansom Var(X)=Ʃ ima gustinu
μ)(xμ)(x
2
1exp2πf(x) 1T1/2
ΣΣ . (2.4)
Ovakvu raspodelu obeležavamo sa X~Np(µ,Ʃ).
Teorema 2.1 Za datu slučajnu promenljivu X~Np(µ,Ʃ) neka je Y=ΓT(X-µ) transformacija
glavnih komponenata. Onda je
(i) EYj = 0, j = 1,…,p (2.5)
(ii) Var(Yj) = λj, j = 1,…,p (2.6)
(iii) Cov(Yi, Yj ) = 0, i≠j (2.7)
(iv) Var(Y1) ≥ Var(Y2) ≥ … ≥ Var(Yp) ≥ 0 (2.8)
(v) ΣtrYVarp
1j
j
(2.9)
(vi) Σ
p
1j
jYVar (2.10)
Dokaz. (i) 0γEγEγγEEY T
j
T
j
T
j
T
jj μμμXμXμX .
(ii) jjj
T
jj
T
jj
T
jj
T
jj λλγγΣγγγVarγγVarγYVar XμX .
(iii) Koristićemo γi da označimo i-tu kolonu od Γ. Onda sledi
j
T
ij
T
iji γVarγγμVarγY,YCov XX .
Kako je Var(X) = Ʃ = ΓΛΓT, ΓΓT = I dobijamo onda preko ortogonalnosti Γ
19
ji
ji
λ
0γγ
i
j
TT
i
,
,ΓΛΓ .
Kako su koordinate sopstvenog vektora koje odgovaraju različitim sopstvenim vrednostima
međusobno ortogonalne i kako je Yi=γiT(X-µ) koordinata sopstvenog vektora koja je
odgovarajuća za γi , direktno vidimo da su Yi i Yj međusobno ortogonalne, tj. njihova kovarijansa
je nula.
(iv) Kako je λ1≥λ2≥…≥λp≥0 i Var(Y1)=λ1,Var(Y2)=λ2,…,Var(Yp)=λp odakle sledi da je
Var(Y1)≥…≥Var(Y2)≥Var(Yp)≥0.
(v) ΣΓΛΓΛΓΓΛ trtrtrtrλYVar TTp
1j
j
p
1j
j
.
(vi) ΣΛ
p
1j
j
p
1j
j λYVar . ■
Teorema 2.2 Za datu slučajnu promenljivu X~N(µ,Ʃ) neka je Y=ΓT(X-µ) transformacija
glavnih komponenata. Ne postoji nijedna standardizovana linearna kombinacija koja ima veću
varijansu od sopstvene vrednosti λ1 = Var(Y1).
Dokaz. Neka su (λ1,e1),…,(λp,ep) parovi sopstvenih vrednosti i sopstvenih vektora matrice Ʃ.
Tada je ii
,
ii λeeYVar Σ za i=1,…,p. Imamo da je 1,
i
,
i
0a
λaa
aamax
Σ(dostignuto ako je a=e1) uz
uslov je 1ee ,
11 , jer su sopstveni vektori normalizovani. Odavde dobijamo da je
111
,
111
,
1
1
,
1
1
,
11,
i
,
i
0a
YVarλeeλΣeeee
eeλ
aa
aamax
ΣΣ, (2.11)
pri čemu je Ʃe1=λe1. ■
Teorema 2.3 Ako je Yk+1=aTX standardizovana linearna kombinacija koja nije u korelaciji sa
prvih k komponenata od X, tada je varijansa za Yk+1 maksimalna, birajući da je (k+1)-va glavna
komponenta.
20
Dokaz. Slično kao u dokazu prethodne teoreme imamo da je 1ke,...,e,ea
λaa'
aa'max
k21
Σ
, k=1,…,p
(dostignuto ako je a=ek+1 uz uslov da je 0ee i
,
1k za i=1,…,k). Odavde dobijamo
1k1k
,
1k
1k
,
1k
1k
,
1k1k YVaree
ee
eeλ
Σ
Σ. (2.12)■
2.2 Uzoračke glavne komponente
Realizovane vrednosti izračunate preko transformacije glavnih komponenata imaju sledeća
obeležja u praksi: očekivanje µ postaje x , a varijansa Ʃ postaje S. Ako g1 predstavlja prvi
sopstveni vektor za S, onda je prva glavna komponenta predstavljena sa 1
T
n1 gx1γ X .
Uopšteno, ako je S=GLGT spektralna dekompozicija za S, pri čemu je G=(g1,g2,…,gp) i
L=diag(l1,l2,…,lp) matrica sopstvenih vrednosti za S, onda su glavne komponente predstavljene
sa
(2.13)
Sa centriranom matricom T
nnnn
1I 11H i 0x1 T
n H može se zapisati
GXHXGYHYS T
n
TT
n
TT
Y x1x1n
1
n
1
LSGGGXHXG TTT
n
1. (2.14)
Tada je varijansa za yi jednaka sopstvenoj vrednosti li .
GXYT
n x1
21
Tehnika glavnih komponenata je osetljiva na promenu obima podataka. Dovoljno je
pomnožiti neku od slučajnih promenljivih nekim brojem i kao rezultat dobiće se različite
sopstvene vrednosti, kao i sopstveni vektori. Ovo je posledica toga što se dekompozicija
sopstvenih vrednosti vrši na kovarijacionoj, a ne na korelacionoj matrici.
Primer 2.1 Upotrebimo ovu tehniku na primeru bankarskih podataka iz Tabele A.1
Bankovne novčanice (u ovom primeru ne radi se standardizacija podataka). Slika 2.3 pokazuje
neke tačke glavnih komponenata za bankarske podatke. Originalne novčanice i falsifikati su
obeleženi sa “o” i “+” redom.
Vektor srednjih vrednosti matrice X je
T140.510.6,9.4,129.9,130.1,214.9,x .
Vektor sopstvenih vrednosti matrice S je
T0.0350.085,0.194,0.242,0.931,2.985,l .
Slika 2.3. Glavne komponente bankarskih podataka.
22
Sopstveni vektori gj su predstavljeni preko kolona matrice G. Prva kolona za G prikazuje prvi
sopsteni vektor i daje vrednosti koje su korišćene u linearnoj kombinaciji početnih podataka za
prvu glavnu komponentu.
T
0.0460.0850.2580.5920.4890.579
0.0350.1020.4510.5570.6590.202
0.0220.1000.1860.2180.5630.768
0.6320.5350.4150.3450.0660.139
0.7670.3470.4550.2590.0710.112
0.0980.7530.5620.3260.011.0.044
G .
2.3 Interpretacija glavnih komponenata
Glavna ideja jeste transformacija glavnih komponenata u cilju pronalaženja najvećeg broja
projekcija koje maksimiziraju varijansu. Standardizovana linearna kombinacija sa najvećom
sopstvenom vrednošću je predstavljena preko prvog sopstvenog vektora. U ranijem primeru 2.1,
sopstveni vektori su izračunati za bankarske podatke. Posebno, sa koordinatama centrirane
slučajne promenljive x, važi da je:
y1 = −0.044x1 + 0.112x2 + 0.139x3 + 0.768x4 + 0.202x5 − 0.579x6
y2 = 0.011x1 + 0.071x2 + 0.066x3 − 0.563x4 + 0.659x5 − 0.489x6
gde je x1-dužina novčanice, x2-leva visina novčanice, x3-desna visina novčanice, x4-udaljenost
unutrašnjeg okvira do donje ivice, x5-udaljenost unutrašnjeg okvira do gornje ivice, x6-dužina
dijagonale.
Stoga, prva glavna komponenta opisuje razliku između promenljivih sa donje ivice i
dijagonale; dok druga glavna komponenta predstavlja razliku izmedju promenljivih gornje ivice i
sume promenljivih sa donje ivice i dijagonale.
23
Vrednost glavnih komponenata nam pokazuje na koji način se dolazi do najboljeg objašnjenja
varijanse. Pokazatelj značaja prvih q glavnih komponenata u objašnjavanju varijanse je iskazana
preko proporcije
p
1j
j
p
1j
j
q
1j
j
q
1j
j
q
)Var(Y
)Var(Y
λ
λ
ψ (2.15)
Primenjujući bankovne podatke iz primera 2.2, proporcije dobijene varijanse su date u tabeli
2.1. Prva glavna komponenta (q=1) objašnjava 67% varijacije. Prve tri glavne komponente (q=3)
objašnjavaju 93% varijacije.
U prethodnom slučaju bitno je naglasiti da, glavne komponente izvedene iz korelacione
matrice daju drugačije rezultate od rezultata glavnih komponenata izvedenih iz kovarijansne
matrice.
Sopstvene vrednosti Proporcija varijanse Kumulirane proporcije
2.985 0.67 0.67
0.931 0.21 0.88
0.242 0.05 0.93
0.194 0.04 0.97
0.085 0.02 0.99
0.035 0.01 1.00
Tabela 2.1. Proporcija varijanse glavnih komponenata.
Grafički prikaz mogućnosti glavnih komponenata da objasne varijaciju u podacima, je
predstavljen preko grafika u donjem desnom uglu na slici 2.3. Grafik može biti prilagođen,
koristeći proporcije na y-ima, na način prikazan na slici 2.4 za bankovni skup podataka.
Kovarijansa između glavne komponente vektora Y i početnog vektora X se može izračunati
Cov(X,Y) = E(XYT) − EXEYT = E(XYT) = E(XXTΓ) – μμTΓ
= Var(X)Γ = ΣΓ = ΓΛΓTΓ (2.16)
= ΓΛ.
24
Sledi da je korelacija ρXiYj između promenljive Xi i glavne komponente Yj
1/2
XX
j
ij1/2
jXX
jij
YX
iiii
ji σ
λγ
)λ(σ
λγρ
(2.17)
Slika 2.4. Relativna proporcija varijanse objašnjena preko glavnih komponenata.
Koristeći podatke iz uzoraka, dolazi se do sledećeg zaključka
1/2
XX
j
ijYX
ii
ji s
lgr
. (2.18)
Korelacije se mogu koristiti za procenu relacija glavnih komponenata Yj gde je j=1,…,q i
početnih promenljivih Xi gde je i=1,…,p. Primetimo da je
1s
s
s
glΣr
XiXi
XiXi
XiXi
2
ijj
p
1jp
1j
2
YX ji
. (2.19)
Zaista i
T
i
2
ijj
p
1j LggglΣ je (i,i) element matrice GLGT=S, pa se rXiYj2 može biti posmatran
kao proporcija varijanse za Xi objašnjena preko Yj.
25
Na mestu prve dve glavne komponente postavićemo proporcije rXiY1 i rXiY2 . Slika 2.5
pokazuje sledeće na primeru bankovnih podataka. Grafik prikazuje koje su početne promenljive u
najvećoj korelaciji sa glavnim komponentama Y1 i Y2. Iz (2.19) sledi da rXiY1+rXiY2<1 tako da su
tačke uvek u krugu prečnika 1. U primeru bankovnih novčanica promenljive X4, X5 i X6
odgovaraju korelacijama blizu periferije kruga i na ovaj način su dobro objašnjene preko prve
dve glavne komponente.
Podsetimo se da smo prvu glavnu komponentu predstavili kao suštinsku razliku između X4 i
X6. To se može primetiti na slici 2.5, gde se tačke koje odgovaraju ovim promenljivama nalaze sa
različitih strana vertikalne ose. Analogno važi za drugu glavnu komponentu koja je predstavljena
kao razlika između X5 i sume za X4 i X6.
Slika 2.5. Korelacije početnih promenljivih i glavnih komponenata.
Sada se rezultat može videti opet preko slike 2.5 s obzirom na to da tačke koje odgovaraju X5
leže iznad horizontalne ose, a tačke koje odgovaraju X4 i X6 leže ispod nje.
U tabeli 2.2 su date korelacije početnih promenljivih Xi i prve dve glavne komponente, sa
kumuliranim procentom varijanse svake promenljive objašnjene preko Y1 i Y2 .
26
rXiY1 rXiY2 r2XiY1+r2
XiY2
X1 -0.201 0.028 0.041
X2 0.538 0.191 0.326
X3 0.597 0.159 0.381
X4 0.921 -0.377 0.991
X5 0.435 0.794 0.820
X6 -0.870 -0.410 0.926
Tabela 2.2. Korelacija između početnih slučajnih promenljivih i glavnih komponenata.
Tabela iznad potvrđuje da je procenat varijanse za X1, objašnjen preko prve dve glavne
komponente relativno mali i zbog toga su njihove vrednosti na grafičkom prikazu za pojedinačne
bankarske novčanice na mestu prve dve komponente. Uporedimo li sliku 2.6 i gornji levi grafik
na slici 2.3, videćemo da su originalne novčanice grubo okarekterisane preko velikih vrednosti za
X6 i malih vrednoati za X4. Falsifikati, sa druge strane pokazuju visoke vrednosti za X5.
2.4 Asimptotska svojstva glavnih komponenata
Praktično, glavne komponente se računaju preko uzoraka. Sledeća teorema pokazuje rezultate
asimptotske raspodele glavnih komponenata, ali ćemo pre toga definisati Uišartovu raspodelu.
Definicija 2.2 Ako je X~Np(µ,Ʃ) i ako je µ = 0, tada matrica
n
1i
T
ii
T xxp)(p XXM ima
Uišartovu raspodelu Wp(Ʃ,n).
Teorema 2.4 Neka je Ʃ pozitifno definitna matrica sa različitim sopstvenim vrednostima i
neka matrica U ima Uišartovu raspodelu n),(Wn
1p Σ . Neka su Λ i L dijagonalne matrice i neka
su spektralne dekompozicije matrica Ʃ i U redom Ʃ=ΓΛΓT i U=GLGT, gde su Γ=(γ1,γ2,...,γp) i
G=(g1,g2,…,gp) ortogonalne matrice i λ1>λ2 >...>λp, l1≥l2 ≥... ≥lp, γ1i≥0, g1i≥0, i=1,...,p. Neka su
matrice C i D definisane sa ΓGC n i ΛLD n .Tada matrice C i D imaju
asimptotski normalnu raspodelu, nezavisne su i dijagonalni elementi matrice D su nezavisni, tj.
2r 0,2Nn ΛΓGC i 2r 0,2Nn ΛΛLD kad n . (2.20)
Element dijagonale matrice D, element di, ima asimptotski normalnu raspodelu 2
i0,2λN .
27
Kovarijansna matrica za element ci u asimptotskoj raspodeli matrice C=(c1,c2,...,cp) je
Tp
ik
1k2
ki
ki
λλ
λλVar kki γγc
. (2.21)
Kovarijansna matrica za elemente ci i cj u asimpototskoj raspodeli je
T
2
ji
ji
λλ
λλ,Cov ijji γγcc
. (2.22)
Dokaz. Raspodela za matricu UΓΓTTnn je određena preko Uišartove raspodele W(Λ,n).
Neka je
TYLYT (2.23)
gde je Y ortogonalna matrica. Ovde ćemo zahtevati da je y1i≥0 da bismo odredili jedinstveno Y.
Neka je ΛTV n i IYW n . Onda (2.23) možemo napisati u sledećem obliku
T
W1
ID1
ΛW1
IV1
Λ
nnnn . (2.24)
Prethodni izraz u (2.24) je ekvivalentan sa
TTTT
nWDW
1DWWWWD
n
1ΛWDWΛV . (2.25)
Iz
TT
nnW
1IW
1IYYI dobijamo da je
TT
nWW
1WW0 . (2.26)
Ako zanemarimo sabirke reda n
1i
n
1redom u (2.25) i (2.26) dobijamo da je
TΛWDWΛV i (2.27)
TWW0 . (2.28)
Kako iz relacije (2.28) zaključujemo da je WW T , kada ovo zamenimo u (2.27) i
prikažemo rezultate kroz komponente dobijamo da je
28
p1,...,i,dv0,w iiiii (2.29)
p1,...,ji,j,i,λλ
vw
ij
ij
ij
. (2.30)
Iz Teoreme 2.5 zaključujemo da je iz asimptotske raspodele matrice V za funkcionalno
nezavisne elemente očekivanje jednako 0 i 2
iii 2λvVar i jiij λλvVar , i≠j. Odavde
zaključujemo i da matrice D i W imaju asimptotsku normalnu raspodelu i da su elementi
d1,…,dp,w12,w13,…,wp-1,p nezavisni sa očekivanjem 0 i varijansama 2
ii 2λdVar , p1,...,i ,
2
ij
ji
ijλλ
λλwVar
, 1p1,...,ip,1,...,ij . Kako IY
r
imamo da je ΓΓYr sa
velikom verovatnoćom da je svaka kolona od Γ skoro identična odgovarajućoj koloni u ΓY.
Odavde ΓGC n ima asimptotsku raspodelu za ΓWIYΓ n . Odavde slede i
odgovarajuće asimptotske varijanse i kovarijanse. ■
Teorema 2.5 Neka je TNα
N
1α
Nαn XXXXA
, gde su X1,X2,…nezavisni vektori sa
normalnom raspodelom N(µ,Ʃ) i 1Nn . Tada je asimptotska raspodela za
ΣAG nnn
1n normalna sa očekivanjem 0 i kovarijansama
.jkiljlikklij σσσσngngE
2.5 Analiza normalizovanih glavnih komponenata
Početne slučajne promenljive u određenim situacijama mogu biti heterogene, bez obzira na
njihove varijanse. Ovo dolazi do izražaja kada se promenljive posmatraju na heterogenim
skalama (kao što su godine, kilogrami, dolari,…). Tada, opis informacija sadržanih u podacima,
ima zadatak da obezbedi koja informacija je bolja, bez obzira na kojoj skali se promenljive mere.
Ovo može biti postignuto kroz standardizaciju promenljivih, odnosno
1/2HXDXS , (2.31.)
29
gde je )s,...,diag(sPP11 XXXXD . Ranije je pomenuto da je 0xS i RS
SX , uzoračka korelaciona
matrica za X. Transformacija glavnih komponenata matrice Xs se naziva analiza
normalizovanih glavnih komponenata (ANGK) . Spektralna dekompozicija od R je
T
RRR GLGR , (2.32)
gde je R
p
R
1 l,...,ldiagRL i R
p
R
1 l...l su sopstvene vrednosti za R koje odgovaraju sopstvenim
vektorima g1R,…,gp
R .
Normalizovane glavne komponente Zj, obezbeđuju reprezentaciju svake promenljive i
predstavljene su sa
p1 z,...,z RSGXZ . (2.33)
Posle transformacije promenljivih, sledi da je
0z , (2.34)
.RRRRRRRRRRXRZ LIILGGLGGRGGGSGSS
TTTT (2.35)
2.6 Metod glavnih komponenata kod faktorske analize
Faktorska analiza opisuje kovarijansu između što većeg broja promenljivih preko nekoliko
osnovnih, ali neopažljivih veličina zvanih faktori. Pretpostavimo da promenljive mogu biti
grupisane preko njihovih korelacija. Na primer, pretpostavimo da promenljive imaju veliku
međusobnu korelaciju unutar određene grupe, ali ne i sa promenljivama neke druge grupe. Zatim,
može se pretpostaviti da svaka grupa promenljivih predstavlja jedan faktor koji je zadužen za
posmatrane korelacije.
Faktorska analiza se može posmatrati kao produžetak analize glavnih komponenata. Obe
analize se mogu posmatrati kao pokušaji aproksimiranja kovarijansne matrice. Međutim,
aproksimacija preko faktorske analize je dosta detaljnija, što će biti dalje prikazano.
30
2.6.1 Ortogonalni faktorski model
Slučajni vektor X sa p komponenata ima očekivanje µ i kovarijansnu matricu Ʃ. Faktorski
model pretpostavlja da je X linearno zavisan od nekoliko neopažljivih slučajnih promenljivih
F1,...,Fm koje se zovu zajednički faktori i p dodatnih izvora varijacija ε1,...,εp koji se zovu greške
ili specifični faktori. Faktorski model je predstavljen preko slučajnih promenljivih na sledeći
način
pmpm2p21p1pp
2m2m22212122
1m1m21211111
εFl...FlFlμX
εFl...FlFlμX
εFl...FlFlμX
(2.36)
ili u matričnom obliku
εLFμX (2.37)
Koeficijent lij predstavlja i-tu komponentu j-tog faktora, pa se matrica F drugačije naziva
faktorska matrica. Specifični faktor εi je u korelaciji samo sa promenljivom Xi. Odstupanja X1-µ1,
X2-µ2,..., Xp-µp su izražena preko p+m slučajnih promenljvih F1,...,Fm,ε1,...,εp koje su
zanemarljive.
Direktna provera faktorskog modela dobijenog iz posmatranja promenljivih X1,...,Xp sa toliko
mnogo neprimetnih kvantiteta je veoma teška. Međutim, sa nekoliko dodatnih pretpostavki za
slučajne vektore F i ε model predstavljen u (2.37) podrazumeva određene odnose među
kovarijansama.
Pretpostavimo da važi
p
2
1
T
T
ψ00
0ψ0
00ψ
ЕCovE
ECovE
Ψεεε0ε
IFFF0F
(2.38)
31
i da su slučajni vektori F i ε nezavisni, tj.
0εFFε E,Cov . (2.39)
Ortogonalni faktorski model određuje strukturu kovarijansne matrice za matricu X. Iz
matričnog oblika ortogonalnog faktorskog modela (2.37) dobijamo da je
TTεLFεLFμXμX
TTεLFεLF (2.40)
TTTTεεLFεLFεLFLF
pa odavde imamo da je
TECov μXμXXΣ
TTTTTT EEEE εεFεLLεFLFFL (2.41)
ΨLL T .
Iz (2.37) dobijamo i da je TTTTεFLFFFεLFFμX .
Takođe iz (2.37) imamo da je LεFFFLFμXFX TTT EEE,Cov .
2.6.2 Kovarijansna struktura za ortogonalni faktorski model
Iz izraza (2.37) uz navedene pretpostavke u izrazima (2.38) i (2.39) dobija se
1. ΨLLX TCov ili
kmimk1i1ki
i
2
im
2
i1i
ll...llX,XCov
ψl...lXVar
(2.42)
2. LFX ,Cov ili
ijji lF,XCov (2.43)
32
Model εLFμX je linearan što se tiče zajedničkih faktora. Ukoliko su p slučajnih
promenljivih Xi, i=1,..,p, povezane sa osnovnim faktorima, ali su veze nelinearne, kao na primer
1311111 εFFlμX i slično, onda kovarijansna struktura u (2.42) možda nije adekvatna.
Pretpostavka linearnosti je veoma bitna kod tradicionalnog faktorskog modela.
Deo varijanse i-te promenljive dobijene od m zajedničkih faktora se zove i-ti komunalitet.
Deo varijanse Var(Xi) = σii zbog specifičnog faktora se često naziva unikvitet ili specifična
varijansa. Iz (2.42) imamo da je
.i2
im
2
i2
2
i1ii ψl...llσ (2.44)
Drugačiji zapis za (2.44) je
2
im
2
i2
2
i1
2
i l...llh (2.45)
i
.i2
iii ψhσ (2.46)
Suma kvadrata i-te promenljive koja ukljućuje m zajedničkih faktora predstavlja komunalitet
i-te promenljive.
Faktorski model pretpostavlja da se iz pm faktorskih opterećenja lij i p specifičnih varijansi ψi
mogu dobiti p(p+1)/2 varijansi i kovarijansi matrice X. Kada je m = p, svaka kovarijansna
matrica Ʃ može biti predstavljena kao TLL , pa Ψ može biti nula matrica. Faktorska analiza je
najkorisnija kada je m veoma malo u odnosu na p. Faktorski model tada opisuje varijaciju
matrice X sa manje parametara nego p(p+1)/2 parametara matrice Ʃ.
Kada je m>1, uvek postoji neka neodređenost kod faktorskog modela. Neka je
m)(mT ortogonalna matrica tako da je ITTTT TT . Izraz (2.37) se sad može predstaviti kao
εFLεFLTTεLFμX T , (2.47)
gde je LTL i FTFT .
33
Kako je 0FETFE T i ITTTFTF TTCovCov nemoguće je na osnovu
posmatranja matrice X razlikovati matricu opterećenja L od matrice opterećenja L . U stvari,
faktori F i FTFT imaju iste statističke osobine i iako se matrica opterećenja
L generalno
razlikuje od matrice opterećenja L, i jedna i druga daju istu kovarijansnu matricu Ʃ. U stvari je
ΨLLΨLLTTΨLLΣ TTTT . (2.48)
Matrica opterećenja L je određena samo preko ortogonalne matrice T. Zbog toga, matrice
opterećenja LTL i L daju istu reprezentaciju.
Faktorska analiza se dalje nastavlja zadavanjem uslova na osnovu kojih se jedinstveno mogu
odrediti matrice L i Ψ. Kada se jednom dobiju opterećenja kao i specifične varijanse, utvrđuju se
faktori i često se računaju ponderisane vrednosti faktora (takozvani faktorski skorovi).
2.6.3 Metod glavnih komponenata
Faktorska analiza nastoji da odgovori na pitanje da li faktorski model (2.37) sa malim brojem
faktora na odgovarajući način opisuje podatke. U suštini, treba naći adekvatan statistički model
koji će predstaviti podatke. Uzoračka kovarijansna matrica S je ocena kovarijansne matrice Ʃ.
Ako su elementi koji se nalaze van dijagonale uzoračke kovarijansne matrice S mali ili elementi
van dijagonale uzoračke korelacione matrice R skoro jednaki nuli, slučajne promenljive nisu u
korelaciji, pa samim tim faktorska analiza nije od nekog značaja. Specifični faktori su sad
izuzetno bitni i sada je glavni cilj faktorske analize da odredi nekoliko važnih zajedničkih faktora.
Ako kovarijansna matrica Ʃ značajno odstupa od dijagonalne matrice, tada kod faktorskog
modela treba odrediti faktore opterećenja lij i specifične faktore ψi. Ovde ćemo razmotriti metod
glavnih komponenata kao jedan od najviše korišćenih metoda za procenu parametara.
Spektralna dekompozicija obezbeđuje nam faktorizaciju kovarijansne matrice Ʃ. Neka Ʃ ima
uređene parove (λj,ej) sopstvenih vrednosti i sopstvenih vektora redom, gde je λ1≥ λ2≥…≥λp≥0.
34
Sada imamo da je
T
ppp
T
222
T
111 eeλ...eeλeeλ Σ
T
pp
T
22
T
11
pp2211
eλ
eλ
eλ
eλeλeλ
. (2.49)
Ovo odgovara kovarijansnoj strukturi kada faktorski model ima isti broj faktora i
promenljivih (m = p) i specifične varijanse ψi=0 za i . Matrica opterećenja ima j-tu kolonu
određenu sa jjeλ . Matrični oblik je predstavljen na sledeći način
TTLL0LLΣ . (2.50)
Faktorska opterećenja j-tog faktora su koeficijenti j-te glavne komponente.
Faktorska analiza predstavljena u (2.49) nije naročito korisna, jer uključuje onoliko
zajedničkih faktora koliko ima promenljivih i ne predviđa nikakvu varijaciju što se tiče
specifičnih faktora. Metod glavnih komponenata objašnjava kovarijansnu strukturu preko samo
nekoliko zajedničkih faktora.
Jedan od načina određivanja kovarijansne strukture je kada su poslednjih p-m sopstvenih
vrednosti male i tada zanemarujemo deo T
ppp
T
1m1m1m eeλ...eeλ za matricu Ʃ. Na ovaj način
dobijamo aproksimaciju kovarijansne matrice Ʃ
T
T
mm
T
22
T
11
mm2211
eλ
eλ
eλ
eλeλeλ LLΣ
. (2.51)
Aproksimacija kovarijansne matrice Ʃ u (2.51) pretpostavlja da su specifični faktori od malog
značaja i takođe mogu biti zanemareni u faktorizaciji matrice Ʃ. Ako su specifični faktori
35
uključeni u model, njihove varijanse mogu biti dijagonalni elementi matrice TLLΣ , gde je
TLL definisana u (2.51).
Uzimajući u obzir specifične faktore, aproksimacije kovarijansne matrice Ʃ postaje
ΨLLΣ T
p
2
1
T
mm
T
22
T
11
mm2211
ψ00
0ψ0
00ψ
eλ
eλ
eλ
eλeλeλ
, (2.52)
gde je
m
1j
2
ijiii lσψ za i = 1,...,p.
Ovaj pristup se primenjuje na skup podataka x1, ..., xn tako što se realizovani uzorci centriraju
oduzimajući srednju vrednost x .
Centrirani realizovani uzorci
n1,...,j
xx
xx
xx
x
x
x
x
x
x
pjp
2j2
1j1
p
2
1
jp
j2
j1
xx j , (2.53)
imaju istu uzoračku kovarijansnu matricu S kao početna posmatranja.
Kada komponente promenljivih uzimaju vrednosti sa velikim međusobnim odstupanjima,
radi se sa standardizovanim promenljivama
n1,...,j
s
xx
s
xx
s
xx
pp
pjp
22
2j2
11
1j1
jZ . (2.54)
36
čija je kovarijansna matrica u stvari uzoračka korelaciona matrica R za realizovane uzorke x1,...,
xn.
Kako promenljive sa velikom varijansom imaju uticaja na određivanje faktorskih opterećenja,
standardizovanjem promenljivih ovde se taj problem rešava.
2.6.4 Rešenje faktorskog modela metodom glavnih komponenata
Analiza glavnih komponenata kod faktorskog modela za uzoračku kovarijansnu matricu S je
veoma specifična što se tiče njenih uređenih parova sopstvenih vrednosti i sopstvenih vektora
)e,λ(),...,e,λ(),e,λ( pp2211ˆˆˆˆˆˆ , gde je p21 λ...λλ ˆˆˆ . Neka je m < p broj zajedničkih faktora. Tada
je matrica ocena faktorskih opterećenja )l( ijˆ data sa
mm2211 eλeλeλ ˆˆˆˆˆˆˆ L . (2.55)
Ocene specifične varijanse su dobijene preko dijagonalne matrice TLLS ˆˆ tj.
p
2
1
ψ00
0ψ0
00ψ
ˆ
ˆ
ˆ
ˆ
Ψ gde je
m
1j
2
ijiii lsψ ˆˆ . (2.56)
Sada imamo da su komunaliteti
2
im
2
i2
2
i1
2
i l...llh ˆˆˆˆ . (2.57)
Analiza glavnih komponenata za faktorski model se primenjuje tako što se umesto uzoračke
kovarijansne matrice S uzima uzoračka korelaciona matrica R.
Procenjena opterećenja za određeni faktor se ne menjaju bez obzira na to da li se broj faktora
povećava kad je u pitanju metod glavnih komponenata. Na primer, ako je m=1, onda
je )eλ( 11ˆˆˆ L , a ako je m=2, tada je )eλeλ( 2211
ˆˆˆˆˆ L ,gde su )eλ( 11̂ˆ i )e,λ( 22
ˆˆ uređeni parovi
sopstvenih vrednosti i sopstvenih vektora matrice S (ili R).
37
Po definiciji, dijagonalni elementi matrice S su jednaki dijagonalnim elementima matrice
ΨLL ˆˆˆ T. Međutim, elementi van dijagonale matrice S se ne dobijaju preko matrice ΨLL ˆˆˆ T
, pa
se postavlja pitanje kako biramo broj faktora m.
Ako u ranijim razmatranjima broj zajedničkih faktora nije određen, taj broj se može dobiti
preko odnosa sopstvenih vrednosti slično kao kod glavnih komponenata. Posmatrajmo rezidualnu
matricu
)( TΨLLS ˆˆˆ . (2.58)
Rezidualna matrica je rezultat aproksimacije matrice S metodom glavnih komponenata.
Elementi dijagonale rezidualne matrice su jednaki nuli po definiciji. Za elemente van glavne
dijagonale važi da je
2
p
2
1mij
2
ij
p
1i
p
ij
1j
ij λ...λ)ψl((s ˆˆˆˆ
. (2.59)
Ovo pokazuje da iz male vrednosti sume kvadrata zanemarenih sopstvenih vrednosti sledi
mala vrednost sume kvadrata grešaka aproksimacije.
Doprinos prvog zajedničkog faktora uzoračkoj varijansi sii je 2
ijl̂ , a kod totalne uzoračke
varijanse )tr(s...ss pp2211 S doprinos prvog zajedničkog faktora je
111
T
11
2
p1
2
21
2
11 λeλeλl...ll ˆˆˆˆˆˆˆˆ
. (2.60)
Uopšteno, udeo j-tog faktora u totalnoj uzoračkoj varijansi je
Str
λ
s...s
λ j
pp11
jˆˆ
, (2.61)
kada je u pitanju uzoračka kovarijansna matrica S. Kada se umesto S uzme uzoračka korelaciona
matrica R imamo da je tr(R)=p.
38
2.7 Primer bostonskih nekretnina
U ovom delu poglavlja će biti pokazana korisnost analize glavnih komponenata ukoliko se
ista primeni na skup podataka velikih dimenzija. Konkretno ćemo to primeniti na skup podataka
bostonskih nekretnina, koju su analizirali Harison i Rubinfeld (1980) želeći da ispitaju da li “čist
vazduh” utiče na cenu nekretnina.
Korišćeni su sledeći parametri za posmatranje i analiziranje 506 nekretnina: X1-stopa
kriminala po glavi stanovnika, X2-procenat stambenog zemljišta za velike parcele, X3-procenat
poslovnog zemljišta za velikoprodaju, X4-blizina ili udaljenost reke Čarls, X5-koncentracija
azotnih oksida, X6-prosečan broj soba po stanu, X7-procenat stambenih zgrada izgrađenih pre
1940. godine, X8-udaljenost od bostonskih poslovnih centara, X9-pristup glavnim autoputevima,
X10-puna stopa poreza na imovinu po 10000 dolara, X11-odnos učenika i nastavnika, X12-procenat
Afroamerikanaca, X13-procenat stanovništva nižeg statusa i X14-srednja vrednost zakupljenih
nekretnina u hiljadama dolara.
Slučajna promenljiva X4 je odbačena zato što je diskretna promenljiva, iako će kasnije biti
grafički prikazana. Različitost preostalih 13 slučajnih promenljivih nameće korišćenje analize
normalizovanih glavnih komponenata sa korelacionom matricom.
Sopstvene vrednosti Procenti Kumulativni procenti
7.2852 0.5604 0.5604
1.3517 0.1040 0.6644
1.1266 0.0867 0.7510
0.7802 0.0600 0.8111
0.6359 0.0489 0.8600
0.5290 0.0407 0.9007
0.3397 0.0261 0.9268
0.2628 0.0202 0.9470
0.1936 0.0149 0.9619
0.1547 0.0119 0.9738
0.1405 0.0108 0.9846
0.1100 0.0085 0.9931
0.0900 0.0069 1.000
Tabela 2.3. Sopstvene vrednosti i procenti objašnjene varijanse za bostonske nekretnine.
39
GK 1 GK 2 GK 3
X1 -0.9076 0.2247 0.1457
X2 0.6399 -0.0292 0.5058
X3 -0.8580 0.0409 -0.1845
X5 -0.8737 0.2391 -0.1780
X6 0.5104 0.7037 0.0869
X7 -0.7999 0.1556 -0.2949
X8 0.8259 -0.2904 0.2982
X9 -0.7531 0.2857 0.3804
X10 -0.8114 0.1645 0.3672
X11 -0.5674 -0.2667 0.1498
X12 0.4906 -0.1041 -0.5170
X13 -0.7996 -0.4253 -0.0251
X14 0.7366 0.5160 -0.1747
Tabela 2.4. Korelacija između prve tri glavne komponente i početnih promenljivih.
Sopstvene vrednosti i procenat objašnjene varijanse je predstavljen u Tabeli 2.3.
Prva glavna komponenta objašnjava 56% ukupne varijanse, dok prve tri glavne komponente
objašnjavaju preko 75%. Ovaj rezultat ukazuje da je dovoljno posmatrati 2, maksimum 3
komponente.
Tabela 2.4 pokazuje korelacije između prve tri glavne komponente i početnih slučajnih
promenljivih, što se može videti na Slici 2.5.
Jasan obrazac se može videti u prikazu korelacije sa prvom glavnom komponentom. Slučajne
promenljive X2, X6, X8, X12 i X14 su u visokoj pozitivnoj korelaciji sa prvom glavnom
komponentom, dok su preostale slučajne promenljive u visokoj negativnoj korelaciji. Minimalna
korelacija po apsolutnoj vrednosti je 0,5.
Prva glavna komponenta može biti prikazana kao pokazatelj kvaliteta kućnog života. Druga
glavna komponenta može biti prikazana kao socijalni faktor, objašnjavajući samo 10% ukupne
varijanse.
Slika 2.6 prikazuje crvene tačke ako je vrednost promenljive X14 veća od srednje vrednosti.
Jasno je da su prva i druga glavna komponenta povezane sa vrednošću samih kuća.
40
Slika 2.5. ANGK za bostonske nekretnine, korelacije početnih promenljivih sa prve tri glavne komponente.
Slika 2.6. ANGK za Bostonske nekretnine, prikaz za prve dve GK. Skuplje kuće su obeležene crvenom bojom.
41
Glava 3
Primena analize glavnih komponenata
Treće poglavlje se bavi primerima vezanim za smanjenje dimenzija multivarijacione slučajne
promenljive pomoću linearnih kombinacija (glavne komponente). Identifikovane glavne
komponente su poređane u opadajućem redosledu po važnosti. Primenjene u praksi na matrici
podataka, glavne komponente će biti faktori transformisane matrice podataka. Za slučajni vektor
X sa E(X)=µ i Var(X)=Σ=ΓΛΓT, transformacija glavnih komponenata je definisana sa
Y=ΓT(X−µ). Prethodno objašnjeno će biti predstavljeno u Primeru 3.1. gde će komponente
slučajnog vektora Y imati korelaciju 0. Štaviše, može se pokazati i da je suma varijansi
standardizovanih linearnih kombinacija Y1,…,Yp jednaka sumi varijansi od X1,…,Xp, tj.
p
1i
i
p
1i
i XVarYVar .
U praksi, glavna komponenta transformacije računa se koristeći oznake x i S umesto µ i Σ.
Ako je S=GLGT spektralna dekompozicija uzoračke kovarijansne matrice S, glavne komponente
su dobijene na sedeći način:
GXY T
n x1 . (3.1)
Teorema 2.4. opisuje vezu između sopstvenih vrednosti matrice Var(X)=Σ=ΓΛΓT i
sopstvenih vrednosti uzoračke varijansne ili kovarijansne matrice S.
Primer 3.1 Izračunati očekivanu vrednost i varijansu transformacije glavnih komponenata Y
definisane u (3.2.), a zatim interpretirati dobijene rezultate.
Za očekivanu vrednost EY važi da je
.)(E)E()(EЕ TTT0μXΓμXΓμXΓY . (3.2)
Varijansna matrica Var(Y) se računa kao
.)(Var()Var( TTTTΛΓΓΛΓΓΣΓΓμXΓY (3.3)
42
Sledi, slučajni vektor Y je centriran i njegova varijansna matrica je dijagonalna. Sopstvene
vrednosti λ1,...,λp su varijanse glavnih komponenti Y1,..., Yp.
Primetimo da je
.
p
1i
i
p
1i
i
TTp
1i
i )Var(Yλ)tr()tr()tr(trXVar ΛΛΓΓΓΛΓΣ . (3.4)
Stoga, varijanse od Xi su razložene u varijanse od Yi, koje su dobijene od sopstvenih
vrednosti sume Ʃ. Suma varijansi prvih q glavnih komponenti
q
1i
iλ meri varijanse slučajnog
vektora X izražene preko Y1,...,Yp. Proporcije izraženih varijansi,
p1
q1
qλ....λ
λ....λψ
biće važne za interpretaciju rezultata praktične analize predstavljene u sledećim primerima.
Primer 3.2 Izračunati korelaciju između slučajnog vektora X i transformacije glavnih
komponenata Y.
Kovarijansa izmedju glavnih komponenata vektora Y i prvobitnog vektora X je
. ) ,Cov( ))-( ,Cov( Y),Cov( TTΓΛΓΓΛΓ ΣΣΓYXμXΓXX
Korelacija XiYjρ između promenljive Xi i glavne komponente Yj je
.
1/2
XiXi
j
ij1/2
jXiXi
jij
XiYjσ
λγ
)λ(σ
λγ ρ
Korelacije opisuju odnose između glavnih komponenata i početnih slučajnih promenljivih.
Zapazimo da je i
Τ
i
2
ijj
p
1j γγγλΣ Λ (i,i) element matrice Σ = ΓΛΓT, iz čega sledi da je
1.σ
σ
σ
γλΣρ
XiXi
XiXi
XiXi
2
ijj
p
1jp
1j
2
XiYj
43
Korelacija 2
XiYjρ se sada može posmatrati kao proporcija varijansi i-te slučajne promenljive Xi
izražene preko j-te glavne komponente Yj.
Procenat varijanse od Xi je izražen preko prvih q glavnih komponenata Y1,…,Yq
.1ρq
1j
2
XiYj
Primer 3.3 Odrediti, analizom glavnih komponenata, podatke o ocenama automobila iz
tabele A.2. Prikazati prve dve glavne komponente. Ispitati da li je potrebno posmatrati treću
glavnu komponentu.
Sopstvene vrednosti kovarijacione matrice
,ˆ T),0.04,0.02,0.08,0.05,0.37,0.10(5.56,1.15λ
vode do sledećih proporcija objašnjenih varijansi
T),1.00,1.00,0.99,0.99,0.96,0.98(0.76,0.91ψ ˆ .
Budući da prve dve glavne komponente objašnjavaju više od 90% datih podataka, nije
potrebno uključiti i treću glavnu komponentu koja objašnjava oko 5% promenljivosti datih
podataka. Grafički prikaz sopstvenih vrednosti predstavljen je u donjem desnom uglu na slici 3.1.
Prva dva sopstvena vektora kovarijacione matrice su
T
1 0.01)0.39,0.42,0.48,0.33,0.44,0.22,0.31,(γ ˆ
i .ˆ T
2 0.49)0.16,0.46,0.14,,,0.22,0.30(0.54,0.28γ
Zbog toga, prve dve glavne komponente su definisane sa:
Y1 = − 0.22×ekonomičnost + 0.31×servisiranje + 0.44×vrednost − 0.48×cena + 0.33×dizajn +
0.39×sportske karakteristike + 0.42×sigurnost − 0.01×lako rukovanje,
Y2 = 0.54×ekonomičnost + 0.28×servisiranje + 0.22×vrednost + 0.30×cena − 0.14×dizajn −
0.16×sportske karakteristike + 0.46×sigurnost + 0 .49×lako rukovanje.
44
Slika 3.1. Dijagrami rasipanja zavisnosti prve tri glavne komponente i Katelijev dijagram sopstvenih vrednosti za
ocene automobile iz tabele A.2.
Tumačenje samo koeficijenata glavnih komponenata dovodi do pogrešne odluke, u
zavisnosti, ako se slučajne promenljive posmatraju na različitim merenjima. Zbog toga je
preporučljivo da se tumačenja baziraju na korelacijama glavnih komponenata prikazanim na slici
3.2.
Za ocene automobila iz date tabele podataka, oba koeficijenta glavnih komponenata, kao i
njihove korelacije sa početnim slučajnim promenljivima na slici 3.2. ukazuju da prva glavna
komponenta razlikuje skupe i dizajnirane od jeftinih automobila, kao i od automobila sa manje
sportskih karakteristika.
45
Prethodno rečeno je potvrđeno pozicijom prve glavne komponente Y1 na slici 3.1. Na desnoj
strani, posmatramo brendove kao Wartburg, Trabant, Lada ili Fiat, dok na levoj strani vidimo
Jaguar, Ferrari, BMW i Mercedes-Benz.
Druga glavna komponenta razlikuje ekonomične automobile koji su laki za rukovanje (kao
što su Volkswagen i Opel), od automobila koji troše puno goriva i kojima rukovanje predstavlja
veći izazov (Ferrari, Wartburg, Jaguar i Trabant).
Slika 3.2 Grafik prve dve komponente sa početnim slučajnim promenljivama u skupu podataka tipova automobila.
Slika 3.2 pokazuje da su početne slučajno promenljive vrlo dobro prikazane preko prve dve
glavne komponente, pošto se sve tačke mogu naći u neposrednoj blizini jedinice kruga.
Primer 3.4 Uzeti atletske rekorde 55 zemalja datih u Tabeli A.3 i primeniti analizu
normalizovanih glavnih komponenata, a potom prikazati dobijene rezultate.
Tabela podataka sa atletskim rekordima sadrži nacionalne rekorde u 8 disciplina (100m,
200m, 400m, 800m, 1500m, 5km, 10km i maraton) za n=55 država. Očigledno, vremena, a
46
samim tim i razlike između zemalja, biće znatno veće za duže deonice. Zbog toga, pre korišćenja
analize glavnih komponenata, skup podataka biće normalizovan deljenjem svake slučajne
promenljive njenom uzoračkom standardnom devijacijom.
Isti rezultati mogu biti dobijeni računanjem spektralne dekompozicije uzoračke korelacione
matrice sa prvobitnim podacima. Međutim, treba biti pažljiv i imati na umu da se izvedeni
koeficijenti glavnih komponenata mogu primeniti na normalizovanim slučajnim promenljivama.
Kombinovanje ovih koeficijenata sa početnim slučajnim promenljivama može dovesti do
pogrešnih zaključaka.
Sopstvene vrednosti i proporcije objašnjenih varijansi su
T),0.05,0.02,0.10,0.07,0.60,0.13(6.04,0.99λ ˆ
i T),1.00,1.00,0.98,0.99,0.95,0.97(0.75,0.88ψ ˆ .
Primetimo da je suma svih sopstvenih vrednosti 8. Ovo sledi iz činjenice da su varijacije
standardizovanih slučajnih promenljivih jednake 1 i veze
p
1j
p
1j
i 8p1)tr(λ Sˆ .
S obzirom na gore dobijene sopstvene vrednosti i proporcije razloženih slučajnih
promenljivih, poželjno je pronaći samo jednu glavnu komponentu (Slika 3.3). Opšte prihvaćeno
pravilo kaže da je dovoljno zadržati samo one glavne komponente koje opisuju više od polovine
varijanse ukupnog broja slučajnih promeljivih.
Tokom analize normalizovanih glavnih komponenata, zaključuje se da je više od polovine
varijanse ukupnog broja slučajnih promenljivih, opisano preko glavnih komponenata sa
odgovarajućim sopstvenim vrednostima većim od 1.
Svejedno, druga sopstvena vrednost λ2 = 0.99 je vrlo blizu 1, pa odlučujemo da ispitamo i
drugu glavnu komponentu. Koeficijenti linearnih kombinacija su predstavljeni preko sopstvenih
vektora
T
1 ),0.39,0.37,0.39,0.39,0.37,0.38(0.32,0.16γ ˆ i
T
2 0.22)0.17,0.16,0.13,0.04,,0.03,(0.39,0.85γ ˆ .
47
Na slici 3.3 možemo videti velike vrednosti “srednjih vrednosti rekorda” komponenata koje
su dobijene na Kukovim ostrvima, Zapadnoj Samoi i Mauricijusu. Sa druge strane, najbrža
vremena se pojavljuju u Sjedinjenim Američkim Državama.
Slika 3.3. Grafik veza prve tri glavne komponente i grafik sopstvenih vrednosti skupa podataka atletskih rekorda.
U ovom primeru, važno je imati na umu značenje svih merenja. Veće vrednosti odgovaraju
dužim tj. gorim vremenima.
Prva glavna komponenta dobro opisuje sve početne slučajne promenljive i može biti
predstavljena kao srednja vrednost rekorda, sa nešto manjim ponderom na dužini od 200m (Slika
3.4).
Druga glavna komponenta je vrlo pozitivno korelirana sa rezultatima na 200m i ona izdvaja
Mauricijus i Holandiju, države koje pokazuju slabe rezultate na 200m.
48
Na slici 3.4 vidimo da te dve glavne komponente dobro opisuju sve početne promenljive.
Koristeći samo jednu glavnu komponentu možemo imati slaba objašnjenja o ishodima trka na
200m.
Slika3.4. Grafik prve dve komponente sa početnim slučajnim promenljivim iz skupa podataka atletskih rekorda.
Primer 3.5 Primeniti analizu glavnih komponenata na kovarijansnu matricu
1ρ
ρ1Σ , gde
je 0<ρ<1. Nakon toga promeniti vrednosti za X1, tj. razmatrati varijansu za cX1 i X2 gde je c>1.
Ispitati i kako se menja pravac glavnih komponenata.
Spektralna dekompozicija matrice Ʃ je
11
11
2
1
ρ10
0ρ1
11
11
2
1ΤΓΛΓΣ .
Kako je ρ>0, glavne komponente su Y1 =(X1 + X2)/ i Y1 =(X1 –X2)/ .
Množenjem X1 konstantom c>0 dobija se kovarijaciona matrica:
49
1cρ
cρccΣX,cXVar
2
T
21 .
Sopstvene vrednosti matrice Ʃ(c) su rešenja za
0λ1cρ
cρλc2
,
stoga su sopstvene vrednosti
22222
1,2 ρ4c1c1c2
1cλ .
Sopstveni vektor koji odgovara λ1 se može izračunati preko sistema linearnih jednačina:
2
1
1
2
12
X
Xλ
X
X
1cρ
cρc.
Odavde sledi da je X1 = X2(λ1 −1)/cρ i prva glavna komponenta postaje (cX1)(λ1 −1)/cρ + X2.
Sledeće, primetimo da je λ1>1 i da je funkcija λ1(c)/c rastuća po c. Stoga x1>x2 i odnos
izmedju x1 i x2 je rastuća funkcija po c.
Sumirajući prethodne rezultate, možemo reći da, sa porastom c, prva sopstvena vrednost λ1
postaje veća, a slučajna promenljiva cX1 dobija sve veći značaj u prvoj glavnoj komponenti.
Na vrednosti glavnih komponenata može uticati izbor skala vrednosti slučajnih promenljivih.
Preporučuje se primena analize normalizovanih glavnih kompenenata tj. standardizovanje
svake slučajne promenljive njenom standardnom devijacijom, u cilju dobijanja adekvatnih
vrednosti.
Primer 3.6 Pretpostaviti da postoje neki standardizovani podaci koji su dobijeni
Mahalanobis transformacijom. Razmotriti da li je potrebno primeniti analizu glavnih
komponenata.
Standardizovani podaci X Mahalanobis transformacijom postaju podaci Z=XS-1/2 sa
kovarijansnom matricom SZ=S-1/2 SS S-1/2 =Ip .
50
Prethodno istaknuto odmah pokazuje da su sve sopstvene vrednosti za SZ jednake 1 i da
glavne komponente za Z imaju upravo iste varijanse kao i početne slučajne promenljive. Sa tim u
vezi, takva analiza bila bi potpuno beznačajna.
Analiza glavnih komponenata za Z uvek vodi do istih nezanimljivih rezultata.
Primer 3.7 Primeniti analizu normalizovanih glavnih komponenata na skup podataka o
kriminalu u Sjedinjenim Američkim Državama prikazanoj u Tabeli A.4, a zatim prikazati
dobijene rezultate. Razmotriti da li je potrebno ispitati i treću glavnu komponentu. Ovde se
nameće i pitanje da li može primetiti razlika između četiri regiona.
Skup podataka o kriminalu u Sjedinjenim državama se sastoji od broja zabeleženih zločina u
50 država SAD 1985. godine. Zločini su svrstani u 7 kategorija: ubistvo, silovanje, pljačka,
napad, provala, krađa i krađa automobila. Skup podataka takođe razlikuje zločine prema
regionima: severoistok, srednji zapad, jug i zapad.
Analiza normalizovanih glavnih komponenata znači da su, pre korišćenja analize, sve
slučajne promenljive smeštene u istu tabelu.
Sopstvene vrednosti korelacione matrice su
T,0.13),0.25,0.14,0.63,0.64(4.08,1.43λ ˆ ,
iz čega slede proporcije objašnjenih varijansi
T,1.00),0.96,0.98,0.88,0.93(0.58,0.79ψ ˆ .
Skup podataka je dobro opisan preko prve dve normalizovane glavne komponente i svaka od
njih opisuje više od polovine varijanse slučajnih promenljivih. Prve dve normalizovane glavne
komponente zajedno opisuju 79% ukupne varijanse (Slika 3.5).
Prva dva sopstvena vektora su
T
1 ),0.36,0.35,0.39,0.44(0.28,0.42γ ˆ i
T
2 0.40,0.37)0.46,0.26,0.12,0.05,0.64,(γ ˆ .
51
Slika 3.5. Grafik prve dve komponente sa početnim slučajnim promenljivama u skupu podataka zločina u Americi.
Na slici 3.5 označen je svaki od četiri regiona različitim simbolom. Uočava se da se simboli
približavaju u pravcu druge komponente. U gornjem delu grafika vide se uglavnom krugovi,
kvadrati i krstići koji odgovaraju prvom, drugom i četvrtom regionu. U donjem delu predstavljeni
su većinom trouglovi koji odgovaraju trećem regionu. Stoga, čini se da se u regionu 3 dešava više
ubistva i napada, a manje provala, krađa i krađa automobile, nego u ostalim regionima SAD.
Slika 3.6. Grafik prve dve glavne komponente sa početnim slučajnim promenljivama u skupu podataka zločina u
Americi.
52
Prva glavna komponenta kombinuje broj svih zločina sa približno konstantnom težinom, što
se može tumačiti kao ukupna stopa kriminala (videti korelacije na slici 3.6)
Druga glavna komponenta je u negativnoj korelaciji sa prvom i četvrtom slučajnom
promenljivom (ubistvo i napad) i u pozitivnoj je korelaciji sa petom, šestom i sedmom slučajnom
promenljivom (provala, krađa i krađa automobila). Druga normalizovana glavna komponenta
može biti prikazana kao komponenta pod nazivom “vrsta zločina”.
Primer 3.8 Ponoviti prethodno vežbanje koristeći zdravstvenu bazu podataka u SAD iz
Tabele A.5.
Zdravstvena baza podataka SAD se sastoji od prijavljenih smrtnih slučajeva u 50 država SAD
razvrstanih u 7 kategorija: nesreće, kardiovaskularne bolesti, rak, plućne bolesti, grip, dijabetes i
bolesti jetre.
Ovde smo se odlučili za primenu klasične analize glavnih komponenata. Normalizovana baza
podataka može značiti, u izvesnom smislu, da su svi uzroci smrti podjednako važni.
Bez normalizacije može se očekivati da će slučajne promenljive koje predstavljaju najveći
broj smrtnih ishoda imati najbitniju ulogu u našoj analizi.
Sopstvene vrednosti kovarijacione matrice su
T.47).45,5.76,33,25.21,1089.22,76.0(8069.40,1λ ˆ .
Prva velika sopstvena vrednost pokazuje važnost prve glavne komponente. Računajući
proporcije objašnjenih varijansi
T,1.00),1.00,1.00,0.99,1.00(0.96,0.99ψ ˆ ,
vidimo da prva glavna komponenta opisuje 96% ukupne varijanse. Grafik je predstavljen na slici
3.7.
Prvi (najvažniji) sopstveni vektor je
.ˆ T
1 0.01)0.02,0.03,0.34,0.03,0.06,0.94,(γ
53
Prva glavna komponenta pokazuje da su vodeći uzroci smrti kardiovaskularne bolesti, a
potom i rak.
Slika 3.7. Grafik prve dve komponente sa početnim slučajnim promenljivama u skupu podataka zdravstva u Americi.
Drugi sopstveni vektor
T
2 0.11)0.11,0.09,0.01,0.34,0.86,0.34,(γ ˆ
je u značajno pozitivnoj korelaciji sa brojem smrtnih ishoda prouzrokovanih rakom, a u manje
izraženoj negativnoj korelaciji sa brojem smrtnih ishoda prouzrokovanim kardiovaskularnim i
plućnim bolestima (Slika 2.7). Prva glavna komponenta opisuje na zadovoljavajuć način samo
slučajne promenljive koje opisuju broj smrtnih ishoda prouzrokovanim kardiovaskularnim
bolestima i rakom.
Na slici 3.8 prikazane su vrednosti za prve dve glavne komponente za 50 posmatranih država
SAD. Imajući u vidu značenje glavnih komponenti, primećuje se da se države sa visokom stopom
smrtnosti zbog kardiovaskularnih bolesti i raka nalaze sa desne strane (Florida, Njujork,
Pensilvanija). S tačke gledišta prve glavne komponente, najbolji uslovi za život su u Arkanzasu,
na Havajima, u Novom Meksiku, Vajomingu i Koloradu.
Druga, manje značajna glavna komponenta pokazuje da je rak značajniji uzrok smrti u
Merilendu nego u Južnoj Dakoti.
54
Slika 3.8. Grafik prve dve komponente skupa podataka zdravstva u Americi.
Primer 3.9 Primeniti analizu normalizovanih glavnih komponenata na geopolitički skup
podataka iz Tabele A.6 koja poredi 41 zemlju sa različitim aspektima njihovog razvoja. Ispitati
da li je analiza glavnih komponenata ovde upotrebljiva.
Geopolitički skup podataka sadrži poređenje 41 zemlje prema 10 političkih i ekonomskih
parametara. Mi ćemo izvršiti analizu bez prve slučajne promenljive, veličine populacije. Slučajne
promenljive koje će biti analizirane od X2 do X10 su: bruto unutrašnji proizvod po stanovniku,
stopa rasta stanovništva, stopa gradskog stanovništva, stopa nepismenosti, stopa studenata,
očekivani životni vek, stopa realizovanih prehrambrenih potreba, broj novina i časopisa na 1000
stanovnika i broj televizija na 1000 stanovnika. Očigledno, ove slučajne promenljive se mere na
različitim skalama i kako bi dobili verodostojne podatke baza podataka mora biti normalizovana.
U ovom vežbanju mora se koristiti analiza normalizovanih glavnih komponenata.
Sopstvene vrednosti korelacione matrice su
T,0.08),0.15,0.12,0.43,0.18,0.70,0.54(5.94,0.87λ ˆ ,
a proporcije objašnjene varijanse
T),0.99,1.00,0.94,0.98,0.83,0.89(0.66,0.76ψ ˆ .
55
Slika 3.9. Grafik prve dve komponente i grafik sopstvenih vrednosti skupa podataka geopoliticke karte.
Koeficijenti prve tri normalizovane glavne komponente su predstavljeni preko prva tri
sopstvena vektora
T
1 0.33,0.37)0.37,0.28,0.36,0.30,0.34,0.29,(0.34,γ ˆ ,
T
2 0.19)0.61,0.36,0.20,,0.16,,0.23,0.20(0.41,0.38γ ˆ ,
i T
3 0.49,0.06)0.05,0.14,0.02,0.66,0.34,0.18,0.37,(γ ˆ .
56
Slika 3.10. Grafik prve tri komponente sa početnim promenljivama datim u tabeli A.3.
Korelacije za Y1, Y2, Y3 sa početnim slučajnim promenljivama su prikazane na slici 3.10.
Iz korelacija koje su predstavljane na slici 3.10 može se tumačiti prva glavna komponenta kao
komponenta kvaliteta života. Ova komponenta je u pozitivnoj relaciji sa svim slučajnim
promenljivama osim onih koje prikazuju stopu rasta stanovništva i stopu nepismenosti. Na slici
3.9 može se videti da su visoke vrednosti ove komponente postignute u bivšoj Zapadnoj
Nemačkoj, Kanadi i SAD. Najniže vrednosti ove komponente zabeležene su u Keniji, Kamerunu,
Gabonu i Indiji.
Druga glavna komponenta se uglavnom prikazuje u pravcu suprotnom od pravca stope
realizovanih prehrambenih potreba.
57
Treća glavna komponenta je u pozitivnoj korelaciji sa stopom studenata, a u negativnoj
korelaciji sa brojem novina i časopisa. Sa slike 3.9 može se uočiti da je već jedna glavna
komponenta dovoljna da objasni značajan deo varijanse svih slučajnih promenljivih.
Primer 3.10 Posmatrati slučajnu promenljivu U sa uniformnom raspodelom na [0,1] i vektor
konstanti a=(a1,a2,a3)T ϵ R3. Pretpostaviti da je X=(X1, X2, X3)
T = aU. Ispitati koje vrednosti
normalizovanih glavnih komponenata vektora X se očekuju.
Pretpostavimo da ai≠0, i=1,2,3. Normalizacijom slučajnog vektora X, oduzimanjem njegove
očekivane vrednosti i deljenjem njegovom standardnom devijacijom, dobija se normalizovani
slučajni vektor Z:
,EσdiagEσdiag1/22
U
21/22
U
2UUaaXXaZ
sa varijansnom matricom
.a,asign
aabsaabs
aa
σdiagσσdiag
σdiagVarσdiagVar
1,2,3ji,ji
1,2,3ji,ji
ji
1/22
U
2T2
U
1/22
U
2
1/22
U
21/22
U
2
aaaa
aXaZ
Jasno, rang varijansne matrice Var(Z) ima vrednost 1, iz čega sledi da postoji samo jedna
nenula sopstvena vrednost. Stoga, spektralna dekompozicija Var(Z) dovodi do toga da postoji
samo jedna glavna komponenta koja objašnjava 100% ukupne varijanse vektora Z.
Normalizovana glavna komponenta se može napisati kao
.
3
aabsaabsaabsU
UaasignUaasignUaasign3
1
ZasignZasignZasign3
1Y
321
332211
3322111
58
Zaključujemo da nas analiza normalizovanih glavnih komponenata za X=aU vraća do
jednodimenzionalne slučajne promenljive U.
Primer 3.11 Posmatrati dve nezavisne slučajne promenljive U1 i U2 sa uniformnom
raspodelom na [0,1]. Pretpostaviti da je X=(X1, X2, X3,X4)T gde je X1=U1, X2=U2, X3=U1+U2,
X4=U1-U2 . Odrediti korelacionu matricu ρ vektora X. Koliko postoji glavnih komponenata od
značaja? Pokazati da suT
1 ,1,0)2
1,
2
1(γ ˆ i
T
2 ,0,1)2
1,
2
1(γ ˆ sopstveni vektori od ρ koji
odgovaraju netrivijalnim sopstvenim vrednostima λ1 i λ2. Predstaviti i prve dve normalizovane
glavne komponente.
Za slučajne promenljive U1 i U2 ~ U[0,1] je 2
1)E(U1 i
12
1)Var(U)Var(U 21 . Zatim
sledi da 12
1)Var(X)Var(X 21 .
Za varijansu za X3=U1+U2 i X4=U1-U2 dobija se
6
1)Var(U)Var(U)Var(X)Var(X 2143 ,
jer su U1 i U2 nezavisne.
Kovarijanse se mogu izračunati kao
12
1)U,Cov(U)Var(U)UU,Cov(U)X,Cov(X 21121131 i
0)Var(U)Var(U)UU,UCov(U)X,Cov(X 21212143 .
Preostali elementi varijacione matrice se mogu izračunati na isti način, što dovodi do
.
2011
0211
1110
1101
12
1Var X
59
Ukoliko podelimo svaku vrstu i svaku kolonu kvadratnim korenom odgovarajućeg
dijagonalnog elementa, dobija se sledeća korelaciona matrica
.
102
1
2
1
012
1
2
12
1
2
110
2
1
2
101
ρ
Sada je lako potvrditi da su γ1 i γ2 zaista sopstveni vektori korelacione matrice ρ jer
.11 2γ
0
2
2
2
0
12
12
1
102
1
2
1
012
1
2
12
1
2
110
2
1
2
101
γρ
Slično tome, 22 2γγρ . Ovo, usput, ukazuje da je 2121 γγ2γγρ zbog čega je bilo
koja linearna kombinacija γ1 i γ2 takođe sopstveni vektor od ρ sa istom sopstvenom vrednošću.
Dakle, λ1=λ2=2. Preostale dve sopstvene vredosti λ3 i λ4 su jednake nuli jer je rang
korelacione matrice jednak 2.
Prve dve normalizovane glavne komponente nisu jednako određene. Ukoliko izaberemo
koeficijente γ1 i γ2 i imamo na umu da ovi koeficijenti odgovaraju normalizovanim slučajnim
promenljivama, proističe
)U(U2X2
1X
2
1X
2
1Y 213211 i ).U(U2X
2
1X
2
1X
2
1Y 214212
Normalizovane glavne komponente Y1 i Y2 sada mogu da budu predstavljene kao zbir i
razlika U1 i U2.
60
Primer 3.12 Simulirati uzorak veličine n=50 za slučajnu promenljivu X u primeru 3.11 i
analizirati dobijene rezultate.
Pri izvođenju analize normalizovanih glavnih komponenata za dati skup podataka, dobijaju se
sopstvene vrednosti:
Τ0.00) 0.00, 1.89, (2.11,λ ˆ
i proporcije objašnjene varijanse:
T1.00) 1.00, 1.00, (0.53,ψ ˆ .
Dati brojevi odgovaraju vrednostima λ1=λ2=2 izvedenim u primeru 3.11. Preostale dve
sopstvene vrednosti su jednake nuli zbog linearne zavisnosti u bazi podataka. Grafik je
predstavljen na slici 3.11, gde je jasno pokazano da prve dve normalizovane glavne komponente
objašnjavaju svaka približno 50% varijanse, dok preostale dve ne objašnjavaju ništa.
Slika 3.11. Grafik prve dve komponente i grafik sopstvenih vrednosti simuliranog skupa podataka.
Prva dva sopstvena vektora su
T1 0.650.26,0.64,0.32,γ ˆ
i T2 0.230.67,0.28,0.65,γ ˆ .
61
Dobijene vrednosti za 50 normalizovanih glavnih komponenata su prikazane na Slici 3.11.
Ukoliko se prepišu dobijene normalizovane glavne komponente, tako da odgovaraju početnim
slučajnim promenljivim i zaokružimo koeficijente, dolazi se do toga da je prva normalizovana
glavna komponenta usmerena približno u pravcu U1-2U2, dok je druga normalizovana glavna
komponenta u pravcu 2U1+U2. Rezultat se razlikuje od sopstenih vektora γ1 i γ2 izračunatih u
primeru 3.11, jer γ1 i γ2 nisu jedinstveno određene.
Na slici 3.12 grafički je predstavljena korelacija normalizovanih glavnih komponenti sa
normalizovanim promenljivama X1,…,X4. Korelacije odgovaraju koeficijentima normalizovanih
glavnih komponenti.
Slika 3.12. Grafik prve dve komponente sa početnim promenljivama u simuliranom skupu podataka.
Sve početne slučajne promenljive su savršeno objašnjene dvema normalizovanim glavnim
komponentama, jer sve četiri tačke leže na jediničnom krugu. Izgled simulirane baze podataka se
menja sa svakom simulacijom. Primećuje se da se jedinstvene vrednosti λ̂ ne razlikuju mnogo
pri različitim postavljanjima simulacije.
62
DODATAK A
Tabela A.1 Bankovne novčanice
Slučajne promenljive su sledeće: X1-dužina novčanice, X2-leva visina novčanice, X3-desna
visina novčanice, X4-udaljenost unutrašnjeg okvira do donje ivice, X5-udaljenost unutrašnjeg
okvira do gornje ivice, X6-dužina dijagonale
X1 X2 X3 X4 X5 X6
214.8 131.0 131.1 9.0 9.7 141.0
214.6 129.7 129.7 8.1 9.5 141.7
214.8 129.7 129.7 8.7 9.6 142.2
214.8 129.7 129.6 7.5 10.4 142.0
215.0 129.6 129.7 10.4 7.1 141.8
215.7 130.8 130.5 9.0 10.1 141.4
215.5 129.5 129.7 7.9 9.6 141.6
214.5 129.6 129.2 7.2 10.7 141.7
214.9 129.4 130.2 8.2 11.0 141.9
215.2 130.4 129.6 7.2 10.0 140.7
215.3 130.4 129.8 7.9 11.7 141.8
215.1 129.5 128.6 7.7 10.5 142.2
215.2 130.8 130.0 7.9 10.8 140.6
214.7 129.7 130.2 7.7 10.9 140.2
215.1 129.8 130.6 7.7 10.5 141.2
214.5 129.9 130.4 8.6 9.6 140.3
214.6 129.5 129.8 8.9 10.8 140.6
215.0 129.9 129.4 9.1 10.7 140.1
215.2 130.2 129.3 7.8 11.2 141.3
214.7 130.1 129.6 7.6 9.6 141.2
215.0 129.9 130.2 8.6 9.8 140.7
215.6 129.8 130.5 8.3 10.4 140.6
215.3 129.8 130.6 9.2 10.6 140.5
215.7 130.2 129.6 9.5 10.2 140.2
215.1 129.5 130.3 8.8 10.3 141.1
215.3 129.6 130.4 7.9 10.1 141.0
215.5 129.7 129.8 8.6 10.0 140.3
215.1 129.4 129.6 9.4 9.8 140.2
215.1 129.6 129.8 8.5 11.0 140.5
214.8 130.2 129.6 8.7 10.4 140.6
215.2 129.4 130.4 8.8 10.6 140.2
214.8 129.3 130.5 8.6 10.5 140.3
215.0 129.2 129.4 9.1 10.3 140.8
215.6 129.6 130.2 7.9 10.5 141.2
215.9 129.9 129.6 7.7 10.7 140.3
214.6 129.0 130.2 8.5 10.9 139.8
215.3 129.6 130.5 8.3 9.9 139.6
215.3 130.5 129.5 8.6 10.0 139.3
215.3 130.1 130.5 8.9 9.8 141.2
213.9 129.6 130.4 8.4 10.4 140.3
214.4 129.6 130.5 8.5 10.6 139.6
214.8 129.6 130.6 7.6 10.2 139.7
63
214.8 129.5 130.5 9.5 9.4 140.4
214.9 129.5 130.4 9.4 10.6 140.5
214.8 129.8 130.5 9.2 10.3 140.3
214.3 129.4 130.4 8.7 10.3 139.6
214.8 129.2 130.6 8.8 9.7 139.2
214.8 129.8 129.8 7.9 10.6 139.7
214.6 129.3 129.4 9.3 10.5 141.2
214.5 129.6 130.1 8.6 9.5 141.3
214.6 129.6 129.8 8.2 10.8 141.6
215.3 129.9 129.4 8.3 9.6 139.9
214.5 129.5 129.1 8.7 10.5 140.5
215.4 129.3 129.3 9.3 10.6 140.3
214.3 130.2 129.6 9.5 10.3 141.6
215.2 130.2 129.8 7.7 10.4 139.5
215.7 130.5 130.4 9.0 10.6 139.6
215.0 130.4 129.4 8.9 10.5 141.2
215.1 130.2 130.2 8.4 10.8 141.0
215.1 129.5 130.5 8.7 9.8 139.5
215.1 130.0 130.5 8.6 9.9 140.5
215.3 130.4 130.6 9.5 11.2 140.6
215.3 129.8 129.8 7.6 11.0 140.7
215.4 129.6 129.4 7.9 10.3 139.9
214.5 129.9 129.4 8.9 10.6 139.6
215.0 129.6 129.6 8.6 10.5 139.4
215.2 129.9 130.2 8.4 10.4 139.1
214.6 129.6 130.2 8.3 10.4 139.2
214.8 129.6 130.5 9.1 10.6 140.2
215.1 129.6 130.6 9.0 10.9 140.3
214.9 130.2 130.4 8.9 10.6 139.6
213.8 130.1 130.5 8.5 9.7 139.7
214.2 130.1 130.4 8.7 9.4 139.6
215.0 130.1 129.8 8.3 9.6 140.5
214.4 129.6 129.8 9.2 10.5 140.3
215.2 129.9 130.1 9.1 10.6 140.2
214.1 129.8 130.5 8.6 10.4 139.5
214.9 129.6 130.6 8.1 10.5 139.6
214.6 129.1 130.5 8.0 10.5 141.1
215.2 130.1 130.6 8.9 10.9 139.5
214.1 130.7 130.4 9.1 11.2 139.6
214.9 129.8 130.6 9.0 11.1 141.2
215.2 129.6 129.8 8.7 10.4 141.5
214.2 129.9 129.9 8.3 10.6 141.3
214.4 130.2 129.4 9.1 10.9 140.2
214.1 130.5 129.6 8.6 9.8 140.2
215.2 130.2 130.5 9.2 9.3 140.3
215.0 130.4 130.6 8.5 10.3 141.2
214.9 129.6 130.4 8.7 10.5 141.0
214.6 129.6 130.5 8.8 10.6 139.6
214.8 129.9 130.6 9.1 9.4 139.5
214.6 129.7 129.6 9.2 9.8 139.6
215.0 129.8 129.4 9.0 10.4 140.5
215.4 129.3 129.4 9.2 10.6 140.3
215.2 129.6 129.8 8.6 10.3 140.2
214.6 129.4 130.5 8.3 10.6 139.8
64
214.7 129.7 130.2 7.9 10.6 139.7
214.8 129.6 130.0 8.6 9.8 139.4
215.1 129.8 130.6 9.4 9.7 139.5
215.6 129.9 130.6 9.5 10.5 139.6
214.8 129.4 130.5 7.9 10.4 139.5
214.9 130.0 130.5 8.7 10.6 139.6
215.2 130.2 130.5 8.8 10.5 139.5
214.6 129.6 130.4 8.5 10.4 140.2
213.9 129.3 130.2 8.6 10.6 140.6
215.0 129.9 129.8 8.9 10.5 140.3
214.8 129.4 129.3 9.1 10.5 140.8
214.6 129.4 129.6 8.6 10.8 139.6
215.1 129.6 129.9 9.3 10.6 139.9
215.9 129.7 129.4 9.5 9.8 141.2
214.7 129.5 129.4 8.6 9.7 140.3
215.3 129.9 130.5 9.2 9.6 140.5
214.6 129.7 130.6 9.3 9.4 139.8
214.7 129.9 129.6 7.9 9.8 139.9
214.8 129.5 129.4 8.5 9.6 140.5
215.2 129.6 128.6 8.6 10.5 140.6
214.7 129.6 129.6 8.1 11.2 140.3
215.4 129.6 130.2 9.3 11.0 139.5
215.3 129.3 130.6 9.5 10.7 139.5
214.5 130.2 130.4 9.4 10.4 139.5
214.6 130.2 130.6 9.1 10.6 139.7
214.3 130.7 130.8 8.8 10.4 140.2
214.9 130.6 129.8 8.6 9.8 140.5
215.2 130.5 129.6 8.7 9.6 140.3
214.5 129.8 130.0 8.5 10.4 140.6
214.6 129.6 130.5 8.4 10.2 139.5
213.5 129.3 130.4 8.6 10.6 139.6
214.7 129.6 130.6 7.9 10.4 141.2
214.8 129.7 129.6 9.1 10.5 140.5
214.6 129.9 129.4 8.0 10.5 140.3
215.6 129.9 129.4 9.0 10.8 140.6
214.5 129.8 129.6 8.6 10.9 140.7
214.9 129.7 129.6 8.5 9.6 140.5
215.1 129.6 130.5 8.4 10.4 140.2
215.0 129.3 130.6 8.3 9.8 139.5
215.3 129.6 129.4 8.2 10.3 139.6
215.0 129.9 129.3 8.4 9.7 139.4
214.8 129.6 130.5 8.5 9.6 140.5
214.7 130.1 130.6 8.6 9.4 140.8
214.8 130.2 129.8 8.7 9.7 140.6
214.3 130.2 129.5 8.9 10.0 140.3
214.6 130.4 129.6 8.5 10.2 140.7
215.2 129.9 129.5 8.6 9.6 139.5
215.1 129.6 129.4 8.4 10.5 139.6
215.1 129.9 129.6 8.7 11.0 139.8
214.8 129.5 130.0 8.9 10.3 139.7
215.7 129.4 130.0 8.8 10.6 139.5
215.0 129.9 130.0 9.4 9.5 140.5
214.9 129.3 130.6 9.5 10.5 140.7
215.2 129.7 130.4 8.6 10.4 140.8
65
214.7 129.5 129.6 8.7 9.8 139.6
215.3 129.6 129.3 9.4 9.6 139.8
214.9 129.6 129.4 9.4 10.5 139.6
214.6 129.9 129.6 9.3 10.6 139.8
214.8 .130.0 129.4 9.0 10.4 140.4
214.5 130.5 129.6 8.5 10.4 140.2
214.5 130.1 129.3 8.6 10.6 140.5
214.3 129.6 129.6 9.4 10.3 140.6
215.3 129.6 129.6 9.6 10.8 140.3
214.7 129.9 130.3 8.7 10.7 140.7
214.8 129.3 130.0 8.1 10.9 140.8
214.9 129.7 130.2 8.2 11.0 140.6
215.2 129.5 130.2 8.5 9.8 139.8
215.6 129.6 130.4 8.6 9.4 139.6
214.7 129.6 130.6 8.8 9.6 139.5
214.7 129.6 130.5 8.6 10.6 139.6
214.6 129.9 130.4 8.5 10.2 139.4
214.5 129.4 129.5 9.2 10.1 140.4
215.2 129.1 129.6 9.1 10.7 140.3
214.9 129.3 129.4 9.2 10.4 139.9
215.2 129.5 129.7 9.3 9.8 139.6
214.7 129.5 129.5 9.4 8.9 139.5
214.3 129.6 129.6 8.7 9.6 140.2
215.3 129.5 130.0 8.5 10.4 140.6
214.6 130.2 130.6 8.6 10.3 140.5
215.3 130.1 130.4 8.0 9.5 139.5
215.6 130.6 129.6 9.1 10.4 139.6
213.8 129.8 129.8 8.5 10.2 139.4
214.5 129.9 129.9 7.9 10.6 139.5
214.6 129.8 130.5 7.8 9.6 139.6
214.9 130.5 129.7 9.1 10.4 139.2
215.0 129.6 129.8 9.4 10.5 139.8
215.3 130.0 130.5 8.3 10.8 139.4
215.4 130.2 130.6 8.6 9.8 139.6
215.2 130.5 130.6 8.5 9.9 140.2
214.3 129.4 129.8 8.4 10.4 140.3
214.6 129.6 129.6 8.7 10.2 140..6
214.9 129.6 130.4 9.5 10.3 140.2
214.6 129.6 129.6 8.6 10.8 140.5
214.6 129.3 129.4 8.2 10.7 140.2
214.8 129.6 130.2 8.3 11.2 139.6
214.9 129.6 130.1 8.4 9.8 139.5
215.0 129.5 130.2 8.7 10.4 140.2
215.2 129.5 130.5 8.8 10.5 139.6
215.4 129.6 129.6 9.0 10.4 139.4
214.8 129.6 129.4 9.1 10.6 140.0
215.3 129.6 129.6 8.6 10.2 140.0
214.9 129.6 129.3 8.5 9.8 .139.5
215.6 129.6 129.3 8.7 9.6 139.4
215.3 129.9 129.7 8.5 9.8 139.6
66
Tabela A.2 Ocene automobila
Slučajne promenljive su sledeće: X1-ekonomičnost, X2-servisiranje, X3-vrednost, X4-cena,
X5-dizajn, X6-sportske karakteristike, X7-sigurnost i X8-lako rukovanje.
Tip Model X1 X2 X3 X4 X5 X6 X7 X8
Audi 100 3.9 2.8 2.2 4.2 3.0 3.1 2.4 2.8
BMW 5 series 4.8 1.6 1.9 5.0 2.0 2.5 1.6 2.8
Citroen AX 3.0 3.8 3.8 2.7 4.0 4.4 4.0 2.6
Ferarri 5.3. 2.9 2.2 5.9 1.7 1.1 3.3 4.3
Fiat Uno 2.1 3.9 4.0 2.6 4.5 4.4 4.4 2.2
Ford Fiesta 2.3 3.1 3.4 2.6 3.2 3.3 3.6 2.8
Hyundai 2.5 3.4 3.2 2.2 3.3 3.3 3.3 2.4
Jaguar 4.6 2.4 1.6 5.5 1.3 1.6 2.8 3.6
Lada Samara 3.2 3.9 4.3 2.0 4.3 4.5 4.7 2.9
Mazda 323 2.6 3.3 3.7 2.8 3.7 3.0 3.7 3.1
Mercedes 200 4.1 1.7 1.8 4.6 2.4 3.2 1.4 2.4
Mitsubishi Galant 3.2 2.9 3.2 3.5 3.1 3.1 2.9 2.6
Nissan Sunny 2.6 3.3 3.9 2.1 3.5 3.9 3.8 2.4
Opel Corsa 2.2 2.4 3.0 2.6 3.2 4.0 2.9 2.4
Opel Vectra 3.1 2.6 2.3 3.6 2.8 2.9 2.4 2.4
Peugeot 306 2.9 3.5 3.6 2.8 3.2 3.8 3.2 2.6
Renault 19 2.7 3.3 3.4 3.0 3.1 3.4 3.0 2.7
Rover 3.9 2.8 2.6 4.0 2.6 3.0 3.2 3.0
Toyota Corolla 2.5 2.9 3.4 3.0 3.2 3.1 3.2 2.8
Volvo 3.8 2.3 1.9 4.2 3.1 3.6 1.6 2.4
Trabant 601 3.6 4.7 5.5 1.5 4.1 5.8 5.9 3.1
VW Golf 2.4 2.1 2.0 2.6 3.2 3.1 3.1 1.6
VW Passat 3.1 2.2 2.1 3.2 3.5 3.5 2.8 1.8
Wartburg 1.3 3.7 4.7 5.5 1.7 4.8 5.2 5.5 4.0
Tabela A.3 Atletski rekordi
Zemlja 100m
sekunde
200m
sekunde
400m
sekunde
800m
minuti
1500m
minuti
5000m
minuti
10000m
minuti
Maraton
Minuti
Argentina 10.39 20.81 46.84 1.81 3.70 14.34 29.36 137.71
Australia 10.31 20.06 44.84 1.74 3.57 13.28 27.66 128.30
Austria 10.44 20.81 46.82 1.79 3.60 13.26 27.72 135.90
Belgium 10.34 20.68 45.04 1.73 3.60 13.22 27.45 129.95
Bermuda 10.28 20.58 45.91 1.80 3.75 14.68 30.55 146.61
Brazil 10.22 20.43 45.21 1.73 3.66 13.62 28.62 133.13
Burma 10.64 21.52 48.30 1.80 3.85 14.45 30.82 139.95
Canada 10.17 20.22 45.68 1.76 3.63 13.55 28.09 130.15
Chile 10.34 20.80 46.20 1.79 3.71 13.61 29.30 134.03
China 10.51 21.04 47.30 1.81 3.73 13.90 29.13 133.53
Columbia 10.43 21.05 46.10 1.82 3.74 13.49 27.88 131.35
Cook Is. 12.18 23.20 52.94 2.02 4.24 16.70 35.38 164.70
Costa R. 10.94 21.90 48.66 1.87 3.84 14.03 28.81 136.58
Czech R. 10.35 20.65 45.64 1.76 3.58 13.42 28.19 134.32
Denmark 10.56 20.52 45.89 1.78 3.61 13.50 28.11 130.78
Dom R. 10.14 20.59 46.80 1.82 3.82 14.91 31.45 154.12
Finland 10.43 20.69 45.49 1.74 3.61 13.27 27.52 130.87
67
France 10.11 20.38 45.28 1.73 3.57 13.34 27.97 132.30
GDR 10.12 20.33 44.87 1.73 3.56 13.17 27.42 129.92
FRG 10.16 20.37 44.50 1.73 3.53 13.21 27.61 132.23
GB 10.11 20.21 44.93 1.70 3.51 13.01 27.51 129.13
Greece 10.22 20.71 46.56 1.78 3.64 14.59 28.45 134.60
Guatemala 10.98 21.82 48.40 1.89 3.80 14.16 30.11 139.33
Hungary 10.26 20.62 46.02 1.77 3.62 13.49 28.44 132.58
India 10.60 21.42 45.73 1.76 3.73 13.77 28.81 131.98
Indonesia 10.59 21.49 47.80 1.84 3.92 14.73 30.79 148.83
Ireland 10.61 20.96 46.30 1.79 3.56 13.32 27.81 132.35
Israel 10.71 21.00 47.80 1.77 3.72 13.66 28.93 137.55
Italy 10.01 19.72 45.26 1.73 3.60 13.23 27.52 131.08
Japan 10.34 20.81 45.86 1.79 3.64 13.41 27.72 128.63
Kenya 10.46 20.66 44.92 1.73 3.55 13.10 27.80 129.75
Korea 10.34 20.89 46.90 1.79 3.77 13.96 29.23 136.25
P. Korea 10.91 21.94 47.30 1.85 3.77 14.13 29.67 130.87
Luxemburg 10.35 20.77 47.40 1.82 3.67 13.64 29.08 141.27
Malaysia 10.40 20.92 46.30 1.82 3.80 14.64 31.01 154.10
Mauritius 11.19 33.45 47.70 1.88 3.83 15.06 31.77 152.23
Mexico 10.42 21.30 46.10 1.80 3.65 13.46 27.95 129.20
Netherlands 10.52 29.95 45.10 1.74 3.62 13.36 27.61 129.02
NZ 10.51 20.88 46.10 1.74 3.54 13.21 27.70 128.98
Norway 10.55 21.16 46.71 1.76 3.62 13.34 27.69 131.48
PNG 10.96 21.78 47.90 1.90 4.01 14.72 31.36 148.22
Philippines 10.78 21.64 46.24 1.81 3.83 14.74 30.64 145.27
Poland 10.16 20.24 45.36 1.76 3.60 13.29 27.89 131.58
Portugal 10.53 21.17 46.70 1.79 3.62 13.13 27.38 128.65
Romania 10.41 20.98 45.87 1.76 3.64 13.25 27.67 132.50
Singapure 10.38 21.28 47.40 1.88 3.89 15.11 31.32 157.77
Spain 10.42 20.77 45.98 1.76 3.55 13.31 27.73 131.57
Sweden 10.25 20.61 45.63 1.77 3.61 13.29 27.94 130.63
Switzerland 10.37 20.45 45.78 1.78 3.55 13.22 27.91 131.20
Tapei 10.59 21.29 46.80 1.79 3.77 14.37 30.07 139.27
Thailand 10.39 21.09 47.91 1.83 3.84 15.23 32.56 149.90
Turkey 10.71 21.43 47.60 1.79 3.67 13.56 28.58 131.50
USA 9.93 19.75 43.86 1.73 3.53 13.20 27.43 128.22
SSSR 10.07 20.00 44.60 1.75 3.59 13.20 27.53 130.55
W Samoa 10.82 21.86 49.00 2.02 4.24 16.28 34.71 161.83
68
Tabela A.4 Kriminal u Sjedinjenim Američkim Državama
Slučajne promenljive su sledeće: X1-površina teritorije, X2-populacija stanovništva, X3-
ubistvo, X4-silovanje, X5-pljačka, X6-napad, X7-provala, X8-krađa, X9-krađa automobila, X10-broj
regiona države i X11-broj divizije države.
Divizija Broj divizije Region Broj regiona
Nova Engleska 1 Severoistok 1
Srednji Atlantik 2 Srednji zapad 2
SI Centralna 3 Jug 3
SZ Centralna 4 Zapad 4
Južni Atlantik 5
JI Centralna 6
JZ Centralna 7
Planinska 8
Pacifik 9
Država X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
ME 33265 1164 1.5 7.0 12.6 62 562 1055 146 1 1
NH 9279 998 2.0 6.0 12.1 36 566 929 172 1 1
VT 9614 535 1.3 10.3 7.6 55 731 969 124 1 1
MA 8284 5822 3.5 12.0 99.5 88 1134 1531 878 1 1
RI 1212 968 3.2 3.6 78.3 120 1019 2186 859 1 1
CT 5018 3174 3.5 9.1 70.4 87 1084 1751 484 1 1
NY 49108 17783 7.9 15.5 443.3 209 1414 2025 682 1 2
NJ 7787 7562 5.7 12.9 169.4 90 1041 1689 557 1 2
PA 45308 11853 5.3 11.3 106.0 90 594 11 340 1 2
OH 41330 10744 6.6 16.0 145.9 116 854 1944 493 2 3
IN 36185 5499 4.8 17.9 107.5 95 860 1791 429 2 3
IL 56345 11535 9.6 20.4 251.1 187 765 2028 518 2 3
MI 58527 9088 9.4 27.1 346.6 193 1571 2897 464 2 3
WI 56153 4775 2.0 6.7 33.1 44 539 1860 218 2 3
MN 84402 4193 2.0 9.7 89.1 51 802 1902 346 2 4
IA 56275 2884 1.9 6.2 28.6 48 507 1743 175 2 4
MO 69697 5029 10.7 27.4 2.8 167 1187 2074 538 2 4
ND 70703 685 0.5 6.2 6.5 21 286 1295 91 2 4
SD 77116 708 3.8 11.1 17.1 60 471 1396 94 2 4
NE 77355 1606 3.0 9.3 57.3 115 505 1572 292 2 4
KS 82277 2450 4.8 14.5 75.1 108 882 2302 257 2 4
DE 2044 622 7.7 18.6 105.5 196 1056 2320 559 3 5
MD 10460 4392 9.2 23.9 338.6 253 1051 2417 548 3 5
VA 40767 5706 8.4 15.4 92.0 143 806 1980 297 3 5
WV 24231 1936 6.2 6.7 27.3 84 389 774 92 3 5
NC 52669 6255 11.8 12.9 53.0 293 766 1338 169 3 5
SC 31113 3347 14.6 18.1 60.1 193 1025 1509 256 3 5
GA 58910 5976 15.3 10.1 95.8 177 9 1869 309 3 5
FL 58664 11366 12.7 22.2 186.1 277 1562 2861 397 3 5
KY 40409 3726 11.1 13.7 72.8 123 704 1212 346 3 6
TN 42144 4762 8.8 15.5 82.0 169 807 1025 289 3 6
AL 51705 4021 11.7 18.5 50.3 215 763 1125 223 3 6
MS 47689 2613 11.5 8.9 19.0 140 351 694 78 3 6
AR 53187 2359 10.1 17.1 45.6 150 885 1211 109 3 7
69
LA 47751 4481 11.7 23.1 140.8 238 890 1628 385 3 7
OK 69956 3301 5.9 15.6 54.9 127 841 1661 280 3 7
TX 266807 16370 11.6 21.0 134.1 195 1151 2183 394 3 7
MT 147046 826 3.2 10.5 22.3 75 594 1956 222 4 8
ID 83564 15 4.6 12.3 20.5 86 674 2214 144 4 8
WY 97809 509 5.7 12.3 22.0 73 646 2049 165 4 8
CO 104091 3231 6.2 36.0 129.1 185 1381 2992 588 4 8
NM 121593 1450 9.4 21.7 66.1 196 1142 2408 392 4 8
AZ 1140 3187 9.5 27.0 120.2 214 1493 3550 501 4 8
UT 84899 1645 3.4 10.9 53.1 70 915 2833 316 4 8
NV 110561 936 8.8 19.6 188.4 182 1661 3044 661 4 8
WA 68138 4409 3.5 18.0 93.5 106 1441 2853 362 4 9
OR 97073 2687 4.6 18.0 102.5 132 1273 2825 333 4 9
CA 158706 26365 6.9 35.1 206.9 226 1753 3422 689 4 9
AK 5914 521 12.2 26.1 71.8 168 790 2183 551 4 9
HI 6471 1054 3.6 11.8 63.3 43 1456 3106 581 4 9
Tabela A.5 Zdravstveni skup podataka u SAD-u
Slučajne promenljive su sledeće: X1-površina zemljišta, X2-populacija stanovništva, X3- broj
smrtnih ishoda uzrokovanim nesrećama, X4-broj smrtnih ishoda uzrokovanim kardiovaskularnim
bolestima, X5- broj smrtnih ishoda uzrokovani rakom, X6- broj smrtnih ishoda uzrokovanim
plućnim bolestima, X7- broj smrtnih ishoda uzrokovanim gripom, X8- broj smrtnih ishoda
uzrokovanim dijabetesom, X9- broj smrtnih ishoda uzrokovanim bolestima jetre, X10-broj
doktora, X11-broj bolnica, X12-broj regiona države i X13-broj divizije države.
Divizija Broj divizije Region Broj regiona
Nova Engleska 1 Severoistok 1
Srednji Atlantik 2 Srednji zapad 2
SI Centralna 3 Jug 3
SZ Centralna 4 Zapad 4
Južni Atlantik 5
JI Centralna 6
JZ Centralna 7
Planinska 8
Pacifik 9
Dr. X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13
ME 33265 1164 37.7 466.2 213.8 33.6 21.1 15.6 14.5 1773 47 1 1
NH 9279 998 35.9 395.9 182.2 29.6 20.1 17.6 10.4 1612 34 1 1
VT 9614 535 41.3 433.1 188.1 33.1 24.0 15.6 13.1 1154 19 1 1
MA 8284 5822 31.1 460.6 219.0 24.9 29.7 16.0 13.0 16442 177 1 1
RI 1212 968 28.6 474.1 231.5 27.4 17.7 26.2 13.4 2020 21 1 1
CT 5018 3174 35.3 423.8 205.1 23.2 22.4 15.4 11.7 876 65 1 1
NY 49108 17783 31.5 499.5 209.9 23.9 26.0 17.1 17.7 49304 338 1 2
NJ 7787 7562 32.2 464.7 216.3 23.3 19.9 17.3 14.2 15120 131 1 2
PA 45308 11853 34.9 508.7 223.6 27.0 20.1 20.4 12.0 23695 307 1 2
OH 41330 10744 33.2 443.1 198.8 27.4 18.0 18.9 10.2 18518 236 2 3
IN 36185 5499 37.7 435.7 184.6 27.2 18.6 17.2 8.4 7339 133 2 3
IL 56345 11535 32.9 449.6 193.2 22.9 21.3 15.3 12.5 22173 279 2 3
MI 58527 9088 34.3 420.9 182.3 24.2 18.7 14.8 13.7 15212 231 2 3
WI 56153 4775 33.8 444.3 189.4 22.5 21.2 15.7 8.7 7899 163 2 3
70
MN 84402 4193 35.7 398.3 174.0 23.4 25.6 13.5 8.1 8098 181 2 4
IA 56275 2884 38.6 490.1 199.1 31.2 28.3 16.6 7.9 3842 140 2 4
MO 69697 5029 42.2 475.9 211.1 29.8 25.7 15.3 9.6 8422 169 2 4
ND 70703 685 48.2 401.0 173.7 18.2 25.9 14.9 7.4 936 58 2 4
SD 77116 708 53.0 495.2 182.1 30.7 32.4 12.8 7.2 833 68 2 4
NE 77355 1606 40.8 479.6 187.4 31.6 28.3 13.5 7.8 2394 110 2 4
KS 82277 2450 42.9 455.9 183.9 32.3 24.9 16.9 7.8 3801 165 2 4
DE 2044 622 38.8 404.5 202.8 25.3 16.0 25.0 10.5 1046 14 3 5
MD 10460 4392 35.2 366.7 195.0 23.4 15.8 16.1 9.6 11961 85 3 5
VA 40767 5706 37.4 365.3 174.4 22.4 20.3 11.4 9.2 9749 135 3 5
WV 24231 1936 46.7 502.7 199.6 35.2 20.1 18.4 10.0 2813 75 3 5
NC 52669 6255 45.4 392.6 169.2 22.6 19.8 13.1 10.2 9355 159 3 5
SC 31113 3347 47.8 374.4 156.9 19.6 19.2 14.8 9.0 4355 89 3 5
GA 58910 5976 48.2 371.4 157.9 22.6 20.5 13.2 10.4 8256 191 3 5
FL 58664 11366 46.0 501.8 244.0 34.0 18.3 16.1 17.2 18836 254 3 5
KY 40409 3726 48.8 442.5 194.7 29.8 22.9 15.9 9.1 5189 120 3 6
TN 42144 4762 45.0 427.2 185.6 27.0 20.8 12.0 8.3 7572 162 3 6
AL 51705 4021 48.9 411.5 185.8 25.5 16.8 16.1 9.1 5157 146 3 6
MS 47689 2613 59.3 422.3 173.9 21.7 19.5 14.0 7.1 2883 118 3 6
AR 53187 2359 51.0 482.0 202.1 29.0 22.7 15.0 8.7 2952 97 3 7
LA 47751 4481 52.3 390.9 168.1 18.6 15.8 17.8 8.3 7061 158 3 7
OK 69956 3301 62.5 441.4 182.4 27.6 24.5 15.3 9.6 4128 143 3 7
TX 266807 16370 48.9 327.9 146.5 20.7 17.4 12.1 8.7 23481 562 3 7
MT 147046 826 59.0 372.2 10.7 33.4 25.1 14.4 11.1 1058 67 4 8
ID 83564 15.0 51.5 324.8 140.4 29.9 22.3 12.4 9.2 1079 52 4 8
WY 97809 509 67.6 264.2 112.2 27.7 18.5 9.2 9.2 606 31 4 8
CO 104091 3231 44.7 280.2 125.1 29.9 22.8 9.6 9.5 5899 98 4 8
NM 121593 1450 62.3 235.6 137.2 28.7 17.8 17.5 13.1 2127 56 4 8
AZ 1140 3187 48.3 331.5 165.5 36.3 21.2 12.6 13.1 5137 79 4 8
UT 84899 1645 39.3 242.0 93.7 17.6 14.5 11.1 7.3 2563 44 4 8
NV 110561 936 57.3 299.5 162.3 32.3 13.7 11.1 15.4 1272 26 4 8
WA 68138 4409 41.4 358.1 171.0 31.1 21.2 13.0 10.9 7768 122 4 9
OR 97073 2687 41.6 387.8 179.4 33.8 23.1 11.2 10.4 4904 83 4 9
CA 158706 26365 40.3 357.8 173.0 26.9 22.2 10.7 16.7 57225 581 4 9
AK 5914 521 85.8 114.6 76.1 8.3 12.4 3.4 11.0 545 26 4 9
HI 6471 1054 32.5 216.9 125.8 16.0 16.8 12.7 6.2 1953 26 4 9
Tabela A.6 Geopolitički skup podataka
Slučajne promenljive su sledeće: X1-veličina populacije, X2-bruto unutrašnji proizvod po
stanovniku, X3-stopa rasta stanovništva, X4-stopa gradskog stanovništva, X5-stopa nepismenosti,
X6-stopa studenata, X7-očekivani životni vek, X8-stopa realizovanih prehrambrenih potreba, X9-
broj novina i časopisa na 1000 stanovnika i X10-broj televizija na 1000 stanovnika.
Zemlja X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
AFS 37 2492 2 58.9 44 1.08 60 120 48 98
ALG 24.6 1960 3 44.7 50.4 0.73 64 112 21 71
BRD 62 19160 0.4 86.4 2 2.72 72 145 585 759
GBR 57.02 14575 0.04 92.5 2.2 1.9 75 128 421 435
ARS 14.4 5980 2.7 77.3 48.9 0.91 63 125 34 269
ARG 32.4 2130 1.6 86.2 6.1 2.96 71 136 82 217
71
AUS 16.81 16830 1.4 85.5 5 2.5 76 125 252 484
AUT 7.61 16693 0 57.7 1.5 2.52 74 130 362 487
BEL 9.93 15243 0.2 96.9 3 2.56 74 150 219 320
CAM 11 1120 2.7 49.4 58.8 0.17 53 88 6 12
CAN 26.25 20780 0.9 76.4 1 6.89 77 129 321 586
CHL 12.95 1794 1.6 85.6 8.9 1.73 71 106 67 183
CHN 1119 426 1.1. 21.4 34.5 0.16 69 111 36 24
CUB 10.5 1050 0.8 74.9 3.8 2.38 75 135 129 203
DAN 5.13 20570 0.4 86.4 1.5 2.38 75 131 359 526
EGY 52.52 665 2.5 48.8 61.8 1.67 59 132 39 84
ESP 39.24 9650 0.4 78.4 4.2 2.55 77 137 75 380
FRA 56.1 16905 0.4 74.1 2 2.63 76 130 193 399
GAB 1.1 3000 4 45.7 60 0.36 52 107 14 23
GRE 10 5370 0.3 62.6 9.5 1.89 76 147 102 175
HOK 5.75 10900 0 100 22.7 1.34 77 121 521 247
HON 10.6 23.30 -0.1 60.3 1.1 0.93 70 135 273 404
IND 810 317 1.9 28 59.2 0.55 57 100 28 7
IDO 179 454 2 28.8 32.7 0.55 60 116 21 41
ISR 4.47 9800 1.4 91.6 8.2 2.62 75 118 253 276
ITA 57.55 15025 0.1 68.6 3.5 2.25 75 139 105 419
JAP 123.2 22825 0.6 77 3 2.1 78 122 566 589
KEN 23.88 400 3.8 23.6 69 0.11 58 92 13 6
MAR 24.51 800 2.2 48.5 78.6 0.86 61 118 12 55
MEX 84.3 2096 2.5 72.6 17 1.55 68 120 124 124
NOR 4.2 22060 0.3 74.4 2 2.74 77 124 551 350
PER 21.75 1899 2.1 70.2 18.1 2.04 61 93 31 85
POL 38 1740 0.9 63.2 1.2 1.3 71 134 184 263
POR 10.5 43.04 0.6 33.3 20.6 1.99 74 128 70 160
SUE 8.47 22455 0.1 84 1.5 2.21 77 113 526 395
SUI 6.7 26025 0.5 59.6 1 1.87 77 128 504 408
THA 55.45 1130 1.9 22.6 12 1.59 65 105 46 104
URS 289 6020 0.8 67.5 2 1.76 69 133 474 319
USA 247.5 20765 1 74 0.5 5.01 75 138 259 812
VEN 19.2 3220 2.5 90 15.3 2.6 69 102 164 147
YOU 23.67 2599 0.7 50.2 10.4 1.44 72 139 100 179
72
LITERATURA
1. An introduction to multivariate statistical Analysis, Third edition, 2003, T.W.Anderson
2. Applied multivariate statistical analysis, Second edition, 2003, W. Härdle, L.Simar
3. Applied multivariate statistical analysis, Sixth edition, 2007, Richard A. Johnson, Dean W.
Wichern
4. Multivariate statistics: Exercises and solutions, 2007, W. Härdle, Z. Hlávka
73
BIOGRAFIJA
Bojan Lakić je rođen 08.07.1988. godine u Nišu. Završio je osnovnu školu ,,Ljupče Nikolić“
u Aleksincu 2003. godine kao nosilac Vukove diplome. Aleksinačku gimnaziju je završio 2007.
godine sa odličnim uspehom. Osnovne akademske studije je upisao 2007. godine na Prirodno-
matematičkom fakultetu u Nišu, studijski program Matematika, koje je završiо 2013. godine. Iste
godine upisao je master akademske studije na istom fakultetu, smer Primenjena matematika,
modul Matematika u finansijama.
74
Прилог 5/1
ПРИРОДНO – MАТЕМАТИЧКИ ФАКУЛТЕТ
НИШ
КЉУЧНА ДОКУМЕНТАЦИЈСКА ИНФОРМАЦИЈА
Редни број, РБР:
Идентификациони број, ИБР:
Тип документације, ТД: монографска
Тип записа, ТЗ: текстуални
Врста рада, ВР: мастер рад
Аутор, АУ: Бојан Лакић
Ментор, МН: Александар Настић
Наслов рада, НР: АНАЛИЗА ГЛАВНИХ КОМПОНЕНАТА И ПРИМЕНЕ
Језик публикације, ЈП: српски
Језик извода, ЈИ: енглески
Земља публиковања, ЗП: Р. Србија
Уже географско подручје, УГП: Р. Србија
Година, ГО: 2018.
Издавач, ИЗ: ауторски репринт
Место и адреса, МА: Ниш, Вишеградска 33.
Физички опис рада, ФО: (поглавља/страна/ цитата/табела/слика/графика/прилога)
73 стр.
Научна област, НО: Математика
Научна дисциплина, НД: Математичка статистика
Предметна одредница/Кључне речи, ПО: Анализа главних компонената, спектрална
декомпозиција матрице
УДК 519.23
519.237.7
519.213.1
512.643
Чува се, ЧУ: библиотека
Важна напомена, ВН:
75
Извод, ИЗ: Анализа главних компонената спада у ред
најзначајнијих метода вишедимензионе сtатистичке
анализе. У овом раду, након упознавања са
фундаменталним резултатима мултиваријационе
анализе, биће размотрен поменути модел, методе за
оцењивање непознатих параметара, као и његова
примена у анализи стварних података.
Датум прихватања теме, ДП:
Датум одбране, ДО:
Чланови комисије, КО: Председник: Др Миодраг Ђорђевић
Члан: Др Мирослав Ристић
Члан, ментор: Др Александар Настић
76
Прилог 5/2
ПРИРОДНО - МАТЕМАТИЧКИ ФАКУЛТЕТ
НИШ
KEY WORDS DOCUMENTATION
Accession number, ANO:
Identification number, INO:
Document type, DT: monograph
Type of record, TR: textual
Contents code, CC: Master thesis
Author, AU: Bojan Lakić
Mentor, MN: Aleksandar Nastić
Title, TI: PRINCIPAL COMPONENT ANALYSIS AND
APPLICATIONS
Language of text, LT: Serbian
Language of abstract, LA: English
Country of publication, CP: Republic of Serbia
Locality of publication, LP: Serbia
Publication year, PY: 2018
Publisher, PB: author’s reprint
Publication place, PP: Niš, Višegradska 33.
Physical description, PD: (chapters/pages/ref./tables/pictures/graphs/appendixes)
73 p.
Scientific field, SF: Mathematics
Scientific discipline, SD: Mathematical statistics
Subject/Key words, S/KW: Principal component analysis, spectral decomposition of
the matrix
UC 519.23
519.237.7
519.213.1
512.643
Holding data, HD: library
Note, N:
77
Abstract, AB: Principal component analysis is one of the most important
methods of multidimensional statistical analysis. In this
paper, after learning about the fundamental results of the
multivariate analysis, this model will be considered,
methods for estimating unknown parameters will be
considered, as well as its application in the analysis of
actual data.
Accepted by the Scientific Board on, ASB:
Defended on, DE:
Defended Board, DB: President: Dr Miodrag Đorđević
Member: Dr Miroslav Ristić
Member, Mentor: Dr Aleksandar Nastić