75
www.puskice.co.yu dipl. ing. Zoran Radojičić LINEARNI STATISTIČKI MODELI www.puskice.co.yu

LINEARNA STATISTIČKA ANALIZA

Embed Size (px)

DESCRIPTION

st

Citation preview

Page 1: LINEARNA STATISTIČKA ANALIZA

www.puskice.co.yu

dipl. ing. Zoran Radojičić

LINEARNI STATISTIČKI MODELI

www.puskice.co.yu

Page 2: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

SADRŽAJ:

1. Elementi matrične algebre 51.1 Vektori 51.2 Matrice 61.3 Neke važnije osobine matrica 11

2. Vrste podataka i merne skale 123. Višedimenzionalne slučajne promenljive 15

3.1 Sredina i kovarijaciona matrica 153.2 Podela vektora 163.3 Uzoračka sredina i kovarijaciona matrica 173.4 Nekoliko važnijih osobina uzoračke sredine i kovarijacione matrice 24

4. Metoda glavnih komponenti 294.1 Definicija glavnih komponenti 30

5. Faktorska analiza 385.1 Istorijat 395.2 Model faktorske analize 405.3 Metode izdvajanja faktora (metode ocenjivanja) 46

5.3.1 Metoda glavnih komponenti 46 5.3.2 Metoda glavnih faktora 50

6. Klaster analiza 547. Rešeni zadaci 598. Literatura 66

www.puskice.co.yu

- 2 -

Page 3: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

1. ELEMENTI MATRIČNE ALGEBRE

1.1 Vektori

Niz x realnih brojeva x1, x2, ..., xn se naziva vektor i piše

xxxxn

1

2

ili

x x x xn1 2

ili

x x x xn 1 2

pri čemu se poslednja operacija naziva transponovanje kolone u vrstu.Nad vektorima x i y su definisane sledeće operacije:

cxcxcxcxn

1

2

x yxxx

yyy

x yx yx yn n n n

1

2

1

2

1 1

2 2

x y x y x y x yn n1 1 2 2 ... (unutrašnji proizvod)

x x x x xn12

22 2... .

- 3 -

Page 4: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

Za dva vektora x i y koji su iste dimenzije se kaže da su linearno zavisni ako postoje konstante c1 i c2 različite od nule takve da je

c x c y1 2 0 .

U opštem slučaju, za skup vektora x1, x2, ..., xk se kaže da su linearno zavisni ako postoje konstante c1, c2, ..., ck koje nisu sve jednake nuli tako da je

c x c x c xk k1 1 2 2 0 ... .

Linearna zavisnost implicira da se barem jedan vektor iz skupa može predstaviti kao linearna kombinacija ostalih.

Dužina vektora x, u oznaci Lx se definiše kao

L x x x x xx n 12

22 2... .

1.2 Matrice

Matrica je pravougaona šema sastavljena od p redova (vrsta) i n kolona sa pn elemenata:

Aa a aa a aa a a

ap n

n

n

p p pn

ij p n( )

11 12 1

21 22 2

1 2

.

Transponovana matrica A' se dobija uzajamnom razmenom mesta redova i kolona i to onim redom kako se javljaju u matrici A

A

a a aa a aa a a

An p

p

p

n n pn

T

( )

11 21 1

12 22 2

1 2

.

Množenje matrice konstantom c:

c Aca ca caca ca caca ca ca

p n

n

n

p p pn

( )

11 12 1

21 22 2

1 2

.

Dve matrice A i B istih dimenzija se mogu sabrati:

A B a b a bij p n ij p n ij ij p n

Da bi se dve matrice A i B mogle međusobno pomnožiti, neophodno je da budu saglasne, tj. da matrica A ima onoliko kolona koliko matrica B ima redova:

www.puskice.co.yu

- 4 -

Page 5: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

A B Cp k k n p n( ) ( ) ( )

, tj. c a bij il ljl

k

1

.

Kvadratna matrica je simetrična ako je A=A' odnosno aij=aji i,j.

Primer 1.1:

matrica 3 55 2

je simetrična,

matrica 3 64 2

nije simetrična.

Nula matrica predstavlja matricu čiji su svi elementi jednaki nuli i može biti bilo kog tipa:

00 0 00 0 00 0 0

.

Jedinična matrica I predstavlja matricu kod koje su svi članovi na glavnoj dijagonali jednaki jedinici a svi ostali nuli:

I

1 0 00 1 00 0 1

.

Determinanta kvadratne matrice ima formu

det A Aa a aa a aa a a

n

n

n n nn

11 12 1

21 22 2

1 2

.

Minor elementa aij u determinanti A je determinanta reda n-1 koja se dobija iz det A kada se izbrišu njena i-ta vrsta i j-ta kolona.

Rang matrice je definisan kao veličina najveće determinante koja je različita od nule i koja se može formirati od matrice A. Drugačije rečeno, rang matrice je najveći red minora te matrice koji je različit od nule.

Za kvadratnu matricu se kaže da je singularna ako je njena determinanta jednaka nuli. Ako je det A0, kvadratna matrica A je regularna (nesingularna). Matrica je sigurno singularna u sledećim slučajevima:

ako su svi elementi jedne vrste ili kolone jednaki nuli, ako su vrste ili kolone matrice linearno zavisne.

Singularna matrica nema svoju inverznu matricu.Kvadratna matrica A-1 se naziva inverzna matrica date kvadratne matrice A ako je:

A A AA I 1 1 .

- 5 -

Page 6: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

Za svaku dijagonalnu matricu

Dd

ddn

1

2

0 00 00 0

čiji su svi dijagonalni elementi di0, inverzna će biti:

D

d

d

dn

1

1

2

1 0 0

0 1 0

0 0 1

.

Pozitivno definitna matrica je takva kvadratna matrica A koja ima osobinu da je odgovarajuća kvadratna forma

X AX 0

za svaki vektor X0.Ako važi relacija

X AX 0

tada se matrica A, kao i odgovarajuća kvadratna forma, naziva pozitivno semidefinitnom. Ako je simetrična matrica A pozitivno definitna onda je i matrica A-1 pozitivno definitna. Pozitivno definitna matrica A je regularna, tj. det A0.

Neka je A(kk) kvadratna matrica i I(kk) jedinična matrica. Skalari 1, 2, ..., k koji zadovoljavaju jednačinu

A I 0 odnosno det( )A I 0 ()

nazivaju se karakteristični koreni matrice A. Jednačina () se naziva karakteristična jednačina.

Primer 1.2:

Za sledeću matricu

A

1 01 3

se dobijaju dva karakteristična korena:

A I

1 01 3

1 00 1

1 01 3

1 3 0( )( )

www.puskice.co.yu

- 6 -

Page 7: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

1 21 3 , .

Primer 1.3:

A

A I

13 4 24 13 22 2 10

13 4 24 13 22 2 10

1 0 00 1 00 0 1

13 4 24 13 22 2 10

36 405 1458 0

9 9 18

3 2

1 2 3

, , .

Neka je A matrica dimenzije kk i njen karakteristični koren. Tada, ako važi

xk k( ) ( )

1 1

0 i Ax x

za x se kaže da predstavlja karakteristični vektor matrice A pridružen karakterističnom korenu .

Ekvivalentan uslov je:

( )A I x 0 .

Primer 1.4:

Odrediti karakteristične vektore matrice

A

1 01 3

Iz prethodnog primera smo dobili da je 1=1 i 2=3.

Ax xxx

xx

xx

xx

x xx x x x x

11

21

1

2

1

2

1

2

1 1

1 2 2 1 2

1 01 3

1 01 3

1

3 2

()

Ax xxx

xx

xx

xx

x xx x x x

21

22

1

2

1

2

1

2

1 1

1 2 2 1

1 01 3

1 01 3

3

33 3 0

()

- 7 -

Page 8: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

Iz () sledi da ima beskonačno mnogo rešenja za x1 i x2. Tako, ako uzmemo da je x2=1 dobijamo da je x1=-2, tj.

x

21

karakteristični vektor koji odgovara karakterističnom korenu 1=1.Iz izraza () dobijamo da je x1=0 a za x2 uzimamo proizvoljnu vrednost 1 i dobijamo

x

01

karakterističan vektor koji odgovara karakterističnom korenu 2=3.

1.3 Neke važnije osobine matrica

Neka su A i B kk kvadratne matrice. Tada važi:

a) A A '

b) Ako su svi elementi jedne vrste (kolone) matrice A jednaki nuli, tada je:

A 0

c) Ako su bilo koje dve vrste (kolone) matrice A identične, tada je:

A 0

d) Ako je A nesingularna matrica, tada je:

AA

11 , tj. | || |A A 1 1

e) AB A B

f) cA c Ak , gde je c skalar.

Neka je A kk kvadratna matrica. Trag matrice A, u oznaci tr(A) je jednak zbiru elemenata na glavnoj dijagonali:

tr A aiii

k

( )

1.

Neka su A i B kk kvadratne matrice i c skalar. Tada važi:

a) tr cA c tr A( ) ( )b) tr A B tr A tr B( ) ( ) ( ) c) tr AB tr BA( ) ( )d) tr B AB tr A( ) ( ) 1

www.puskice.co.yu

- 8 -

Page 9: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

e) tr AA ai

k

ijj

k

( )

1

2

1

2. VRSTE PODATAKA I MERNE SKALE

Statistička obeležja mogu biti kvantitativna i kvalitativna (nominalna). Kvantitativna obeležja se dele na neprekidna (jedinica mere se može beskonačno deliti) i prekidna.

X X X X pp

T 1 2 1, vektor obeležja (promenljivih),

E e e e N pN 1 2, ,..., , skup jedinica posmatranja (entiteta).

Primer 2.1:

Iz skupa objekata (skup ljudi) izabrana su 3 objekta (3 muškarca) stara između 30 i 40 godina i nazvana ej, ek i eq. Pretpostavimo da nas o objektima ej, ek i eq zanimaju sledeće karakteristike:

X1 - broj dece (dobijen brojanjem)X2 - broj članova uže porodice (dobijen brojanjem)X3 - telesna masa (dobijena merenjem u gramima)X4 - inteligencija (kao broj rešenih zadataka od ukupno 60)X5 - obrazovanje (stepen stručne spreme: 1 magistrat, 2 fakultet,

3 viša škola)X6 - sportska igra koju najviše vole.

Dobijeni su sledeći rezultati:

X1 X2 X3 X4 X5 X6

- 9 -

Page 10: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

Tabela 2.1

Skup objekata predstavlja skup jedinica posmatranja (entiteta): šPera, Mika, Žikać. Karakteristike predstavljaju obeležja. Tabelu 2.1 nazivamo matrica podataka i ona je oblika

X xij N p

odnosno, u našem slučaju

X xij3 6

gde je xij realizacija xi na ej.Kako za svaku od ispitanih karakteristika entiteti mogu imati različite rezultate to

ćemo rezultate dobijene utvrđivanjem neke karakteristike nazivati promenljivim (varijablama).

Osobine definisanih varijabli:

X1 broj dece (prekidna kvantitativna varijabla) uzima vrednost iz skupa pozitivnih celobrojnih vrednosti uključujući i nulu rezultati se ne mogu na smislen način podvrgnuti nikakvoj transformaciji već

moraju ostati takvi kakvi jesu kako su merne jedinice definisane onim što se meri reč je o apsolutnim

skalama

X2 broj članova uže porodice (prekidna kvantitativna) varijabla je tako definisana da i sam entitet ulazi u broj članova uže porodice

(npr. ek je očigledno samac bez dece) iz ovoga bi se moglo zaključiti da se u zaključivanju ništa nebi promenilo ako

od svakog rezultata oduzmemo jedinicu pa prema tome X2 dobija vrednosti:305

prema tome, veličina varijabli ovog tipa je određena do neke proizvoljne konstante koju možemo dodati ili oduzeti pa se zato ove skale nazivaju aditivne skale

X3 telesna masa (neprekidna kavntitativna) ovde je reč o skali odnosa koja ima sledeće osobine:

a) količnik ma koje dve vrednosti ima smislenu interpretaciju npr. eq je dva puta teži od ej

b) rastojanje između dva objekta mereno na ma kom delu ove skale je jednako npr. ej ima 22520 grama manje od entiteta ek, a eq 64000 grama više od ej

c) vrednostima pozicioniranim na skali mogu se dodeliti rangovi od višeg ka nižem npr. eq ima viši rang od ek

www.puskice.co.yu

- 10 -

Page 11: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

X4 inteligencija (neprekidna kvantitativna) nema realnu nultu tačku (nema ljudskog stvora sa inteligencijom nula) merne jedinice su proizvoljne (bodovi na testu) poseduje osobine b i c (za drugi test druge vrednosti) ove skale se nazivaju intervalnim jer je jedino interval (razmak) između rezultata

definisan npr. razlika u inteligenciji između entiteta ej i eq je jednaka kao i između entiteta

ej i ek

X5 obrazovanje (kvalitativna varijabla koja u ovom slučaju uslovno može da prođe kao kvantitativna, kao stepen stručne spreme)

vrednosti varijable ne označavaju količinu već rang, pa se zato nazivaju ordinarnim varijablama ili varijablama koje leže na nekoj ordinarnoj skali

poseduju samo osobinu c

X6 sportska igra koju najviše vole (kvalitativna varijabla) rezultat ne govori ništa ni o količini ni o redosledu već samo o tome koje svojstvo

ima neki entitet iz grupe međusobno isključivih svojstva kako oznaka pripadanja ne označava nikakvu veličinu, varijable ovog tipa se

nazivaju kvalitativnim ili nominalnim varijablama

Klasifikacija metoda multivarijacione analize u zavisnosti od vrste promenljivih:

kvantitativne promenljive:

metoda glavnih komponenti faktorska analiza klaster analiza višestruka korelacija višestruka regresija man-ova metoda (multidimenziona analiza varijanse) kanonična korelaciona analiza

kvalitativne promenljive:

loglinearni modeli diskriminaciona analiza (samo zavisna promenljiva mora da bude kvalitativna)

3. VIŠEDIMENZIONALNE SLUČAJNE PROMENLJIVE

- 11 -

Page 12: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

3.1 Sredina i kovarijaciona matrica

Označimo p jednodimenzionalnih slučajnih promenljivih sa X1, X2, ..., Xp. Skup ovih slučajnih promenljivih nazivamo slučajni vektor X (vektor obeležja)

X X X X pp

T 1 2 1, .

Realizaciju X na ei označavamo sa

x x x xi i i ip

T

( ) 1 2 .

Za svaku jednodimenzionalnu slučajnu promenljivu možemo odrediti sredinu i=E(Xi) i varijansu i

2=E(Xi-i)2, i=1, 2, ..., p. Sredina slučajnog vektora X je

E X E X E X E X p

T

p

T( ) ( ) ( ) ( )1 2 1 2 .

Za ma koji par slučajnih promenljivih Xi i Xj definišemo kovarijansu

ij i i j j i j

ii i i

ij ji

E X X Cov X X

Var X

( )( ) ( , )

( ).

2

Za slučajni vektor X se definiše pp simetrična matrica koja se naziva kovarijaciona matrica od X sa znakom :

ij p p

p

p

p p pp

11 12 1

21 22 2

1 2

.

Kovarijaciona matrica se može iskazati i kao očekivana vrednost slučajne matrice

www.puskice.co.yu

- 12 -

Page 13: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

( ) ( )( ) ( )( )( )( ) ( ) ( )( )( )( ) ( )( ) ( )

X X X X XX X X X XX X X X X

p p

p p

p p p p p p

1 12

1 1 2 2 1 1

2 2 1 1 2 22

2 2

1 1 2 22

.

Na kraju, kovarijacionu matricu možemo iskazati kao očekivanu vrednost sledeće matrice odstupanja:

W X X

E W E X X

i i j j p p

T

( )( )

( )( ) .

3.2 Podela vektora

Često se tokom istraživanja javlja potreba da p promenljivih posmatramo razdvojeno:

X X X X X X Xq q q p

T 1 2 1 2 .

U tom slučaju vršimo podelu sredine i kovarijacione matrice

( )1 2

11 12

21 22

11 12

12 22

T

T

gde su

111

222

123

ij q q

ij p q p q

ij p q q

( )

( )

( ) ( )

( )

( )

3.3 Uzoračka sredina i kovarijaciona matrica

Primer 3.1:

Za matricu podataka

X1 X2 X3 X4 X5 X6

ej 2 4 64000 20 3 fudbalek 0 1 86520 40 1 košarkaeq 4 6 128000 0 5 fudbal

odrediti realizovanu vrednost sredine vektora X za prve dve varijable (X1 - broj dece, X2 - broj članova uže porodice).

Slučajni vektor (vektor obeležja)

- 13 -

Page 14: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

XXXX

X X X

p

p

T

1

2 1 2

u našem slučaju je

X X X X X X X pT 1 2 3 4 5 6 6, .

Skup jedinica posmatranja (entiteta)

E e e eN 1 2, ,...,

u našem slučaju je

E e e e Nj k q , , , 3 .

Matrica podataka

X xij N p

u našem slučaju je

Xx x x x x xx x x x x xx x x x x x

11 12 13 14 15 16

21 22 23 24 25 26

31 32 33 34 35 36

tj.

Xfudbal

kosarkafudbal

2 4 64000 20 30 1 86520 40 14 6 128000 0 5

.

U daljem radu se nećemo sretati sa nominalnim varijablama u matrici podataka dok ćemo matricu podataka zadavati uglavnom na ovaj način.

U ovom primeru je reč o uzorku iz višedimenzionalnog rasporeda. Višedimenzionalni raspored se opisuje nekom merom centralne tendencije i nekom merom disperzije (rasipanja).

Za meru centralne tendencije najčešće se uzima sredina slučajnog vektora X koja se označava sa

E XE XE X p p

p

T( )( )( )

1

2

1

2 1 2 .

www.puskice.co.yu

- 14 -

Page 15: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

Za meru varijabiliteta najčešće se uzima kovarijaciona matrica od X koja se označava sa Cov(X) ili

11 12 1

21 22 2

1 2

p

p

p p pp

gde je ii=i2, i=1, 2, ..., p.

Ako definišemo simetričnu matricu kvadrata

( ) ( )( ) ( )( )( )( ) ( ) ( )( )( )( ) ( )( ) ( )

X X X X XX X X X XX X X X X

p p

p p

p p p p p p

1 12

1 1 2 2 1 1

2 2 1 1 2 22

2 2

1 1 2 22

koja je proizvod slučajnih vektora odstupanja od sredine, tj.

( )( )X X

onda je njena očekivana vrednost jednaka kovarijacionoj matrici:

E X X( )( ) .

Iz višedimenzionalne raspodele se može izračunati i korelaciona matrica i to preko kovarijacione matrice. U matričnoj notaciji to izgleda ovako:

D D12

1 12

1

gde je D dijagonalna matrica koja sadrži elemente na glavnoj dijagonali kovarijacione matrice (matrica standardnih devijacija), tj.

1 0 0

0 1 0

0 0 1

1 0 0

0 1 0

0 0 1

11

22

11 12 1

21 22 2

1 2

11

22

pp

p

p

p p pp

pp

11

1

12 1

21 2

1 2

p

p

p p

- 15 -

Page 16: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

gde je ij koeficijent korelacije između Xi i Xj:

ijij

ii jj

.

Na osnovu uspostavljene relacije može se napisati da je

D D12

12 .

Na osnovu matrice podataka smo u mogućnosti da izračunamo pokazatelje uzorka: sredinu uzorka, kovarijacionu matricu uzorka i korelacionu matricu uzorka.

Uzoračka sredina je data sa:

X X X XXXX

p

T

p

1 2

1

2

gde je

XN

X j pj iji

N

1 1 2

1

, , ,..., .

Uzoračku kovarijacionu matricu definišemo preko matrice centriranih podataka X* i matrice uzajamnih proizvoda centriranih podataka X*' X*

XX X X X X XX X X X X XX X X X X X

p p

p p

N N Np p

*

11 1 12 2 1

21 1 22 2 2

1 1 2 2

odnosno

X X

X X X X X X X X X X

X X X X X X X X X X

X X X X X X X X X

ii

N

i ii

N

i ip pi

N

i ii

N

ii

N

i ip pi

N

ip p ii

N

ip p ii

N

ip

* *'

( ) ( )( ) ( )( )

( )( ) ( ) ( )( )

( )( ) ( )( ) (

1 12

11 1 2 2

11 1

1

2 2 1 11

2 22

12 2

1

1 11

2 21

X pi

N

p p

)2

1

pa je uzoračka kovarijaciona matrica S(pp)

SN

X XN

X X X Xi ii

N

1

11

1 1

* *' ( )( )' .

www.puskice.co.yu

- 16 -

Page 17: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

Uzoračka korelaciona matrica je

R

r r rr r rr r rr r r

p

p

p

p p p

11

11

12 13 1

12 23 2

13 23 3

1 2 3

gde su rij uzorački koeficijenti korelacije

rS

S Si j pij

ij

ii jj

, , , ,...,1 2

a Sij elementi uzoračke kovarijacione matrice

SN

X X X X i j pij ki i kj jk

N

1

11 2

1

( )( ), , , ,..., .

Do uzoračke kovarijacione matrice smo mogli doći i koristeći relaciju koju smo uspostavili između kovarijacione i korelacione matrice populacije:

R D S D

12

1 12

1

.

Vratimo se primeru. Interesuje nas matrica podataka

Xx xx xx x

i N j p

11 12

21 22

31 32

2 40 14 6

1 2 3 3 1 2 2, , , , .

Treba odrediti X :

XXXX

XX

p

1

21

2

13

2 0 4

13

4 1 6

23 67

( )

( ) .

što govori da je prosečan broj dece X1 2 a prosečan broj članova uže porodice X2 367 . .

Primer 3.2:

Realizovane vrednosti slučajnog uzorka su date matricom podataka

X

2 34 21 1

.

Odrediti realizovanu vrednost uzoračke kovarijacione matrice.

Prvo ćemo izračunati uzoračku sredinu X :

- 17 -

Page 18: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

XXX

N p

1

2

13

2 4 1

13

3 2 1

12

3 2( )

( ), , .

Zatim računamo matricu centriranih podataka X*:

XX X X X X XX X X X X XX X X X X X

p p

p p

N N Np p

*

11 1 12 2 1

21 1 22 2 2

1 1 2 2

.

Kako je N=3 i p=2

XX X X XX X X XX X X X

*

11 1 12 2

21 1 22 2

31 1 31 2

2 1 3 24 1 2 21 1 1 2

3 13 00 1

.

Nakon toga računamo matricu uzajamnih proizvoda centriranih podataka X*'X*

X X* *'

3 3 01 0 1

3 13 00 1

18 33 2

pa je uzoračka kovarijaciona matrica

SN

X X

11

13 1

18 33 2

9 32

32

1

* *' .

Odavde je S12=9, S2

2=1 i S12=S21= 32

(negativna linearna veza).

Za domaću vežbu naći kovarijacionu matricu uzorka za podatke date u primeru 3.1.

Primer 3.3:

Za podatke iz prethodnog primera odrediti realizovanu vrednost uzoračke korelacione matrice koristeći relaciju uspostavljenu između nje i kovarijacione matrice.

Na osnovu izračunate kovarijacione matrice

www.puskice.co.yu

- 18 -

Page 19: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

S

9 32

32

1

formiramo dijagonalnu matricu

D

9 00 1

a zatim izračunavamo korelacionu matricu

R D S D

12

1 12

1

R

13

0

0 1

9 32

32

1

13

0

0 1

1 12

12

1.

Često se tokom istraživanja javlja potreba da p promenljivih posmatramo razdvojeno, odnosno da ih tretiramo kao da pripadaju dvema grupama promenljivih

X X X X X X Xq q q p

T 1 2 1 2

tako da dobijamo

X X X X q

T

1 1 2 X xij N q1 , X X X Xq q p

T

2 1 2 X xij N s2 .

Tako npr. ako ispitujemo uticaj demografskih faktora na potrošnju proizvoda široke potrošnje tada ćemo vektor X dimenzije p1 podeliti na vektor X1 u koji će ući sledeći podskup promenljivih: pol, starost i stručna sprema, i na vektor X2 u koji će ući promenljive potrošnje hleba, mesa, mleka, povrća i voća.

X1 - polX2 - starostX3 - stručna spremaX4 - potrošnja hlebaX5 - potrošnja mesaX6 - potrošnja mlekaX7 - potrošnja povrćaX8 - potrošnja voća

X X X X X X X X X T 1 2 3 4 5 6 7 8

X X X X qT1 1 2 3 3 ,

X X X X X X sT2 4 5 6 7 8 5 ,

- 19 -

podela vektora

Page 20: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

U skladu sa podelom slučajnog vektora X vršimo podelu sredine i kovarijacione matrice :

( )1 2

11 12

21 22

T

gde su:

1 1 2 2( ) ( )q qi sredine slučajnih vektora X1 i X2

11 22( ) ( )q q s si kovarijacione matrice slučajnih vektora X1 i X2

dok su elementi matrice 12( )q s kovarijanse između elemenata slučajnih vektora X1 i X2 sa osobinom 21 12 T .

3.4 Nekoliko važnijih osobina uzoračke sredine ikovarijacione matrice

Neka su slučajne promenljive Xj i Xk linearno transformisane tj. neka su definisane nove slučajne promenljive

cX a i dX bj k , a, b, c i d su realne konstante.

Tada, na osnovu definicije kovarijanse, sledi

Cov cX a dX b cd Cov X Xj k j k( , ) ( , ) .

Uopštimo ovaj slučaj na linearnu kombinaciju p slučajnih promenljivih iz slučajnog vektora X sa sredinom i kovarijacionom matricom . Linearnom kombinacijom

Y a X a X a X a Xp pT 1 1 2 2 ...

za dati vektor linearne kombinacije

a a a aTp 1 2

definišemo novu slučajnu promenljivu Y čija je očekivana vrednost

YT TE Y E a X a ( ) ( )

i varijansa

YT

i j ijT

j

p

i

p

Var Y Var a X a a a a2

11

( ) ( ) .

www.puskice.co.yu

- 20 -

Page 21: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

Razmotrimo sada još opštiji slučaj q linearnih kombinacija p slučajnih promenljivih

Y a X a X a XY a X a X a XY a X a X a X

p p

p p

q q q qp p

1 11 1 12 2 1

2 21 1 22 2 2

1 1 2 2

...

......

ili ako ove linearne kombinacije izrazimo u matričnoj formi

Y AX

gde je Y(qx1) vektor, a A aij q p

matrica koeficijenata linearnih kombinacija, tada je

Y X

Y XT

E Y E AX A

Cov Y Cov AX A A

( ) ( )

( ) ( )

gde su X i X sredina i kovarijaciona matrica slučajnog vektora X, respektivno.Na kraju, neka su date matrice

A a i B bij q p ij s r

čiji su elementi realni brojevi. Sada možemo da formiramo q linearnih kombinacija p slučajnih promenljivih

Y AX

i s linearnih kombinacija r slučajnih promenljivih Z Z Z ZTr 1 2

W BZ .

Ako sa XZ dimenzije pr označimo matricu kovarijansi između Xj, j=1, 2, ..., p i Zk, k=1, 2, ..., r, tada je

YW XZTCov Y W Cov AX BZ A B ( , ) ( , ) .

Primer 3.4:

Izračunati sredine, varijanse i kovarijanse sledeće dve linearne kombinacije na osnovu podataka iz primera 3.2:

a) direktno, na osnovu opservacija za Y1 i Y2

b) indirektno na osnovu izračunate uzoračke sredine X i uzoračke kovarijacione matrice S.

A X

1 23 2

2 34 21 1

.

- 21 -

Page 22: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

Treba da dobijemo

Yy yy yy y

11 12

21 22

31 32

.

Imamo dve linearne kombinacije:

Y a X a X a Xxx

x x

Y a X a X a Xxx

x x

T

T

1 11 1 12 2 11

21 2

2 21 1 22 2 21

21 2

1 2 2

3 2 3 2

a) Za prvu linearnu kombinaciju

Y a Xxx

T1 1

1

2

1 2

imamo realizovane vrednosti opservacija y11, y21 i y31 tj.

yyy

11

21

31

1 2 2 3 81 4 2 2 01 1 2 1 1

( )( )( )( )

Napomena:

X x x x T1 1 2 3

y113

8 0 1 3 ( )

SY1

2 2 2 213 1

8 3 0 3 1 3 19

( ) ( ) ( ) .

Za drugu linearnu kombinaciju je

Y a Xxx

T2 2

1

2

3 2

yyy

12

22

32

3 2 2 3 123 4 2 2 83 1 2 1 1

( ) ( )( )( )

pa je

y213

12 8 1 1 ( )

www.puskice.co.yu

- 22 -

Page 23: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

SY2

2 2 2 213 1

12 1 1 1 1 103

( ) (8 ) ( )

Cov Y Y Sy y y yk k

k( , )( )( )

1 2 12

1 1 2 21

3

3 1

(8 )( ) ( )(8 ) ( )( )3 12 1 0 3 1 1 3 1 1

243

SY

19 4343 103 .

b) Indirektno:

Y AXYY

a aa a

xx

y Axyy

1

2

11 12

21 22

1

2

1

2

1 23 2

12

31

.

Za uzoračku kovarijacionu matricu imamo iste relacije kao i za populaciju, tj.

Y X

Y X

A AS AS A

''

SY

1 23 2

9 32

32

1

1 23 2

19 4343 103

.

Primer 3.5:

Zavod za statistiku u svojoj redovnoj anketi o potrošnji domaćinstava prikuplja podatke o njihovim prihodima i rashodima po različitim kategorijama za poljoprivredna, mešovita i nepoljoprivredna domaćinstva. Izabran je slučajan uzorak od šest domaćinstava i izmereni su sledeći podaci:

X1 X2 X3 X4

6 9.4 6.2 0.207 12.1 7.2 0.104 10.7 3.1 0.225 9.3 5.4 0.12

- 23 -

Page 24: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

2 11.2 2.1 0.263 13.3 1.8 0.30

X1 - broj članova domaćinstva,X2 - godišnja raspoloživa sredstva,X3 - izdaci za ishranu,X4 - izdaci za obrazovanje i razonodu.

Izračunati kovarijacionu i korelacionu matricu uzorka.

Rešenje:

S

350 086 4 10 012086 2 416 151 0 05244 10 151 5152 01568012 0 0524 01568 0 00608

. . . .

. . . .

. . . .

. . . .

R

1 0 2957 0 9655 082261 0 4280 0 4323

1 088591

. . .. .

. .

4. METODA GLAVNIH KOMPONENTI

Ideja metode glavnih komponenti je da se originalne promenljive transformišu u nove promenljive, odnosno, linearne kombinacije.

Polazimo od vektora obeležja

X X X X pp

T 1 2 1, .

Ako je, na primer, p=20 (20 obeležja) njihova međusobna povezanost iskazana je pomoću 190 koeficijenata korelacije što predstavlja problem kako za razumevanje, tako i za interpretaciju. Zato ćemo ovih p promenljivih zameniti manjim brojem linearnih kombinacija tipa

www.puskice.co.yu

- 24 -

Page 25: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

L X ii ' , , ,..1 2

ali tako da su te linearne kombinacije nezavisne među sobom i da sadrže što je moguće više inicijalnog varijabiliteta.

Prva glavna komponenta je konstruisana tako da obuhvata najveći deo varijanse originalnog skupa podataka. Druga glavna komponenta obuhvata najveći deo preostale varijanse originalnog skupa podataka i tako redom.

Analiza glavnih komponenti je bazirana na pretpostavci da će relativno mali broj glavnih komponenti dobro aproksimirati kovarijacionu strukturu skupa originalnih promenljivih. Ovim metoda glavnih komponenti postiže dva cilja:

1. vrši redukciju originalnog skupa podataka2. olakšava interpretaciju kovarijacione strukture originalnih promenljivih na bazi

manjeg broja međusobno nekorelisanih glavnih komponenti

Tako ćemo umesto p=20 promenljivih u daljoj analizi koristiti 4 linearne kombinacije.

4.1 Definicija glavnih komponenti

Neka je

X X X X pp

T 1 2 1,

slučajni vektor sa kovarijacionom matricom . Prvu glavnu komponentu određujemo kao

Y l X l X l X L Xp p1 11 1 12 2 1 1 ... '

linearnu kombinaciju elemenata slučajnog vektora X, gde su l11, l12, ..., l1p koeficijenti linearne kombinacije.

Od ranije znamo da je

Var Y Var L X L L( ) ( ' ) '1 1 1 1 .

Naš zadatak je da odredimo vektor koeficijenata L1 tako da se maksimizira varijansa od Y1. Ovde se uvodi uslov ortogonalnosti same transformacije jer se to pokazalo jako korisno u praksi i omogućuje se optimizacija, tj. uvodimo uslov

L L1 1 1'

odnosno hoćemo da maksimiziramo L L1 1' uz ograničenje L L1 1 1' .To se radi uz pomoć Lagranžovih množitelja. Diferenciranjem Lagranžove funkcije

po koeficijentima L1 a zatim izjednačavanjem dobijenog izraza sa nulom dobijamo

L L1 1 0

ili

- 25 -

Page 26: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

I L1 0

gde je I(pp) jedinična matrica, jedan od karakterističnih korena kovarijacione matrice i to najveći =1, a L1 je karakteristični vektor.

Da bi se dobilo netrivijalno rešenje za L1 treba da je ispunjeno

I 0 .

Svaku sledeću linearnu kombinaciju određujemo slično uz dodatni uslov da se radi o nekorelisanim veličinama (da je kovarijansa između prve i druge glavne komponente jednaka nuli)

L L2 2 0

ili

I L2 0

gde za biramo što je moguće veću vrednost =2. L2 je karakteristični vektor a linearna kombinacija

Y L X2 2 '

predstavlja drugu glavnu komponentu.

Rezime:

1. Ako su svi karakteristični koreni matrice međusobno različiti (uredili smo ih u opadajući niz 1>2>...>p0) tada postoji p glavnih komponenti

Y Y Yp1 2, ,...,

tj.

Y L X j pj j ' , , ,...,1 2

2. Vektori koeficijenata L1, L2, ..., Lp predstavljaju karakteristične vektore matrice koji su pridruženi karakterističnim korenima j.

3.

E Y

Var Y L L

Cov Y Y i j

j

j j j j

i j

p

( )

( ) '

( , ) ,

0

0

0 00 00 0

1

2

www.puskice.co.yu

- 26 -

Page 27: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

Primer 4.1:

Za datu kovarijacionu matricu

4 0 00 2 20 2 4

odrediti sve glavne komponente.Glavne komponente su:

Y L XY L XY L X

1 1

2 2

3 3

'''

Prvu glavnu komponentu računamo iz uslova

1 1 0I L

odnosno češće se umesto L1 piše P1 (principal components)

1 1 0I P

odnosno

P P1 1 1

pa sledi da je potrebno izračunati karakteristične korene kovarijacione matrice

4 0 00 2 20 2 4

12

4 0 00 2 20 2 4

4 6 4 0I ( )( )

1 2 34 0 769 52361 , . , . .

Šta ne valja?

Po definiciji glavnih komponenti, 1 je najveći karakteristični koren, 2 drugi po veličini, itd. pa je

1 2 35 2361 4 0 769 . , , .

pa će biti

P P1 1 1

- 27 -

Page 28: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

4 0 00 2 20 2 4

5236111

21

31

11

21

31

ppp

ppp

.

4 0 0 523610 2 2 523610 2 4 52361

11 21 31 11

11 21 31 21

11 21 31 31

p p p pp p p pp p p p

.

.

.

12361 0 03 2361 2 02 12361 0

11 11

21 31

21 31

..

.

p pp p

p p

Rešavanjem ovog sistema dobija se

P1 0 0 53 0 85' . . .

Sada računamo drugu glavnu komponentu:

2 2 0I P

P P2 2 2

4 0 00 2 20 2 4

412

22

32

12

22

32

ppp

ppp

4 0 0 523610 2 2 5 23610 2 4 5 2361

12 22 32 12

12 22 32 22

12 22 32 32

p p p pp p p pp p p p

.

.

.

P2 1 0 0' .

Treća komponenta:

3 3 0I P

P P3 3 3

4 0 00 2 20 2 4

0 76913

23

33

13

23

33

ppp

ppp

.

4 0 0 523610 2 2 523610 2 4 52361

13 23 33 13

13 23 33 23

13 23 33 33

p p p pp p p pp p p p

.

.

.www.puskice.co.yu

- 28 -

Page 29: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

P3 0 0 8507 0 5257' . . .

Na kraju, glavne komponente su:

Y L X P X X XY L X P X XY L X P X X X

1 1 1 2 3

2 2 2 1

3 3 3 2 3

053 0 85

0 8507 05257

' ' . .' '' ' . .

Zadovoljeni su uslovi normiranosti L'L=1:

za P1 0 053 085' . . imamo 02+(-0.5257)2+0.85072=1

za P2 1 0 0' imamo 12=1

za P3 0 0 8507 0 5257' . . važi isto kao i za P1'.

Primer 4.2:

Na prethodnom primeru pokazati da je varijansa dobijenih glavnih komponenti jednaka odgovarajućim karakterističnim korenima a da je kovarijansa između svakog para glavnih komponenti jednaka nuli.

Treba dokazati da je Var Yj j( ) za j=1, 2, ..., p, tj.

Var Y Var X X( ) ( . . ) .1 2 3 10 5257 0 8507 5 2361

itd.

Provera korelisanosti prve i druge glavne komponente:

Cov Y Y Cov X X X( , ) ( . . ; )1 2 2 3 10 5257 0 8507 0 .

Napomena:

Generalizovana varijansa se određuje po dve definicije.Po prvoj definiciji generalizovana varijansa je jednaka determinanti kovarijacione

matrice. Kovarijaciona matrica glavnih komponenti je dijagonalna matrica čiji su elementi karakteristični koreni matrice i označava se sa

1

2

0 00 00 0 p

.

Prema tome generalizovana varijansa vektora Y je jednaka determinanti

- 29 -

Page 30: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

.

Po drugoj definiciji generalizovana varijansa je jednaka tragu kovarijacione matrice. Trag kovarijacione matrice je jednak zbiru karakterističnih korena j.

Korišćenjem ortogonalne matrice P(pxp) čiji su redovi karakteristični vektori kovarijacione matrice , možemo izvršiti ortogonalnu dekompoziciju matrice čiji su koreni različiti.

Imamo da je

P P'

ili u razvijenom obliku

L L L

LLL

L Lp

p p

j j jj

p

1 2

1

2

1

21

0 00 00 0

'''

' .

Takođe je

P P' .

Uz korišćenje osobine traga matrice tr(BC)=tr(CB) imamo da je

tr tr P P tr P P tr( ) ( ') ( ' ) ( )

pošto je P'P=I.

Primer 4.3:

Neka su za vektor XT=(X1, X2, X3) poznati korelacioni koeficijenti r12=0.5, r13=0.3 i r23=0.2 i neka su date prve dve glavne komponente kao

Y X X X i Y X X X1 1 2 3 2 1 2 30 84 0 79 0 6 017 0 42 0 79 . . . . . . .

Izračunati:

a) Koliko treba uzeti glavnih komponenti da bi se obuhvatilo barem 85% varijabiliteta i koliko procenata ukupnog varijabiliteta nosi svaka od glavnih komponenti Y1, Y2 i Y3? Izračunati generalizovanu varijansu vektora X korišćenjem varijanse glavnih komponenata i pokazati zašto je to moguće.

b) Aproksimirati korelacionu matricu na osnovu projekcije trodimenzionalnog vektora X u prostor prve glavne komponente.

c) Korelaciju između prve glavne komponente Y1 i varijable X1 kao i između druge glavne komponente Y2 i varijable X2.

www.puskice.co.yu

- 30 -

Page 31: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

X X X XY X X XY X X X

R

T

1 2 3

1 1 2 3

2 1 2 3

0 84 0 79 0 6017 0 42 0 791 0 5 0 3

1 0 21

. . .. . .

. ..

Da bi važio uslov T=1, inicijalne glavne komponente treba podeliti pa se dobija:

P

P

T

T

1

2

0 646 0 608 0 461

0187 0 462 0868

. . .

. . .

a)1 0 5 0 3

0 5 1 0 20 3 0 2 1

0 6460 6080 461

0 6460 6080 461

1685

1 0 5 0 30 5 1 0 20 3 0 2 1

01870 4620868

01870 4620 868

1 1

2

. .. .. .

.

.

.

.

.

..

. .. .. .

.

..

.

..

2

1 2 3 3

0 830

3 0 485

.

.Prva glavna komponenta nosi 56.17% varijabiliteta, druga 27.67% a treća 16.17%

varijabiliteta. Da bi se obuhvatilo 85% varijabiliteta potrebne su sve tri glavne komponente.

b)

1 1 1 16850 6460 6080 461

0 646 0 608 0 4610 703 0 662 0 5020 662 0 623 0 4720502 0 472 0 358

T

....

. . .. . .. . .. . .

c)

Y X

Y X

1 1

2 2

11 1

22 2

0 646 1685 0 839

0 462 083 0 421

. . .

. . .

- 31 -

Page 32: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

5. FAKTORSKA ANALIZA

Faktorska analiza je metod multivarijacione analize koji se koristi za opis međusobne zavisnosti velikog broja promenljivih korišćenjem manjeg broja osnovnih ali neopažljivih slučajnih promenljivih (faktora). Slično kao metoda glavnih komponenti i faktorska analiza se koristi za redukciju skupa podataka aproksimirajući kovarijacionu ili korelacionu matricu originalnih promenljivih.

Između metode glavnih komponenti i faktorske analize postoje sledeće razlike:

1. Analiza glavnih komponenti se bazira na varijansama - interesuju nas dijagonalni elementi kovarijacione matrice, dok nas kod faktorske analize interesuju vandijagonalni elementi.

www.puskice.co.yu

- 32 -

Page 33: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

2. Za razliku od analize glavnih komponenti, faktorska analiza pretpostavlja postojanje teorijskog modela kojim se uspostavlja relacija između opservacija p-dimenzionalne promenljive i manjeg broja zajedničkih faktora.

3. Često se analiza glavnih komponenti tretira kao specifičan slučaj ili prva faza u faktorskoj analizi (SPSS).

4. Analiza glavnih komponenti izučava ukupan varijabilitet skupa podataka. Nasuprot njoj, faktorska analiza polazi od razlaganja varijabiliteta na dva dela: zajednički deo i specifični deo. Zajednički deo je onaj deo varijacija promenljive koji ona deli sa ostalim promenljivama. Sa druge strane, specifični deo je onaj deo varijacija promenljive koji je poseban (specifičan) za tu promenljivu. Faktorska analiza izučava zajednički deo varijabiliteta za sve promenljive

5. U obe metode se javljaju dve vrste promenljivih: opažljive promenljive koje čini originalni skup podataka i neopažljive (latentne) promenljive. Međutim, u analizi glavnih komponenti na osnovu linearne kombinacije opažljivih promenljivih se formiraju glavne komponente kao neopažljive komponente, dok se u faktorskoj analizi na osnovu faktora kao neopažljivih komponenti izražavaju originalne promenljive

5.1 Istorijat

Krajem XIX veka Galton i Spirman postavljaju problem inteligencije:Da li je inteligencija bazirana na jednom bazičnom tj. opštem faktoru ili se bazira na

nekoliko zajedničkih faktora kao što su npr. verbalna sposobnost, matematička sposobnost, memorija?

Primer 5.1:

Čarls Spirman je 1904. godine izučavao pripremljenost dece za školu i dobio je korelacionu matricu rezultata testova iz klasike (X1), francuskog (X2), engleskog (X3) i matematike (X4) u obliku

1 0 83 0 78 0 70083 1 0 67 0 670 78 0 67 1 0 640 70 0 67 0 64 1

. . .. . .. . .. . .

Spirman je uočio proporcionalnost ma koja dva reda ili kolone u ovoj matrici (ako se zanemare elementi na glavnoj dijagonali). Tako za elemente drugog i trećeg reda imamo

0 830 67

0 780 64

12..

.

.. .

Zato Spirman predlaže redukciju problema sa p=4 na p=1 tako što rezultate svih testova (Xi, i=1, 2, 3 i 4) iskazuje preko modela

X F ii i i , , , ,1 2 3 4

gde su

- 33 -

Page 34: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

F - zajednički faktor,i - koeficijenti (faktorska opterećenja),i - slučajne greške (specifični faktori).

Dakle, Spirman je formulisao dvofaktorsku teoriju testova inteligencije prema kojoj se rezultat svakog testa može dekomponovati na dva dela: prvi, koji je zajednički za sve testove (F) i koji se može interpretirati kao "opšta sposobnost" ili "inteligencija", i drugi, koji je specifičan za svaki test (i).

Napomena:

Kasnijim istraživanjima prvobitni model je proširen tako što je uvedeno nekoliko zajedničkih faktora (pretpostavlja se da postoje posebne vrste inteligencija - sposobnosti), a i specifičan faktor je razložen na dva dela od kojih prvi pokazuje u kom stepenu se nečija individualna sposobnost u npr. matematici razlikuje od opšte sposobnosti i drugi koji predstavlja činjenicu da su rezultati testiranja samo aproksimacija sposobnosti individue u konkretnoj oblasti (ipak samo test - papir).

5.2 Model faktorske analize

Neka je X p-dimenzioni vektor opažljivih promenljivih sa sredinom i kovarijacionom matricom . Pretpostavimo da se vektor opažljivih promenljivih X može izraziti preko skupa od m neopažljivih promenljivih koje nazivamo zajednički faktori u oznaci F1, F2, ..., Fm (m<<p) i preko skupa 1, 2, ..., p specifičnih ali neopažljivih faktora.

Tada model u razvijenom obliku izgleda

( ) ...( ) ...( ) ...

X F F FX F F FX F F F

m m

m m

p p p p pm m p

1 1 11 1 12 2 1 1

2 2 21 1 22 2 2 2

1 1 2 2

ili ekvivalentno u matričnoj notaciji

X B Fp p m m p

( ) ( ) ( ) ( )1 1 1

gde je

XXXX

FFFF

B

p p m p

m

m

p p pm

1 1

2 2

1

2

1

2

11 12 1

21 22 2

1 2

www.puskice.co.yu

- 34 -

Page 35: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

Poslednja matrica predstavlja matricu faktorskih opterećenja a ij faktorsko opterećenje i-te promenljive na j-ti faktor.

Napomena:

Na prvi pogled model faktorske analize liči na model višestruke regresije, međutim ovde p odstupanja (X1-1), ..., (Xp-p) izražavamo preko m+p slučajnih promenljivih F1, F2, ..., Fm i 1, 2, ..., p koje su neopažljive za razliku od regresionog modela gde su nezavisne promenljive opažljive.

U model se uvode sledeća dodatna ograničenja:

E FCov F E FF

( )( ) ( ' ) 0

i dalja izlaganja se baziraju na specifičnom slučaju faktorske analize kada je

I

odnosno, radi se o ortogonalnom modelu kod koga su faktori F1, F2, ..., Fm međusobno nezavisni.

Što se tiče specifičnih faktora važi

E

Cov E

p

( )

( ) ( ' )

0

0 00 00 0

1

2

Takođe pretpostavljamo da su zajednički faktori nezavisni od specifičnih tj. da je

.

Vezu između odstupanja opažljivih promenljivih od njihove sredine i neopažljivih faktora

odnosno

zajedno sa navedenim pretpostavkama nazivamo ortogonalni model faktorske analize sa m zajedničkih faktora. Ovaj model omogućuje razlaganje kovarijacione matrice

Cov X BB( ) ' .

Napomena:

- 35 -

Page 36: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

U opštem slučaju, kad ne važi uslov ortogonalnosti tj. kada je I, razlaganje kovarijacione matrice je

.

Kako je

znači da su elementi matrice faktorskih opterećenja kovarijanse između originalnih promenljivih i faktora.

Korelacionu matricu promenljivih X i faktora F nazivamo matrica faktorske strukture.

Napomena:

U slučaju ortogonalnog modela faktorske analize važi da je

Cov X F Cor X F( , ) ( , ) .

U opštem slučaju se ove dve vrednosti međusobno razlikuju.

Na osnovu razlaganja kovarijacione matrice kod ortogonalnog modela faktorske analize

BB'

imamo da je varijansa i-te promenljive

ii i i i im iVar X ( ) ...12

22 2

tj. varijansa i-te originalne promenljive je podeljena na dva dela:

prvi deo je

hi i i im2

12

22 2 ...

i predstavlja varijansu objašnjenu zajedničkim faktorima i nazivamo ga zajednička varijansa ili komunalitet

drugi deo nazivamo specifična varijansa

Primer 5.2:

Data je kovarijaciona matrica

15 8 3 168 10 1 103 1 16 2

16 10 2 24

www.puskice.co.yu

- 36 -

Page 37: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

i jednakost

15 8 3 168 10 1 103 1 16 2

16 10 2 24

3 22 11 34 2

3 2 1 42 1 3 2

2 0 0 00 5 0 00 0 6 00 0 0 4

.

Dokazati da važi

BB' .

Iz jednakosti sledi postojanje dva zajednička faktora (m=2) pa je

B

3 22 11 34 2

2 0 0 00 5 0 00 0 6 00 0 0 4

.

Potrebno je da na osnovu ortogonalnog modela faktorske analize odredimo komunalitete sve četiri originalne promenljive i razložimo njihove varijanse.

Komunalitet prve promenljive:

h12

112

122 2 23 2 13

jer je

B

11 12

21 22

31 32

41 42

pa je razlaganje varijanse 11 na komunalitet i specifičnu varijansu

11 12

1

15 13 2

h

jer je

1

2

3

4

0 0 00 0 00 0 00 0 0

.

Slično se dobija da je

- 37 -

Page 38: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

22 22

2

33 32

3

44 42

4

10 5 5

16 10 6

24 20 4

h

h

h

odnosno

h

h

h

22

212

222 2 2

32

312

322 2 2

42

412

422 2 2

2 1 5

1 3 10

4 2 20

( )

Napomena:

Korišćenjem korelacione umesto kovarijacione matrice dobijamo da se jedinična varijansa standardizovane promenljive sastoji iz dva dela:

Var X hi i i( ) 1 2 .

Generalizovana varijansa (ukupna varijansa) originalnog skupa promenljivih je oblika

tr ii ij ii

p

j

m

i

p

i

p

( ) 2

1111.

Ako sa h označimo ukupan komunalitet od X

h hi ijj

m

i

p

i

p

2 2

111

tada se može pisati

tr h tr( ) ( ) .

Znači da je generalizovana varijansa od X jednaka zbiru dve komponente: ukupnog komunaliteta i ukupne varijanse specifičnih faktora.

Formiranjem količnika

iji

p

hj m

2

1 1 2

, , ,...,

dobija se proporcija ukupnog varijabiliteta koja se može pripisati j-tom zajedničkom faktoru.

Primer 5.3:

Na osnovu ortogonalnog modela faktorske analize iz prethodnog primera odrediti ukupnu varijansu, ukupan komunalitet, ukupnu specifičnu varijansu i doprinose svakog faktora ukupnom komunalitetu.

www.puskice.co.yu

- 38 -

Page 39: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

15 8 3 168 10 1 103 1 16 2

16 10 2 24

B

3 22 11 34 2

2 0 0 00 5 0 00 0 6 00 0 0 4

Ukupna varijansa:

tr( ) 11 22 33 44 15 10 16 24 65.

Ukupan komunalitet:

h h h h h 12

22

32

42 13 5 10 20 48 .

Ukupna specifična varijansa:

tr( ) 1 2 3 4 2 5 6 4 17 .

Doprinos prvog zajedničkog faktora ukupnom komunalitetu, j=1:

112

212

312

412 2 2 2 23 2 1 4

483048

62 5% h

( ) . .

Doprinos drugog zajedničkog faktora ukupnom komunalitetu, j=2:

122

222

322

422 2 2 2 22 1 3 2

481848

37 5% h

. .

Napomena:

Faktorska analiza se najčešće obavlja na standardizovanim promenljivama, odnosno vršimo razlaganje korelacione matrice.

5.3 Metode izdvajanja faktora (metode ocenjivanja)

Na osnovu uzorka uzetog iz p-dimenzione populacije ocenjuje se model faktorske analize, odnosno proveravamo da li važi razlaganje kovarijacione (ili korelacione) matrice koje je implicirano tim modelom.

Postoje dve osnovne metode ocenjivanja modela faktorske analize:

metoda glavnih komponenti (glavnih faktora)

- 39 -

Page 40: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

metoda maksimalne verodostojnosti

Metoda glavnih komponenti se javlja u dve varijante:

1. direktno korišćenje metode glavnih komponenti na kovarijacionu ili korelacionu matricu radi istovremenog ocenjivanja komunaliteta i matrice faktorskih opterećenja (metoda glavnih komponenti)

2. korelaciona matrica se modifikuje u duhu modela faktorske analize a zatim se iterativno i odvojeno ocenjuju komunaliteti i faktorska opterećenja primenom metode glavnih komponenti na tu modifikovanu korelacionu matricu (metoda glavnih faktora)

5.3.1 Metoda glavnih komponenti

U uzoračkom slučaju postupak primene metode glavnih komponenti u ocenjivanju faktorskog modela zahteva određivanje karakterističnih korena ~J i karakterističnih vektora ~ J .

Na osnovu prvih m faktora formiramo matricu ocenjenih faktorskih opterećenja prema sledećem izrazu:

~ ~ ~ ~ ~ ~ ~B p p 1 1 2 2 .

Ocenjene specifične varijanse dobijamo kao dijagonalne elemente matrice

S BB ~~'

pa je

~ ~ , , ,...,i ii ijj

m

s i p 2

11 2

a ocenjeni komunaliteti su

~ ~ ~ ... ~ , , ,..., .h i pi i i im2

12

22 2 1 2

Broj zadržanih faktora možemo odrediti a priori ili posmatranjem matrice reziduala

S BB ( ~~' )

koja je dobijena kao rezultat aproksimacije uzoračke kovarijacione matrice sa prvih m faktora. Broj faktora koje smo uključili u aproksimaciju povećavamo sve dok ne procenimo da su elementi reziduala dovoljno mali.

Primer 5.4:

Na osnovu uzorka iz p-dimenzione populacije (p=5) dobijena je uzoračka korelaciona matrica

www.puskice.co.yu

- 40 -

Page 41: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

R

1 0 08 0 3 00 1 01 0 6 0 8

08 01 1 0 4 010 3 0 6 0 4 1 0 70 0 8 01 0 7 1

. .

. . .. . . .. . . .

. . .

.

Karakteristični vektori i koreni matrice R su dati u tabeli:

Karakteristični vektori ~ J

prvi drugi treći četvrti peti

0.2775 0.6365 -0.1965 0.6831 -0.11230.4893 -0.3508 -0.6102 -0.1294 -0.49850.3426 0.5871 -0.1201 -0.6802 0.24680.5510 -0.0451 0.7568 -0.0213 -0.34810.5124 0.3538 -0.0444 0.2314 0.7462

Karakteristični koreni ~J

2.5835 1.7166 0.3338 0.1941 0.1720

Korišćenjem metode glavnih komponenti oceniti model faktorske analize.

Potrebno je prvo da odredimo broj glavnih komponenti koje ćemo da zadržimo u analizi. Kada se koristi korelaciona matrica uobičajen kriterijum je da se zadrže one glavne komponente kod kojih je varijansa (karakteristični koren) veća od jedinice. Ovaj kriterijum se naziva "kriterijum jediničnog korena - Kaiser-ov kriterijum".

Prema ovom kriterijumu ćemo zadržati prve dve glavne komponente jer je

~ . ~ . 1 22 5835 17166 i .

Oni vuku

~ ~ . . . 1 2 2 5835 171665

0 86 p

tj. 86% uzoračke varijanse.Sada je potrebno da uporedimo korelacionu matricu na osnovu modela faktorske

analize sa dva zajednička faktora

~~'BB

sa uzoračkom korelacionom matricom R, i ako je dobijena razlika zanemariva, konstatujemo da ova dva zajednička faktora uspešno reprodukuju korelacionu strukturu pet originalnih promenljivih.

Napomena:

Za ortogonalni model važi da je Cov X F Cor X F( , ) ( , ) .

- 41 -

Page 42: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

Daklem, treba da odredimo

~~' ~BB

~ ~ ~ ~ ~

~

. . . .

. . . ( . )

. . . .

. . . ( . )

. . . ( . )

. .

. .

. .

. .

. .

B

B

1 1 2 2

2 5835 0 2775 17166 0 63652 5835 0 4893 17166 0 35082 5835 0 3426 17166 058712 5835 0 5510 17166 0 04512 5835 0 5124 17166 0 3538

0 4460 083390 7865 0 459605507 0 769208857 0 059108236 0 4635

Da bi odredili ~ potrebno je da odredimo komunalitet

B1 B2 h B Bi2

12

22 ~i ih 1 2

0.4460 0.8339 0.44602+0.83392=0.8944 0.10560.7865 -0.4596 0.8297 0.17030.5507 0.7692 0.8949 0.10510.8857 -0.0591 0.7879 0.21210.8236 -0.4635 0.8932 0.1068

pa je

~~'

. .

. .

. .

. .

. .

. . . . .

. . . . .BB

0 4460 083390 7865 0 459605507 0 769208857 0 059108236 0 4635

0 4460 0 7865 05507 08837 0823608339 0 4596 0 7692 0 0591 0 4635

01056 0 0 0 00 01703 0 0 00 0 01051 0 00 0 0 0 2121 00 0 0 0 01068

1 0 0325 08871 0 3451 0 01921 0 0796 0 7237 0 8608

1 0 4423 0 09711 0 7569

1

..

..

.

. . . .. . .

. ..

.

www.puskice.co.yu

- 42 -

Page 43: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

Na osnovu poređenja ove matrice sa matricom R možemo zaključiti da zajednički faktori relativno uspešno reprodukuju korelacionu strukturu originalnih promenljivih. Kvalitet aproksimacije smo takođe mogli sagledati i na osnovu matrice reziduala:

R BB

( ~ ~' )

. . . .. . .

. ..

0 0 0325 0 0871 0 0457 0 01920 0 0204 01237 0 0608

0 0 0423 0 00290 0 0569

0

.

5.3.2 Metoda glavnih faktora

Ako analizu zasnivamo na korelacionoj matrici, nju razlažemo prema faktorskom modelu

BB'

gde su dijagonalni elementi

ii i ih i p 1 1 22 , , ,..., .

Zajednički faktori objašnjavaju vandijagonalne elemente matrice i deo dijagonalnih elemenata hi

2. Zato formiramo novu matricu

BBh

hh

p

p

p p p

'12

12 1

21 22

2

1 22

koja predstavlja korelacionu matricu zajedničkih faktora i naziva se redukovana korelaciona matrica.

Do ocene korelacione matrice zajedničkih faktora dolazimo na osnovu razlike ocenjene korelacione matrice i matrice specifičnih varijansi.

Kako je

i ih 1 2

to je potrebno oceniti komunalitet pre nego što se primeni metod glavnih faktora za ocenu modela faktorske metode. Postoje dve osnovne grupe metoda za ocenjivanje komunaliteta:

- 43 -

Page 44: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

1. Za ocenu i-tog komunaliteta uzima se maksimalna vrednost koeficijenta korelacije i-te promenljive i ma koje od preostalih p-1 promenljivih. Apsolutna vrednost tog koeficijenta korelacije zamenjuje zatim i-tu jedinicu na glavnoj dijagonali korelacione matrice (dobra metoda za veliko p).

2. Koristi se celokupna korelaciona matrica i ocena za hi2 je kvadrat višestrukog koeficijenta

korelacije promenljive Xi i svih preostalih p-1 promenljivih. Ova metoda daje donju granicu ocene komunaliteta i bazira se na matrici R-1, tako da je ocena komunaliteta

~ ~ , , ,...,hr

i pi i ii2 1 1 1 1 2

gde je rii i-ti dijagonalni element matrice R-1.

Nakon ocene komunaliteta i formiranja redukovane korelacione matrice vrši se izbor broja faktora istim postupcima kao kod metode glavnih komponenti. Potom se određuju karakteristični vektori redukovane korelacione matrice koji odgovaraju prvim m pozitivnim karakterističnim korenima te matrice.

Prema tome, ocena matrice faktorskih opterećenja je

B m m* * * * * * *~ ~ ~ ~ ~ ~ 1 1 2 2

gde su

~ , ~ , , ,...,* * j j j m1 2

parovi karakterističnih korena i pridruženih karakterističnih vektora redukovane korelacione matrice.

Ocena specifične varijanse je

~ ~ , , ,...,* *i ijj

m

i p 1 1 22

1

gde su ~*ij ocenjena faktorska opterećenja.Na osnovu ovako ocenjene specifične varijanse možemo ponovo oceniti komunalitete

~ ~ , , ,...,* *h i pi ijj

m2 2

11 2

a zatim ih u narednoj iteraciji koristiti za formiranje redukovane korelacione matrice i određivanje njenih karakterističnih vektora. Ovaj iterativni proces ocenjivanja modela faktorske analize nastavljamo do momenta kada promene u sukcesivnim ocenama komunaliteta ne budu zanemarive.

Primer 5.5:

Neka je poznata kovarijaciona matrica vektora XT=(X1, X2, X3, X4)

www.puskice.co.yu

- 44 -

Page 45: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

19 30 2 1257 5 23

38 4768

i neka se znaju faktorska opterećenja za prvi faktor F1

a a a i a11 12 13 144 7 1 1 , ,

kao i doprinos specifičnog faktora ukupnoj varijansi

12

22

32

422 4 1 3 , , .i

Izračunati:

a) Faktorska opterećenja za faktor F2 ako se pretpostavi da je model sa dva faktora i datim uticajem specifičnog faktora u potpunosti sposoban da objasni kovarijacionu matricu.

b) Proporcije varijabiliteta varijabli X1, X2, X3 i X4 objašnjene faktorima F1 i F2.c) Promene u reprezentovanju kovarijacione matrice vektora X, ako se inicijalno

ocenjeni faktori rotiraju matricom G za koju važi da je GT=G-1. Skicirati izgled rotacije od 30 i promene pozicije faktorskih opterećenja.

Rešenje:

a)h h a ai ii i i i i i i

2 2 212

22

12

22 ,

h h h ha a a aa a a a

12

22

32

42

212

222

232

242

21 22 23 24

17 53 37 651 4 36 641 2 6 8

Faktorska opterećenja za faktor F2:

F a a a a2 21 22 23 241 2 6 8

b) Faktorima F1 i F2 je objašnjeno:

za X1 0.8947 varijabiliteta,za X2 0.9298 varijabiliteta,za X3 0.9736 varijabiliteta,za X4 0.9559 varijabiliteta.

c) Ako se inicijalno ocenjeni faktori rotiraju ortogonalnom matricom G za koju važi da je GT=G-1, kovarijaciona matrica se neće promeniti. Rotacija za 30:

- 45 -

Page 46: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

M

cos sinsin cos

. .. .

30 3030 30

0 866 0505 0866

~ ~

~ , ~ . .. .

. .

. .. .. .

.

BM

B

4 17 21 61 8

4 17 21 61 8

0866 0505 0866

2 964 2 8685 062 52363866 4 7083134 7 444

Rotacijom za 30 se dobija matrica

~

. .

. .. .. .

2 964 2 8685062 52363866 4 7083134 7 444

.

www.puskice.co.yu

- 46 -

Page 47: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

6. KLASTER ANALIZA

Primer 6.1:

U tabeli su dati podaci o proizvodnji belog i crnog vina za pet proizvođača (u hiljadama litara):

redni broj proizvođač belo vino crno vino1 NAVIP 5 42 SMEDEREVKA 2 43 VINO ŽUPA 4 34 KRAJINA VINO 7 65 KOSOVO VINO 10 9

Izračunati apsolutno i kvadratno odstojanje između proizvođača.

E NAVIP SMEDEREVKA VINO ZUPA KRAJINA VINO KOSOVO VINO

E e e e e e N

X belo vino crnovino

X X X p

, , , ,

, , , , ,

,

1 2 3 4 5

1 2

5

2

apsolutno odstojanje:

d x x k

d

ij ik jkk

p

1

11

1 2

0

, ,

i jd x x x x

1 25 2 4 4 312 11 21 12 22

, :

- 47 -

Page 48: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

i jd x x x x

d

d

1 35 4 4 3 2

5 7 4 6 2 2 4

5 10 4 9 5 5 10

13 11 31 12 32

14

15

, :

d d

d

21 12

22 0

i jd x x x x

d

d

d

d

d

2 32 4 4 3 2 1 3

2 7 4 6 5 2 7

2 10 4 9 8 5 13

4 7 3 6 3 3 6

4 10 3 9 6 6 12

7 10 6 9 3 3 6

23 21 31 22 32

24

25

34

35

45

, :

D

0 3 2 4 100 3 7 13

0 6 120 6

0

kvadratno euklidsko odstojanje:

d x x x x

d

d

122

11 212

12 222 2 2

132 2 2 2 2

142 2 2

5 2 4 4

5 4 4 3 1 1 2

5 7 4 6 4 4 8

...

D

0 9 2 8 500 5 29 89

0 18 720 18

0

Primer 6.2:

Na osnovu podataka iz prethodnog primera formirati hijerarhijsku klasifikaciju korišćenjem metode pojedinačnog povezivanja (single linkage) a zatim nacrtati odgovarajući dendogram.

www.puskice.co.yu

- 48 -

Page 49: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

12345

0 9 2 8 500 5 29 89

0 18 720 18

0

1

NAVIPSMEDEREVKAVINO ZUPAKRAJINA VINOKOSOVO VINO

D

( )

Prvo se povezuju ona dva elementa koja imaju najmanje odstojanje

min d dij 2 13

Znači, 1 NAVIP i 3 VINO ŽUPA čine jedan klaster. Sada primenjujemo algoritam klasifikovanja

D e e di j sl( , ) min

1 3245

0 5 8 500 29 89

0 180

2

U UNAVIP VINO ZUPASMEDEREVKAKRAJINA VINOKOSOVO VINO

D

( )

mindij 5

Klasteru NAVIP U VINO ŽUPA se pridružuje klaster 2 SMEDEREVKA.

1 3 245

0 8 500 18

0

3

U UKRAJINA VINOKOSOVO VINO

D

( )

Klasteru 1 U 3 U 2 se pridružuje klaster 4 KRAJINA VINO.

1 3 2 45

0 180

U U UKOSOVO VINO

Dendogram:

- 49 -

2

5

8

18

1 3 2 4 5 klasteri

odstojanje

Page 50: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

D h( )

0 5 2 8 180 5 8 18

0 8 180 18

0

Primer 6.3:

Neka su dati podaci o indeksu rezultata i snage sedam desetobojaca:

takmičar rang snage rang rezultataA 10 8B 2 2V 2 5G 4 2D 2 3E 8 9Z 8 7

K-mean algoritmom podeliti skup desetobojaca na dve grupe sa početnim rešenjima za prvi centroid A, a za drugi centroid D i izračunati međusobno odstojanje konačno formiranih klasa.

A B0 010 8 2 3 ( , ), ( , )

d e A d e B e Bd e A d e B e Bd e A d e B e Bd e A d e B e Ad e A d e B e A

10

10

1

20

20

2

30

30

3

40

40

4

50

50

5

14 111 212 33 123 10

, , ', , ', , ', , ', , '

A B' (8. , ), ' ( . , ) 67 8 2 5 3

www.puskice.co.yu

- 50 -

Page 51: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

d e A d e B e Bd e A d e B e Bd e A d e B e Bd e A d e B e Ad e A d e B e A

1 1 1

2 2 2

3 3 3

4 4 4

5 5 5

12 67 159 67 2 510 67 2 5167 115167 9 5

, ' . , ' . ' ', ' . , ' . ' ', ' . , ' . ' ', ' . , ' . ' ', ' . , ' . ' '

Konačno rešenje:

A A E Z B B V G D' ' , , ' ' , , , .

Međusobno odstojanje klasa:

dI II, .1117 .

7. REŠENI ZADACI

Zadatak 1.

Neka je data kovarijaciona matrica

- 51 -

Page 52: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

13 4 213 2

10

i neka su poznata dva korena jednačine I 0

1 29 9 i .

a) Odrediti varijabilitet prve glavne komponente.b) Odrediti analitički oblik druge glavne komponente.c) Koliko treba uzeti glavnih komponenata da bi bilo obuhvaćeno barem 70% ukupnog

varijabiliteta vektora X?

a)tr tr( ) ( )

13 13 10

36 18 36 18 181 2 3

3 3

Varijabilitet prve glavne komponente je

maxi 18 .

b)

P Pppp

ppp

2 2 2

12

22

32

12

22

32

13 4 24 13 22 2 10

9

13 4 2 94 13 2 92 2 10 9

4 4 2 04 4 2 0

2 2 0

12 22 32 12

12 22 32 22

12 22 32 32

12 22 32

12 22 32

12 22 32

p p p pp p p pp p p p

p p pp p p

p p p

Dobili smo tri jednačine sa tri nepoznate ali su prve dve redudantne. Za P21 i P22

odgovara bilo koje rešenje, npr P21=1 i P22=1, Iz treće jednačine dobijamo da je P32=0. Vektor

1 1 0 T

zadovoljava sistem jednačina ali ne i uslov normiranosti karakterističnih vektora. Da bi se to postiglo, rešenja se dele sa korenom zbira kvadrata, tj. sa

1 1 0 22 2 2

pa je konačno

PT

212

12

0

.

c)www.puskice.co.yu

- 52 -

Page 53: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

1 2 305 0 25 0 25 36tr tr tr

tr tr( )

. ,( )

. ,( )

. , ( ) ( )

V P X

V P X V P X

T

T T

( ) .

( ) ( ) .1

1 2

0 7 36

0 7 36

Odavde zaključujemo da treba uzeti prve dve glavne komponente da bi se obuhvatilo najmanje 70% ukupnog varijabiliteta.

Zadatak 2.

Ako su poznati varijabiliteti prve dve glavne komponente V(Y1)=18 i V(Y2)=9 i ako se zna ukupni varijabilitet vektora X

tr( ) 36

pri čemu su glavne komponente date sa

Y X X X

Y X X

Y X X X

1 1 2 3

2 1 2

3 1 2 3

23

23

13

12

12

118

118

418

a) odrediti procenat varijabiliteta koji nosi treća komponenta,b) odrediti kovarijacionu matricu vektora X.

a) V Y tr tr( ) ( ) ( )3 3 1 2 1 2 36 27 9

3 100 936

100 25%tr( )

varijabiliteta.

- 53 -

Page 54: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

b)

V X P P P P P P P P P PT T T T T( )

1

2

3

1 1 1 2 2 2 3 3 3

0 00 00 0

18

232313

23

23

13

9

12

120

12

12

0 9

118118418

118

118

418

18

49

49

29

49

49

29

29

29

19

9

12

12

0

12

12

0

0 0 0

9

118

118

418

118

118

418

418

418

1618

13 4 24 13 2

2 2 10 .

Zadatak 3.

Neka je dat vektor

X X X X T 1 2 3

i njegova kovarijaciona matrica

1 2 02 5 00 0 2

sa karakterističnim vektorima

P

P

P

T

T

T

1

2

3

0 383 0 924 0

0 0 1

0 924 0 383 0

. .

. .

a) Izračunati glavne komponente Y1, Y2 i Y3 i njihove varijanse.b) Izračunati kovarijansu i korelaciju prve glavne komponente Y1 sa varijablom X1.

a)

www.puskice.co.yu

- 54 -

Page 55: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

Y P X X X

Y P X X

Y P X X X

T

T

T

1 1 1 2

2 2 3

3 3 1 2

0 383 0 924

0 924 0 383

. .

. .

V Y V X X V X V XCov X X

( ) ( . . ) . ( ) . ( ). ( . ) ( , ) . . . ( )

.

1 1 22

12

2

1 2

1

0 383 0 924 0 383 0 9242 0 383 0 924 0147 1 0 854 5 0 708 2583

V Y V X( ) ( )2 3 22

V Y tr( ) ( ) ( ) . .3 1 2 8 7 83 017

b) X1 se može napisati kao

1 0 01

2

3

1

XXX

L XT

Cov X Y Cov L X P X L Cov X X P

L V X P L P L P

T T T

T T T

( , ) ( , ) ( , )

( )1 1 1 1 1 1

1 1 1 1 1 1 1

jer je P P1 1 1 . Stoga je

Cov X Y( , ) ... . . .1 1 1 0 0 583

0 3830 924

0583 0 383 2 23

Cor X Y Cov X YV X V Y

( , ) ( , )( ) ( )

..

.1 11 1

1 1

2 231 583

0 925

.

Zadatak 4.

Neka je data korelaciona matrica

R

1 0 63 0 451 0 35

1

. ..

a) Pokazati da se R može generisati modelom faktorske analize sa jednim faktorom tipa

- 55 -

Page 56: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

X F

X F

X F

1 1 1

2 1 2

3 1 3

0 9

0 7

05

*

*

*

.

.

.

pri čemu je

XX

V FCov F i

V

i

*

( )( , ) , , ,

( ).

..

1

1

10 1 2 3

0190 51

0 75

b) Izračunati komunalitete.

a) Model je X AF 1 , a R se ocenjuje sa

~ ( )...

. . ..

..

. . .

. . .

. . .

..

.

R AA V

R

T

0 90 705

0 9 0 7 05019

0510 75

0 81 0 63 0 450 63 0 49 0 350 45 0 35 0 25

019051

0 75

Kako je R R ~ 0 zaključujemo da model generiše R.

b)h h h i hi i

212

22

321 0 81 0 49 0 25 . , . . .

Zadatak 5.

Neka je data matrica podataka

X1 X2

e1 5 3e2 -1 1e3 1 -2e4 -3 -2

www.puskice.co.yu

- 56 -

Page 57: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

a) Podeliti skup E e e e e 1 2 3 4, , , na dva skupa Quick cluster algoritmom korišćenjem

euklidskog odstojanja d X Xij ik jkk

( )2

1

2

uz dato početno rešenje da je

A e e i B e e01 2

03 4 , , .

b) Izračunati na isti način distancu između konačno formiranih klasa.

a) Centroidi početnog rešenja:

X1 X2

A05 1

22 3 1

22

B01 3

22 2 2

22

d e A

d e B d e A d e B e A

d e A

d e B e B

d e A

d e B e B

d e A

d e B e B

( , ) ( ) ( )

( , ) ( ) ( ) ( , ) ( , ) '

( , )

( , ) '

( , )

( , ) '

( , )

( , ) '

10 2 2

10 2 2

10

10

1

20

20

2

30

30

3

40

40

4

5 2 3 2 10

5 1 3 2 61

10

9

17

1

41

25

A e i B e e e' ' , , 1 2 3 4

pa su centroidi

A i B' ( , ) ' ( , )5 3 1 1

d e Ad e B e Ad e Ad e B e Bd e A d e B e Bd e A d e B e B

( , ' )( , ' ) ' '( , ' )( , ' ) ' '( , ' ) ( , ' ) ' '( , ' ) ( , ' ) ' '

1

1 1

2

2 2

3 3 3

4 4 4

052400

Kako je A'=A'' i B'=B'' konačna klasifikacija je:

A e i B e e e 1 2 3 4, ,

b) d A B X X X XA B A B( , ) ( ) ( ) 1 12

2 22 52 .

8. LITERATURA- 57 -

Page 58: LINEARNA STATISTIČKA ANALIZA

Linearni statistički modeli

1. Kovačić Zlatko: "Multivarijaciona analiza"

www.puskice.co.yu

- 58 -