Upload
fynn
View
50
Download
0
Embed Size (px)
DESCRIPTION
ANALIZA VARIANCE. Analiza variance je metoda s katero proučujemo učinke več faktorjev na statistične enote. Analiza variance odgovarja na vprašanje, če so učinki faktorjev statistično pomembni in kako veliki so. - PowerPoint PPT Presentation
Citation preview
1
Analiza variance je metoda s katero proučujemo učinke več faktorjev na statistične enote.
Analiza variance odgovarja na vprašanje, če so učinki faktorjev statistično pomembni in kako veliki so
Varianco podatkov, s katerimi izražamo učinke faktorjev na statistične enote, razčlenimo na več delov
2
En del variance je rezultat učinkovanja slučajnih vplivov, preostali deli, eden ali več, pa imajo izvor v učinkih proučevanih faktorjev na statistične enote
Kadar so posamezni deli tako razčlenjene skupne variance, bistveno večji od dela, ki pripada slučajnim vplivom, sklepamo, da so učinki teh faktorjev statistično pomembni.
Če smo skupno varianco podatkov razčlenili na dva dela, od katerih eden pripada slučajnim dejavnikom, drugi pa proučevanemu faktorju, govorimo o enojni analizi variance.
3
Če smo skupno varianco razčlenili na tri ali več členov, tako da eden pripada slučajnim dejavnikom, ostali pa proučevanim faktorjem, govorimo o dvojni oziroma večkratni analizi variance.
S stališča regresijske analize so faktorji neodvisne spremenljivke, statistični znak pa je odvisna spremenljivka.
Vrednost faktorja, katerega učinek na statistične enote opazujemo, imenujemo nivo faktorja. Kombinacije tistih nivojev različnih faktorjev, pri katerih opazujemo njihove učinke na statistične enote, imenujemo postopki
4
Proučevanja izvajamo na vzorčnih podatkih, ki morajo biti primerno izbrani, da lahko izvedemo ustrezno analizo variance.
Postopek, s katerim izbiramo vzorčne podatke, da bi lahko razčlenili skupno varianco podatkov na dele, ki pripadajo proučevanim faktorjem, imenujemo načrt poizkusa.
Moteče vplive ponavadi izločimo tako, da statistične enote, na katerih proučujemo postopke, razdelimo na čimbolj homogene skupine, pravimo jim bloki
5
Z enojno analizo variance primerjamo aritmetične sredine neodvisnih slučajnih vzorcev meritev ali opazovanj, izbranih iz različnih populacij
Populacije so v tem primeru postopki.
Vzemimo, da imamo neodvisne slučajne vzorce velikosti n iz k populacij.
Vzorce iz populacij lahko potem zapišemo
6
vzorec iz populacije : 1 11 12 1, ,..., nx x x
vzorec iz populacije : 2 21 22 2, ,..., nx x x
............................................................
vzorec iz populacije : k 1 2, ,...,k k knx x x
7
Realizacije slučajnih spremenljivk ij so vrednosti ijx ki jih lahko zapišemo v obliki modela
ij i ijx za i = 1,2,…, k in j = 1,2,…,n.
1
1 k
iik
je skupno matematično upanje
i za i = 1,2,…, k, pa imenujemo učinki postopkov in zanje velja
1
0k
ii
8
Z enojno analizo variance proučujemo en sam faktor s k nivoji
Preveriti želimo ničelno hipotezo
0 : 0iH za i = 1,2,…,k
pri nasprotni hipotezi
1 : 0iH za vsaj en i.
9
Test je zgrajen na celokupni variabilnosti podatkov
2
1 1
k n
iji j
x x
kjer je 1 1
1 k n
iji j
x xnk
Celokupno variabilnost podatkov lahko razcepimo na dva dela, to je na del, ki izhaja iz slučajnih vplivov, in del, ki izhaja iz razlik med populacijami.
2 22
1 1 1 1 1
.k n k k n
ij i ij ii j i i j
x x n x x x x
ix je povprečje podatkov vzorca iz i-te populacije
10
Izrazu na levi strani pravimo skupna vsota kvadratov (SST), prvi člen na desni strani enakosti se imenuje vsota kvadratov postopkov (SSTr), drugi člen na desni strani pa se imenuje vsota kvadratov slučajnih vplivov (SSE)
SST = SSTr + SSE
11
( 1)
SSEMSE
k n
imenujemo povprečje kvadrata napake in je2
slučajna spremenljivka s k(n-1) prostostnimi stopnjami
1
SSTrMSTr
k
imenujemo jo povprečje kvadratov postopkov s
k-1 prostostnimi stopnjami in je tudi 2
slučajna spremenljivka
12
Ničelno hipotezo bomo zavrnili, kadar bo MSTr znatno večji od MSE
Kvocient dveh 2 slučajnih spremenljivk F slučajna
spremenljivkaMSTr
xMSE
je njena vrednost s k-1 in k(n-1) prostostnimi stopnjami
13
Ničelno hipotezo zavrnili, če bo vrednost x presegla vrednost ; 1; ( 1)k k nx F slučajne spremenljivke pristopnji pomembnosti
Enojno analizo variance in ga pogosto zapišemo v obliki naslednje tabele.
( )MS Tr
MSE
Vir variabilnosti
Stopnje prostosti
Vsota kvadratov
Povprečje vsote
kvadratov
x
Postopki k-1 SSTr MSTr
Napaka k(n-1) SSE MSE
Skupaj kn - 1 SST
14
Računanje pa poenostavimo, če uporabimo naslednje obrazce
2 2
1 1
1k n
iji j
SST x Tkn
2 2
1
1 1.k
ii
SSTr T Tn kn
1
n
i ijj
T x
je vsota vrednosti i-tega postopka
1 1
k n
iji j
T x
vsota vseh nk vrednosti
Vrednost SSE dobimo, če od SST odštejemo SSTr
15
Včasih želimo analizirati vpliv dveh faktorjev.
Drugi faktor pogosto predstavlja moteče dejavnike
Statistične enote razdelimo v čim bolj homogene skupine – bloke, postopke pa dodelimo statističnim enotam v vsakem bloku slučajno.
Takšen načrt poizkusa imenujemo načrt v slučajnih blokih
Celotno varianco podatkov razčlenimo v tri dele.
16
Poizkus z dvema spremenljivima veličinama lahko izvajamo na dva različna načina, glede na to, ali sta spremenljivki neodvisni ali pa je med njima interakcija.
Postopke in bloke imenujemo tudi faktor A in faktor B ali pa tudi vrstica in stolpec
Označimo z ijx za i = 1,2,…,k in j = 1,2,…,n
realizacije neodvisnih normalnih slučajnih spremenljivk ij
Podatke ijx lahko zapišemo v obliki tabele
17
Blok 1 Blok 2 ............ Blok n
Postopek 1 .............
Postopek 2 .............
................ ....... .............. .............. ...........
Postopek k .............
11x 12x 1nx
21x 22x 2nx
1kx 2kx knx
18
Model dvojne analize variance brez interakcij zapišemo v obliki
ij i j ijx i = 1,2,…,k in j = 1,2,…,n.
skupna aritmetična sredina
i učinki postopkov
j učinki blokov 1
0n
jj
1
0k
ii
ij vrednosti normalnih slučajnih spremenljivk, ki so slučajni vplivi, z matematičnim upanjem 0 in enako varianco
19
Testirati želimo dve ničelni hipotezi, da so vsi učinki postopkov enaki nič in da so vsi učinki blokov enaki nič
0 : 0iH i = 1,2,…,k 0 : 0jH j = 1,2,…,n.
Nasprotni hipotezi sta, da niso vsi učinki postopkov in blokov nič
1 : 0iH za vsaj en i
1 : 0jH za vsaj en j.
20
Dvojna analiza variance sloni na izreku
2
1 1 1 1
2
2
1 1
2. .
k n k n
i j
i
i j
k n
i j
j
j i j
i jix x
x x x x
kxn x x x
ix povprečje podatkov za i-ti postopek
jx povprečje podatkov v j-tem bloku
x
x povprečje vseh n.k podatkov
21
Leva stran je skupna vsota kvadratov SST in meri celotno variabilnost podatkov
Prvi člen na desni strani je vsota kvadratov postopkov SSTr in meri variabilnost postopkov
Drugi člen na desni strani je vsota kvadratov blokov SSB in meri variabilnost blokov
Tretji člen je vsota kvadratov napake SSE in meri variabilnost slučajnih vplivov
S temi oznakami lahko zapišemo zvezo
SST SSTr SSB SSE
22
Kvocienti
1
SSTrMSTr
k
1
SSBMSB
n
1 1
MSESSE
k n
so povprečja ustreznih vsot kvadratov in so2
slučajne spremenljivke z ustreznim številom stopenj prostosti
Njihovi kvocienti pa so F slučajne spremenljivke s pripadajočim številom stopenj prostosti števca in imenovalca
23
Ničelno hipotezo 0H zavrnemo pri stopnjipomembnosti če velja , 1, 1 1Tr k n kx x
, 1, 1 1k n kx vrednost F slučajne spremenljivke s številom prostostnih stopenj k -1 ter (n - 1)(k - 1)
Tr
MSTrx
MSE
24
Ničelno hipotezo 0H zavrnemo pri stopnji
pomembnosti če velja , 1, 1 1B n n kx x
, 1, 1 1n n kx vrednost F slučajne spremenljivke z n -1 ter (n - 1)(k - 1) prostostnimi stopnjami
B
MSBx
MSE
25
Bistvene podrobnosti lahko strnemo v naslednji tabeli:
Tr
MSTrx
MSE
B
MSBx
MSE
Vir variabilnosti
Stopnje prostosti
Vsota kvadratov
Povprečje vsote
kvadratov
x
Postopki
k - 1
SSTr
MSTr
Bloki
n - 1
SSB
MSB
Napaka (n - 1)(k - 1) SSE MSE
Skupaj n.k - 1 SST
26
Zaradi enostavnejših računskih postopkov vpeljemo oznake
2 2
1 1
1k n
iji j
SST x Tkn
2 2
1
1 1k
ii
SSTr T Tn kn
2 2
1
1 1n
jj
SSB T Tk kn
Vrednost SSE pa dobimo z odštevanjem SSTr in SSB od SST.
iT je vsota podatkov v i-tega postopka
jT je vsota podatkov j-tega bloka
T je vsota vseh n.k podatkov
27
Model analize variance zapišemo
ijr ii j jr rijx
ijrx pripada i –temu postopku, j-temu bloku in r-ti ponovitvi (i = 1,2,…,k, j = 1,2,…,n, r = 1,2,…m).
r je učinek r-te ponovitve
ij je učinek interakcije i-tega postopka in j-tega bloka
i je učinek i-tega postopka
j je učinek j-tega bloka
28
Za vse učinke predpostavljamo
1 1 1 1 1
0k n m k n
i j r ij iji j r i j
Ničelne hipoteze so Nasprotne hipoteze so 10 : 0iH i = 1,2,…,k 1
1 : 0iH za vsaj en i 20 : 0jH j = 1,2,…,n
21 : 0jH za vsaj en j
30 : 0rH r =1,2,…,m
31 : 0rH za vsaj en r
40 : 0
ijH
i = 1,2,…,k ;j = 1,2,…,n.
41 : 0
ijH
za vsaj en par indeksov i in j
29
Analiza variance je zasnovana na delitvi skupne variance
2
1 1 1 1
1 1 1
2
1
2
2
22 + +
+
k
i ji
r
k n m n
i j r j
m k
ijr
ijr ij r
ij i j
n
r i j
r
x x x x x xmn mk
nk m
x x
x
x
x x x x
x
x
1 1 1
k n m
i j
30
ix povprečje podatkov za i-ti postopek
jx povprečje podatkov za j-ti blok
rx povprečje podatkov za r-to ponovitev
ijx je povprečna vrednost i-tega postopka v j-tem bloku (povprečna vrednost ponovitev)
x povprečje vseh mnk podatkov.
31
Izraz na levi strani enakosti je skupna vsota kvadratov SST
prvi člen na desni strani je vsota kvadratov postopkov: SSA
drugi člen je vsota kvadratov blokov : SSB
tretji člen je vsota kvadratov ponovitev: SSR
četrti člen je vsota kvadratov interakcij :SSI
zadnji člen je vsota kvadratov slučajnih vplivov: SSE
SST SSA SSB SSR SSI SSE
32
Količine
, ,
1 1 1 1
SSA SSB SSIMSA MSB MSI
k n k n
,
1 1 1
SSR SSEMSR MSE
m m nk
so povprečja vsot kvadratov in so 2 slučajne
spremenljivke s ustreznim številom stopenj prostosti
33
Količine
B
MSBx
MSE
R
MSRx
MSEA
MSAx
MSE
I
MSIx
MSE
so realizacije F slučajnih spremenljivk s pripadajočim številom stopenj prostosti v števcih in pripadajočim številom stopenj prostosti v vseh imenovalcih.
Vsako od postavljenih ničelnih hipotez bomo zavrnili pri stopnji pomembnosti če bo pripadajoča vrednost statistike presegla kritično vrednost x
34
Rezultate zapišemo v obliki tabele:
A
MSAx
MSE
B
MSBx
MSE
R
MSRx
MSE
I
MSIx
MSE
Vir variabilnosti
Stopnje prostosti
Vsota kvadratov
Povprečje vsote
kvadratov
x
Postopek (A)
k - 1 SSA MSA
Postopek (B)
n - 1 SSB MSB
Ponovitve m -1 SSR MSR
Interakcija (n –1)(k –1) SSI MSI
Napaka (m - 1)(n.k - 1) SSE MSE
Skupaj m.n.k - 1 SST
35
Vsote kvadratov izračunamo
2
1
1
.
k
ii
SSA T Cnm
2
1
1
.
n
jj
SSB T Ck m
2
1
1
.
m
rr
SSR T Ck n
2
1 1
1 k n
iji j
SSI T SSA SSB Cm
2
1 1 1
k n m
ijri j k
SST x C
SSE SST SSA SSB SSR SSI iT
jT
rT
ijT 2T
Cmnk
vsota podatkov za postopek A
vsota podatkov za blok B vsota podatkov za ponovitvevsota podatkov za kombinacijo i-tega nivoja postopka A in j-tega nivoja bloka B
vsota vseh podatkov
36
Načrt latinskega kvadrata uporabljamo za proučevanje učinkov enega faktorja in nadzor dveh dodatnih virov variabilnosti, ki jih izvajamo po vrsticah in stolpcih.
Ime izhaja od tod, ker postopke označujemo s črkami latinske abecede.
Latinski kvadrat za n postopkov bi bil n nlatinski kvadrat in bi imel n – vrstic in n – stolpcev Na presečišču vrstice in stolpca nastopa ena črka, ki pripada postopku tako, da vsaka črka nastopi le enkrat v vsaki vrstici in vsakem stolpcu
37
Oba vira variabilnosti ki ju nadziramo po vrsticah in stolpcih lahko nastopata na toliko nivojih , kot je število postopkov, to je, kot je razsežnost latinskega kvadrata.
med proučevanim faktorjem in dejavnikoma ki povzročata dodatno variabilnost podatkov, ni interakcij.
Latinski kvadrat imenujemo standardni latinski kvadrat, če so črke v prvi vrstici in prvem stolpcu zapisane v abecednem redu.
38
Standardni latinski kvadrat lahko zgradimo tako, da v prvi vrstici zapišemo črke v abecednem redu, v vsako naslednjo vrstico pa zapišemo prejšnjo, ki jo pomaknemo za eno mesto v levo, črko, ki je izpadla na levi strani vrstice, pa postavimo na zadnje mesto te vrstice.
Model za latinski kvadrat
( )ij k i j k ijx v s
i = 1,2,…,n, j = 1,2,…,n, k = 1,2,…,n.
39
V modelu pomenijo : skupna aritmetična sredina
iv učinki vrstic
js učinki stolpcev
k učinki postopkov
ij vrednosti slučajnih vplivov
Za vse neslučajne učinke predpostavljamo
1
0n
ii
v
1
0n
jj
s
1
0n
kk
40
Ničelne hipoteze so
1 2(1)0 .. 0: . nv vH v
1 2(2)0 .. 0: . ns sH s
1 2(3)0 ... 0: nH
Analizo variance za načrt poizkusa latinskega kvadrata zgradimo na naslednji razčlenitvi celotne variabilnosti podatkov:
2
( )
2
(
1 1 1 1 1
2 22
1( )
1)
( )
2
n
i j kij k
ij
n n n n
i j i j k
n n
k i ki j
j
x x x x xx x
x x x x x
n n xn
41
( )kx aritmetična sredina vseh podatkov za postopek k ( k = 1,2,…,n)
ix aritmetična sredina podatkov v i – ti vrstici(i = 1,2,…,n)
jx aritmetična sredina podatkov v j – tem stolpcu (j = 1,2,…,n)
x aritmetična sredina vseh podatkov v latinskem kvadratu.
42
Levo stran označimo s SST, in predstavlja skupno vsoto kvadratov
Prvi člen na desni, označimo ga s SSR, predstavlja vsoto kvadratov vrstic
Drugi člen na desni strani predstavlja vsoto kvadratov stolpcev, označimo ga s SSC
Tretji člen na desni strani predstavlja vsoto kvadratov postopkov, označimo ga s SSTr
Zadnji člen pa predstavlja vsoto kvadratov slučajnih vplivov in ga označimo s SSE.
SSR SSC SSTSST SSEr
43
Povprečja vsot kvadratov
1
SSTrMSTr
n
1
SSRMSR
n
1
SSCMSC
n
so realizacije 2 slučajnih spremenljivk z n – 1
stopnjami prostosti
2 1
SSEMSE
n n
je realizacija
2 slučajnespremenljivke z stopnjami prostosti
1 2n n
44
Kvocienti Tr
MSTrx
MSE R
MSRx
MSE C
MSCx
MSE
so realizacije F slučajnih spremenljivk z ustreznim številom prostostnih stopenj.
Analizo variance za načrt latinskega kvadrata zapišemo v naslednji tabeli:
45
SSTr
1n
MSTrTrx
SSR
1n
MSR Rx
SSC
1n
MSC Cx
SSE 1 2n n MSE
SST2 1n
Vir variabilnosti
Stopnjeprostosti
Vsota kvadratov
Povprečje vsote
kvadratovx
Postopki
Vrstice
Stolpci
Slučajni vplivi
Skupaj
46
Računanje vsot kvadratov izvedemo z obrazci2
2
1 1
n n
iji j
TSST x
N
2
2( )
1
1 n
kk
TSSTr T
n N
22
1
1 n
ii
TSSR T
n N
22
1
1 n
jj
TSSC T
n N
Vsoto kvadratov slučajnih vplivov dobimo
SSR SSC SSTSST SSEr
pri tem je
SST SSTr SSSSE R SSC
47
Pomen oznak
T vsota vseh podatkov v latinskem kvadratu
( )kT vsota podatkov postopka k (k = 1,2,…,n)
iT vsota podatkov v i-ti vrstici (i = 1,2,…,n)
jT vsota podatkov v j-tem stolpcu (j = 1,2,…,n)
N je 2N n