Upload
coy
View
52
Download
1
Embed Size (px)
DESCRIPTION
Alternativ till 2 -test. Det vanliga sättet att beteckna komponenterna i teststorheten ( 2 ), dvs. med O i , E i , O ij och E ij är inte tillräckligt för att kunna utreda vari problematiken finns med att använda testet vid icke-OSU. För oberoendetestet: - PowerPoint PPT Presentation
Citation preview
Alternativ till 2-test
Det vanliga sättet att beteckna komponenterna i teststorheten (2), dvs. med Oi , Ei , Oij och Eij är inte tillräckligt för att kunna utreda vari problematiken finns med att använda testet vid icke-OSU.
För oberoendetestet:
Låt pij = P (Ett element kategoriseras i cell (i , j ) ) , dvs. sannolikheten att en post i datamaterialet har ett värde på den ena variabeln (x) som hamnar i kategori i och ett värde på den andra variablen (y) som hamnar i kategori j.
Marginalsannolikheten för radkategori i betecknar vi pi+ och marginalsannolikheten för kolumnkategori betecknar vi p+j
Terminologin går förstås tillbaka till sannolikhetsläran:
Om en tvådimensionell slumpvariabel (X , Y ) har den simultana sannolikhetsfunktionen
så beräknas den marginella sannolikhetsfunktionerna för X resp. Y som
Marginalsannolikheten , pi+ , för en radkategori är alltså den marginella sannolikhetsfunktionens värde för denna kategori i den (kategoriserade) radvariabeln (x )
Marginalsannolikheten , p+j , för en kolumnkategori är alltså den marginella sannolikhetsfunktionens värde för denna kategori i den (kategoriserade) kolumnvariabeln (y )
jYiXPjip YX ,,,
iYXY
jYXX
jipjp
jipip
,
,
,
,
Uttryckt i cell- och marginalsannolikheter gäller då att vid ett oberoendetest testas
jipppH
jipppH
jiijA
jiij
,par ett minst för :
,:0
Cellsannolikheterna skattas som
och marginalsannolikheterna som
ijijij
ij pnBiOn
Op ,~ˆ
n
Cp
n
Rp j
ji
i ˆ;ˆ
Om H0 är sann måste förstås också gälla
och teststorheten mäter egentligen hur stora avvikelserna är från 0:
0 jiijjiij ppnpnppnpn
r
i
c
j ij
ijijr
i
c
j ji
jiijr
i
c
j ji
jiijr
i
c
j ji
jiij
E
EO
n
CRn
CRO
n
C
nR
n
n
C
nR
nO
ppn
ppnpn
1 1
2
1 1
2
1 1
2
1 1
2
2
ˆˆ
ˆˆˆ
jjii pnBiCpnBiR ,~;,~
Skillnaden vid homogenitetstest är att radsummorna är fixa (n1 , … , nr )
jYPpn
npijYPp j
iiij ;; aldatamateri
Nollhypotesen skall då skrivas som jp
p
p
p
p
pH
r
rjjj
2
2
1
10 :
r
i
c
j ji
jiijr
i
c
j ji
jiij
r
i ijjjjj
ijijijij
n
Cnn
CnO
ppn
ppnpn
n
O
n
CppnBiC
n
OppnBiO
1 11 1
2
2
1
ˆ
ˆˆ
ˆ;,~
ˆ;,~
Wald’s test:
Betrakta en fyrfältstabell (22 korstabell)
1 2
1 p11 p12 p1+
2 p21 p22 p2+
p+1 p+2
jijijijijjiiji pppppppppppppp 221221112121
Omformulering av nollhypotesen:
Om H0 är sann får vi:
0
1
0
1
2112221121122211
2211211212
22112112221122121112
22121212221112112112
2112221121122211
2112221111
21122211211212211111
21121112211111111111
pppppppp
ppppp
pppppppppp
ppppppppppp
pppppppp
ppppp
pppppppppp
ppppppppppp
Samma ekvation fås vid utveckling av varje pij
Detta ger nu
dvs. vi får en enda ekvation som representerar fyra (22) likheter.
Vid en större tabell (rc) blir det (r – 1)∙(c – 1) ekvationer
0,: 211222110 ppppjipppH jiij
För en fyrfältstabell låter vi nu
annars0
, kategori iär element om1
och ˆdär ˆˆˆˆˆ
0:
,
,
21122211
0
21122211
jiky
w
ywppppp
H
pppp
jik
kk
k
jikk
ij
S
S
Skattningen fungerar i alla urvalsdesigner om urvalsvikterna kan bestämmas.
Om simultana inklusionssannolikheter också är kända:
skattaskan ˆ skattaskan ˆ VpV ij
Teststorhet
sannär om 1,0~ˆˆ
ˆ0HN
VW
För (r – 1)∙(c – 1) ekvationer fås en parametervektor
Teststorheten blir då en vektor/matris-produkt (förklaras närmare i kursen Multivariata metoder)
θ
θθ
ˆför atrisen kovariansmär där
sannär om ~ˆˆ0
211
1
HW cr
T
Bortfall
• I ”teorin” kan varje urvalsdesign analyseras och optimala skattningar med tillhörande variansskattningar kan härledas.
• I praktiken uppstår ett stort bortfall i undersökningen vars negativa konsekvenser överskuggar den optimalitet ho skattningar man lyckats påvisa.
• Egentligen är det bättre att lägga ned energi på att minimera bortfallet än att utreda vilken skattningsmetodik som ger lägst bias resp. lägst varians.
Typer av bortfall:
• Totalbortfall: Hela elementet saknas (inga egenskaper har observerats)
• Partiellt bortfall (informulärsbortfall): Vissa egenskaper har inte observerats.
Hur inverkar bortfallet?
Enkel konstruktion: Bortfallsstratumansatsen
Målpopulation antas vara indelad i ett svarandestratum (R ) och ett bortfallsstratum (M ).
R M
…men naturligtvis vet vi inte vilket element som tillhör vilket stratum.
Populationsmedeltalet kan då skrivas
och den skattning vi har från urvalet är därmed en skattning av
MUM
RUR
U yN
Ny
N
Ny
RUy
Skattningen kan alltså inte sägas vara väntevärdesriktig.
Låt vara skattningen och anta att
y RUyyE ˆ
MURUM
MUMM
RUMUMR
RU
MUMR
RUMUM
RUR
RUU
yyN
Ny
N
N
N
Nyy
N
N
N
NNy
yN
N
N
Nyy
N
Ny
N
NyyyEBias
1ˆ
MURUM
U yyN
NyyEBias ˆ
Storleken hos Bias beror på
• Hur stort bortfallsstratumet är (NM )
• Hur stor skillnad det är mellan de bägge stratummedeltalen
Modell för bortfall
Låt
1
annars0
umsvarsstratr en tillhöpopulation i enhet om1
ii
i
RP
iR
i kallas propensity score för enhet i och vad som är viktigt är hur denna beror på det som skall undersökas. (Någon svenskspråkig term existerar nog inte)
Bortfallen i en undersökning kan klassas till tre olika kategorier:
1. MCAR (Missing Completely at Random)
Propensity score beror varken på undersökningsvariabeln eller på bakgrundsvariabler.
Medeltalsskattningen kan här sägas vara ungefär väntevärdesriktig, dvs. bortfallet kan ignoreras.
2. MAR (Missing at Random given covariates)
Propensity score beror här på bakgrundsvariablerna men inte på undersökningsvariabeln.
Bortfallsmekanismen kan modelleras och skattningar kan justeras utifrån snedfördelning över bakgrundsvariablerna.
3. NMAR (Not Missing at Random)
Propensity score antas här bero på undersökningsvariabeln. Bortfallet kan då varken ignoreras eller justeras för utifrån bakgrundsvariabler.
Metoder för bortfallshantering:
• Förebyggande av bortfall (egentligen mest viktig). Sid. 333-336 i Lohr: Allt som har med en undersöknings genomförande skall noggrant optimeras (val av datainsamlingsmetod, intervjuformulär, intervjuare, tidpunkter för intervjuer, …)
• Efterhandsjustering av totalbortfall
– Bortfallsuppföljning (för NMAR)
– Kompensationsvägande metoder (för MAR)
o Viktjustering utifrån klassificering
o Poststratifiering
o Raking
o Kalibrering
• Substitution (för MCAR)
• Imputering av partiella bortfall (för MAR)
Bortfallsuppföljning (Tvåfas-sampling enligt Hansen & Hurwitz)
• OSU designat för n element (fas-ett-urval) men svar har endast erhållits från nR. I denna del har beräknats
• Bland de återstående nM = n – nR elementen görs ett nytt OSU med en dyrare datainsamlingsmetod av nM element där är i storleksordningen 0.2 (20%). Utgångspunkten är att svar erhålls från samtliga i detta fas-två-urval och vi kan beräkna
RR i
RiR
Ri
iR
R yyn
syn
ySS
22 ˆ1
1och
1ˆ
)2()2(
22 ˆ1
1och
1ˆMM i
MiR
Mi
iR
M yyn
syn
ySS
• En skattning av populationsmedeltalet beräknas nu som ett stratifierat medeltal:
• En approximativ variansskattning för denna skattning är:
• Variansskattningen blir approximativt väntevärdesriktig om svar fås från alla i fas-två-urvalet.
• Vidare, om svar fås från alla i fas-två-urvalet är bortfalls-bias eliminerad. Bortfallsandelen räknas då som 0%. Om inte svar fås från alla beräknas den nya bortfallsandelen som
MM
RR
U yn
ny
n
ny ˆˆˆ
22
22
ˆˆˆˆ1
1
1
1
1
1ˆˆUM
MUR
RMMRRU yy
n
nyy
n
n
nn
s
n
n
n
s
n
nyV
n
n
nnνn
n R
M
M
)2( tvåfas isvar Antal tvåfas isvar Antal
Exempel
I en studie skickades en enkät till ett OSU om 500 personer. Bland annat ställdes frågorna ”Vad betalade du senast för en måltid på en lunchrestaurang” samt ”Tittar du regelbundet på matlagningsprogram i TV?”
Svar erhölls från 310 personer med följande resultat
Fråga Totalsumma Standardavvikelse
”Lunchpris” 22320 13
”Matlagningsprogram 75
För att komma till rätta med bortfallet gjordes en uppföljande undersökning med telefonintervjuer i ett OSU om 40 personer bland de 190 som ej besvarat enkäten. Alla besvarade de två frågorna i denna uppföljning med resultat
Fråga Totalsumma Standardavvikelse
”Lunchpris” 2630 11
”Matlagningsprogram 13
Här är alltså = 40/190 21%
Skattningar och konfidensintervall
30.260.69373.196.160.69
ntervallkonfidensi %95
373.1
625.6940
2630
500
190625.69
310
22320
500
310
499
1
40
11
499
189
500
13
499
309ˆˆˆˆ
60.69625.6940
2630
500
190
310
22320
500
310ˆ
22
22
UU
U
yVyV
y
För genomsnittligt lunchpris:
För andelen regelbundna tittare på matlagningsprogram:
09.027.00.0023081.960.2735
ntervallkonfidensi %95
002308.0
2735.040
13
500
1902735.0
310
75
500
310
499
1
404013
14013
499
189
50031075
131075
499
309ˆˆ
2735.040
13
500
190
310
75
500
310ˆ
22
pV
p
Kompensationsvägning (för MAR)
Viktjustering utifrån klassificering
• Utgå från att vi känner till inklusionssannolikheten i för varje enhet i populationen. Det gör vi ju om vi har ett OSU. Urvalsvikterna är
•Används en (eller flera) av bakgrundsvariablerna för att klassindela det ursprungliga urvalet i c klasser S1, … , Sc. Till dessa klasser förs även de som svarat SR,1, … , S R,c
• Beräkna summan av urvalsvikterna i varje klass för såväl det ursprungliga urvalet som de svarande:
iiw 1
cjwW
cjwW
RiijR
iij
,,1,
,,1,
,
,
j
j
S
S
• Inom varje klass (j = 1, …, c ) justera urvalsvikterna för de svarande enligt
• För bortfallen, sätt
• Beräkna punktskattningar enligt
j
jRj
j
ii W
Www ,ˆdär
ˆ~
0~ iw
S
S
S
ii
iii
wcU
iiiwc
w
ywyy
ywtt
~
~
ˆˆ
~ˆˆ
För ett OSU blir skattningarna speciellt enkla:
wcwc
c
jjR
j
jRwc
yNt
yn
ny
ˆˆ
ˆ1
,,
Poststratifiering
Klassificering görs på samma sätt som vid viktjustering, men här tar man redan på hur stora klasserna är i hela populationen
N1 , … , Nc
och en punktskattning av populationsmedeltalet beräknas som
jR
c
j
jpost y
N
Ny ,
1
ˆ
Raking
En metod som skapar poststratifiering iterativt när klassificieringen görs utifrån fler än en bakgrundsvariabel.
Kalibrering
Den mest moderna av alla kompensationsvägningsmetoder, men tas ej upp i Lohr
Substitution (för MCAR)
Bortfallen ersätts med nya urval av element till dess att urvalsstorleken är uppnådd.
Metoden kan aldrig minska bortfallet eller dess ev. bias. Används när MCAR är uppenbart och man behöver ha precision i skattningarna.
Om stratifierat urval görs liknar metodiken den som används vid s.k. kvoturval, i vilka man gör urval till dess att planerade urvalsstorlekar inom varje stratum har erhållits.
Imputering
Metodik för att ersätta sakande värden på vissa av egenskaperna hos ett element. Flera varianter finns:
• Medelvärdesimputering:
– Samtliga element (respondenter) i urvalet klassas på motsvarande sätt som vid viktjustering.
– För en respondent där värde saknas på en (eller flera) egenskaper används medelvärdet för övriga respondenter inom respondentens klass som ersättningsvärde(n).
– Skall bara användas när MCAR kan antas inom den aktuella klassen.
• ”Hot deck”-imputering:
– Klasser av respondenter görs som tidigare
– Ett saknat ersätts med en annan respondents värde från samma klass.
– Den andra respondenten kan väljas
o sekventiellt, dvs. den respondent som var den senaste med ett värde på egenskapen innan den aktuella respondenten tillfrågades/observerades
o slumpmässigt
o så ”nära” den aktuella respondenten som möjligt (närmaste granne, tvillingimputering)
• Regressionsimputering:
– För de respondenter som har värden den aktuella egenskapen anpassas en regressionmodell (linjär, logistisk, Poisson beroende på skalan hos värdet) med andra egenskaper som förklaringsvariabler. De senare måste finnas observerade för samtliga respondenter. Den skattade modellen används sedan för att prediktera värdet där det saknas.
Mer avancerad imputering:
• Regressionsimputering kan kombineras med påförda helt slumpmässiga fel och kallas då stokastisk regressionsimputering.
• ”Multiple imputation” är en nyare mer algoritmisk metod som har visat sig vara effektiv
Vid all imputering är det viktigt att komma ihåg att de variansskattningar man beräknar med den vanliga formlerna är underskattade. Imputeringen ger en förväntad lägre variation än vad originaldata skulle ha gett.