Upload
leque
View
217
Download
0
Embed Size (px)
Citation preview
1
Statistisk analyse
Vurdering af usikkerhed i forbindelse
med statistiske opgørelser forudsætter:
Kvantitative mål for variation og spredning
i forbindelse med statistiske opgørelser
(varians og standardafvigelse)
Kvantitative mål for tilfældigheder
(sandsynligheder)
En advarsel: Nytteværdien af disse begreber vil først vise sig senere!
2
Deskriptiv statistik
1) grafiske repræsentationer,
2) tabelmæssige opgørelser,
3) beregninger af en række nøgle-
tal og/eller indikatorer, der på summarisk måde sammenfatter nogle centrale egenskaber ved fordelingerne.
3
Forskel på deskriptive og analytiske metoder
Statistisk analyse
1) Formulering af spørgsmål og indsamling af data.
2) Opstilling af statistisk model.
3) Reformulering af spørgsmål i konkrete
modeltermer.
4) Analyse af modellen for at afsløre hvilke
beregninger, der skal til, for at give det mest
præcise svar på de stillede spørgsmål.
5) Beregningerne.
Virke-
lighed
Data-model
Statistisk
model
Analyse
Deskriptiv statistik
Analytisk statistik
4
Ændrede danskernes politiske holdninger sig i perioden 1981 – 1990?
1981
Venstre-højre position
højre98765432venstre
Pro
ce
nt
40
30
20
10
0
1990
Venstre-højre position
højre98765432venstre
Pro
ce
nt
40
30
20
10
0
Når det drejer sig om politik, tale man om ”venstreorienteret” og ”højreorienteret”. Hvor på denne skala ville De placere Dem selv?
5
Middelværdi: Summation og division
Middelværdi:
(6+10+3+8+8+6+1+7+5+9)/10 = 7,3.
Summationstegnet
n
XXM n
X
++++++++====
...1
n=
X
Xn
1i
n
1=ii
n
1=i
∑∑∑∑∑∑∑∑
)X+...+X(=)X( n1i
n
1=i
∑∑∑∑
6
Regneregler for middelværdier
( )n
i
i=1
n
i
i=1
n
i
i=1
X
1M a bX (a+ )bX
n
1= (na+b ( ))X
n
na 1= +b ( )X
n n
= a+bM
+ = ∑
∑
∑
M(X+Y)
= n
i i
i=1
n n
i i
i=1 i=1
n n
i i
i=1 i=1
1( + )X Y
n
1= ( ( )+ ( ))X Y
n
1 1= ( )+ ( )X X
n n
∑
∑ ∑
∑ ∑
=
MX+MY
7
Spredning – varians og standardafvigelse
1981
Billiger homoseksualitet
10.009.008.007.006.005.004.003.002.001.00
Pro
cent
40
30
20
10
0
1990
Billiger homoseksualitet
10.009.008.007.006.005.004.003.002.001.00
Pro
cent
40
30
20
10
0
)M-X(
n
1=VAR(X)
2
xi
n
1=i
∑∑∑∑
8
Middelværdi og varians for to variable fra værdiundersøgelserne i 1981 og 1990
Variabel År Middelværdi Varians Billiger
homoseksualitet 1981 1990
5.48 4.69
14.67 11.58
Venstre-højre position
1981 1990
5.63 5.74
3.53 3.59
SSDX ("the Sum of Squared Differences"):
)M-(X=SSD2
X
n
1=i
X ∑∑∑∑
]n
SSD[
1-n
n=VAR(X) x
9
Regneregler for variansen
∑∑∑∑ ++++−−−−++++====
++++
i
xi aMaXn
aXVAR
2))()((1
)(
∑∑∑∑ −−−−−−−−++++====i
xi aMaXn
2)(1
)(
)(1 2
XVAR
MXn i
xi
====
−−−−∑∑∑∑
[[[[ ]]]]∑∑∑∑∑∑∑∑ −−−−====−−−−====i
xi
i
xi MXbn
bMbXn
bXVAR
22 )(1
)(1
)(
)(
)()(1
2
22
22
XVARb
MXn
bMXb
n i
xi
i
xi ====−−−−====−−−−==== ∑∑∑∑∑∑∑∑
Y = a + bX
VAR(Y)
= VAR(a+bX)
= VAR(bX)
= b²VAR(X)
10
Z=X+Y
Det vil sige
)()(),()()( YVARXVARYXCOVARYVARXVAR ≤≤≤≤≤≤≤≤−−−−
2
i i x y
i=1
2
i x i y
i=1
1VAR(Z)= (X +Y - M M )
n
1= ((X - M )+(Y - M ) )
n
−∑
∑
))M-(Y+)M-)(YM-2(X+)M-((Xn
1=
2
yiyixi
2
xi
1=i
∑∑∑∑
)M-(Yn
1+)M-)(YM-(X
n
2+)M-(X
n
1=
2
yi
1=i
yixi
1=i
2
xi
1=i
∑∑∑∑∑∑∑∑∑∑∑∑
)M-)(YM-(X
n
1=Y)COVAR(X, YX
n
1=i
∑∑∑∑
VAR(Y)+Y)2COVAR(X,+VAR(X)=Y)+VAR(X
11
Standardafvigelsen
)()( XVARXSD ====
Standardafvigelser for to variable fra værdiundersøgelserne i 1981 og 1990
Variabel År Standardafvigelse Billiger
homoseksualitet 1981 1990
3.83 3.43
Venstre-højre position 1981 1.88 1990 1.90
12
Sandsynlighedsregning
Resultatet af folketingsvalget i september 1994 sammenlignet med en simuleret
opinionsundersøgelse foretaget samme dag.
Folketingsvalget Opinionsundersøgelse Antal Pct. Antal Pct. Stemmeberettigede 3.988.787 100.0 900 100.0 Ej stemt+ugyldig 661.190 16.6 146 16.2 A. Socialdemokrat. 1.150.048 28.8 250 27.8 B. Radikale 152.701 3.8 30 3.3 C. Konservative 499.845 12.5 109 12.1 D. Centr. demokrat. 94.496 2.4 21 2.3 F. Soc. folkeparti 242.398 6.1 45 5.0 Q. Krist. folkeparti 61.507 1.5 16 1.8 V. Venstre 775.176 19.4 202 22.4 Z. Fremskridtspart. 214.057 5.4 52 5.8 Ø. Enhedslisten 104.701 2.6 22 2.4 * Udenfor parti 32.668 0.8 7 0.8
Opinionsundersøgelser er altid behæftet med en vis grad af usikkerhed.
Hvordan kan vi på den bedste måde
beskrive og kvantificere denne usikkerhed?
13
En komplicerende faktor
Procentvis fordeling af gyldige stemmer ved folketingsvalget i september 1994
sammenlignet med den simulerede opinionsundersøgelse foretaget samme dag.
Folketingsvalget Opinionsundersøgelse Antal Pct. Antal Pct. Gyldige stemmer 3.327.597 100.0 754 100.0 A. Socialdemokr. 1.150.048 34.6 250 33.2 B. Radikale 152.701 4.6 30 4.0 C. Konservative 499.845 15.0 109 14.5 D. Centr.demokr. 94.496 2.8 21 2.8 F. Soc. folkeparti 242.398 7.3 45 6.0 Q. Krist. folkeparti 61.507 1.9 16 2.1 V. Venstre 775.176 23.3 202 26.8 Z. Fremskridtspart. 214.057 6.4 52 6.9 Ø. Enhedslisten 104.701 3.1 22 2.9 * Udenfor parti 32.668 1.0 7 0.9
På hvilken måde bliver usikkerheden på
resultatet af opinionsundersøgelsen påvirket
af, at vi kun er interesseret i den procentvise
andel af de gyldige stemmer?
14
Egenskaber ved repræsentative undersøgelser
Det er tilfældigt om en person bliver
udtrukket eller ej.
Alle personer har den samme chance for at blive udtrukket.
Sandsynligheder er kvantitative udtryk for chancer
Vi kan både tale om sandsynligheden for at en bestemt person bliver udtrukket eller
sandsynligheden for at det er en socialdemokrat, der bliver udtrukket.
Sandsynligheden for at blive udtrukket
afhænger ikke af, hvem der ellers er udtrukket, og de svar personen giver,
påvirkes ikke af svarene fra andre personer.
Stokastisk uafhængighed
15
Sandsynlighedsregningens grundregler
Sandsynlighedsskalaen går fra nul, der repræsenterer den umulige begivenhed til 1, for begivenheder, der altid vil forekomme. Skalaen har ordinalskala-egenskaber - jo større sandsynlighed, jo større chancer er der for at begivenhederne forekommer.
Ækvivalensaksiomet:
To begivenheder, A og B, har samme chance for at forekomme, hvis og kun hvis sandsynligheden for A er den samme som sandsynligheden for B.
16
Additionsaksiomet:
Antag at to begivenheder, A og B, udelukker hinanden i den forstand, at de aldrig kan forekomme samtidig. Under denne forudsætning er sandsynlighe-den for at en af dem forekommer lig med summen af sandsynlighederne for hver af de to begivenheder,
P(A eller B) = P(A) + P(B) Additionsaksiomet for to disjunkte hændelser kan generaliseres til en additionssætning for et vilkårligt endeligt antal disjunkte hændelser.
P(A1∨∨∨∨ A2∨∨∨∨...∨∨∨∨Ak) = P(A1) + P(A2) +...+ P(Ak)
Sandsynligheden for at hændelsen A ikke fore-kommer, er lig med 1 minus sandsynligheden for at A forekommer:
P(ikke A) = 1 – P(A)
17
Sandsynligheden for at en person, der udtrækkes til opinionsundersøgelsen, har stemt eller vil stemme på et bestemt parti: Der var i alt 3988787 stemmeberettigede.
Sandsynligheden for at vi får fat i en person, som vi kan spørge om hvad han eller hun stemte, er derfor lig med 1. Hver person har præcis den samme sandsynlighed, p, for at blive udtrukket. Sandsynligheden for at der udtrækkes en person (nemlig 1) er lig med summen af hver af de enkelte personers sandsynligheder. Da der er 3988787 stemmeberettigede i alt, følger det, at 1 = 3988787×××× p således at
p = 1/3988787 Der var i alt 1150048, der satte kryds ved A, der alle havde den samme sandsynlighed,1/3988787, for at blive udtrukket. Sandsynligheden for at det netop er en af dem, der udtrækkes, er lig med summen af disse 1150048 identiske sandsynligheder, dvs.: P(Socialdemokrat) = 1150048/3988787 = 0.288
18
Betingede sandsynligheder Den betingede sandsynlighed for en begivenhed, A, givet at begivenheden B forekommer, er lig med sandsynligheden for at både A og B fore-kommer divideret med sandsynligheden for at B forekommer:
)(),(
)|(BP
BAPBAP ====
19
Hvad er den betingede sandsynlighed for at der udtrækkes en socialdemokrat givet, at der er
tale om en gyldig stemme? Sandsynligheden for at udtrække en vælger, der enten ikke har stemt, eller som har afgivet et ugyldigt svar, er lig med
661190/3988787 = 0.166 Sandsynligheden for den komplementære hændelse, er lig med
P(gyldig stemme) = 1 - 0.166 = 0.834. Den betingede sandsynlighed for at udtrække en tilhænger af Socialdemokratiet, givet at der er tale om en gyldig stemme bliver herefter P(SocialdemokratGyldig stemme)
= 0.288/0.834 = 0.346
20
Stokastisk uafhængighed
To hændelser er indbyrdes stokastisk uafhængige, hvis den marginale sandsynlighed for den ene, P(A), er lig med den betingede sandsynlighed for den samme hændelse givet den anden hændelse, B:
P(A) = P(AB)
Den simultane fordeling, P(A,B), er produktet af en betinget og en marginal fordeling:
P(A ,B) = P(AB) ××××P(B)
Multiplikationssætningen:
To hændelser, A og B, er stokastisk uafhængige, hvis og kun hvis den simultane sandsynlighed for de to hændelser er lig med produktet af de marginale sandsynligheder for hver af dem. Dvs. hvis og kun hvis
P(A,B) = P(A) ××××P(B)
21
Sandsynligheden for at fem udtrukne personer stemte på følgende måde
A, B, A, V, ”ugyldig” er lig med 0.288 ×××× 0.038 ×××× 0.288 ×××× 0.194 ×××× 0.166 = 0.0001015 Sandsynligheden for at der findes to socialdemo-krater, en radikal, en venstre og en ugyldig er lig med denne sandsynlighed ganget med antallet af forskellige permutationer af de fem valg.
Denne sandsynlighed bliver 0.006090.
22
Kvantitative mål for chancer: Odds og logits
Sandsynligheden = p
p
podds
−−−−====
1
odds
oddsp
++++====
1
Logit-værdier:
)1ln()ln()1
ln()ln( ppp
podds −−−−−−−−====
−−−−========αααα
αααα
αααα
e
ep
++++====
1
Logit-værdier
86420-2-4-6-8
Sandsynlig
heder
1.0
.8
.5
.3
0.0
23
Sandsynligheder, odds og logits
p odds logits 0.00 0.000 - 0.05 0.053 -2.944 0.10 0.111 -2.197 0.15 0.176 -1.735 0.20 0.250 -1.386 0.25 0.333 -1.099 0.30 0.429 -0.847 0.35 0.538 -0.619 0.40 0.667 -0.406 0.45 0.818 -0.201 0.50 1.000 0.000 0.55 1.222 0.201 0.60 1.500 0.406 0.65 1.857 0.619 0.70 2.333 0.847 0.75 3.000 1.099 0.80 4.000 1.386 0.85 5.667 1.735 0.90 9.000 2.197 0.95 19.000 2.944 1.00 - -