23
1 Statistisk analyse Vurdering af usikkerhed i forbindelse med statistiske opgørelser forudsætter: Kvantitative mål for variation og spredning i forbindelse med statistiske opgørelser (varians og standardafvigelse) Kvantitative mål for tilfældigheder (sandsynligheder) En advarsel: Nytteværdien af disse begreber vil først vise sig senere!

Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

  • Upload
    leque

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

1

Statistisk analyse

Vurdering af usikkerhed i forbindelse

med statistiske opgørelser forudsætter:

Kvantitative mål for variation og spredning

i forbindelse med statistiske opgørelser

(varians og standardafvigelse)

Kvantitative mål for tilfældigheder

(sandsynligheder)

En advarsel: Nytteværdien af disse begreber vil først vise sig senere!

Page 2: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

2

Deskriptiv statistik

1) grafiske repræsentationer,

2) tabelmæssige opgørelser,

3) beregninger af en række nøgle-

tal og/eller indikatorer, der på summarisk måde sammenfatter nogle centrale egenskaber ved fordelingerne.

Page 3: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

3

Forskel på deskriptive og analytiske metoder

Statistisk analyse

1) Formulering af spørgsmål og indsamling af data.

2) Opstilling af statistisk model.

3) Reformulering af spørgsmål i konkrete

modeltermer.

4) Analyse af modellen for at afsløre hvilke

beregninger, der skal til, for at give det mest

præcise svar på de stillede spørgsmål.

5) Beregningerne.

Virke-

lighed

Data-model

Statistisk

model

Analyse

Deskriptiv statistik

Analytisk statistik

Page 4: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

4

Ændrede danskernes politiske holdninger sig i perioden 1981 – 1990?

1981

Venstre-højre position

højre98765432venstre

Pro

ce

nt

40

30

20

10

0

1990

Venstre-højre position

højre98765432venstre

Pro

ce

nt

40

30

20

10

0

Når det drejer sig om politik, tale man om ”venstreorienteret” og ”højreorienteret”. Hvor på denne skala ville De placere Dem selv?

Page 5: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

5

Middelværdi: Summation og division

Middelværdi:

(6+10+3+8+8+6+1+7+5+9)/10 = 7,3.

Summationstegnet

n

XXM n

X

++++++++====

...1

n=

X

Xn

1i

n

1=ii

n

1=i

∑∑∑∑∑∑∑∑

)X+...+X(=)X( n1i

n

1=i

∑∑∑∑

Page 6: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

6

Regneregler for middelværdier

( )n

i

i=1

n

i

i=1

n

i

i=1

X

1M a bX (a+ )bX

n

1= (na+b ( ))X

n

na 1= +b ( )X

n n

= a+bM

+ = ∑

M(X+Y)

= n

i i

i=1

n n

i i

i=1 i=1

n n

i i

i=1 i=1

1( + )X Y

n

1= ( ( )+ ( ))X Y

n

1 1= ( )+ ( )X X

n n

∑ ∑

∑ ∑

=

MX+MY

Page 7: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

7

Spredning – varians og standardafvigelse

1981

Billiger homoseksualitet

10.009.008.007.006.005.004.003.002.001.00

Pro

cent

40

30

20

10

0

1990

Billiger homoseksualitet

10.009.008.007.006.005.004.003.002.001.00

Pro

cent

40

30

20

10

0

)M-X(

n

1=VAR(X)

2

xi

n

1=i

∑∑∑∑

Page 8: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

8

Middelværdi og varians for to variable fra værdiundersøgelserne i 1981 og 1990

Variabel År Middelværdi Varians Billiger

homoseksualitet 1981 1990

5.48 4.69

14.67 11.58

Venstre-højre position

1981 1990

5.63 5.74

3.53 3.59

SSDX ("the Sum of Squared Differences"):

)M-(X=SSD2

X

n

1=i

X ∑∑∑∑

]n

SSD[

1-n

n=VAR(X) x

Page 9: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

9

Regneregler for variansen

∑∑∑∑ ++++−−−−++++====

++++

i

xi aMaXn

aXVAR

2))()((1

)(

∑∑∑∑ −−−−−−−−++++====i

xi aMaXn

2)(1

)(

)(1 2

XVAR

MXn i

xi

====

−−−−∑∑∑∑

[[[[ ]]]]∑∑∑∑∑∑∑∑ −−−−====−−−−====i

xi

i

xi MXbn

bMbXn

bXVAR

22 )(1

)(1

)(

)(

)()(1

2

22

22

XVARb

MXn

bMXb

n i

xi

i

xi ====−−−−====−−−−==== ∑∑∑∑∑∑∑∑

Y = a + bX

VAR(Y)

= VAR(a+bX)

= VAR(bX)

= b²VAR(X)

Page 10: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

10

Z=X+Y

Det vil sige

)()(),()()( YVARXVARYXCOVARYVARXVAR ≤≤≤≤≤≤≤≤−−−−

2

i i x y

i=1

2

i x i y

i=1

1VAR(Z)= (X +Y - M M )

n

1= ((X - M )+(Y - M ) )

n

−∑

))M-(Y+)M-)(YM-2(X+)M-((Xn

1=

2

yiyixi

2

xi

1=i

∑∑∑∑

)M-(Yn

1+)M-)(YM-(X

n

2+)M-(X

n

1=

2

yi

1=i

yixi

1=i

2

xi

1=i

∑∑∑∑∑∑∑∑∑∑∑∑

)M-)(YM-(X

n

1=Y)COVAR(X, YX

n

1=i

∑∑∑∑

VAR(Y)+Y)2COVAR(X,+VAR(X)=Y)+VAR(X

Page 11: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

11

Standardafvigelsen

)()( XVARXSD ====

Standardafvigelser for to variable fra værdiundersøgelserne i 1981 og 1990

Variabel År Standardafvigelse Billiger

homoseksualitet 1981 1990

3.83 3.43

Venstre-højre position 1981 1.88 1990 1.90

Page 12: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

12

Sandsynlighedsregning

Resultatet af folketingsvalget i september 1994 sammenlignet med en simuleret

opinionsundersøgelse foretaget samme dag.

Folketingsvalget Opinionsundersøgelse Antal Pct. Antal Pct. Stemmeberettigede 3.988.787 100.0 900 100.0 Ej stemt+ugyldig 661.190 16.6 146 16.2 A. Socialdemokrat. 1.150.048 28.8 250 27.8 B. Radikale 152.701 3.8 30 3.3 C. Konservative 499.845 12.5 109 12.1 D. Centr. demokrat. 94.496 2.4 21 2.3 F. Soc. folkeparti 242.398 6.1 45 5.0 Q. Krist. folkeparti 61.507 1.5 16 1.8 V. Venstre 775.176 19.4 202 22.4 Z. Fremskridtspart. 214.057 5.4 52 5.8 Ø. Enhedslisten 104.701 2.6 22 2.4 * Udenfor parti 32.668 0.8 7 0.8

Opinionsundersøgelser er altid behæftet med en vis grad af usikkerhed.

Hvordan kan vi på den bedste måde

beskrive og kvantificere denne usikkerhed?

Page 13: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

13

En komplicerende faktor

Procentvis fordeling af gyldige stemmer ved folketingsvalget i september 1994

sammenlignet med den simulerede opinionsundersøgelse foretaget samme dag.

Folketingsvalget Opinionsundersøgelse Antal Pct. Antal Pct. Gyldige stemmer 3.327.597 100.0 754 100.0 A. Socialdemokr. 1.150.048 34.6 250 33.2 B. Radikale 152.701 4.6 30 4.0 C. Konservative 499.845 15.0 109 14.5 D. Centr.demokr. 94.496 2.8 21 2.8 F. Soc. folkeparti 242.398 7.3 45 6.0 Q. Krist. folkeparti 61.507 1.9 16 2.1 V. Venstre 775.176 23.3 202 26.8 Z. Fremskridtspart. 214.057 6.4 52 6.9 Ø. Enhedslisten 104.701 3.1 22 2.9 * Udenfor parti 32.668 1.0 7 0.9

På hvilken måde bliver usikkerheden på

resultatet af opinionsundersøgelsen påvirket

af, at vi kun er interesseret i den procentvise

andel af de gyldige stemmer?

Page 14: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

14

Egenskaber ved repræsentative undersøgelser

Det er tilfældigt om en person bliver

udtrukket eller ej.

Alle personer har den samme chance for at blive udtrukket.

Sandsynligheder er kvantitative udtryk for chancer

Vi kan både tale om sandsynligheden for at en bestemt person bliver udtrukket eller

sandsynligheden for at det er en socialdemokrat, der bliver udtrukket.

Sandsynligheden for at blive udtrukket

afhænger ikke af, hvem der ellers er udtrukket, og de svar personen giver,

påvirkes ikke af svarene fra andre personer.

Stokastisk uafhængighed

Page 15: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

15

Sandsynlighedsregningens grundregler

Sandsynlighedsskalaen går fra nul, der repræsenterer den umulige begivenhed til 1, for begivenheder, der altid vil forekomme. Skalaen har ordinalskala-egenskaber - jo større sandsynlighed, jo større chancer er der for at begivenhederne forekommer.

Ækvivalensaksiomet:

To begivenheder, A og B, har samme chance for at forekomme, hvis og kun hvis sandsynligheden for A er den samme som sandsynligheden for B.

Page 16: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

16

Additionsaksiomet:

Antag at to begivenheder, A og B, udelukker hinanden i den forstand, at de aldrig kan forekomme samtidig. Under denne forudsætning er sandsynlighe-den for at en af dem forekommer lig med summen af sandsynlighederne for hver af de to begivenheder,

P(A eller B) = P(A) + P(B) Additionsaksiomet for to disjunkte hændelser kan generaliseres til en additionssætning for et vilkårligt endeligt antal disjunkte hændelser.

P(A1∨∨∨∨ A2∨∨∨∨...∨∨∨∨Ak) = P(A1) + P(A2) +...+ P(Ak)

Sandsynligheden for at hændelsen A ikke fore-kommer, er lig med 1 minus sandsynligheden for at A forekommer:

P(ikke A) = 1 – P(A)

Page 17: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

17

Sandsynligheden for at en person, der udtrækkes til opinionsundersøgelsen, har stemt eller vil stemme på et bestemt parti: Der var i alt 3988787 stemmeberettigede.

Sandsynligheden for at vi får fat i en person, som vi kan spørge om hvad han eller hun stemte, er derfor lig med 1. Hver person har præcis den samme sandsynlighed, p, for at blive udtrukket. Sandsynligheden for at der udtrækkes en person (nemlig 1) er lig med summen af hver af de enkelte personers sandsynligheder. Da der er 3988787 stemmeberettigede i alt, følger det, at 1 = 3988787×××× p således at

p = 1/3988787 Der var i alt 1150048, der satte kryds ved A, der alle havde den samme sandsynlighed,1/3988787, for at blive udtrukket. Sandsynligheden for at det netop er en af dem, der udtrækkes, er lig med summen af disse 1150048 identiske sandsynligheder, dvs.: P(Socialdemokrat) = 1150048/3988787 = 0.288

Page 18: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

18

Betingede sandsynligheder Den betingede sandsynlighed for en begivenhed, A, givet at begivenheden B forekommer, er lig med sandsynligheden for at både A og B fore-kommer divideret med sandsynligheden for at B forekommer:

)(),(

)|(BP

BAPBAP ====

Page 19: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

19

Hvad er den betingede sandsynlighed for at der udtrækkes en socialdemokrat givet, at der er

tale om en gyldig stemme? Sandsynligheden for at udtrække en vælger, der enten ikke har stemt, eller som har afgivet et ugyldigt svar, er lig med

661190/3988787 = 0.166 Sandsynligheden for den komplementære hændelse, er lig med

P(gyldig stemme) = 1 - 0.166 = 0.834. Den betingede sandsynlighed for at udtrække en tilhænger af Socialdemokratiet, givet at der er tale om en gyldig stemme bliver herefter P(SocialdemokratGyldig stemme)

= 0.288/0.834 = 0.346

Page 20: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

20

Stokastisk uafhængighed

To hændelser er indbyrdes stokastisk uafhængige, hvis den marginale sandsynlighed for den ene, P(A), er lig med den betingede sandsynlighed for den samme hændelse givet den anden hændelse, B:

P(A) = P(AB)

Den simultane fordeling, P(A,B), er produktet af en betinget og en marginal fordeling:

P(A ,B) = P(AB) ××××P(B)

Multiplikationssætningen:

To hændelser, A og B, er stokastisk uafhængige, hvis og kun hvis den simultane sandsynlighed for de to hændelser er lig med produktet af de marginale sandsynligheder for hver af dem. Dvs. hvis og kun hvis

P(A,B) = P(A) ××××P(B)

Page 21: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

21

Sandsynligheden for at fem udtrukne personer stemte på følgende måde

A, B, A, V, ”ugyldig” er lig med 0.288 ×××× 0.038 ×××× 0.288 ×××× 0.194 ×××× 0.166 = 0.0001015 Sandsynligheden for at der findes to socialdemo-krater, en radikal, en venstre og en ugyldig er lig med denne sandsynlighed ganget med antallet af forskellige permutationer af de fem valg.

Denne sandsynlighed bliver 0.006090.

Page 22: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

22

Kvantitative mål for chancer: Odds og logits

Sandsynligheden = p

p

podds

−−−−====

1

odds

oddsp

++++====

1

Logit-værdier:

)1ln()ln()1

ln()ln( ppp

podds −−−−−−−−====

−−−−========αααα

αααα

αααα

e

ep

++++====

1

Logit-værdier

86420-2-4-6-8

Sandsynlig

heder

1.0

.8

.5

.3

0.0

Page 23: Vurdering af usikkerhed i forbindelse med statistiske ...publicifsv.sund.ku.dk/~skm/fsvpage/Bachelor kursus 2011/Kap2_3... · 2 Deskriptiv statistik 1) grafiske repræsentationer,

23

Sandsynligheder, odds og logits

p odds logits 0.00 0.000 - 0.05 0.053 -2.944 0.10 0.111 -2.197 0.15 0.176 -1.735 0.20 0.250 -1.386 0.25 0.333 -1.099 0.30 0.429 -0.847 0.35 0.538 -0.619 0.40 0.667 -0.406 0.45 0.818 -0.201 0.50 1.000 0.000 0.55 1.222 0.201 0.60 1.500 0.406 0.65 1.857 0.619 0.70 2.333 0.847 0.75 3.000 1.099 0.80 4.000 1.386 0.85 5.667 1.735 0.90 9.000 2.197 0.95 19.000 2.944 1.00 - -