24
1 Föreläsning 5 NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

1

Föreläsning 5 NDAB01

Statistik; teori och tillämpning i biologi

Page 2: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Dagens föreläsning

o Andelar (kap 24)

o Binomialfördelning

(kap 24.1)

o Test och konfidensintervall för en andel

(kap 24.5, 24.6, 24.8)

o Test och konfidensintervall för två andelar

(kap 24.10, 24.11)

o Analys av korstabeller (kap 23.0 – 23.1)

2

NDAB01

Page 3: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Andelar (proportioner)

En andel (proportion) betecknas med p och är en del av en

population med en viss egenskap. Andelen som ej har

denna egenskap betecknas med q = 1 - p.

Angående andelar kommer vi diskutera hur man kan:

• Beräkna sannolikheter utifrån andelar

• Använda olika approximationer vid beräkningar av

andelar

• Använda hypotesprövning och konfidensintervall för

en andel

• Använda hypotesprövning och konfidensintervall för

att jämföra två andelar

3

NDAB01

Page 4: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Binomialfördelningen

Binomialfördelningen är enklast att beskriva med ett

exempel.

Antag att 30 % av invånarna i Sverige är blåögda. Ett

obundet slumpmässigt urval om 10 personer dras. Vi

definierar variabeln X = antal blåögda personer i stickprovet.

Denna variabel X blir binomialfördelad enligt bin(n=10,

p=0.3).

4

NDAB01

109876543210

30

25

20

15

10

5

0

Antalet blåögda personer i stickprovet

Sa

nn

olik

he

t (%

)

Page 5: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Binomialfördelningen

För att beräkna sannolikheter för ett visst antal i stickprovet

används formeln: (GB s. 556, BB s. 520)

𝑃 𝑋 =𝑛𝑋

∗ 𝑝𝑋 ∗ 𝑞 𝑛−𝑋 =𝑛!

𝑋! 𝑛 − 𝑋 !∗ 𝑝𝑋 ∗ 𝑞(𝑛−𝑋)

Beräkna för stickprovet bestående av 10 stycken

slumpmässigt valda svenska invånare:

a) Sannolikheten att exakt två personer i stickprovet är

blåögda

b) Sannolikheten att två personer eller färre i

stickprovet är blåögda

5

NDAB01

Page 6: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Binomialfördelningen Poissonfördelning och normalapproximation

När p är väldigt litet och n är väldigt stort bör

Poissonfördelningen användas. Denna fördelning diskuteras

ej i kursen, men den finns förklarad i kapitel 25.

När vi senare kommer att genomföra hypotesprövning och

konfidensintervall för andelar kommer normal-approximation

att användas. Detta är dock inte helt perfekt:

• Inte bra när p är nära 0 eller 1.

• Inte bra när n är litet.

Författaren föreslår som regel att 𝑝0 ∗ 𝑛 och 𝑞0 ∗ 𝑛 ska vara

minst 5 för att normalapproximation ska kunna användas.

6

NDAB01

Page 7: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Andel för en population Hypotesprövning

De två första stegen i hypotesprövning för populationsandel

är samma som för populationsmedelvärde.

1. Formulera hypoteser

2. Bestämma signifikansnivå

Hypoteserna formuleras enligt: (GB s. 570-573(c), BB s.

534-537)

𝐻0: 𝑝 = 𝑝𝑜

𝐻𝑎: 𝑝 ≠ 𝑝𝑜

𝐻𝑎: 𝑝 > 𝑝𝑜

𝐻𝑎: 𝑝 < 𝑝𝑜

Signifikansnivån (α) sätts vanligtvis till 0.10, 0.05 eller 0.01.

7

NDAB01

Page 8: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Andel för en population Hypotesprövning

När man ska utreda om H0 kan förkastas eller ej kan tre

olika tekniker användas:

• Jämföra X med ett kritiskt värde ur tabell

• Beräkna en testvariabel Z (normalapproximation)

• Undersöka om 𝑝0 ingår i ett konfidensintervall

När n är litet är det även relativt lätt att beräkna

sannolikheterna exakt med hjälp av binomialfördelningen.

8

NDAB01

Page 9: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Andel för en population Hypotesprövning, normalapproximation

När normalfördelningsapproximation används beräknas en

testvariabel Z: (GB s. 570(c), BB s. 534(c))

𝑍 =𝑋 − 𝑛𝑝0

𝑛𝑝0𝑞0=

𝑝 − 𝑝0

𝑝0𝑞0 𝑛

Utifrån denna testvariabel bestäms p-värdet, eller så jämförs

testvariabeln med ett kritiskt värde ur normalfördelnings-

tabell.

Kom ihåg: H0 förkastas när p-värdet är mindre än

signifikansnivån (α)

9

NDAB01

Page 10: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Andel för en population Exempel hypotesprövning

Man vill undersöka om schimpanser föredrar att använda

någon hand framför den andra. 40 schimpanser har

studerats, och man har observerat vilken hand de använder

i störst utsträckning. 31 av schimpanserna använde

högerhanden mest, medan 9 av schimpanserna använde

vänsterhanden mest.

Utred utifrån ovanstående information om:

a) En majoritet av schimpanserna föredrar någon hand

framför den andra

b) En majoritet av schimpanserna föredrar

högerhanden framför vänsterhanden

I båda fallen ska 5 % signifikansnivå användas.

10

NDAB01

Page 11: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Andel för en population Konfidensintervall

Vad var nu ett konfidensintervall? Jo, med hjälp av ett

konfidensintervall kan man med en viss säkerhet (90, 95, 99

%) säga att den sanna populationsparametern (i detta fall

populationsandelen p) finns inom ett visst intervall.

Boken listar tre olika varianter på konfidensintervall:

• Clopper-Pearson-intervall

• Wald-intervall (normalapproximation)

• Justerat Wald-intervall

Det mest frekvent använda är Wald-intervallet, som bygger

på en normalapproximation av binomialfördelningen.

11

NDAB01

Page 12: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Andel för en population Konfidensintervall, Wald

Ett dubbelsidigt konfidensintervall med konfidensnivån 1-α

beräknas enligt: (GB s. 579(b), BB s. 543(b))

𝑝 ± 𝑧𝛼(2) ∗𝑝 𝑞

𝑛

Det går som vanligt att beräkna nedåt eller uppåt

begränsade intervall.

Som sagt bör denna metod ej användas när n är litet och 𝑝 är nära 0 eller 1.

12

NDAB01

Exempel

Beräkna ett 95 % dubbelsidigt konfidensintervall för andelen av

schimpanserna som föredrar att använda vänsterhanden.

Page 13: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Jämföra två andelar Hypotesprövning (GB s. 585-586, BB s. 549-550)

Vid jämförelse av två andelar tar boken enbart upp

hypotesprövning som bygger på normalapproximation.

Hypoteserna formuleras enligt:

𝐻0: 𝑝1 − 𝑝2 = 𝑝0 → 𝑝1 = 𝑝2 (𝑑å 𝑝0 𝑜𝑓𝑡𝑎 = 0)

𝐻𝑎: 𝑝1 − 𝑝2 ≠ 𝑝0 → 𝑝1 ≠ 𝑝2

Testvariabeln beräknas enligt:

𝑍 =𝑝 1 − 𝑝 2 − 𝑝0

𝑝 𝑞 𝑛1

+𝑝 𝑞 𝑛2

=𝑝 1 − 𝑝 2

𝑝 𝑞 𝑛1

+𝑝 𝑞 𝑛2

där

𝑝 =𝑋1 + 𝑋2

𝑛1 + 𝑛2=

𝑛1𝑝 1 + 𝑛2𝑝 2𝑛1 + 𝑛2

13

NDAB01

Page 14: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a))

Konfidensintervall för att jämföra två andelar bygger, likt

hypotesprövningen, på normalapproximationen av

binomialfördelningen.

Intervallet beräknas enligt:

𝑝 1 − 𝑝 2 ± 𝑧𝛼 2 ∗𝑝 1𝑞 1

𝑛1+

𝑝 2𝑞 2

𝑛2

Med hjälp av ett exempel på nästkommande sida ska

hypotesprövning och konfidensintervall för att jämföra två

andelar beskrivas.

14

NDAB01

Page 15: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Jämföra två andelar Konfidensintervall och hypotesprövning, exempel

Mugg är en vanlig hudinflammation på hästar. En teori är att

islandshästar drabbas oftare av mugg än svenska halvblod.

30 islandshästar och 28 svenska halvblod observerades

under en och samma tidsperiod, där 12 islandshästar samt 5

svenska halvblod drabbades av mugg.

Utifrån ovanstående siffror, utred om islandshästar drabbas

av mugg i större uträckning än svenska halvblod. Använd 5

% signifikansnivå.

15

NDAB01

Page 16: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Analys av korstabeller

(GB s. 524-528, BB s. 490-494) En korstabell består av ett visst antal rader (r) och ett visst

antal kolumner (c) och därmed r*c celler.

fij anger frekvensen (antalet) i en viss cell.

Radsummorna betecknas Ri och är summan av

frekvenserna på rad i. Kolumnsummorna betecknas Cj.

16

NDAB01

Faktor B

Faktor A 1 2 … c Summa

1 f11 f12 … f1c R1

2 f21 f22 … f2c R2

… …

r fr1 fr2 … frc Rr

Summa C1 C2 Cc

Page 17: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Analys av korstabeller

Korstabeller används för att presentera data på

nominalskala, vilket var olika attribut den observerade

enheten kan ha. Faktor A och faktor B kan då t.ex. vara kön

respektive hårfärg.

Vid analys av korstabeller kan man undersöka två olika

saker:

• Är faktor A och B oberoende av varandra?

(oberoendetest)

• Fördelar sig faktor A homogent över de olika nivåerna

på faktor B? (homogenitetstest)

Vid homogenitetstest bestäms en viss urvalsstorlek för

de olika nivåerna på faktor B, men vid oberoendetest

bestäms ingen urvalsstorlek för varken faktor A eller B.

17

NDAB01

Page 18: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Analys av korstabeller Chi-två-test

För att utreda de två olika frågeställningarna som

formulerades innan används chi-två-test (𝜒2-test). Det liknar

hypotesprövning, men består av fem steg:

1. Formulera hypoteser

2. Bestäm signifikansnivå

3. Beräkna förväntade frekvenser enligt nollhypotesen

4. Beräkna testvariabel

5. Jämför med kritiskt värde ur tabell B.1

Chi-två-test förutsätter att samma urvalsenhet bara får

förekomma i en cell i tabellen.

18

NDAB01

Page 19: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Analys av korstabeller Chi-två-test, formulera hypoteser

Vid chi-två-test formuleras hypoteserna i ord och enbart

dubbelsidiga test kan genomföras.

Oberoendetest:

H0: Faktor A och faktor B är oberoende

Ha: Faktor A och faktor B är beroende

Homogenitetstest:

H0: Faktor A fördelar sig homogent över de olika nivåerna

på faktor B

Ha: Faktor fördelar sig inte homogent över de olika

nivåerna på faktor B

19

NDAB01

Page 20: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Analys av korstabeller Chi-två-test, beräkna förväntade värden

Tredje steget i ett chi-två-test är att beräkna förväntade

frekvenser (𝑓 𝑖𝑗) i de olika cellerna baserat på antagandet att

nollhypotesen (H0) är sann.

Dessa förväntade värden beräknas enligt:

𝑓 𝑖𝑗 =𝑅𝑖

𝑛∗

𝐶𝑗

𝑛∗ 𝑛 =

𝑅𝑖 𝐶𝑗

𝑛

De förväntade frekvenserna är alltså antalet urvalsenheter

som borde tillhöra cellen 𝑖𝑗 om nollhypotesen är sann.

20

NDAB01

Page 21: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Analys av korstabeller Chi-två-test, testvariabel och kritiskt värde

Testvariabeln, 𝜒2, beräknas enligt:

𝜒2 = 𝑓𝑖𝑗 − 𝑓 𝑖𝑗

2

𝑓 𝑖𝑗

Om nollhypotesen är sann så följer denna testvariabel en

chi-två-fördelning med (r – 1)*(c – 1) frihetsgrader. Det

kritiska värdet som testvariabeln ska jämföras med är:

𝜒𝛼,(𝑟−1)(𝑐−1)2

Om testvariabeln är större än detta värde kan nollhypotesen

förkastas.

21

NDAB01

Page 22: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Analys av korstabeller Chi-två-test, fördelning och begränsningar

Chi-två-test bör ej användas om mer än 20 % av de

förväntade frekvenserna är mindre än 5, eller om någon av

de förväntade frekvenserna är mindre än 1.

22

NDAB01

403020100

0,16

0,14

0,12

0,10

0,08

0,06

0,04

0,02

0,00

X

Sa

nn

olik

he

t

5

15

df

Chi-två-fördelning

Page 23: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Analys av korstabeller Chi-två-test, exempel

Man vill undersöka om en viss sorts padda hemmahörande i

delstaten Queensland, Australien drabbas av inälvsparasiter

i samma utsträckning i tre olika regioner i den nämnda

delstaten. I varje region fångades 20 paddor in och dessa

dissekerades för att undersöka om de drabbats av

inälvsparasiter.

23

NDAB01

Rockhampton Bowen Mackay

Drabbad 12 7 14

Ej drabbad 8 13 6

Page 24: Föreläsning 5 - IDA › ~NDAB01 › Fo5vt2016.pdf · Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger,

Tack för idag!

Nästa tillfälle:

Föreläsning 6, tisdag 1 mars, kl. 10-12, sal U6

24