40
Statistik II 1. Lektion Analyse af kontingenstabeller

Statistik II 1. Lektion

  • Upload
    fathia

  • View
    54

  • Download
    0

Embed Size (px)

DESCRIPTION

Statistik II 1. Lektion. Analyse af kontingenstabeller. Kursusbeskrivelse. Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression Generelle lineære modeller Log-lineære modeller Software: Masser af SPSS - PowerPoint PPT Presentation

Citation preview

Page 1: Statistik II 1. Lektion

Statistik II1. Lektion

Analyse af kontingenstabeller

Page 2: Statistik II 1. Lektion

Kursusbeskrivelse Omfang

5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt)

Emner Analyse af kontingenstabeller Logistisk regression Generelle lineære modeller Log-lineære modeller

Software: Masser af SPSS Eksamen

Mundtlig, individuel, med udgangspunkt i mini-projekt Dato: Det skal vi have aftalt – mind mig lige om det!!

Page 3: Statistik II 1. Lektion

Variabeltyper Spørgeskemaundersøgelse (Survey) Svartyperne er

Kategoriske – der er et antal svarmuligheder Nominel kategorisk, dvs. ordnede kategorier

Fx. Indkomstgruppe: Lav, Mellem eller Høj Ordinale kategoriske, dvs. kategorier uden ordning.

Fx. Favorit M&M: Rød, Grøn eller Blå.

Page 4: Statistik II 1. Lektion

Dikotome variable

Dikotom variabel: Kategorisk variabel med kun to kategorier. Fx Ja/Nej, Mand/Kvinde, Sort/Hvid.

Hvis de to kategori er hhv 0 og 1kaldes variablen binær.

I SPSS omkoder dikotome variable til binære – hold øje med hvad omkodes til hvad.

I dag: Analyse af sammenhæng mellem to ellere flere dikotome variable.

Page 5: Statistik II 1. Lektion

Kontingenstabel: Eksempel Sammenhængen mellem arbejdsløshed og

eksponering for vold:

Er der en sammenhæng?

Udsat for vold/trusler

Nej Ja Total

Arbejdsløs Nej 248396.9%

803.1%

2563100.0%

Ja 38694.6%

225.4%

408100.0%

Total 286996.6%

1023.4%

2000100.0%

Page 6: Statistik II 1. Lektion

Sammenligne forhold Antagelser:

Data repræsentativ for befolkningen Der er en kausalitet

Ide: Sammenlign forholder mellem Nej’er og Ja’er blandt hhv. folk i og uden arbejde:

I arbejde : 2483/80 = 31.03 Uden arbejde: 386/22 = 17.54

Delkonklusion: De ser ret forskellige ud!

Udsat for vold/trusler

Nej Ja Total

Arbejdsløs Nej 248396.9%

803.1%

2563100.0%

Ja 38694.6%

225.4%

408100.0%

Total 286996.6%

1023.4%

2000100.0%

Kaldes også Odds

Page 7: Statistik II 1. Lektion

Forhold mellem forhold… Næste trin: Forholdet af forholdene:

Hvis de to forhold er ens, så er forholdet mellem forholdene = 1.

83.180386

222563

2238680

2463

Page 8: Statistik II 1. Lektion

Krydsprodukt-forholdet

En 2x2 tabel:

Krydsproduktforhold:

Forholdet mellem række-forhold:

Forholdet mellem søjle-forhold:

a b

c d

cb

ad

dbca

bc

ad

dcba

cb

ad

Det samme!

Page 9: Statistik II 1. Lektion

g-koeffcienten

Definition:

Relation til k:

... og omvendt:

Der er en en-til-en korrespondance mellem g og k.

Dvs. g og k indeholder samme information om data.

bcad

bcad

1

1

1

1

Page 10: Statistik II 1. Lektion

Fortolkning af g

g = 0 hvis X og Y er uafhængige.

g = +1 hvis b eller c er lig nul, dvs. hvis stærkest mulige positive relation i data.

g = -1 hvis a eller d er lig nul, dvs. hvis stærkest mulige negative relation i data.

Minder om ”almindelig” korrelation.

a 0

0 d

0 b

c 0

bcad

bcad

Page 11: Statistik II 1. Lektion

Generel kontingenstabel I en kontingenstabel indeholder hver celle det antal observationer,

der falder inden for den givne kombination af kategorier.

Spørgsmål: Er der sammenhæng mellem farvevalg og køn?

Farve på foretrukne M&M

Rød Grøn Blå

Køn Mand 2135.0%

1321.7%

2643.3%

60100.0%

Kvinde 3453.2%

710.9%

2335.9%

64100.0%

Total 5544.4%

2016.1%

4939.5%

124100.0%

Celle: Antal personer, der er kvinde og som foretrækker rød

Page 12: Statistik II 1. Lektion

Spørgsmålet på hovedet

Spørgsmål: Er der sammenhæng mellem farvevalg og køn? Vi vender spørgsmålet på hovedet: Spørgsmål: Kan vi afvise at der ingen sammenhæng er mellem

køn og farvevalg?

Antag at der ingen sammenhæng er mellem køn og farvevalg. Hvilket antal observationer ville vi så forvente i hver celle i vores

kontingenstabel?

Vi antager at de marginale antal ligger fast, dvs. det totale antal mænd, kvinder, røde, grønne og blå.

Page 13: Statistik II 1. Lektion

Forventede antal Hvis der ingen sammenhæng er mellem køn og farvevalg, så bør

procentfordelingen være den samme blandt mænd og kvinder.

Andel røde: 55/124 = 44.4% Forventede røde blandt mænd: 44.4% af 64 = 64*55/124 = 28.4

Farve på foretrukne M&M

Rød Grøn Blå

Køn Mand 60100.0%

Kvinde 64100.0%

Total 5544.4%

2016.1%

4939.5%

124100.0%

Page 14: Statistik II 1. Lektion

Generel formel for det forventede I hver celle har vi

Xij : observerede antal i celle (i,j)

Eij : forventede antal i celle (i,j)

Desuden har vi N: Totale antal observationer Ci

: Antal observationer i ’te kolonne Rj: Antal observationer er j’te række

Forventede antal for celle ( i,j ) er Eij

= Ci Rj / N

Page 15: Statistik II 1. Lektion

Ombytning uden betydning

Vi kan bytte rundt på farve og køn uden at det gør en forskel: Andelen af mænd: 60/124 = 48.4% Forventede antal mænd blandt røde: 48.4% af 55 = 55*60/124 =

28.4

Page 16: Statistik II 1. Lektion

Så langt så godt

Vi har… Vi har arbejdshypotesen at der ikke er sammenhæng mellem køn

og farvevalg Vi har fundet de forventede antal, hvis arbejdshypotesen er sand.

Vi mangler… Vi mangler et mål for hvor meget de forventede antal afviger fra

de forventede. Vi mangler en måde at afgøre, hvornår afvigelsen er så stor, at vi

ikke længere kan acceptere arbejdshypotesen.

Page 17: Statistik II 1. Lektion

Mål for afvigelsen

Vi bruger følgende mål

Vi kalder c2 (”ki-i-anden”) en teststørrelse. c2 bruges til at teste arbejdshypotesen.

Bemærk: c2 ≥ 0 c2 = 0 perfekt match Jo større c2 , jo mindre tror vi på arbejdshypotesen

i j ij

ijij

E

EX 2

2

Page 18: Statistik II 1. Lektion

c2 teststørrelse for eksemplet I en kontingenstabel indeholder hver celle det antal observationer,

der falder inden for den givne kombination af kategorier.

Spørgsmål: 4.9 er ikke nul! Men er det så langt fra nul, at vi ikke kan acceptere arbejdshypotesen om ingen sammenhæng?

Farve på foretrukne M&M

Rød Grøn Blå

Køn Mand 2126.6

139.7

2623.7

60

Kvinde 3428.4

710.3

2325.3

64

Total 55 20 49 124

9.4

3.25

3.2523

7.23

7.2326

7.9

7.913

6.26

6.2621 22222

Page 19: Statistik II 1. Lektion

Simuleret svar

Antag at arbejdshypotesen er sand. Vi får en computer til at simulere nye tabeller, under antagelse af

at arbejdshypotesen er sand at række- og søjletotaler er som de observerede.

For hver tabel udregner vi c2. Resultat med 1000 nye tabeller:

Hvis arbejds-hypotesen er sand vil 8.2% af tabellerne have en mere ”ekstrem” c2 værdi.

Er c2 = 4.9 ekstremt?

Page 20: Statistik II 1. Lektion

Lidt mere teoretiske tilgang

Page 21: Statistik II 1. Lektion

Lidt mere teoretisk tilgang Vi har en teoretisk fordeling, der svarer til histogrammet:

En såkaldt c2-fordeling med 2 frihedsgrader. Det røde areal svarer til sandsynligheden for at observere en mere

ekstrem c2-værdi. Her er arealet 8.49%. Denne værdi kaldes også p-værdien.

I en general tabel med r rækker og c kolonner, vil histogrammet svare til en c2-fordeling med (r-1)(c-1).

Page 22: Statistik II 1. Lektion

Beslutningen! Jo mere ekstrem c2 -værdi, jo mindre tror vi på arbejdshypotesen. Jo mere ekstrem c2 -værdi, jo mindre p-værdi.

Hvis p-værdien er mindre end 5% så afviser vi arbejdshypotesen. Vi siger at testen (af arbejdshypotesen) er signifikant.

Grænsen på de 5% kaldes signifikans-niveauet, og betegnes a. Signifikans-niveauet kan vælges frit, mer er typisk 10%, 5% eller

1%. Signifikans-niveauet vælges før teststørrelsen udregnes!

I eksemplet kan vi ikke afvise arbejdshypotesen. Vi kan altså ikke afvise af der ingen sammenhæng er mellem køn og farvevalg.

Page 23: Statistik II 1. Lektion

Signifikanstest generelt1) Opstil statistisk model / statistiske antagelser

1) Fx. at stikprøven er tilfældigt udvalgt.

2) Opstil arbejds-hypotese

1) Betegnes H0 , nul-hypotesen

2) Fx. uafhængighed mellem køn og farvevalg

3) Opstil alternativ-hypotese

1) Den ”modsatte” hypotese af H0

2) Betegnes H1

Bemærk: Arbejdshypotesen er ikke nødvendigvis den hypotese vi tror på eller gerne vil ”bevise”.

Arbejdshypotesen er generelt valgt, så den er mere ”præcis” end alternativ-hypotesen. Uafhængighed (ingen sammenhæng) er præcist, mens alternativet, afhængighed, kan være mange ting.

Page 24: Statistik II 1. Lektion

Signifikanstest generelt forts.1) Vælg signifikans niveau a

1) Typisk 5%.

2) Konstruer en test-størrelse

1) Hvilke værdier er ekstreme for H0?

2) Beregn teststørrelsen3) Beregning af test-størrelse ordnes af SPSS

3) Beregn p-værdien

1) p-værdien er sandsynligheden for at observere en mere ekstrem test-størrelse ”næste gang”, under antagelse af at modellen og dens antagelser er korrekte.

4) Hvis p-værdien < a, så kan vi ikke afvise H0.

5) Hvis p-værdien > a, så afviser vi H0 og accepterer H1 hypotesen.

6) Fortolk resultatet.

Page 25: Statistik II 1. Lektion

Man begår fejl

Når vi udfører en signifikanstest kan vi begå en af to fejl

Type 1 fejl: Vi afviser H0 selvom den er sand Type 2 fejl: Vi accepterer H0 selvom den er falsk

Antag modellen er korrekt, H0 er sand og at vi har valg et signifikans-niveau a.

Hvad er da sandsynligheden for at begå en Type 1 fejl?

Page 26: Statistik II 1. Lektion

Lidt gode råd

p-værdien er ikke sandsynligheden for at H0 er sand. p-værdien er ikke er udtryk for styrken af sammenhængen mellem

to variable.

p-værdien kan fortolkes som et udtryk for hvor meget vi tror på H0 hypotesen.

HVER GANG i ser en p-værdi i SPSS (”sig.”), så gør jer hver gang klart, hvilken H0 hypotese den passer sammen med!!!

Det er nemt nu, men det bliver mere indviklet senere…

Page 27: Statistik II 1. Lektion

Eksempel i SPSS Analyze → Descriptive Statistics →

Crosstabs

Page 28: Statistik II 1. Lektion

SPSS output

c2-teststørrelse p-værdi

Da p-værdien < 0.05 afviser vi at arbejdsløshed og vold/trusler er uafhængige.

Opstiller hypoteser: H0 : Uafhængighed mellem

arbejdsløs og vold/trusler H0 : Afhængighed Sig. niv. a = 5%

Page 29: Statistik II 1. Lektion

Mere SPSS output

Page 30: Statistik II 1. Lektion

Mere end to variable

Indtil nu: Afgøre om der er en (statistisk signifikant) sammenhæng mellem to kategoriske variable.

Det næste: Kan andre katogoriske kontrolvariable hjælpe med at forstå sammenhængen?

Ideen er at inddele det indsamlede data efter hvert svar i kontrolvariablen. Og derefter gentage tabelanalysen for hver delmængde af data. Vi siger vi stratificerer efter kontrolvariablen.

Lad os se på nogle eksempler…

Page 31: Statistik II 1. Lektion

Sammenhæng mellem race og dom

Test: H0: Ingen sammenhæng ml. race og dom. Teststørrelse: c2 = 3.1, df = 1, p = 0.078 ( > 0.05 ), g = -0.155 Konklusion: Vi kan ikke afvise H0. Dvs., vi kan ikke afvise, at der er

uafhængighed mellem morders race og afsagt dom. (Simpelt: Ingen sammenhæng)

Dom

Dødsdom Anden dom Total

Morder Sort 592.4%

244897.6%

2507100.0%

Hvid 723.2%

218596.8%

2257100.0%

Total 1312.7%

463397.3%

4764100.0%

Page 32: Statistik II 1. Lektion

Kontrolvariabel: Offers raceDom

Offer Dødsdom Anden dom Total

Sort Morder Sort 110.5%

220999.5%

2220100.0%

Hvid 111100.0%

111100.0%

Total 110.5%

232099.5%

2331100.0%

Hvid Morder Sort 4816.7%

23983.3%

287100.0%

Hvid 723.4%

207496.6%

2146100.0%

Total 1202.7%

231395.1%

2433100.0%

Χ2 = 0.55 df = 1p = 0.59 = 1.00g

Χ2 = 96.5 df = 1p = 0.000 = 0.71g

Page 33: Statistik II 1. Lektion

Opsummering

Sammenhængen mellem race og dom var skjult Ikke-stratificeret analyse: Ikke-signifikant sammenhæng Stratificeret analyse: Signifikant sammenhæng

Sammenhængen er muligvis lokal Kun signifikant sammenhæng når offer er hvid

Simpsons paradoks – sammenhængen er ”vendt” Ikke-stratificeret analyse: Hvide straffes hårdest! Stratificeret analyse: Sorte straffes hårdest – uanset offers

race.

Page 34: Statistik II 1. Lektion

Stratificering i SPSS Stratificering efter offers race.

Page 35: Statistik II 1. Lektion
Page 36: Statistik II 1. Lektion

Elaborering: Arbejde og boligforhold

Test: H0: Ingen sammenhæng mellem arbejde og boligforhold. Teststørrelse: Χ2 = 12.9, df = 3, p = 0.005 Konklusion: Signifikant sammenhæng

Bolig

God Dårlig Total

Tilknytning til arbjeds-markedet

Fuldtid 8369.7%

3630.3%

119100.0%

Deltid 7482.2%

1617.8%

90100.0%

Pensioneret 73682.5%

15617.5%

892100.0%

Ingen 16777.0%

5023.0%

217100.0%

Total 106080.4%

25819.6%

1318100.0%

Page 37: Statistik II 1. Lektion

Bemærkninger

Tabellen viser sammenhængen mellem arbejde og boligforhold blandt 70-årige i 1967 og 1984.

Hvad mon forklarer denne sammenhæng? Lad os stratificere efter år, dvs. separate tabeller for

1967 og 1984.

Page 38: Statistik II 1. Lektion

Elaborering: Job-status og boligstandard

Test: H0: Ingen sammenhæng ml. job-status og boligstandard. Teststørrelse: Χ2 = 0.0, df = 3, p = 0.998 Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.

Bolig

God Dårlig Total

1967 Tilknytning til arbjeds-markedet

Fuldtid 8369.7%

3630.3%

119100.0%

Deltid 7482.2%

1617.8%

90100.0%

Pensioneret 73682.5%

15617.5%

892100.0%

Ingen 16777.0%

5023.0%

217100.0%

Total 106080.4%

25819.6%

1318100.0%

Page 39: Statistik II 1. Lektion

Elaborering: Job-status og boligstandard

Test: H0: Ingen sammenhæng ml. job-status og boligstandard. Teststørrelse: Χ2 = 1.3, df = 3, p = 0.725 Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.

Bolig

God Dårlig Total

1984 Tilknytning til arbjeds-markedet

Fuldtid 8369.7%

3630.3%

119100.0%

Deltid 7482.2%

1617.8%

90100.0%

Pensioneret 73682.5%

15617.5%

892100.0%

Ingen 16777.0%

5023.0%

217100.0%

Total 106080.4%

25819.6%

1318100.0%

Page 40: Statistik II 1. Lektion

Konklusioner

Sammenhængen mellem arbejde og boligforhold forsvinder når vi stratificerer efter kohordeår.

Vi siger at kohordeåret forklarer sammenhængen mellem arbejde og boligforhold.

Statistiker: Betinget uafhængighed.