34
Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt ligger data fra 400 fødende kvinder. Der er tale om et uddrag af det såkaldte Mor-Barn studie (Olsen et al., 2001), idet der er udvalgt et tilfældigt sample på 400 førstegangsfødende, der føder et levende barn i terminsugerne 37-42, og som ikke drak alkohol under graviditeten. Der er udvalgt 7 variable for hver kvinde, og forslag til variabelnavne er angivet i 1. linie. Disse er: idnr: Nummer på kvinden (blot til brug for identifikation) alder: Kvindens alder ryger: Er kvinden ryger? (ja/nej) kaffe: Er kvinden kaffedrikker? (ja/nej) uge: Gestationsalder ved fødslen vaegt: Barnets vægt i gram laengde: Barnets længde i cm Der er i nedenstående besvarelse ikke udeladt nogen observationer. Opgaven er at beskrive fødselsvægten, forskellige prediktorer for denne, samt disses samspil. 1. Beskriv fordelingen af fødselsvægt i det totale materiale. (a) Lav først en grafisk illustration. Da der kun er tale om en enkelt gruppe, vælges et histogram, så vi går ind i Graph/Chart Builder og vælger det simple Histogram, hvor vi sætter vaegt over på X-aksen og får en pæn normalfordel- ingslignende fordeling, centreret omkring en fødselsvægt på ca. 3500 gram: 1

Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Embed Size (px)

Citation preview

Page 1: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Vejledende besvarelse af hjemmeopgave, forår 2017

På hjemmesidenhttp://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt

ligger data fra 400 fødende kvinder. Der er tale om et uddrag af det såkaldteMor-Barn studie (Olsen et al., 2001), idet der er udvalgt et tilfældigt samplepå 400 førstegangsfødende, der føder et levende barn i terminsugerne 37-42,og som ikke drak alkohol under graviditeten.

Der er udvalgt 7 variable for hver kvinde, og forslag til variabelnavne erangivet i 1. linie. Disse er:

idnr: Nummer på kvinden (blot til brug for identifikation)

alder: Kvindens alder

ryger: Er kvinden ryger? (ja/nej)

kaffe: Er kvinden kaffedrikker? (ja/nej)

uge: Gestationsalder ved fødslen

vaegt: Barnets vægt i gram

laengde: Barnets længde i cm

Der er i nedenstående besvarelse ikke udeladt nogen observationer.

Opgaven er at beskrive fødselsvægten, forskellige prediktorer fordenne, samt disses samspil.

1. Beskriv fordelingen af fødselsvægt i det totale materiale.

(a) Lav først en grafisk illustration.

Da der kun er tale om en enkelt gruppe, vælges et histogram, så vigår ind i Graph/Chart Builder og vælger det simple Histogram,hvor vi sætter vaegt over på X-aksen og får en pæn normalfordel-ingslignende fordeling, centreret omkring en fødselsvægt på ca.3500 gram:

1

Page 2: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

(b) Udregn dernæst passende valgte summary statistics, som om duskulle lave en “Tabel 1” til en artikel, og forklar kort hvorfor duvælger netop disse.

For at få medianer og kvartiler med i outputtet, vælger vi at gåind i Analyze/Descriptive Statistics/Frequencies, hvor visætter vaegt over i Variable(s), fjerner fluebenet fraDisplay Frequency Tables og går ind i Statistics, hvor viafkrydserQuartiles, Mean, Median, Std.Deviation, Min og Max. Hervedfår vi

Vi ser her, at gennemsnit og median er næsten sammenfaldende,samt at Q1/Q3 (dvs. 25% og 75%-fraktilerne) - og faktisk også

2

Page 3: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

min/max - ligger pænt symmetrisk omkring gennemsnittet. Dettepasser fint med vores vurdering af normalfordelingstilpasningenovenfor.

For en ordens skyld vil vi dog lige checke hvordan fraktildiagram-met ser ud, idet et sådant er bedre til at vurdere evt afvigelser franormalfordelingen. Vi går derfor ind iAnalyze/Descriptive Statistics/Explore, sætter vaegt iDependent List, afkrydser Plots under Display og i undermenu-en Plots vælger vi (Histogram og) Normality Plots.

Fraktildiagrammet kommer til at se rigtigt nydeligt ud:

og man ville derfor roligt kunne indsætte gennemsnit og spredningi sin Tabel 1 i dette tilfælde.

Sædvanligvis vil man i en Tabel 1 også se på nogle af de øvrige vari-able i datasættet, evt. opdelt efter rygning. Dette sidste kan mangøre ved at benytte Split File, sætte flueben ved Compare Groupsog sætte ryger over i Groups Based on, hvorefter vi er klar til atudregne summary statistics igen.

3

Page 4: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Vi kunne så få en tabel som

som dog lige trænger til lidt omskrivning for at være helt repro-klar.

(c) Hvor stor en procentdel af børnene havde en fødselsvægt under2700 gram? Kan det siges at være usædvanligt?

Vi definerer nu variablen letvaegter som indikator for en fød-selsvægt under 2700 gram. Dette gøres i Transform/Compute, hvorvi sætter letvaegter som Target Variable og definerer det veddet logiske udtryk (vaegt<2700). Herved får letvaegter værdi-en 1 for de lette børn, og 0 for de normalvægtige.

Vi laver en lille tabel over denne variabel iAnalyze/Descriptive Statistics/Frequencies, hvor vi sæt-ter letvaegter over i Variable(s) og bibeholder fluebenet iDisplay Frequency Tables (eller sætter det igen) og går ind iStatistics for at fjerne de tidligere satte flueben. Herved får vien lille tabel:

4

Page 5: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Der er altså netop 212% af børnene, der fødes med en vægt under

2700 gram, så det må siges at være rimeligt usædvanligt.

Ved vurderingen af, om så lav en fødselsvægt er usædvanlig, erdet også naturligt at sammenligne med et normalområde, baseretpå de 400 fødselsvægte. Da vi ovenfor fandt en god normalfordel-ingstilpasning kan vi benytte konstruktionen med±2 SD, og finder

3568.48± 2× 472.26 = (2623.96, 4513.00)

Baseret på dette interval er det ikke virkeligt usædvanligt at findeen så lav fødselsvægt.

2. I dette spørgsmål skal vi se nærmere på risikoen for at føde et barn meden vægt under 2700 gram (i det følgende kaldet letvægtere):

(a) Er der større risiko for at føde en letvægter, hvis man er ryger iforhold til, hvis man er ikke-ryger?

Her skal vi sammenholde to binære variable, nemlig ryger ja/nejog letvægter ja/nej (eller rettere 1/0).

Vi opstiller derfor 2x2 tabellen med rygergrupperne (ja/nej) somrækker og vægtgrupperne (0/1 til letvægter) som søjler, ved atgå ind i Analyze/Descriptive Statistics/Crosstabs/, sætteryger over i Row(s) og letvaegter i Column(s). Vi går derefterind i Statistics og afkrydser Chi-square (og vi afkrydser ogsåRisk, fordi vi skal bruge dette senere). Til sidst går vi ind i Exactog afkrydser Exact, så vi får Fishers eksakte test med:

5

Page 6: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Herved får vi en hel del output, og vi starter med at se på selvetabellen, samt testet for uafhængighed (test af identitet for de tosandsynligheder for at føde en letvægter):

Vi ser, at χ2-testet giver en advarsel (a), fordi der er tale omsmå antal. Bemærk, at det er det forventede antal i kategorien afletvægtere blandt rygende mødre, der er problemet, idet denneer 115∗10

400= 2.875 < 5), hvorimod det tilsvarende forventede antal

blandt ikke-rygende mødre er 285∗10400

= 7.125 > 5).

På grund af den “tynde” tabel, benytter vi Fishers eksakte test tilsammenligning af de to sandsynligheder, og finder hermed P=0.037,altså en signifikant forskel. Vi må konkludere, at rygende kvinderhar en større risiko for at føde letvægtere end ikke-rygende kvin-der (5.2% vs. 1.4%).

6

Page 7: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

• Angiv estimater med tilhørende konfidensgrænser for sam-menligningen af sandsynlighederne for rygere vs. ikke-rygere,dels i form af differensen mellem sandsynlighederne og dels iform af relativ risiko (og evt. odds ratio).

• Kan der være op til en faktor 10 til forskel på de to sandsyn-ligheder?

• Formuler også konklusionen i ord.

Vi så allerede ovenfor på de estimerede sandsynligheder forat føde en letvægter, nemlig 5.2% for rygende kvinder og1.4% for ikke-rygende kvinder. Det svarer til en forskel på3.8%point. Det er vanskeligt at få SPSS til at give et kon-fidensinterval for denne forskel, men det kan lade sig gøreved at benytte Analyze/Generalized Linear Models, vælgeType of Model som Custom, med Binomial som Distributionog Identity som Link Function, samt under fanen Responseat vælge letvaegter samt under fanerne Predictors og Modelat vælge ryger.

Herved får vi

7

Page 8: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Vi ser altså en forskel på de to grupper på 3.81%point (hvilketvi nemt selv kunne have udregnet som 5.22-1.40), men her fårvi også konfidensintervallet, nemlig CI=(-0.5%, 8.1%).Bemærk, at CI og P-værdi her ikke passer helt sam-men, fordi der er tale om en eksakt procedure sam-menlignet med to forskellige approksimative. Det giv-er heller ikke helt det samme som SAS.....

Relativ risiko og odds ratio fås til gengæld direkte fra densidste del af outputtet fra tabelanalysen:

og vi aflæser, at den relative risiko for at føde en letvægter(for rygere vs. ikke-rygere) er 3.717. Dette aflæses under dennoget kryptiske overskrift For cohort letvaegter=1, og detvil altid være relativ risiko for 1. række vs. 2. række i tabellen,altså her rygere vs. ikke-rygere. Det betyder altså, at rygernehar ca. 3.7 gange større risiko for at føde en letvægter, sam-menlignet med ikke-rygerne. Dette tal kunne vi selv haveudregnet ganske simpelt som ratio’en mellem de to frekvenser,0.05220.0140

= 3.73 (der er lidt med afrunding her), men konfi-densgrænserne er lidt besværlige at udregne, så derfor fore-trækkes udregningen via SPSS. Konfidensgrænserne ses atblive (1.07, 12.93), altså meget brede! Dette skyldes det laveantal letvægtere i materialet.

Og ja, der kan altså godt tænkes at være en faktor 10 tilforskel på sandsynlighederne for at føde en letvægter i de to

8

Page 9: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

grupper.

Hvis vi i stedet benytter odds ratio, får vi estimatet 0.259,som jo er helt anderledes. Det er fordi det vender omvendt,idet det refererer til letveagter=0, i den forstand at det an-giver odds ratio for ikke at føde en letvægter, for rygendekontra ikke-rygende mødre. Dette er imidlertid (af symmetri-grunde) det samme som odds ratio for at føde en letvægter,for ikke-rygende kontra rygende mødre, så vi behøver bare atudregne reciprok-værdier: 1

0.259= 3.86, med konfidensgrænser

CI=( 10.934

, 10.072

) = (1.07, 13.89), altså næsten det samme somden relative risiko. Det skyldes, at fødsel af en letvægter er ensjælden begivenhed.

3. I stedet for at dikotomisere fødselsvægten i over eller under 2700 gram,ser vi nu igen på fødselsvægten som en kvantitativ størrelse:

(a) Er der en sammenhæng mellem fødselslængde og fødselsvægt?

Vi starter med et simpelt scatter plot, så vi går ind i Graph/Chart Builder/Scatter,trækker vaegt over på Y-aksen, og laengde over på X-aksen:

Da figuren ser rimelig lineær ud, fortsætter vi med at foretage enlineær regression af fødselsvægt, med fødselslængde som kovari-at. Altså går vi ind i Analyze/Regression/Linear, og i boksensætter vi vaegt som Dependent og længde som Independent(s)(et uheldigt navn til forklarende variable...). Vi skal også huskeat gå ind i Statistics og afkrydse Parameter Estimates ogConfidence intervals, hvorved vi får:

9

Page 10: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Det ses, at længde og vægt hænger tydeligt sammen (P = 0.000for test af hældning 0). Det var vi nu heller ikke rigtigt i tvivl omefter at have set tegningen ovenfor.

Interceptet vil vi afstå fra at fortolke, idet det henviser til denforventede fødselsvægt for et barn på 0 cm.

Modelkontroltegninger orker vi ikke på dette tidspunkt, da derer tale om en simpel lineær regression. Vi kan dog supplere medet scatter plot, hvor den estimerede linie samt konfidens- ellerprediktionsgrænser er lagt ind oveni. For at gøre dette, dobbelt-klikker man på scatterplottet, klikker på Add Fit Line at Totalog derefter i Properties-boksen afkrydse Linear ogConfidence Intervals/Mean eller Confidence Intervals/Individual.

10

Page 11: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Hvis man ikke vil have forstyrrende formler i sin tegning, kan manfjerne fluebenet i Attach label to line). Herved får man

og plot af fittet med prediktionsgrænser ser også rigtigt fornuftigtud:

11

Page 12: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

(b) Hvad er den estimerede vægtforøgelse for hver cm forøgelse aflængden?

Denne aflæses direkte som hældningen i ovenstående analyse, dvs.162.6. Det betyder, at for hver ekstra cm, barnet er langt, forven-ter vi, at det vejer 162.6 g mere.

Konfidensintervallet for denne størrelse er angivet som(148.1, 177.0) g.

(c) Bestem et 95% prediktionsinterval for fødselsvægt for børn med enlængde på 48 cm.

Først vil vi estimere fødselsvægten for børn med længde 48 cm,blot ved at benytte estimaterne, som vi fik fra modellen ovenfor.Det giver

−4941.005 + 48× 162.581 = 2862.883

For også at få konfidensgrænser på (selv om det egentlig ikke erdet, der spørges efter her), snyder vi SPSS til at tro, at dette

12

Page 13: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

er interceptet, altså ved at flytte nulpunktet hen i 48 cm ved atbenytte en ny X-variabel, der er længde minus 48.

Vi definerer altså laengde48=laengde-48 ved at gå ind i Transform/Compute,og herefter gentages regressionen med denne nye X-variabel:

Estimatet er altså på 2862.9 g,med konfidensgrænser (2792.8, 2932.9) g.

Nu er det imidlertid ikke konfidensgrænserne, vi er interesseredei, men derimod et prediktionsinterval. Hertil skal vi bruge resid-ualspredningen (spredningen omkring linien), som vi finder i detoprindelige regressionsoutput (spm. 3a) ovenfor under navnetStandard Error of the Estimate. Værdien er 316.8 g, og vidanner derfor prediktionsintervallet ved at skrive

2862.9± 2× 316.8 = (2269.3, 3496.5)

Vi bemærker, at det ser ret almindeligt ud for sådanne korte børnat have fødselsvægt under 2700 g.

4. Her skal vi fokusere på rygningens betydning for fødselsvægt.

(a) Estimer vægtforskellen på børn født af rygende og ikke-rygendemødre. Husk konfidensinterval, og kommenter på bredden af dette.

Inden vi går i gang med en egentlig sammenligning, skal vi ligese et Boxplot af vægtfordelingen i de to grupper. Hertil benyttervi Analyze/Descriptive Statistics/Explore, hvor vi sætter

13

Page 14: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

vaegt i Dependent List, ryger i Factor List samt sætter haki Plots:

På dette boxplot ses en ganske beskeden forskel, idet rygernes børnsynes at være lidt lettere end ikke-rygernes. For at se, om denneforskel kan tilskrives tilfældigheder, skal vi sammenligne to grup-per (rygende vs. ikke-rygende) mht et kvantitativt outcome, nem-lig fødselsvægten. Der er altså tale om et uparret T-test, som vi ud-fører i Analyze/Compare Means/Independent Samples T Test,hvor vi sætter vaegt i Testvariable(s) og ryger i Grouping Variable.Herefter går vi ind i Define groups for at fortælle, hvilken gruppe,der skal stå først, og dermed om forskellen skal udregnes den eneeller den anden vej:

Herved får vi outputtet:

14

Page 15: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Vi ser af ovenstående, at børn af rygende mødre i gennemsnit er113.4 gram lettere end børn af ikke-rygende mødre, med CI=(4.88,221.9) gram, samt at dette er signifikant (P=0.041, idet jeg brugerden højeste af de to P-værdier, fordi spredningerne ikke ser helt

15

Page 16: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

ens ud).

Der er tale om en ganske beskeden forskel, som i praksis vel måanses for ubetydelig, men signifikant på grund af den store samplesize.

(b) Kommenter på mulige forklaringer på den ovenfor fundne forskel(uden at lave analyser på dette tidspunkt), f.eks. om de rygendemødre kunne afvige i alder, i deres forbrug af kaffe, i gestation-salder ved fødsel, eller i andre henseender.

Der kan selvfølgelig være mange forklaringer på denne tilsyneladendeeffekt af rygning, men vi har kun et begrænset udvalg af oplysningeri dette materiale.

Man plejer at sige, at ældre mødre får tungere børn, så hvis derer forskel på alderen for rygere og ikke-rygere (således at rygerneer yngst), kunne dette tænkes at spille ind.

Det kunne naturligvis også være rygningen i sig selv, der be-virkede, at børnene blev mindre, og i så fald kunne det virkegennem forskellige mekanismer:

• Børnene blev født for tidligt (uge)• Børnere blev generelt mindre, altså også kortere (length)• Børnene var tyndere

(dette kommer vi tilbage til i spørgsmål 5)

Vi ser nærmere på nogle af disse muligheder ved at lave en serie afsammenligninger i form af Box plots og uparrede T-tests, ganskesom vi ovenfor gjorde for fødselsvægten:

16

Page 17: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

17

Page 18: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Af disse sammenligninger kan vi se, at rygerne faktisk ser ud tilat være lidt yngre end ikke-rygerne (mindre end et år, men sig-nifikant med P=0.044), at de ikke føder tidligere (bemærk dog,at materialet er selekteret på gestationsalder, så det erikke en valid konklusion) samt at de føder kortere børn (enhalv centimeter kortere, som ud fra vores analyse i spørgsmål 3bsvarer til ca. 81.3 g, P=0.018).

Vi skal se nærmere på gestationsalderen i spørgsmål 4d, på læng-den i spørgsmål 5, men vil ikke kommentere yderligere på alders-forskellen.

(c) Hvor godt kan vi forudsige fødselsvægten for det enkelte barn,udelukkende baseret på om moderen er ryger eller ej? Her kanman evt sammenligne med prediktionsintervallet fra spørgsmål 3c.

Det er prediktionsgrænser, vi skal udregne her, eller rettere:normalområder for hver ryger-gruppe for sig.

Fra T-testet ovenfor (spm. 4a) har vi fået gennemsnit og spred-ninger,så vi udregner prediktionsintervallerne:Rygere: 3487.7± 2× 515.8 = (2486.1, 4519.3)

Ikke-rygere: 3601.1± 2× 450.4 = (2700.3, 4501.9)

18

Page 19: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Nøjagtigheden er altså en anelse bedre for ikke-rygerne.....

Det er ikke umiddelbart fornuftigt at sammenligne til prediktions-området fra spørgsmål 3c, idet vi her så på børn med en fødsels-længde på 48cm, hvilket jo ikke er ret meget. Men vi kan sam-menligne bredden af intervallerne ved at sammenligne SD’erne, ogher havde vi i spørgsmål 3c en SD på 316.8, altså en del mindreend de to, vi fandt ovenfor. Dette skyldes, at vi i spørgsmål 3c harden meget vigtige prediktor laengde med som kovariat i stedet forrygning, og dette vil naturligvis formindske residualspredningen.

(d) Undersøg om effekten af rygning på fødselsvægt skyldes, at rygerneføder tidligere end ikke-rygerne, dvs:Sammenlign fødselsvægten blandt børn af rygere og ikke-rygere,født i samme terminsuge.

Når vi skal sammenligne børn født i samme terminsuge, må viholde denne fast, dvs. vi må inkludere terminsuge som kovariat imodellen. Først ser vi på en figur til at illustrere dette, Vi startermed et opdelt scatter plot, så vi går ind i Graph/Chart Builder/Scatter,vælger det opdelte plot, trækker vaegt over på Y-aksen, og ugeover på X-aksen, samt ryger i Set color as. Når figuren kom-mer frem, dobbeltklikker vi på den og klikker på ikonetAdd Fit Line at Subgroups, hvorved vi får:

19

Page 20: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Disse linier er lagt ind for hver gruppe for sig, så det er fuld-stændigt tilfældigt, at de ser så parallelle ud. På baggrund af fig-uren vil vi tillade os at antage, at effekten af hver ekstra uge er enkonstant ekstra tilvækst i vægt, (altså en lineær effekt, hvilket dogvil blive kontrolleret nedenfor). Vi indsætter derfor blot uge somen kvantitativ kovariat (uden interaktion med ryger - svarende tilparallelle linier), og vurderer så ryger-effekten i denne ANCOVA-model. Dette gøres i General Linear Model/Univariate, hvorman sætter vaegt ind som Dependent Variable, ryger som Fixed Factorog uge som Covariate(s), hvorefter man går ind i Model og sæt-ter ryger og uge over i Model, uden interaktion, dvs. ved underType at ændre til Main Effects. Desuden går man ind i Optionsog afkrydser det ønskede, hvilket altid vil være Parameter Estimates(som automatisk også medfører konfidensgrænser) og muligvis ogsåResidual Plot (som dog bliver så grimt, at man bør foretrækkeen anden løsning, se nedenfor).

Herved får vi:

20

Page 21: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Vi ser, at såvel rygning som gestationsalder er signifikante predik-torer for fødselsvægten.

Modelkontrollen kan vi udføre ved at benytte Save-knappen ogafkrydse Residuals og Predicted values (samt Cook-størrelserne),hvorefter disse vil være at finde i datasættet og kan benyttes tildiverse figurer.

Først ser vi på et plot af residualer mod predikterede værdier forat checke varianshomogeniteten:

21

Page 22: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Her synes man måske, at der er en vis tendens til trompetfacon,men man skal lige huske på, at der er ret få observationer ude tilvenstre (fordi kun få børn fødes i de første uger), og derfor synesspredningen heller ikke så stor her.

Herefter ser vi på et plot af residualer mod den kvantitative fork-larende variabel uge for at checke linearitetsantagelsen, så her servi efter buer:

Da de indlagte udglattede kurver absolut ikke viser tegn på buer,vil vi stille os tilfreds med lineariteten.

Endelig ser vi på et fraktildiagram af residualerne for at checkenormalfordelingsantagelsen:

22

Page 23: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

og da dette ser rigtigt nydeligt ud, må vi konkludere, at vi ikkeser nogen problemer med modellen.

For en ordens skyld ser vi også lige på, om der skulle være nogleindflydelsesrige observationer, og til dette benytter vi et plot afCook-størrelserne, som vi gemte ovenfor:

Heller ikke her ses nogen grund til bekymring.

• Angiv et estimat for forskellen og sammenlign med det tilsvarendeestimat i spørgsmål 4a.

Forskellen på rygere og ikke-rygere har kun ændret sig enanelse i forhold til det tidligere resultat fra spørgsmål 4a, ogdet kunne vi godt have forudset, da vi tidligere har set, atde to grupper føder i stort set samme gestationsuge. Der er

23

Page 24: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

altså ikke stor confounding mellem gestationsalder og rygning.

Vi estimerer således nu rygere til at føde børn, der i gen-nemsnit er 116.0 gram lettere end ikke-rygere, mod 113.4 g ispørgsmål 4a.

Konfidensintervallet her er CI=(19.2, 212.8) gram, hvilket eren anelse smallere end de (4.88, 221.9), som vi fandt i spørgsmål4a, og dette skyldes, at vi trods alt har elimineret noget afresidualvariationen ved at introducere gestationsalderen somkovariat.

• Husk at argumentere for, hvordan effekten af terminsuge mod-elleres, og udfør passende modelkontrol.

Vi har allerede set på modelkontroltegningen ovenfor (resid-ualer mod uge), at lineariteten var OK, men for en ordensskyld ser vi her på to ekstra numeriske tests for denne lin-earitet.

Til den første af disse skal vi bruge en kopi af gestation-salderen, som vi bare kan definere som (ga=uge). Hermed kanvi opdele i de enkelte gestationsuger:

og hvis vi indsætter denne ga som Factor i modellen, sammenmed uge, kan vi få et test for lineariteten (med 4 frihedsgrad-er):

24

Page 25: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Vi ser ovenfor, at når vi tager højde for den lineære effekt afgestationsalder (variablen uge), så er det ikke nødvendigt atmedtage ga også, hvilket betyder, at der ikke ses afvigelse fralinearitet (P=0.67).

Testet er dog ret svagt, da det er på 4 frihedsgrader, og vikunne i stedet forsøge at se, om en kvadratisk effekt villebeskrive sammenhængen bedre. Til dette formål definerede viallerede ved indlæsningen en ekstra variabel kvadratled=(uge-40)**2og denne indsætter vi nedenfor som ekstra kovariat, hvorvedvi får et test for linearitet baseret på kun en enkelt friheds-grad:

25

Page 26: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Heller ikke i denne model findes nogen tegn på afvigelse fralinearitet (P=0.38), så vi stiller os tilfreds med modellen an-vendt i spørgsmål 4d.

I øvrigt er estimaterne for effekten af rygning i de to oven-stående modeller temmelig sammenfaldende med det, vi fandtovenfor, nemlig hhv. 118.9 (21.4, 216.4) og 116.9 (20.1, 213.7).

(e) Hvad er estimatet for fødselsvægten for et barn med en rygendemor, født i terminsuge 39?

Baseret på estimaterne fra vores model, finder vi estimatet:

−863.781− 115.989 + 39× 111.857 = 3382.653

og for at få konfidensgrænser på, benytter vi igen tricket medat flytte Y-aksen hen i terminsuge 39 ved at benytte kovariat-en uge39=uge-39 i stedet for selve uge. Da variablen ryger somsidste niveau har nej, vil dette blive referencen, så for at få es-timatet for rygerne, er vi nødt til at omdefinere denne variabel,f.eks. til ryger_num=(ryger="ja"), som bliver et 0/1-variabel,med 1-tallet (svarende til rygere) som reference). Så får vi output-tet:

26

Page 27: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

dvs. med et estimat, som her angives til 3382.647 ≈ 3382.6 gram,med CI=(3295.5, 3469.8) gram.

• Hvor stor spredning er der på fødselsvægten blandt børn afdenne type?

Her skal vi igen have udregnet prediktionsgrænserne. Dissefår ved at lægge ±2s til estimatet, og da vores spredningsesti-mat er s =

√198536.325 = 445.6 ses under Mean Square

Error i outputtet fra spørgsmål 4d, det med de 397frihedsgrader. Vores estimat (som normalt hedderStandard Error of the Estimate i SPSS er altså på 445.6gram, og ud fra dette kan vi udregne et prediktionsinterval:

3382.6± 2× 445.6 = (2491.4, 4273.8)

• Er det usædvanligt at se en fødselsvægt på under 2700 gramfor rygende mødre, der føder i uge 39?

Ud fra prediktionsintervallet ovenfor kan vi sige, at 2700 gramikke er særligt usædvanligt for sådanne børn.

(f) Er der tegn på, at effekten af rygning afhænger af gestationsalderenved fødslen?

27

Page 28: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Her spørges der om, hvorvidt effekten af den ene kovariat afhængeraf, hvad den anden er, altså en interaktion. Vi indsætter derforet interaktionsled (ryger*uge) i den lineære ANCOVA-model fraspørgsmål 4d, og finder så

Med en P-værdi på 0.97 ser det bestemt ikke ud som om effektenaf rygning afhænger af gestationsuge ved fødslen. Det kunne viogså allerede se af figuren med de to linier (fra spm. 4d), der såvirkelig parallelle ud.

Bemærk, at man i ovenstående model udelukkende kan fortolkedet, der har med interaktionsleddet at gøre, idet estimatet forselve rygnings-variablen henviser til en gestationsuge på 0!

5. Udvid nu slutmodellen fra spørgsmål 4 med en ekstra kovariat, nemliglængden af den nyfødte:

(a) Overvej, hvordan denne ekstra kovariat ændrer fortolkningen afrygningseffekten.

Ved at inkludere fødsleslængden i modellen også, kommer vi til atsammenligne børn af rygende mødre med tilsvarende børn af ikke-

28

Page 29: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

rygende mødre, hvor ordet “tilsvarende” dækker over børn fødtmed samme gestationsalder og med samme fødselslængde.

Det betyder, at det reelt set ikke mere er vægten, vi sammenlign-er, men vægten i forhold til højden, altså en form for tykkelse,eller fedme, om man vil. Og det er jo noget helt andet.

Hvis børn af rygende mødre vejer mindre, fordi de er kortere,så kunne man forestille sig, at børnene ikke afveg fra hinandenforsåvidt angår tykkelsen. Det er altså det, vi ser på nedenfor.

(b) Giv et estimat for forskellen i fødselsvægt blandt børn af rygere ogikke-rygere i denne model, og formuler konklusionen i ord, idet Iogså sammenligner med spørgsmål 4a og 4d.

Vi kører altså nu en udvidet model, med en kategorisk kovariat(ryger) og to kvantitative (uge og laengde), så vi går igen indi General Linear Model/Univariate, hvor vi yderligere indsæt-ter laengde under Covariate(s), hvorefter vi går ind i Model ogsørger for, at alle 3 kovariater står i Model, uden interaktion.

Herved får vi outputtet:

29

Page 30: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Vi finder her effekten af rygning til 21.1 g, CI=(-47.8, 90.0) gram,i modsætning til de tidligere resultater:4a: 113.4 (4.88, 221.9)4d: 116.0 (19.2, 212.8)

I denne model bliver effekten af rygning estimeret til at værevæsentlig mindre, og ikke længere signifikant, og vi kan herafslutte, at fødselslængden er en såkaldt mediator (en medierendeeffekt) af rygning på fødselsvægten.

(c) Hvad er estimatet for fødselsvægten for børn af en rygende mor,født i terminsuge 39 med en fødselslængde på 48 cm?

Igen starter vi med at benytte modellen direkte:

−5925.049− 21.108 + 39× 34.324 + 48× 155.317 = 2847.695

og herefter bruger vi tricket med at flytte Y-aksen hen i terminsuge39 og længde 48 cm ved at benytte kovariaten uge39=uge-39 ogdesuden benytter vi variablen laengde48=laengde-48 i stedet forlaengde samt den nye rygervariabel ryger_num=(ryger="ja")(som vi definerede ovenfor). Så får vi outputtet:

30

Page 31: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Estimatet for fødselsvægten for 48 cm lange børn af rygende mø-dre, der er født i uge 39 er altså 2847.7 g, med CI=(2766.8, 2928.6)

• Hvor stor spredning er der på fødselsvægten blandt børn afdenne type?

Under Mean Square Error i outputtet ovenfor (nu kun med396 frihedsgrader, fordi vi har endnu en kovariat med i mod-ellen) finder vi vores spredningsestimat til s =

√98841.302 =

314.39 gram.

• Er det usædvanligt at se en fødselsvægt på under 2700 gramfor rygende mødre, der føder et 48 cm langt barn i uge 39?

Vi udregner prediktionsintervallet:

2847.7± 2× 314.4 = (2218.9, 3476.5)

og finder således, at det ikke er særligt usædvanligt med enfødselsvægt på kun 2700 gram. Men det er jo også ret kortebørn, vi snakker om her.

• Sammenlign svarene på de ovenstående spørgsmål med de tilsvarendei spørgsmål 4e.

31

Page 32: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

I spørgsmål 4e betingede vi ikke med en så kort fødselslængde,og derfor kan det ikke undre, at vi der fik et langt højereestimat, nemlig 3498.6 gram, med prediktionsinterval:

3382.6± 2× 445.6 = (2491.4, 4273.8)g

Denne model er så kompliceret (specielt på grund af de 2kvantitative kovariater), at modelkontrol her en endnu merepåkrævet end for de tidligere modeller.

Vi benytter som før Save-knappen og afkrydser Residuals,Predicted values samt Cook-størrelserne, hvorefter disse vilvære at finde i datasættet og kan benyttes til diverse figurer.

Først ser vi på et plot af residualer mod predikterede værdierfor at checke varianshomogeniteten:

Her synes der ikke at være nogensomhelst strukturer, derkunne give anledning til bekymring.

Herefter ser vi på et plot af residualer mod de to kvantitativeforklarende variable, uge og laengde for at checke linearitet-santagelsen, så her ser vi efter buer:

32

Page 33: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

Da de indlagte udglattede kurver absolut ikke viser tegn påbuer, vil vi stille os tilfreds med lineariteten.

Endelig ser vi på et fraktildiagram af residualerne for at checkenormalfordelingsantagelsen:

og da dette ser rigtigt nydeligt ud, må vi konkludere, at vi

33

Page 34: Vejledende besvarelse af hjemmeopgave, forår 2017staff.pubhealth.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave_besv_spss.pdf · (b) Udregn dernæst passende valgte summary statistics,

ikke ser nogen problemer med modellen.

For en ordens skyld ser vi også lige på, om der skulle værenogle indflydelsesrige observationer, og til dette benytter viet plot af Cook-størrelserne, som vi gemte ovenfor:

Heller ikke her ses nogen grund til bekymring.

Det ses, at længden er af altafgørende betydning for fød-selsvægten, medens gestationsuge og moderens rygning spilleren mindre rolle. Men selv om længden altså må siges at væreen god prediktor for fødselsvægten, er den næppe så interes-sant som prediktor, når barnet først er født....

Reference:Olsen et.al.(2001): The Danish National Birth Cohort- its background, structure and aim.Scand. J. Public Health 29, 300–307 (2001).

34