22
Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og aller- giske reaktioner (se f.eks. nedenstående reference, der dog ikke lige vedrører denne problemstilling). På hjemmesiden http://staff.pubhealth.ku.dk/~lts/basal14_1/hjemmeopgave.html ligger oplysninger om 179 anæstesier (en pr. patient), der alle gav anledning til mistanke om en allergisk reaktion. Forslag til variabelnavne er angivet i 1. linie, og betydningen af disse er: id Personidentifikation gender Patientens køn, F (kvinde), M (mand) age Patientens alder reacclass Sværhedsgraden af den allergiske reaktion, 1: "Mild", 2: "More serious”, 3: "Anafylactic shock" tryptase Den registrerede værdi af serum tryptase Opgaven er at se på patienternes reaktion, dels som den kvantitative måling af tryptase og dels som den kategoriske variabel, der beskriver reaktionens sværhedsgrad i 3 kategorier. Vi skal se på forskelle mellem mænd og kvinder samt en evt. aldersafhængig- hed. I det følgende vil det blive forudsat, at data (her med samtlige 179 patienter) ligger i datasættet tryptase (eller WORK.tryptase), og at variabelnavnene følger opgaveteksten. Output er adskillige steder beskåret for at fokusere på de relevante dele. 1. Tryptase vs. alder (og køn): (a) Lav en figur til illustration af tryptases afhængighed af alder. Kom- menter på denne figur med henblik på at foretage en simpel lineær regression. 1

Vejledende besvarelse af hjemmeopgave i Basal Statistik

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Vejledende besvarelse af hjemmeopgave i Basal Statistik

Vejledende besvarelse af hjemmeopgave i BasalStatistik, forår 2014

Garvey et al. interesserer sig for sammenhængen mellem anæstesi og aller-giske reaktioner (se f.eks. nedenstående reference, der dog ikke lige vedrørerdenne problemstilling).

På hjemmesidenhttp://staff.pubhealth.ku.dk/~lts/basal14_1/hjemmeopgave.htmlligger oplysninger om 179 anæstesier (en pr. patient), der alle gav anledningtil mistanke om en allergisk reaktion.

Forslag til variabelnavne er angivet i 1. linie, og betydningen af disse er:

id Personidentifikation

gender Patientens køn, F (kvinde), M (mand)

age Patientens alder

reacclass Sværhedsgraden af den allergiske reaktion,1: "Mild", 2: "More serious”, 3: "Anafylactic shock"

tryptase Den registrerede værdi af serum tryptase

Opgaven er at se på patienternes reaktion, dels som den kvantitative målingaf tryptase og dels som den kategoriske variabel, der beskriver reaktionenssværhedsgrad i 3 kategorier.

Vi skal se på forskelle mellem mænd og kvinder samt en evt. aldersafhængig-hed.

I det følgende vil det blive forudsat, at data (her med samtlige 179 patienter)ligger i datasættet tryptase (eller WORK.tryptase), og at variabelnavnenefølger opgaveteksten. Output er adskillige steder beskåret for at fokusere påde relevante dele.

1. Tryptase vs. alder (og køn):

(a) Lav en figur til illustration af tryptases afhængighed af alder. Kom-menter på denne figur med henblik på at foretage en simpel lineærregression.

1

Page 2: Vejledende besvarelse af hjemmeopgave i Basal Statistik

En simpel arbejdstegning, dog lige med forskellige symboler formænd og kvinder, fås ved at skrive

proc sgplot data=tryptase;scatter x=age y=tryptase / group=gender;run;

hvorved vi får figuren

Det er oplagt fra denne figur, at antagelserne for at lave lineærregression ikke er opfyldt, idet fordelingen omkring regressionsli-nien ikke kan undgå at blive udpræget skæv, altså absolut ikkenormalfordelte residualer.

Vi laver derfor en logaritmetransformation af tryptase:

log_tryptase=log10(tryptase);

og laver samme type plot med denne nye variabel

Her ses en langt mere symmetrisk fordeling - men til gengæld sy-nes der ikke at være nogensomhelst sammenhæng til alderen.....

2

Page 3: Vejledende besvarelse af hjemmeopgave i Basal Statistik

(b) Udfør en lineær regression af tryptase (evt. transformeret), medalder som kovariat, og foretag passende modelkontrol. Hvis denneviser tydelige tegn på problemer, må du lave en passende transfor-mation af tryptase og udføre analysen igen.

Vi har konstateret, at regressionsanalysen skal foretages med denlogaritmetransformerede tryptase som outcome. Vi foretager denmed diverse modelkontrol ved hjælp af ods-systemet:

ods graphics on;proc glm PLOTS=(DIAGNOSTICS RESIDUALS(SMOOTH)) data=tryptase;

model log_tryptase = age/ solution clparm;

run;ods graphics off;

hvorved vi får outputtet

Dependent Variable: log_tryptase

Number of Observations Read 179Number of Observations Used 179

R-Square Coeff Var Root MSE log_tryptase Mean0.038257 56.61057 0.513525 0.907118

StandardParameter Estimate Error t Value Pr > |t|Intercept 0.5958939750 0.12341026 4.83 <.0001age 0.0061584278 0.00232090 2.65 0.0087

Parameter 95% Confidence LimitsIntercept 0.3523491166 0.8394388335age 0.0015782337 0.0107386218

Vi ser, at der findes en signifikant positiv effekt af alder (P=0.0087),og at denne estimeres til 0.00616 (0.00232) pr. år på log10-skala.

Nu er modellen jo lidt kompliceret, fordi outcome er logaritmeret.Det betyder, at den relation, vi har fittet (for hvert køn for sig),hedder

log10(tryptase) = α + β × agetryptase = 10α × 10β×age

= α∗ × βage∗

3

Page 4: Vejledende besvarelse af hjemmeopgave i Basal Statistik

hvor vi har defineret de anti-logaritmerede koefficienter

α∗ = 10α

β∗ = 10β

Hverken α eller α∗ har nogen interessant fortolkning (niveau vedalder 0), men β∗ ses at svare til den faktor, som tryptasen skalganges op med, for hvert år, man bliver ældre. (Strengt taget kanvi kun sige, at det er den faktor, som angiver forholdet mellemtryptase værdier for to personer, hvor den ene er et år ældre endden anden, men vi tillader os gerne at “tro på”, at den mere kaus-ale fortolkning også gælder.

Denne faktor er altså her 100.00616 = 1.014, altså 1.4% oveni forhvert år. Konfidensgrænserne er (100.00364, 100.01074) = (1.004, 1.025),svarende til mellem 0.4% og 2.5%.

Det tilhørende fit kommer automatisk frem:

og modelkontrollen i form af både “DiagnosticPanel” med de 9 fi-gurer, samt et enkelt residualplot (residualer mod kovariat), medindlagt “smoother”, ser ud som vist nedenfor.

4

Page 5: Vejledende besvarelse af hjemmeopgave i Basal Statistik

Vi ser, at antagelserne svarende til en lineær regressionsanalysesynes rimelige (ingen udprægede krumme tendenser, pæn symme-tri omkring nul, pæn linearitet i fraktildiagrammet, ingen tegn påtrompetfacon).

Hvis vi i stedet havde foretaget analysen på utransformeret ska-la, havde vi fået klare indikationer af problemer, som det ses i

5

Page 6: Vejledende besvarelse af hjemmeopgave i Basal Statistik

nedenstående figur:

Modelkontrol kan med lidt øvelse foretages direkte på scatterplot-tet af outcome overfor kovariat. Det var jo det, vi gjorde i spm. 1aved at konstatere, at der umuligt kunne være normalte residualer,hvis tryptase var utransformeret.

(c) Giv et estimat for den forventede forskel på tryptase for to indivi-der med 10 års forskel i alder. Husk konfidensinterval!

Hældningen i regressionsanalysen ovenfor (altså koefficienten tilalder) angiver jo effekten af 1 års forskel i alder. Når vi i stedet skalfinde effekten af 10 års forskel, er det ganske simpelt, vi skal nem-lig bare gange hældningsestimatet med 10, inden vi transformerertilbage, så vi finder effekten til en faktor 1010×0.00616 = 1.15, altså15% oveni for hvert tiår. Konfidensgrænserne er (1010×0.00364, 1010×0.01074) =(1.037, 1.281), svarende til mellem 3.7% og 28.1%.

(d) Fandt du en signifikant effekt af alder i denne model?

Ja, P-værdien var 0.0087.

(e) Udbyg figuren fra spørgsmål 1a ved at benytte forskellige symbolerfor mænd og kvinder.

6

Page 7: Vejledende besvarelse af hjemmeopgave i Basal Statistik

Det havde vi allerede med fra starten, men det er ikke så over-skuligt, om der er nogen forskel på kønnene. Måske ville det værebedre med større forskel på symbolerne.....

(f) Udbyg ligeledes analysen fra spørgsmål 1b til at undersøge, om ef-fekten af alder er forskellig for mænd og kvinder.

Her kunne man fristes til at lave separate analyser for mænd ogkvinder, men det er egentlig ikke det, der lægges op til. Alligevelgør vi det først, og finder estimaterne

Køn effekt af alder multiplikativ10 år ekstra effekt af 10 år

10β 1010β̂

Kvinder 0.0810 (0.0202, 0.1419) 1.21 (1.05, 1.39)Mænd 0.0084 (-0.0633, 0.0800) 1.02 (0.86, 1.20)

For kvinder er effekten af 10 års stigning i alder altså en øgning itryptase værdi på 21% (med konfidensinterval fra 5-39%), medensdet tilsvarende tal for mænd kun er 2% (med konfidensinterval fraet fald på 14% til en stigning på 20%).

Umiddelbart synes der at være nogen forskel på de to hældnings-estimater, idet hældningen er signifikant positiv for kvinder, menikke for mænd. Der er dog et betydeligt overlap mellem de to kon-fidensintervaller, så vi kan ikke slutte noget konkret udfra disseseparate analyser.

Et test for identitet af de to hældninger udføres ved at indse, atforskel på hældningerne svarer til en interaktion mellem alder ogkøn. Vi inddrager altså dette i modellen:

ods graphics on;proc glm PLOTS=(DIAGNOSTICS RESIDUALS(SMOOTH)) data=tryptase;

class gender;model log_tryptase = gender age gender*age

/ solution clparm;run;ods graphics off;

7

Page 8: Vejledende besvarelse af hjemmeopgave i Basal Statistik

Herved får vi figuren nedenfor, der viser de to estimerede linier,der jo ikke syner at være parallelle,

men det tilhørende output modsiger ikke parallellitet, idet testetfor interaktionsleddet ikke er signifikant (P=0.12).

R-Square Coeff Var Root MSE log_tryptase Mean0.072979 55.73696 0.505600 0.907118

R-Square Coeff Var Root MSE log_tryptase Mean0.085429 55.51936 0.503626 0.907118

Source DF Type III SS Mean Square F Value Pr > F

gender 1 1.30113013 1.30113013 5.13 0.0247age 1 0.91392844 0.91392844 3.60 0.0593age*gender 1 0.60424871 0.60424871 2.38 0.1245

StandardParameter Estimate Error t Value Pr > |t|

Intercept 0.9843346265 B 0.19411914 5.07 <.0001gender F -.5701578845 B 0.25173469 -2.26 0.0247gender M 0.0000000000 B . . .age 0.0008353763 B 0.00340011 0.25 0.8062age*gender F 0.0072692332 B 0.00470965 1.54 0.1245age*gender M 0.0000000000 B . . .

Parameter 95% Confidence Limits

Intercept 0.6012186659 1.3674505871gender F -1.066984606 -.0733311631gender M . .age -.0058751158 0.0075458684age*gender F -.0020257993 0.0165642658age*gender M . .

8

Page 9: Vejledende besvarelse af hjemmeopgave i Basal Statistik

Vi må altså konstatere, at der ikke er nogen signifikant interak-tion mellem gender og age (P=0.12), til trods for, at der (somset ovenfor) faktisk er en signifikant alderseffekt for kvinder, menikke for mænd.

Hvis vi ikke forventede en sådan forskellig alderseffekt, er det na-turligt at fortsætte med en additiv model, altså en model medbegge kovariater, dog uden interaktion.

Modelkontrollen er ikke væsentligt anderledes end ovenfor, så denspringer vi over.

(g) Er der overhovedet nogen forskel på kønnene forsåvidt angår tryp-tase? Kvantificer med konfidensinterval.

I den additive model med køn og alder som kovariat, finder vi

Source DF Type III SS Mean Square F Value Pr > F

age 1 0.97980320 0.97980320 3.83 0.0518gender 1 1.68513231 1.68513231 6.59 0.0111

StandardParameter Estimate Error t Value Pr > |t|

Intercept 0.7765632711 B 0.14041117 5.53 <.0001age 0.0046241225 0.00236193 1.96 0.0518gender F -.2006573737 B 0.07815293 -2.57 0.0111gender M 0.0000000000 B . . .

Parameter 95% Confidence Limits

Intercept 0.4994570083 1.0536695339age -.0000372276 0.0092854726gender F -.3548948617 -.0464198856gender M . .

der viser, at der er signifikant forskel på mænd og kvinder medsamme alder (P=0.011).

Vi ser, at alderen lige knapt er formelt signifikant (P=0.0518), ogat det alderskorrigerede estimat for forskellen mellem mænd ogkvinder er 0.2007 (mænd minus kvinder), hvilket tilbagetransfor-meres til 100.2007 = 1.59, med et konfidensinterval på (100.0464, 100.3549) =

9

Page 10: Vejledende besvarelse af hjemmeopgave i Basal Statistik

(1.11, 2.26). Dette betyder, at mænd estimeres til at have et 59%højere niveau end kvinder, med 95% konfidensinterval fra 11%over til hele 126% over, altså et ganske bredt konfidensinterval,svarende til stor usikkerhed i kvantificeringen.

Da alder strengt taget ikke er signifikant i modellen ovenfor, kun-ne man vælge at udføre sammenligningen som et T-test, men detbør man ikke gøre i praksis, dels fordi alder er så tæt på at væ-re signifikant, samt fordi alder er så fundamentalt vigtig i mangeproblemstillinger, at der kræves et godt argument for at udeladeden.

Et sådant T-test ville her give ....

The TTEST Procedure

Variable: log_tryptase

gender N Mean Std Dev Std Err Minimum MaximumF 92 0.7908 0.4890 0.0510 0 2.2253M 87 1.0301 0.5306 0.0569 0 2.2695Diff (1-2) -0.2394 0.5096 0.0762

gender Method Mean 95% CL Mean Std DevF 0.7908 0.6895 0.8921 0.4890M 1.0301 0.9171 1.1432 0.5306Diff (1-2) Pooled -0.2394 -0.3898 -0.0890 0.5096Diff (1-2) Satterthwaite -0.2394 -0.3901 -0.0886

Method Variances DF t Value Pr > |t|Pooled Equal 177 -3.14 0.0020Satterthwaite Unequal 173.72 -3.13 0.0020

Equality of Variances

Method Num DF Den DF F Value Pr > FFolded F 86 91 1.18 0.4434

hvoraf det ses, at det ukorrigerede estimat for forskellen mellemmænd og kvinder er 0.2397 (mænd minus kvinder), altså lidt stør-re end det alderskorrigerede (fordi mændene - tilfældigvis? - igennemsnit er noget ældre end kvinderne). Dette estimat tilba-getransformeres til 100.2397 = 1.74, med et konfidensinterval på(100.0890, 100.3898) = (1.23, 2.45), svarende til, at mænd estimerestil at have et 74% højere niveau end kvinder, med 95% konfiden-sinterval fra 23% over til hele 145% over.

10

Page 11: Vejledende besvarelse af hjemmeopgave i Basal Statistik

2. Nu skal vi se på graden af reaktionen, reacclass (eller, hvis I argu-menterer for det, en binær version af denne):

(a) Det formodes, at tryptase-værdien er forhøjet for personer medanafylaktisk chok. Kan dette bekræftes baseret på de indsamlededata? Det forventes her, at man udover en P-værdi også anføreret konfidensinterval for en passende valgt størrelse.Husk at tegne, inden I regner.

Her skal vi sammenligne enten to eller 3 grupper, så vi startermed at se på et Boxplot af alle tre grupper (grader af allergiskreaktion, reacclass):

Da fordelingerne ser rimeligt pæne ud (måske dog med størrespredning i gruppen reacclass=3, svarende til anafylaktisk chok),fortsætter vi med at sammenligne de tre middelværdier, først blotved hjælp af summariske størrelser (summary statistics, ved brugaf proc means;) og derefter ved brug af ensidet variansanalyse.

The MEANS Procedure

Nreacclass Obs Variable N Mean Median

--------------------------------------------------------------------------1 33 tryptase 33 5.3496970 3.7900000

log_tryptase 33 0.5950246 0.57863922 45 tryptase 45 9.6104444 3.5300000

log_tryptase 45 0.6510032 0.54777473 101 tryptase 101 24.1067327 14.6000000

log_tryptase 101 1.1232000 1.1643529--------------------------------------------------------------------------

11

Page 12: Vejledende besvarelse af hjemmeopgave i Basal Statistik

The GLM Procedure

Class Level InformationClass Levels Valuesreacclass 3 1 2 3

Number of Observations Read 179Number of Observations Used 179

R-Square Coeff Var Root MSE log_tryptase Mean0.224216 50.98809 0.462522 0.907118

Source DF Type III SS Mean Square F Value Pr > Freacclass 2 10.88187706 5.44093853 25.43 <.0001

StandardParameter Estimate Error t Value Pr > |t|Intercept 1.123200032 B 0.04602268 24.41 <.0001reacclass 1 -0.528175468 B 0.09274006 -5.70 <.0001reacclass 2 -0.472196800 B 0.08289763 -5.70 <.0001reacclass 3 0.000000000 B . . .

Parameter 95% Confidence LimitsIntercept 1.032372681 1.214027382reacclass 1 -0.711201167 -0.345149769reacclass 2 -0.635798124 -0.308595475reacclass 3 . .

Vi ser ud fra gennemsnit og medianer, at personer med anafylak-tisk chok ligger noget højere i tryptase end de to øvrige grupper(men vi skal lige huske på, at der her ikke er taget hensyn til hver-ken køn eller alder, det kommer først i spørgsmål 3).

Den ensidede variansanalyse kvantificerer forskellene til gruppenmed anafylaktisk chok (da denne er referencegruppe), således atvi ser, at de begge ligger ca. 0.5 lavere på log10-skala, svarendetil, at tryptaseværdierne for gruppen med anafylaktisk chok er enfaktor ca. 100.5 ≈ 3 højere end de øvrige.

Da de to grupper med mildere allergisk reaktion ligner hinandenså meget, kunne vi slå dem sammen (specielt hvis dette var speci-ficeret som en oplagt mulighed i protokollen), ved f.eks. at indføjesætningen

reacclass2=(reacclass>2);

der definerer anafylaktisk chok til at være reacclass2=1, hvori-mod de to andre grupper får reacclass2=0.

12

Page 13: Vejledende besvarelse af hjemmeopgave i Basal Statistik

Igen udregner vi gennemsnit, og sammenligningen bliver til et sim-pelt T-test af de to resulterende grupper mod hinanden:The MEANS Procedure

Nreacclass2 Obs Variable N Mean Median

--------------------------------------------------------------------------0 78 tryptase 78 7.8078205 3.5450000

log_tryptase 78 0.6273199 0.54961241 101 tryptase 101 24.1067327 14.6000000

log_tryptase 101 1.1232000 1.1643529--------------------------------------------------------------------------

The TTEST Procedure

Variable: log_tryptase

reacclass2 N Mean Std Dev Std Err Minimum Maximum0 78 0.6273 0.4227 0.0479 0 2.11391 101 1.1232 0.4894 0.0487 0 2.2695Diff (1-2) -0.4959 0.4616 0.0696

reacclass2 Method Mean 95% CL Mean Std Dev0 0.6273 0.5320 0.7226 0.42271 1.1232 1.0266 1.2198 0.4894Diff (1-2) Pooled -0.4959 -0.6332 -0.3586 0.4616Diff (1-2) Satterthwaite -0.4959 -0.6306 -0.3611

Method Variances DF t Value Pr > |t|Pooled Equal 177 -7.13 <.0001Satterthwaite Unequal 174.75 -7.26 <.0001

Equality of Variances

Method Num DF Den DF F Value Pr > FFolded F 100 77 1.34 0.1789

Af T-testet ses, at der er signifikant forskel på tryptase niveuet forde to grupper (P < 0.0001), idet gruppen med anafylaktisk chokestimeres til at ligge 0.4959 højere end de øvrige, på log10-skala.Dette svarer til, at tryptaseværdierne for gruppen med anafylak-tisk chok er en faktor ca. 100.4959 = 3.13 højere end de øvrige, medet 95% konfidensinterval på (100.3586, 100.6332) = (2.28, 4.30), altsåhelt op til mere end en faktor 4.

(b) Undersøg ved hjælp af en to gange to tabel, om anafylaktisk choker mere udbredt blandt mænd end blandt kvinder. Kvantificer bådedifferensen mellem sandsynlighederne samt relativ risiko og oddsratio. Formuler også konklusionen i ord.

13

Page 14: Vejledende besvarelse af hjemmeopgave i Basal Statistik

I dette spørgsmål vil vi udelukkende se på opdelingen reacclass2,altså hvor de to mildeste former for reaktion er slået sammen.

Vi fokuserer på hyppigheden af anafylaktisk chok for mænd hhv.kvinder, ved at sætte det op som en to-gange-to tabel:

proc freq data=tryptase;tables gender*reacclass2 /

nopercent nocol chisq expected riskdiff relrisk;run;

som giver os outputtet

The FREQ Procedure

Table of gender by reacclass2gender reacclass2

Frequency|Expected |Row Pct | 0| 1| Total---------+--------+--------+F | 49 | 43 | 92

| 40.089 | 51.911 || 53.26 | 46.74 |

---------+--------+--------+M | 29 | 58 | 87

| 37.911 | 49.089 || 33.33 | 66.67 |

---------+--------+--------+Total 78 101 179

Statistics for Table of gender by reacclass2

Statistic DF Value Prob------------------------------------------------------Chi-Square 1 7.2219 0.0072

Fisher’s Exact Test----------------------------------Two-sided Pr <= P 0.0102

Statistics for Table of gender by reacclass2

Column 2 Risk Estimates

(Asymptotic) 95% (Exact) 95%Risk ASE Confidence Limits Confidence Limits

-------------------------------------------------------------------------Row 1 0.4674 0.0520 0.3654 0.5693 0.3626 0.5744Row 2 0.6667 0.0505 0.5676 0.7657 0.5575 0.7642Total 0.5642 0.0371 0.4916 0.6369 0.4883 0.6381

Difference -0.1993 0.0725 -0.3414 -0.0571

Difference is (Row 1 - Row 2)

14

Page 15: Vejledende besvarelse af hjemmeopgave i Basal Statistik

Estimates of the Relative Risk (Row1/Row2)

Type of Study Value 95% Confidence Limits-----------------------------------------------------------------Case-Control (Odds Ratio) 2.2791 1.2441 4.1749Cohort (Col1 Risk) 1.5978 1.1221 2.2753Cohort (Col2 Risk) 0.7011 0.5385 0.9128

Sample Size = 179

Vi kan konstatere, at såvel χ2-testet som Fishers eksakte test vi-ser, at der ses signifikant flere anafylaktiske chok blandt mænd(med en allergisk reaktion!!) end blandt kvinder (67% mod 47%af alle de allergiske reaktioner, P=0.007 eller P=0.01).

Forskellen i sandsynlighed for et anafylaktisk chok blandt mændvs. kvinder (igen, givet at man overhovedet har fået en allergiskreaktion), er altså ca. 20%, eller som output viser, 0.1993, altså19.93%, med konfidensgrænser på (0.0571, 0.3414), altså et stedmellem 5.7% og 34.1% hyppgere anafylaktisk chok blandt mænd.

Denne forskel kan også kvantificeres som en odds ratio på 2.28(95% CI: 1.24-4.17), eller som en relativ risiko på 1

0.7011= 1.426,

med konfidensgrænser ( 10.9128

, 10.5385

) = (1.096, 1.857), altså en over-hyppighed på 42.6% til mændene (CI: 9.6%-85.7%).

(c) Er der nogen sammenhæng mellem alderen og graden af den al-lergiske reaktion? I behøver ikke lave test osv. for dette spørgsmål,men blot kommentere ud fra passende summariske størrelser.

Igen vil vi kun se på opdelingen af sværhedsgrader i 2 grupper,altså svarende til variablen reacclass2. Først udregner vi gen-nemsnit og medianer for alderen i disse to grupper:

The MEANS Procedure

Analysis Variable : age

Nreacclass2 Obs N Mean Median

----------------------------------------------------------0 78 78 44.6923077 42.00000001 101 101 55.0495050 57.0000000

----------------------------------------------------------

15

Page 16: Vejledende besvarelse af hjemmeopgave i Basal Statistik

Vi ser, at gruppen med anafylaktisk chok er ældre end de øvrige(men kunne det nu skyldes, at der er en overvægt af mænd i dennegruppe?).Vi supplerer med et T-test for at undersøge, om der er signifikantforskel på aldersfordelingen i de to grupper:

The TTEST Procedure

Variable: age

reacclass2 N Mean Std Dev Std Err Minimum Maximum0 78 44.6923 17.0730 1.9331 18.0000 86.00001 101 55.0495 14.7617 1.4688 18.0000 86.0000Diff (1-2) -10.3572 15.8088 2.3830

reacclass2 Method Mean 95% CL Mean Std Dev0 44.6923 40.8429 48.5417 17.07301 55.0495 52.1354 57.9636 14.7617Diff (1-2) Pooled -10.3572 -15.0599 -5.6545 15.8088Diff (1-2) Satterthwaite -10.3572 -15.1538 -5.5606

Method Variances DF t Value Pr > |t|Pooled Equal 177 -4.35 <.0001Satterthwaite Unequal 152.45 -4.27 <.0001

Equality of Variances

Method Num DF Den DF F Value Pr > FFolded F 77 100 1.34 0.1712

Vi får altså bekræftet, at gruppen med anafylaktisk chok beståraf personer, der er ældre end i de to øvrige grupper (P < 0.0001),men egentlig en dette en lidt bagvendt sammenligning, da det måvære alderen, der betinger sværhedsgraden af den allergiske reak-tion, og helt sikkert ikke omvendt.

Hvis man gerne vil vide noget om, hvem det er, der får anafylaktiskchok, vil vi hellere vende det den anden vej, og have anafylaktiskchok som outcome (dikotomt outcome, 0/1-outcome), og så alde-ren - og kønnet - som forklarende variable, i en multipel logistiskregression (ikke med i pensum før i afleveringsugen, så derfor ikkeen del af opgaven):

proc genmod data=tryptase descending;class gender;model reacclass2=gender age / dist=binomial link=logit;

16

Page 17: Vejledende besvarelse af hjemmeopgave i Basal Statistik

estimate "OR for 10 aar" age 10 / exp;estimate "OR for male vs female" gender -1 1 / exp;

run;

hvorved vi får resultaterne

The GENMOD Procedure

Model Information

Data Set WORK.TRYPTASEDistribution BinomialLink Function LogitDependent Variable reacclass2

Number of Observations Read 179Number of Observations Used 179Number of Events 101Number of Trials 179

Class Level Information

Class Levels Valuesgender 2 F M

Response ProfileOrdered TotalValue reacclass2 Frequency

1 1 1012 0 78

PROC GENMOD is modeling the probability that reacclass2=’1’.

Analysis Of Maximum Likelihood Parameter Estimates

Standard Wald 95% Confidence WaldParameter DF Estimate Error Limits Chi-SquareIntercept 1 -1.2774 0.5909 -2.4355 -0.1192 4.67gender F 1 -0.5755 0.3259 -1.2143 0.0632 3.12gender M 0 0.0000 0.0000 0.0000 0.0000 .age 1 0.0369 0.0104 0.0166 0.0572 12.66Scale 0 1.0000 0.0000 1.0000 1.0000

Analysis Of MaximumLikelihood Parameter

Estimates

Parameter Pr > ChiSqIntercept 0.0306gender F 0.0774gender M .age 0.0004Scale

NOTE: The scale parameter was held fixed.

17

Page 18: Vejledende besvarelse af hjemmeopgave i Basal Statistik

Contrast Estimate Results

Mean Mean L’BetaLabel Estimate Confidence Limits EstimateOR for 10 aar 0.5911 0.5413 0.6392 0.3686Exp(OR for 10 aar) 1.4458OR for male vs female 0.6400 0.4842 0.7711 0.5755Exp(OR for male vs female) 1.7781

Contrast Estimate Results

Standard L’BetaChi-

Label Error Alpha Confidence Limits SquareOR for 10 aar 0.1036 0.05 0.1656 0.5717 12.66Exp(OR for 10 aar) 0.1498 0.05 1.1800 1.7714OR for male vs female 0.3259 0.05 -0.0632 1.2143 3.12Exp(OR for male vs female) 0.5795 0.05 0.9387 3.3680

Contrast Estimate Results

Label Pr > ChiSqOR for 10 aar 0.0004Exp(OR for 10 aar)OR for male vs female 0.0774Exp(OR for male vs female)

Outputtet ovenfor viser, at en 10 år ældre person har en odds foranafylaktisk chok, der er 1.45 gange større (dvs. 45% større) endden 10 år yngre patient (95% konfidensgrænser 18%-77%). Des-uden viser den, at der er tendens til, at mænd i højere grad fåranafylaktisk chok, idet odds ratio er estimeret til 1.78 for mændvs. kvinder (CI: 0.94-3.37, altså ikke signifikant).

3. Tilbage til tryptases afhængighed af alder:

(a) Foretag en analyse, der tillader estimation af den forventede for-skel på tryptase for to individer med samme sværhedsgrad af denallergiske reaktion, men med 10 års forskel i alder. Husk konfiden-sinterval!

Her skal vi jo i hvert fald have alderen som kovariat, da det ereffekten af denne, der spørges om. Desuden skal sværhedsgradenmedtages, idet vi bliver bedt om effekten alder, for fastholdt (sam-me) værdi af sværhedsgraden. Da vi tidligere har set, at der varforskel på mænd og kvinder, tager vi også kønnet med i modellen.Vi kommer således til at estimere den forventede forskel på tryp-tase for to individer af samme køn og med samme sværhedsgrad af

18

Page 19: Vejledende besvarelse af hjemmeopgave i Basal Statistik

den allergiske reaktion, men med 10 års forskel i alder. Modellener

ods graphics on;proc glm PLOTS=(DIAGNOSTICS RESIDUALS(SMOOTH)) data=tryptase;

class gender reacclass reacclass2;model log_tryptase = age reacclass2 gender

/ solution clparm;estimate "effekt af 10 aar" age 10;

run;ods graphics off;

og (dele af) outputtet er:

The GLM Procedure

Class Level Information

Class Levels Valuesgender 2 F Mreacclass 3 1 2 3reacclass2 2 0 1

Number of Observations Read 179Number of Observations Used 179

Dependent Variable: log_tryptase

R-Square Coeff Var Root MSE log_tryptase Mean0.242520 50.52674 0.458337 0.907118

Source DF Type III SS Mean Square F Value Pr > Fage 1 0.02751279 0.02751279 0.13 0.7179reacclass2 1 8.22834544 8.22834544 39.17 <.0001gender 1 0.81928107 0.81928107 3.90 0.0499

StandardParameter Estimate Error t Value Pr > |t|effekt af 10 aar 0.00805711 0.02226370 0.36 0.7179

Parameter 95% Confidence Limitseffekt af 10 aar -0.03588279 0.05199702

StandardParameter Estimate Error t Value Pr > |t|Intercept 1.138946242 B 0.13983686 8.14 <.0001age 0.000805711 0.00222637 0.36 0.7179reacclass2 0 -0.458954421 B 0.07333284 -6.26 <.0001reacclass2 1 0.000000000 B . . .gender F -0.141165618 B 0.07148216 -1.97 0.0499gender M 0.000000000 B . . .

Parameter 95% Confidence Limits

19

Page 20: Vejledende besvarelse af hjemmeopgave i Basal Statistik

Intercept 0.862962482 1.414930003age -0.003588279 0.005199702reacclass2 0 -0.603685022 -0.314223821reacclass2 1 . .gender F -0.282243696 -0.000087539gender M . .

Vi kan konstatere, at alderen absolut ikke ser ud til at have enbetydning (mere), idet vi finder en P-værdi på 0.72. Effekten af10 år mere estimeres til en faktor 100.00806 = 1.019, altså kun 1.9%oveni for hvert tiår. Konfidensgrænserne er (10−0.03588, 100.05200) =(0.921, 1.127), svarende til mellem 7.9% mindre og 12.7% mere.

Den fittede model illustreres af figuren nedenfor. Vi ser 4 (næstenvandrette) linier, svarende til aldersafhængigheden i de 4 grupper(reacclass2=0-1, mænd og kvinder).

Til sidst lige en bemærkning om fortolkningen af spredningen om-kring regressionslinien. Denne er ikke helt simpel, pga. logaritme-transformationen. Vi finder her s = 0.46, og dermed, at 95% afkvinderne ligger indenfor en afstand af ±2s = ±0.92 fra den esti-merede regressionslinie, på log10-skala. Hvis vi tilbagetransforme-rer dette interval, finder vi (10−0.92, 100.92) = (0.12, 8.32), hvilketkan fortolkes som “de enkelte kvinder har typisk en tryptase-værdi,der afviger med en faktor 9-10 stykker i forhold til medianen”.

(b) Fik du lavet modelkontrol for modellen ovenfor?

20

Page 21: Vejledende besvarelse af hjemmeopgave i Basal Statistik

Her ser vi igen på modelkontrollen i form af både “DiagnosticPa-nel” med de 9 figurer, samt et enkelt residualplot (residualer modkovariat), med indlagt “smoother”:

Disse giver ikke anledning til nogen bekymringer.

(c) Forklar forskellen på resultaterne opnået under punkt 1c og 3a.

Vi sammenfatter resultaterne af analyserne med tryptase (på log10-skala) som outcome, inklusive en, der ikke er kommenteret ovenfor,

21

Page 22: Vejledende besvarelse af hjemmeopgave i Basal Statistik

nemlig den, hvor kun alder og reaktionens sværhedsgrad indgår:

Model/Spm. Alder, 10 år mere Mænd vs. Kvinder Anafylaktisk chok Residual s1c 0.062 (0.023) – – 0.5141g 0.046 (0.024) 0.210 (0.078) – 0.504(1g) – 0.239 (0.076) – 0.5102a – – 0.496 (0.070) 0.4633a 0.008 (0.022) 0.141 (0.071) 0.459 (0.073) 0.458(3a) 0.017 (0.022) – 0.478 (0.073) 0.462

Når vi sammenligner resultaterne fra de forskellige modeller, kanvi konstatere, at alderseffekten ikke er særligt overbevisende. Godtnok er den signifikant i modellen fra spm. 1b-1c, men denne sig-nifikans forsvinder, når vi tager kønnet i betragtning (spm. 1g,og endnu mere, når vi også tager hensyn til reaktionens svær-hedsgrad. Hvis man forsøger at stille det op i et diagram medbetegnelser

K: KønA: AlderR: Reactionclass2T: Tryptase

kunne det se således ud:

K

A

R

@@@@R

�����

-

XXXXXXXXXXXXz

������

������:

T

og fortolkningen kunne da være, at alderen har en positiv sammenhæng medtryptae, men at denne sammenhæng er konfunderet med køn (fordi mændeneer ældre end kvinderne) og medieret af graden af den allergiske reaktion.

Reference:Garvey, L.H. et al. (2010):Effect of General Anesthesia and Orthopedic Surgery on Serum TryptaseAnesthesiology 2010; 112:1184-9.

22