52
university of copenhagen department of biostatistics Faculty of Health Sciences Variansanalyse (ANOVA) Ulla B Mogensen Biostatistisk Afd., SUND, KU. Mail: [email protected]

Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

Embed Size (px)

Citation preview

Page 1: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Faculty of Health Sciences

Variansanalyse (ANOVA)

Ulla B MogensenBiostatistisk Afd., SUND, KU.Mail: [email protected]

Page 2: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Indhold dag 3

I T-test – kort opsummering

I Ensidet variansanalyseI Modelkontrol

I Tosidet variansanalyseI Additiv modelI InteraktionsmodelI Modelkontrol

2 / 47

Page 3: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

T-test genopfriskning

Kontinuert normalfordelte variable fra en eller to stikprøver.I One-sample t-test: En stikprøve hvor vi kan teste om

middelværdien har en specifik værdi.I Two-sample t-test: To stikprøver hvor vi kan teste om

middelværdierne i de to stikprøver er ens.

Hvis de to stikprøver stammer fra samme individer, f.eks. test afhæmoglobin niveau før og efter epo indtagelse, taler vi om parretdata og test.

3 / 47

Page 4: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

T-test antagelser

Fælles for one-sample og two-sample:I Observationerne indenfor en stikprøve skal være uafhængige.I Responsvariablen skal helst være normalfordelt.

– Normal fordelingen kan evt opnås efter en transformation.– Ellers brug Wilcoxon test.

For two-sample t-test skal der yderligere gælde:I Variansen i de to stikprøver skal være ens.

– Ellers benyt Welch t-testI For brug af parret t-test skal observationerne i de to stikprøver

være parret.

4 / 47

Page 5: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Kategoriske variable med 2 eller flere grupper

I two-sample t-test sammenlignes to grupper fra en faktor variabel,f.eks. sammenlignes fødselsvægt for børn af rygere versusikke-rygere.

Hvis faktoren (den kategoriske variabel) har mere end 2 grupper,f.eks. nuværende rygere, tidligere rygere, ikke-rygere, har vi to ellerflere sammenligninger. Her er parvise t-test ikke godt pgamassesignifikans.

5 / 47

Page 6: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel I

Festing and Weigler i Handbook of Laboratory Animal Science . . .

. . . betragter resultaterne af et eksperiment med fuldstændigtrandomiseret design hvor mus var randomiseret til en af 4grupper med forskellig doser af et hormon.

Livmodervægten blev målt efter et passende tidsinterval.

6 / 47

Page 7: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel 1

7 / 47

Page 8: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel 1

8 / 47

Page 9: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel 1

9 / 47

Page 10: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel 1

Konklusioner fra figurerneI Livmodervægten afhænger af dosis.I Variationen af data øges, når dosis øges.

Spørgsmål: Hvorfor kunne disse første konklusioner være forkerte?

10 / 47

Page 11: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Ensidet variansanalyse (one-way anova)

Ensidet (one-way): Der opdeles kun efter en faktor, som kan have2 eller flere grupper (levels).

f.eks. dosis er faktor variabel med 5 grupper

Den j’te observation i gruppe i beskrives ved

Yij = µi + εij , εij ∼ N (0, σ2)

hvor µi er middelværdien i den i’te gruppe og εij er den j’teobservations individuelle afvigelse fra µi .

11 / 47

Page 12: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel: Hæmoglobinniveau i seglcelleanæmi

Seglcelleanæmi er en gruppe af arvelige sygdomme, som primærtforekommer hos personer med negroide gener. Sygdommene erkarakteriseret ved dominans af hæmoglobin S (Hb S) i de rødeblodlegemer.

Sammenligning af hæmoglobinniveau (g/dl) hos 41 patienter med3 typer af seglcelleanæmi.

Gruppe Typer N Mean (X) SdI Hb SS 16 8.71 0.84II Hb S/β 10 10.63 1.28III Hb SC 15 12.3 0.94

12 / 47

Page 13: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Hypotese

H0 Nulhypotese Niveauet af hæmoglobin afhænger ikkeaf sygdomstypen

H1 Alternativhypotese

Niveauet af hæmoglobin afhænger afsygdomstypen

Det vil sige, vi tester

H0 : µgruppe I = µgruppe II = µgruppe IIImod

H1 : µgruppe I 6= µgruppe II og/eller µgruppe III 6= µgruppe II

og/eller µgruppe I 6= µgruppe III

13 / 47

Page 14: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Varians og kvadratsummer (sum-of-squares)

Definitionen på varians for en stikprøve med n observationer,Y1, . . . ,Yn med gennemsnit Y er

Var = 1n − 1

∑i

(Yi − Y )2

= 1n − 1{(Y1 − Y )2 + · · ·+ (Yn − Y )2}

= 1n − 1︸ ︷︷ ︸

degrees of freedom

{(Y1 − Y )2 + · · ·+ (Yn − Y )2︸ ︷︷ ︸sum of squares

}

14 / 47

Page 15: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Dekomposition af variationen

Afvigelsen fra det totale gennemsnit, (Yij − Y ), kan dekomponeresi to led:

(Yij − Y ) = (Yij − Yi) + (Yi − Y )

Dermed kan variationen,∑

(Yij − Y )2, dekomponeres

SStotal =∑

(Yij − Y )2

= ...teori om lineære normale modeller...=

∑(Yij − Yi)2 +

∑(Yi − Y )2

= SSwithin + SSbetween

SSwithin kaldes også residual variationen.15 / 47

Page 16: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Variansanalyse

Sammenligning af variansen mellem grupper med variansenindenfor grupper.

I Variansen mellem grupperne er den systematiske/biologiskevarians.

I Variansen indenfor gruppen er den tilfældige varians.

16 / 47

Page 17: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

F-test

F-test sammenligner variansen mellem grupper i forhold tilvariansen indenfor grupper.

F = SSbetween/(k − 1)SSwithin/(n − k) ∼ F(k − 1,n − k)

Hvis variationen mellem grupperne er stor relativt til indenforgrupperne bidrager grupperingsfaktoren til en systematisk del afvariationen af responsvariablen.

Et F-test for 2 grupper er ækvivalent med et two-sample t-test.

17 / 47

Page 18: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

ANOVA tabel

Variation Degreesof free-dom

Sumofsquares

MS F P

Mellemgrupper

k − 1 SSb SSb/(k-1) MSb/MSw P(F(k-1,n-k)> F)

Indenforgrupper

n − k SSw SSw/(n-k)

Total n − 1 SStotal

hvor MSb = 1k−1SSbetween og MSw = 1

n−k SSwithin

18 / 47

Page 19: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel 2: F-test

Model for hæmoglobinniveaus afhængighed af gruppe

> data(haem.data)> model <- lm(haemoglobin ~ gruppe,data=haem.data)> ftest <- aov(model)> summary(ftest)

Df Sum Sq Mean Sq F val Pr(>F)gruppe 2 99.89 49.94 50 <0.0001 ***Residuals 38 37.96 1.00

Konklusion: Niveauet af hæmoglobinniveauet afhænger afsygdomsgruppen.

19 / 47

Page 20: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel 2: Parameter estimater

Estimaterne fra de forskellige grupper.I R er laveste niveau i en faktor altid referencegruppe.

> model

Call:lm(formula = haemoglobin ~ gruppe, data = haem.data)

Coefficients:(Intercept) gruppeII gruppeIII

8.713 1.917 3.587

Middelværdi estimatet i gruppe I: 8.713.Middelværdi estimatet i gruppe II: 8.713 + 1.917Middelværdi estimatet i gruppe III: 8.713 + 3.58720 / 47

Page 21: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel 2: Konfidensinterval

Konfidensintervaller for parameterestimaterne fås ved

> confint(model)2.5 % 97.5 %

(Intercept) 8.206678 9.218322gruppeII 1.101886 2.733114gruppeIII 2.860335 4.314665

21 / 47

Page 22: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel 2: Sammenligning af alle tre grupper

Parvise sammenligninger justeret for multipel testning:

> TukeyHSD(ftest)Tukey multiple comparisons of means

95% family-wise confidence level

Fit: aov(formula = model)

$gruppediff lwr upr p adj

II-I 1.9175 0.9349148 2.900085 0.0000819III-I 3.5875 2.7114704 4.463530 0.0000000III-II 1.6700 0.6748973 2.665103 0.0006147

22 / 47

Page 23: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Antagelser for ensidet variansanalyse

For at anvende ensidet variansanalyse skal følgende kriterier væreopfyldt:

I De enkelte observationer skal være uafhængige.I Residualerne skal være normalfordelte.I Variansen i grupperne skal være ens (varianshomogenitet).

Husk: Residualerne er variationen indenfor grupperne.

23 / 47

Page 24: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Modelkontrol for ensidet variansanalyse

Tjek af varianshomogenitet:I Residualplot: Plot af residualer mod predikterede værdier.

Tjek at residualerne er normalfordelte:I Histogram af residualerne.

? Er de normalfordelt?. Hvis ikke, prøv evt transformation.I Probability plot af residualerne (QQ-plot)

? Ligger de på den skrå linje.

Hvis data ikke er normalfordelt og en transformation ikke kanhjælpe: Brug Kruskal-Wallis test.

24 / 47

Page 25: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Test af varianshomogenitet: Residualer vs fittede værdier

Varianshomogenitet i hæmoglobinmodel.> names(model)> plot(model$residuals ~ model$fitted.values,

xlab = "Predikteret vaerdi af haemoglobin",ylab = "Residual")

●●

●●●●●●

●●●

●●●

●●●●

●●

●●

●●

●●

9.0 9.5 10.0 10.5 11.0 11.5 12.0

−2−1

01

Predikteret vaerdi af haemoglobin

Res

idua

l

25 / 47

Page 26: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Test for normalfordelte residualer: Histogram> hist(model$residuals,freq = FALSE,breaks=seq(-3,3,1),

main = "",xlab = "Residual")> box()> curve(dnorm(x,mean = mean(model$residuals),

sd = sd(model$residuals)),add = TRUE)

Residual

Den

sity

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

26 / 47

Page 27: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Test af normalfordelte residualer: Quantile-Quantile plot

> qqnorm(model$residuals,xlab = "Normal quantiles",ylab = "Residual",main = "")

> abline(0, sqrt(var(model$residuals)), lty = "21")

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

● ●

●●

−2 −1 0 1 2

−2−1

01

Normal quantiles

Res

idua

ls

27 / 47

Page 28: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Kruskal-Wallis testKruskal-Wallis test er en ikke-parametrisk ensidet variansanalysebaseret på rangsummer.

Test af nulhypotesen: Grupperne har samme median.Mod alternativet: Mindst to af grupperne har ikke samme median.

> kruskal.test(haemoglobin ~ gruppe, data=haem.data)

Kruskal-Wallis rank sum test

data: haemoglobin by gruppeKruskal-Wallis chi-squared = 28.4982,

df = 2,p-value = 0.0000006482

28 / 47

Page 29: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Tosidet variansanalyse (two-way anova)

Tosidet variansanalyse anvendes, når der er 2 faktorer, der påvirkeren respons.

Hvis både aldersgruppe og køn påvirker en repons.

Der er overordnet to typer:I Ubalanceret design: Der er forskelligt antal observationer i

(mindst to af) grupperne.I Balanceret design: Alle grupper har samme antal

observationer.

I med replikationer: Der er flere observationer i en faktor.I uden replikationer: Der kun er en observation i en faktor.

29 / 47

Page 30: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Tosidet variansanalyse (two-way anova)

Tosidet variansanalyse anvendes, når der er 2 faktorer, der påvirkeren respons.

Hvis både aldersgruppe og køn påvirker en repons.

Der er overordnet to typer:I Ubalanceret design: Der er forskelligt antal observationer i

(mindst to af) grupperne.I Balanceret design: Alle grupper har samme antal

observationer.I med replikationer: Der er flere observationer i en faktor.I uden replikationer: Der kun er en observation i en faktor.

29 / 47

Page 31: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Additiv model

To faktorer påvirker responsvariablen additivt. Dette er en modelmed struktur...

Den k’te observation som er i gruppe i i faktor 1 og i gruppe j ifaktor 2 beskrives ved

Yijk = µ+ αi + βj + εijk , εijk ∼ N (0, σ2)

Variationen kan igen dekomponeres – nu i 3 led:

SStotal = SSfaktor 1 + SSfaktor 2 + SSresidual

30 / 47

Page 32: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel IIILængden af graviditet målt i dage blev estimeret ved 5 forskelligeteknikker for 10 kvinder.

> gest.datalmp ve doq us dao

woman.1 275 273 288 273 244woman.2 292 283 284 285 329woman.3 281 274 298 270 252woman.4 284 275 271 272 258woman.5 285 294 307 278 275woman.6 283 279 301 276 279woman.7 290 265 298 291 295woman.8 294 277 295 290 271woman.9 300 304 293 279 271woman.10 284 297 352 292 284

lmp: Sidstemenstruationsperiode

ve: Vaginal eksaminationdoq: Dato for første

livstegn (quickening).us: Ultralydsskanningdao: Diamin oxidase blodprøve

Kvinderne udgør en faktor med 10 grupper/niveauer.31 / 47

Page 33: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Hypotese og F-test

Vi tester nu to hypoteser:1. H0: Der er ingen forskel på kvinderne2. H0: Der er ingen forskel på teknikkerne

Vi udfører derfor to F-test:

F1 = SSkvinder/(k − 1)SSresidual/(n − k −m) ∼ F(k − 1,n − k −m)

F2 = SSteknik/(m − 1)SSresidual/(n − k −m) ∼ F(m − 1,n − k −m)

32 / 47

Page 34: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel 3: F-testTosidet variansanalyse for balanceret design uden replikationer(hver kvinde udgør en gruppe/niveau).

> names(gestation)> model <- lm(days ~ woman + tech, data=gestation)> ftest <- anova(model)> ftestAnalysis of Variance Table

Response: daysDf Sum Sq Mean Sq F value Pr(>F)

woman 9 4437.6 493.07 2.4312 0.02831 *tech 4 3031.4 757.85 3.7368 0.01211 *Residuals 36 7301.0 202.81

33 / 47

Page 35: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel 3: Parameter estimater

> summary(model)Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) 261.600 7.536 34.715 < 2e-16 ***woman2 24.000 9.007 2.665 0.011461 *woman3 4.400 9.007 0.489 0.628144woman4 1.400 9.007 0.155 0.877344woman5 17.200 9.007 1.910 0.064169 .woman6 13.000 9.007 1.443 0.157566woman7 17.200 9.007 1.910 0.064169 .woman8 14.800 9.007 1.643 0.109048woman9 18.800 9.007 2.087 0.044000 *woman10 31.200 9.007 3.464 0.001392 **techdoq 22.900 6.369 3.596 0.000963 ***techlmp 11.000 6.369 1.727 0.092707 .techus 4.800 6.369 0.754 0.455943techve 6.300 6.369 0.989 0.329166

Referencegruppe: Kvinde 1 målt med teknik "dao"– hvorfor nu "dao"?34 / 47

Page 36: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Struktur i additiv to-faktor modelFor to faktorer, her f.eks kvinder W med parametrene α inddeltefter teknik T der har parametrene β, har vi følgende tabel:

t1 t2 . . . t5w1 µ µ + β1 . . . µ + β4w2 µ + α1 µ + α1 + β1 . . . µ + α1 + β4w3 µ + α2 µ + α2 + β1 . . . µ + α2 + β4...

...... . . . ...

w9 µ + α8 µ + α8 + β1 . . . µ + α8 + β4

Forskellen mellem søjle t1 og søjle t2: β1.Forskellen mellem søjle t1 og søjle t5: β4.Forskellen mellem søjle t2 og søjle t5: β1 − β4.

Tilsvarende for rækkerne. F.eks:Forskellen mellem række w1 og række w2: α1.Forskellen mellem række w3 og række w9: α2 − α8.

35 / 47

Page 37: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Struktur i additiv to-faktor modelFor to faktorer, her f.eks kvinder W med parametrene α inddeltefter teknik T der har parametrene β, har vi følgende tabel:

t1 t2 . . . t5w1 µ µ + β1 . . . µ + β4w2 µ + α1 µ + α1 + β1 . . . µ + α1 + β4w3 µ + α2 µ + α2 + β1 . . . µ + α2 + β4...

...... . . . ...

w9 µ + α8 µ + α8 + β1 . . . µ + α8 + β4

Forskellen mellem søjle t1 og søjle t2: β1.Forskellen mellem søjle t1 og søjle t5: β4.Forskellen mellem søjle t2 og søjle t5: β1 − β4.

Tilsvarende for rækkerne. F.eks:Forskellen mellem række w1 og række w2: α1.Forskellen mellem række w3 og række w9: α2 − α8.

35 / 47

Page 38: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Struktur i additiv to-faktor modelFor to faktorer, her f.eks kvinder W med parametrene α inddeltefter teknik T der har parametrene β, har vi følgende tabel:

t1 t2 . . . t5w1 µ µ + β1 . . . µ + β4w2 µ + α1 µ + α1 + β1 . . . µ + α1 + β4w3 µ + α2 µ + α2 + β1 . . . µ + α2 + β4...

...... . . . ...

w9 µ + α8 µ + α8 + β1 . . . µ + α8 + β4

Forskellen mellem søjle t1 og søjle t2: β1.Forskellen mellem søjle t1 og søjle t5: β4.Forskellen mellem søjle t2 og søjle t5: β1 − β4.

Tilsvarende for rækkerne. F.eks:Forskellen mellem række w1 og række w2: α1.Forskellen mellem række w3 og række w9: α2 − α8.35 / 47

Page 39: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Balanceret design med replikationer

I et tosidet balanceret design med replikationer er der flereobservationer per celle i krydstabellen mellem to faktorer.

De to faktorer kan her have en interaktion, hvor forskellen irespons mellem grupperne i en faktor ikke er den samme for allegrupper i den anden faktor.– Interaktion kaldes også effektmodifikation.

36 / 47

Page 40: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Interaktion

0 1 2 3 4

01

23

45

Ingen interaktion

Faktor 2

Res

pons

e ● ●

●Gruppe1−faktor1

Gruppe2−faktor1

0 1 2 3 4

01

23

45

Interaktion

Faktor 2

Res

pons

e ●

Gruppe1−faktor1

Gruppe2−faktor1

37 / 47

Page 41: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Interaktion

0 1 2 3 4

01

23

45

Ingen interaktion

Faktor 2

Res

pons

e ● ●

●Gruppe1−faktor1

Gruppe2−faktor1

0 1 2 3 40

12

34

5

Interaktion

Faktor 2

Res

pons

e ●

Gruppe1−faktor1

Gruppe2−faktor1

37 / 47

Page 42: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel 412 rotter blev randomiseret på to måder: 6 rotter fik antibiotika og3 ud af 6 rotter i hver antibiotikagruppe fik vitaminer.Respons: Vækst .

> ratgrowthratid antibiotics vitamins growth

1 1 no no 1.302 2 no no 1.193 3 no no 1.084 4 no yes 1.265 5 no yes 1.216 6 no yes 1.197 7 yes no 1.058 8 yes no 1.009 9 yes no 1.0510 10 yes yes 1.5211 11 yes yes 1.5612 12 yes yes 1.5538 / 47

Page 43: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Interaktionsmodel

Tosidet variansanalyse model med interaktion

Yijl = µ+ αi + βj + γij + εijl , εijl ∼ N (0, σ2)

hvor γij er effekten af interaktionen (effektmodifikationen).

Variationen kan igen dekomponeres :

SStotal = SSfaktor 1 + SSfaktor 2 + SSinteraktion + SSresidual↑ ↑ ↑ ↑

df=k-1 df=m-1 df=(k-1)(m-1) df=n-k-m-1

Residualvariationen er i eksemplet forskellen mellem rotterneindenfor hver gruppe af antibiotika og vitamin.39 / 47

Page 44: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel 4: Fit af interaktionsmodel

Interaktionsmodellen kan fittes på to ækvivalente måder

> model <- lm(growth ~ antibiotics + vitamins+ antibiotics:vitamins, data=ratgrowth)

> ftest <- anova(model)> ftestAnalysis of Variance Table

Response: growthDf Sum Sq Mean Sq F value Pr(>F)

antibiotics 1 0.020833 0.020833 5.6818 0.044292 *vitamins 1 0.218700 0.218700 59.6455 0.00005622 ***antibiotics:vitamins 1 0.172800 0.172800 47.1273 0.000129 ***Residuals 8 0.029333 0.003667

40 / 47

Page 45: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel 4: Parameter estimater

> summary(model)

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.19000 0.03496 34.039 0.000000000606 ***antibioticsyes -0.15667 0.04944 -3.169 0.013220 *vitaminsyes 0.03000 0.04944 0.607 0.560818antibioticsyes:vitaminsyes 0.48000 0.06992 6.865 0.000129 ***

Referencegruppen: Rotter uden antibiotika og uden vitaminer.

Rotte antibiotics=no, vitamin=no: 1.19

Rotte antibiotics=yes, vitamin=no: 1.19 + (-0.15667)Rotte antibiotics=no, vitamin=yes: 1.19 + 0.03Rotte antibiotics=yes, vitamin=yes: 1.19 + (-0.15667) + 0.03 +0.48

41 / 47

Page 46: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel 4: Parameter estimater

> summary(model)

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.19000 0.03496 34.039 0.000000000606 ***antibioticsyes -0.15667 0.04944 -3.169 0.013220 *vitaminsyes 0.03000 0.04944 0.607 0.560818antibioticsyes:vitaminsyes 0.48000 0.06992 6.865 0.000129 ***

Referencegruppen: Rotter uden antibiotika og uden vitaminer.

Rotte antibiotics=no, vitamin=no: 1.19Rotte antibiotics=yes, vitamin=no: 1.19 + (-0.15667)Rotte antibiotics=no, vitamin=yes: 1.19 + 0.03Rotte antibiotics=yes, vitamin=yes: 1.19 + (-0.15667) + 0.03 +0.4841 / 47

Page 47: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Interaktionsplot

> plotmeans(growth ~ interaction(vitamin,antibiotics),+ connect=list(c(1,3),c(2,4)),+ main="Interaction between vitamin and antibiotics")

0.9

1.0

1.1

1.2

1.3

1.4

1.5

1.6

Interaction between vitamin and antibiotics

interaction(vita, anti)

grow

th

vita.no.anti.no vita.yes.anti.no vita.no.anti.yes vita.yes.anti.yes

n=3 n=3 n=3 n=3

42 / 47

Page 48: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Parameterestimater i interaktionsmodel

I en interaktionsmodel er der ikke en struktur som i den additivemodel uden interaktion.

vitamin no vitamin yesantib. no µ µ + β1antib. yes µ + α1 µ + α1 + β1 + γ

Hvis interaktionsparameteren γ ikke er signifikant, kan vimodficere modellen ved at sætte γ = 0.

Yijl = µ+ αi + βj + γij︸︷︷︸=0

+εijl , εijl ∼ N (0, σ2)

Tilbage er en additiv model.

43 / 47

Page 49: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Modelkontrol for tosidet variansanalyse

Tjek af varianshomogenitet:I Residual plot: Plot af predikterede værdier mod residualerne.I Residual plot: Plot af residualerne mod grupperne.

? Fordeler punkter sig ens om linien. Hvis ikke, prøv evttransformation.

Tjek af normalitet for residualer:I Histogram af residualerne.

? Er de normalfordelt. Hvis ikke, prøv evt transformation.I Probability plot af residualerne (QQ-plot)

? Ligger de på den skrå linie.

44 / 47

Page 50: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel 4: ModelkontrolModelkontrol kan fås ved at plotte model-objektet i R.

> par(mfrow=c(2,1))> plot(model,which=1:2)

1.1 1.2 1.3 1.4 1.5

−0

.10

0.0

00

.10

Fitted values

Re

sid

ua

ls

●●

●●

Residuals vs Fitted

1

3

4

●●

−1.5 −0.5 0.5 1.5

−2

01

2

Theoretical Quantiles

Sta

nd

ard

ize

d r

esid

ua

ls

Normal Q−Q

1

3

4

45 / 47

Page 51: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Anova metoder – oversigt

I Uafhængige observationerI t-test for to grupper (dag 1)I Ensidet variansanalyse for flere grupper (en faktor)I Tosidet variansanalyse for to grupperings variable (to faktorer)

I Afhængige observationerI Gentagne målinger (repeated measurements)I Mixed effekt modeller

I Ikke-normalfordelte dataI Ikke-parametrisk anova (Kruskal-Wallis test)

I Mix af kategoriske og kontinuerte faktorerI Varianskomponentmodeller (ancova)

I Model sammenligning og model selektion

46 / 47

Page 52: Variansanalyse (ANOVA) - kustaff.pubhealth.ku.dk/~sr/forskningsaar/regression2013/dag3/anova... · university of copenhagen department of biostatistics FacultyofHealthSciences Variansanalyse

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Et par afsluttende bemærkninger om anova

I Variationen af data kan dekomponeres i en systematisk og entilfældig del.

I Et F -test for en faktor med 2 grupper er ækvivalent med ettwo-sample t-test.

I Anova er aktuelt for en faktor med 3 eller flere grupper, daparvise sammenligninger via t-test eller Wilxcoxon test fører tilmassesignifikans.

I Anova er et special tilfælde af lineær regression.

47 / 47