74
Basal statistik 23. september 2008

Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Basal statistik

23. september 2008

Page 2: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression

• Simpel lineær regression

• Todimensionale normalfordelinger

• Korrelation vs. regression

• Modelkontrol

• Diagnostics

Page 3: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Thomas Scheike,

Biostatistisk Afdeling

Institut for Folkesundhedsvidenskab,

Københavns Universitet

Slides af Lene T. Skovgaard findes pa

http://staff.pubhealth.ku.dk/~ebj/basal08_2

Page 4: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 1

Simpel lineær regression

Retningsbestemt relation

(men ikke nødvendigvis kausal)

mellem to kontinuerte variable:

Y: Respons eller outcome, afhængig (dependent) variabel

X: Forklarende variabel, kovariat

(somme tider Independent/uafhængig - meget uheldigt!)

Page 5: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 2

Data:

Sammenhørende registreringer (xi, yi),

for en række individer eller ’units’, i = 1, · · · , n:

Bemærk: xi’erne kan vælges pa forhand!

• Det er smart,

fordi man kan designe sig til mere præcise estimater

• Det er farligt,

hvis man har tænkt sig at benytte korrelationer

(mere om det senere)

Page 6: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 3

Eksempel:

Sammenhæng mellem kolinesteraseaktivitet (KE)

og tid til opvagnen (TID)

• Outcome: TID

• Forklarende variabel: KE

• Konklusioner:

Hvor lang tid forventer vi til opvagnen,

baseret pa en maling af KE?

Hvor stor er usikkerheden pa denne prediktion?

Page 7: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 4

Eksempel:

Sammenligning af lungekapacitet (FEV1) for rygere og

ikke-rygere

Problem: FEV1 afhænger ogsa af f.eks. højde

• Outcome: FEV1

• Forklarende variable: højde, rygevaner

• Konklusioner:

Hvor meget darligere er lungefunktionen hos rygere?

Page 8: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 5

Kan der pavises en sammenhæng mellem fastende

blodsukkerniveau og sammentrækningsevne for

venstre hjertekammer hos diabetikere? (n=23)

Outcome: Y=vcf, %/sec.

Kovariat:

X=blodsuk, mmol/l

OBS BLODSUK VCF

1 15.3 1.76

2 10.8 1.34

3 8.1 1.27

. . .

. . .

. . .

21 4.9 1.03

22 8.8 1.12

Page 9: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 6

Scatter plot

Graphs/Scatter Plot

/Two-Dimensional

eller

proc gplot data=sasuser.bp;

plot vcf*blodsuk;

run;

Page 10: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 7

Ligningen for en ret linie: Y = α + βX

Page 11: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 8

Fortolkning:

• α: intercept, afskæring (skæring med Y-akse)

Sammentrækningsevnen for en diabetiker med en

blodsukkerværdi pa 0.

Som regel en utilladelig ekstrapolation!

• β: hældning, regressionskoefficient

Forskellen i sammentrækningsevne hos 2 diabetikere,

der afviger i blodsukkerværdi med 1 mmol/l.

Ofte parameteren med størst interesse.

Page 12: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 9

Statistisk model: Yi = α + βXi + εi, εi ∼ N(0, σ2) uafh.

Estimation foretages v.hj.a mindste kvadraters metode

Page 13: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 10

Mindste kvadraters metode:

Bestem α og β, sa kvadratafvigelsessummen

n∑

i=1

(yi − (α + βxi))2 =

n∑

i=1

ε2i

bliver mindst mulig

β =Sxy

Sxx

=

∑n

i=1 (xi − x)(yi − y)∑n

i=1 (xi − x)2, α = y − βx

Page 14: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 11

• Regressionsanalyse i ANALYST:

– Statistics/Regression/Simple eller Linear

– vcf → Dependent, blodsuk → Explanatory

– Statistics

afkryds Confidence limits for estimates

samt evt. Correlation matrix of estimates

• Og ved direkte programmering:

proc reg data=sasuser.bp;

model vcf = blodsuk / clb corrb;

run;

Page 15: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 12

Dependent Variable: vcf

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Pr > F

Model 1 0.20727 0.20727 4.41 0.0479

Error 21 0.98610 0.04696

Corrected Total 22 1.19337

Root MSE 0.21670 R-Square 0.1737

Dependent Mean 1.32565 Adj R-Sq 0.1343

Coeff Var 16.34634

Parameter Estimates

Parameter Standard

Variable DF Estimate Error t Value Pr > |t| 95% Confidence Limits

Intercept 1 1.09781 0.11748 9.34 <.0001 0.85350 1.34213

blodsuk 1 0.02196 0.01045 2.10 0.0479 0.00022311 0.04370

Correlation of Estimates

Variable Intercept blodsuk

Intercept 1.0000 -0.9231

blodsuk -0.9231 1.0000

Page 16: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 13

Vigtige informationer fra output:

• hældning (slope, vises i output under betegnelsen

’blodsuk’, fordi det er koefficienten til denne),

β = 0.02196 ≈ 0.022,

med tilhørende spredning (standard error)

• spredningen omkring linien (Root MSE),

s = σ = 0.21670 ≈ 0.217

Denne størrelse benyttes til konstruktion af

prediktionsgrænser (kommer senere), som er

normalomrader for given blodsukkerværdi.

Page 17: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 14

Tegning med linie:

I regressionsopsætningen

klikkes

Plots,og der afkrydses iPlot observed vs. independent

Estimeret regressionslinie: vcf=1.10 + 0.0220 blodsuk

Page 18: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 15

Fortolkning af α er ofte habløs,

men den er nødvendig for at lave prediktioner.

Fittede (predikterede, forventede) værdier: yi = α + βxi

Forventet værdi af vcf for en diabetiker med blodsukker

10mmol/l:

1.10 + 0.0220 × 10 = 1.32

Page 19: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 16

Omparametrisering, f.eks. v.hj.a. ny forklarende

variabel: Z = X − 10

Der gælder sa α∗ = α + 10β, dvs. liniens y-værdi i x=10.

Fortolkning af α10: Sammentrækningsevne for en

diabetiker med blodsukkerværdi 10 mmol/l.

Page 20: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 17

Data/Transform/Compute, definer sukker10 som

blodsuk-10

Gentag nu regressionen med blodsuk erstattet af

sukker10. Vi far sa

Parameter Estimates

Parameter Standard

Variable DF Estimate Error t Value Pr > |t| 95% Confidence Limits

Intercept 1 1.31744 0.04535 29.05 <.0001 1.22312 1.41176

sukker10 1 0.02196 0.01045 2.10 0.0479 0.00022311 0.04370

Correlation of Estimates

Variable Intercept sukker10

Intercept 1.0000 -0.0862

sukker10 -0.0862 1.0000

Page 21: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 18

Regressionsanalysen indeholder 3 parametre:

• 2 hørende til linien (intercept og hældning)

• 1, som er spredningen omkring linien (σ):

den biologiske variation af vcf for folk med samme

blodsukker-værdi

Vi estimerer σ2, variansen omkring regressionslinienved

s2 =1

n − 2

n∑

i=1

(yi − α − βxi)2

ca. gennemsnitlig kvadratisk afstand, blot er n (antallet af observationer)

erstattet af n− 2 (antallet af frihedsgrader), her 21

Page 22: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 19

Man kan ikke forsta eller fortolke varianser direkte, sa vi

tager straks kvadratrod:

s =√

s2

som er estimat for

spredningen omkring regressionslinien

kaldes i SAS (lidt uheldigt) for ’Root Mean Square Error’

her 0.2167, med de samme enheder som vcf

Page 23: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 20

Hvor gode er skønnene over de ukendte parametre

α og β?

Hvor meget anderledes resultater kunne vi forvente at finde

ved en ny undersøgelse?

Det kan vises, at β ∼ N(β, σ2

Sxx)

dvs. hældningen er præcist bestemt, hvis

• observationerne ligger tæt pa linien (σ2 lille)

• variationen i x-værdier (Sxx) er stor

Page 24: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 21

Estimeret usikkerhed pa β: se(β) = s√Sxx

Dette estimat kaldes standard error for β,

eler generelt standard error of the estimate (s.e.e)

Vi bruger det til at konstruere et 95% konfidensinterval

β ± t97.5%(n − 2) × se(β) = β ± ca.2 × se(β)

= 0.0220 ± 2.080 × 0.0105 = (0.0002, 0.0438)

Page 25: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 22

Vi kan ogsa teste, typisk ’H0 : β = 0’ ved t-testet

t =β

se(β)∼ t(n − 2)

som her giver t = 0.02200.0105

=2.10 ∼ t(21), P=0.048

dvs. lige pa grænsen af det signifikante

Page 26: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 23

Tilsvarende kan vi teste f.eks. ’H0 : α = α0’ ved t-testet

t =α − α0

se(α)∼ t(n − 2)

eller udregne et 95% konfidensinterval for α:

1.098 ± 2.080 × 0.1175 = (0.854, 1.342)

Dette er ikke særlig interessant.

I stedet kan vi erstatte ’blodsuk’ af ”blodsuk-10’, hvorved

det nye ’intercept’-estimat bliver 1.317(0.045)

med 95% konfidensinterval

1.317± 2.080× 0.045 = (1.223, 1.411). Dette kan fortolkes.

Page 27: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 24

Vi kan altsa teste hypoteser om savel α som β, men:

• Estimaterne for intercept og hældning er (negativt)

korrelerede (her -0.92, jv. s. 12)

• Accepter ikke to ’sideordnede’ test

Selv om vi kan acceptere test vedr. bade α (f.eks.

intercept=0) og β (f.eks. hældning 1) hver for sig, kan

vi ikke nødvendigvis acceptere begge samtidig

Page 28: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 25

Page 29: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 26

Variationsopspaltning

SStotal =n

i=1

(yi − y)2 = SSmodel + SSresid

Total variation = variation, som kan forklares

+ variation, som ikke kan forklares

x er en god forklarende variable,

hvis SSresid er lille i forhold til SSmodel

Page 30: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 27

Alternativ teststørrelse for effekt af x

F-teststørrelse for hypotesen H0 : β = 0:

SSmodel/1

SSresid/(n − 2)∼ F (1, n − 2)

Bemærk, at der her gælder, at det ’nye’ F-test giver det

samme som det ’gamle’ t-test, fordi

t =β

se(β)=

√F

Page 31: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 28

Ækvivalensen mellem t− og F -tests gælder kun for simpel

lineær regression

Generelt tester F-testet mere end 1 frihedsgrad væk:

• flere niveauer af en kategorisk kovariat testes ens

(anova)

• flere kvantitative forklarende variable testes væk pa

samme tid (multipel regression)

Page 32: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 29

Determinationskoefficient, R2:

Den andel af variationen (i y), der kan forklares ved modellen:

R2 =SSmodel

SStotal

Her finder vi determinationskoefficienten: R2 = 0.17, dvs. vi kan

forklare 17% af variationen i vcf v.hj.a. variablen blodsuk.

Determinationskoefficienten er

kvadratet pa korrelationskoefficienten

mellem vcf og blodsuk (som dermed er r =√

0.17 = 0.42)

Page 33: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 30

Korrelationen r mellem to variable maler:

• I hvor høj grad ligner scatter plottet en ret linie?

• Ikke: Hvor nær ligger punkterne ved den rette linie?

Korrelationskoefficienten estimeres ved:

r = rxy =Sxy

SxxSyy

=

∑n

i=1 (xi − x)(yi − y)√

∑n

i=1 (xi − x)2∑n

i=1 (yi − y)2

• antager værdier mellem -1 og 1 (0 = uafhængighed)

• +1 og -1 svarer til perfekt lineær sammenhæng,

hhv. positiv og negativ

Page 34: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 31

Todimensional normalfordelingstæthed med korrelation 0

Alle lodrette snit giver

normalfordelinger

• med samme

middelværdi

• og samme varians

Page 35: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 32

Todimensional normalfordelingstæthed

Korrelation 0.9

Udpræget retning i figuren

Page 36: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 33

Konturkurver

for en normalfordeling

Page 37: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 34

Regression kontra korrelation

Antagelserne til brug for fortolkning af en korrelation er

skrappere end for regressionsanalysen, fordi:

En todimensional normalfordeling for (X,Y) medfører:

• De betingede fordelinger af Y givet X=x er igen

normalfordelinger

• De betingede middelværdier ligger pa en ret linie

• De betingede varianser er ens (uafhængig af x)

Page 38: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 35

Betingninger i den todimensionale normalfordeling giver

altsa en lineær regressionsmodel:

men ved udregning af korrelationen antager man tillige, at

X’erne følger en normalfordeling.

Page 39: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 36

De to estimater (for korrelation og hældning)

ligner hinanden

β =Sxy

Sxx

rxy =Sxy√SxxSyy

β = rxy

Syy

Sxx

rxy = β√

SxxSyy

Men korrelationen er dimensionsløs

– og svær at fortolke

Page 40: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 37

Test af uafhængighed (ingen korrelation), H0 : ρxy = 0

T =rxy

1 − r2xy

√n − 2 ∼ t(n − 2)

Test for β = 0 er identisk med test for ρxy = 0

Page 41: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 38

Men pas pa: 1 − r2xy = s2

s2+β2 Sxxn−2

Hold β og s2 fast:

Sxx stor ⇒ 1-r2xy tæt pa 0 ⇒ r2

xy tæt pa 1

r2xy kan gøres vilkarlig tæt pa 1 ved at sprede x’erne

– f.eks. ved at udelade de midterste

Page 42: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 39

Korrelationskoefficienten

• udtrykker sammenhæng, ikke overensstemmelse

(der er f.eks. en sammenhæng mellem alder og

blodtryk, men der er naturligvis ikke overensstemmelse)

Man skal derfor ikke bruge

korrelationskoefficienten til at sammenligne

malemetoder

• Pearson korrelationen maler graden af lineær

sammenhæng. For krumme sammenhænge bør man

benytte rangkorrelationer (Spearman).

Page 43: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 40

Fittede (predikterede, forventede) værdier: yi = α + βxi

Konfidensgrænser for selve linien (smalle grænser)

• benyttes til sammenligning med andre grupper af

personer

• man benytter spredningen s√

1n

+ (xi−x)2

Sxx

• Disse grænser bliver vilkarligt snævre,

nar antallet af observationer øges.

• De er ofte irrelevante!

Page 44: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 41

Konfidensgrænser

(fas under Plots i regressionsopsætningen)

eller ved at skrive symbol=rlclm95 i symbol-sætningen

Page 45: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 42

Fittede (predikterede, forventede) værdier: yi = α + βxi

Prediktionsgrænser (normalomrade) for

enkeltobservationer (brede grænser)

• De benyttes til at afgøre, om en ny person er atypisk i

forhold til normen (diagnostik), idet de omslutter ca.

95% af fremtidige observationer, ogsa for store n.

• man benytter spredningen s√

1 + 1n

+ (xi−x)2

Sxx

• Disse grænser bliver ikke nævneværdigt snævrere,

nar antallet af observationer øges.

Page 46: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 43

Prediktionsgrænser

Afkryds Prediction limits i stedet for

Confidence limits

eller ved at skrive symbol=rlcli95 i symbol-sætningen

Page 47: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 44

Modellens konklusioner er kun rimelige,

hvis modellen selv er rimelig.

Modelkontrol: Passer modellen rimeligt til data?

Diagnostics: Passer data til modellen?

Eller er der indflydelsesrige observationer eller outliers?

Check af disse to forhold burde foretages fra begyndelsen,

men da de kræver fit af modellen, kan de først foretages

efterfølgende

Page 48: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 45

Modelkontrol: Den statistiske model var

Yi = α + βXi + εi, εi ∼ N(0, σ2) uafhængige

Hvilke antagelser skal vi checke her?

• linearitet

• varianshomogenitet (εi’erne har samme varians)

• normalfordelte afvigelser (εi’erne)

Obs: Intet krav om normalfordeling pa xi’erne!!

– eller yi’erne!!

Page 49: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 46

Til grafisk modelkontrol skal vi bruge

residualerne = modelafvigelserne

= observeret - fittet værdi:

εi = yi − yi

eller en modifikation af disse

(se senere)

Page 50: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 47

Residualplots: Residualer (af passende type) plottes mod

• den forklarende variabel xi

– for at checke linearitet (se efter krumninger)

• de fittede værdier yi

– for at checke varianshomogenitet (se efter trompeter)

• fraktildiagram eller histogram

– for at checke normalfordelingsantagelsen

De to førstnævnte figurer skal give indtryk af uorden

dvs. der ma ikke være nogen systematik

Fraktildiagrammet skal ligne en ret linie

Page 51: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 48

Linearitet, eller..

• Tendens til buer?

Hvis lineariteten ikke holder i rimelig grad,

bliver modellen ufortolkelig.

Page 52: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 49

Numerisk check af linearitet: Tilføj kvadratleddet blodsuk2

vcf=α+β1blodsuk+β2blodsuk2

Test af linearitet: β2=0

Parameter Standard

Variable DF Estimate Error t Value Pr > |t|

Intercept 1 1.27901 0.06149 20.80 <.0001

sukker10 1 0.01520 0.01277 1.19 0.2480

blodsuk_i_anden 1 0.00218 0.00234 0.93 0.3640

• Test af β = 0 giver t = 0.93 og P = 0.36.

• Lineariteten ser rimelig ud

Page 53: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 50

Afhjælpning af non-linearitet:

• tilføj flere kovariater, f.eks.

– alder, køn, medicin etc.

• transformer variablene med

– logaritmer

– kvadratrod, invers

• Lad være med at gøre noget: ikke-lineær regression

Page 54: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 51

Problemer med

varianshomogeniteten?

• Kaos?

eller trompetfacon?

• symmetri om 0-linien?

Hvis varianshomogeniteten ikke holder i rimelig grad,

mister vi styrke,

og prediktionsgrænser bliver upalidelige!

Page 55: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 52

Trompetfacon kan fortolkes som

• konstant relativ spredning

= konstant variationskoefficient

Variationskoefficient =spredning

middelværdi

– ofte konstant, nar man maler pa sma positive

størrelser, f.eks. koncentrationer

– transformer outcome med logaritme

Page 56: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 53

Problemer med normalfordelingsantagelsen?

• Er histogrammet passende symmetrisk?

• Ser fraktildiagrammet lineært ud?

Page 57: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 54

Hvis normalfordelingen ikke holder i rimelig grad,

mister vi (lidt) styrke

og prediktionsgrænser bliver upalidelige!

Afhjælpning af problemer med normalfordelingsantagelsen:

• transformation med logaritmer

– i tilfælde af fordelinger med haler mod højre

• non-parametriske metoder

– men sa far vi ingen kvantificeringer

Page 58: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 55

Antagelsen om normalfordeling (og varianshomogenitet) er

ikke sa kritisk for selve fittet, fordi:

t-fordelingen bygger pa normalfordelingen, men kun pa en

normalfordelingsantagelse for estimatet β, og dette passer

ofte, nar der er rimeligt mange observationer, pa grund af

Den centrale grænseværdisætning,

der siger at summer og andre funktioner af mange

observationer bliver ’mere og mere’ normalfordelt.

Men prediktionsgrænserne bliver misvisende og

ufortolkelige!!

Page 59: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 56

Transformation med logaritmer

– men hvilken logaritme?

Alle logaritmer er proportionale, sa resultaterne bliver ens

(efter tilbagetransformation), men der er visse fif:

• Den forklarende variabel transformeres

– for at opna linearitet, dvs. nar det er successive

fordoblinger, der har konstant effekt.

Brug gerne 2-tals logaritmer!

Page 60: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 57

• Outcome transformeres enten

– for at opna linearitet

– for at opna varianshomogenitet

Var(log(y)) ≈Var(y)

y2= CV2

dvs. en konstant variationskoefficient (CV) pa Y

betyder konstant varians pa log(Y ),

den naturlige logaritme

(den som tidligere har heddet ln,

men som altsa hedder log i computersprog)

Page 61: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 58

Regression diagnostics:

Understøttes konklusionerne af hele materialet?

Eller er der observationer med meget stor indflydelse pa

resultaterne?

• Udelad den ite person

og bestem nye estimater for samtlige parametre.

• Udregn Cook’s afstand,

et mal for ændringen i parameterestimater.

• Spalt Cook’s afstand ud i koordinater, som maler f.eks:

Hvor mange s.e. ændrer β1 sig, hvis den ite person

udelades?

Page 62: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 59

En enkelt observation skiller sig ud i forhold til de øvrige

Page 63: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 60

Spalt Cooks afstand ud i koordinater og angiv:

Hvor mange se’er ændres f.eks. β,

nar den i’te person udelades?

Dependent Variable: vcf

Output Statistics

-------DFBETAS-------

Obs Intercept blodsuk

1 -0.2421 0.4134

2 0.0014 0.0005

3 -0.0049 0.0030

4 0.1082 -0.1461

5 0.0150 -0.0104

6 0.4436 -0.3547

7 0.0048 -0.0019

8 -0.0588 -0.0430

9 -0.0829 0.0552

10 0.0008 -0.0617

11 0.0060 -0.0043

12 -0.0345 0.0277

13 -0.8744 1.1973 <---------------------

14 0.0982 -0.1718

15 0.3409 -0.2478

16 . .

17 -0.1295 0.1086

18 0.0181 -0.0008

19 0.0128 -0.0907

20 0.3978 -0.6287

21 0.0169 -0.0476

22 -0.2938 0.2395

23 -0.1237 0.0625

24 0.2419 -0.0856

Page 64: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 61

Estimeret linie: y = 1.098 + 0.022x

β = 0.02196(0.01045), t =0.02196

0.01045= 2.1, P = 0.048

Regressionsanalyse uden observation nr. 13

Estimeret linie: y = 1.189 + 0.011x

β = 0.01082(0.01029), t =0.01082

0.01029= 1.05, P = 0.31

Page 65: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 62

Outliers

Observationer, der ikke passer ind i sammenhængen

• de er ikke nødvendigvis indflydelsesrige

• de har ikke nødvendigvis et stort residual

Press-residualer

Residualer, der fremkommer efter at den pagældende

observation har været udelukket fra estimationen.

(residualer without current observation)

Page 66: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 63

Hvad gør vi ved indflydelsesrige observationer og

outliers?

• ser nærmere pa dem, de er tit ganske interessante

• anfører et mal for deres indflydelse

Hvornar kan vi udelade dem?

• hvis de ligger meget yderligt

– husk at afgrænse konklusionerne tilsvarende!

• hvis man kan finde arsagen

– og da skal alle sadanne udelades!

Page 67: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 64

Modelkontrol og Diagnostics i ANALYST

Visse af plottene kan konstrueres direkte ved i

regressionsopsætningen at klikke

Plots/Residual

hvor der vælges f.eks. Residual mod Predicted

Page 68: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 65

Der findes 4 forskellige typer af residualer

normeret? med alle obs. uden current obs.

nej Residual Press

ja Student Rstudent

Page 69: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 66

Fuld kontrol over tegninger til modelkontrol fas ved i

regressionsopsætningen at benytte

• Save Data, afkryds

Create and save diagnostics data

• overflyt (klik Add) de størrelser, der skal gemmes

(typisk Predicted, Residual, Student,

Rstudent,Cookd,Press).

• Dobbeltklik pa Diagnostics Table i projekttræet

• Gem det ved at klikke File/Save as By SAS Name og

abn det i ANALYST, nar der skal laves tegninger mv.

Page 70: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 67

Falsk korrelation (spurious correlation)

Korrelationen er:

• positiv for mænd

• positivt for kvinder

• negativt for mennesker

Eks: Kolesterol vs. chokoladeindtag

Page 71: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 68

Korrelationen er:

• tilsyneladende positiv

• 0 for hver aldersgruppe

X og Y vokser begge med alderen

Page 72: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 69

Et delvist program kunne se ud som:

data a1;

infile ’vcf.tal’;

input glucose vcf;

sukker10=glucose-10;

glucose_i_anden=(glucose-10)**2;

run;

proc print data=a1;

var glucose vcf;

run;

proc corr pearson spearman data=a1;

var vcf glucose;

run;

Page 73: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 70

proc reg data=a1;

model vcf=sukker10 glucose_i_anden / clb;

run;

proc reg data=a1;

model vcf=glucose / corrb clb r p influence;

output out=ny p=yhat r=resid student=stresid cookd=cook

h=h rstudent=uresid press=press;

run;

proc print data=ny;

var glucose vcf yhat resid stresid h cook uresid press;

run;

proc univariate normal data=ny;

var resid;

histogram / cfill=gray height=3 normal;

probplot / height=3 normal(mu=EST sigma=EST l=33);

inset mean std skewness / header=’descriptive’;

run;

Page 74: Basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27. . .. . .. . . 21 4.9 1.03 22 8.8 1.12. Korrelation og regression, september 2008

Korrelation og regression, september 2008 71

proc gplot gout=plotud data=a1;

plot vcf*glucose

/ haxis=axis1 vaxis=axis2 frame;

axis1 order=(0 to 20 by 5)

value=(h=3)

offset=(3,3)

minor=NONE

label=(H=3 ’blood glucose (mmol/l)’);

axis2 order=(0.6 to 2.0 by 0.2)

value=(h=3)

offset=(3,3)

minor=NONE

label=(A=90 R=0 H=3 ’Vcf (%/sec)’);

symbol1 v=circle i=rlcli95 c=BLACK h=3 l=1 w=2;

run;