62
Basal statistik 16. september 2008

Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

Basal statistik

16. september 2008

Page 2: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer

• sammenligning af to situationer:

– parret t-test

– Wilcoxon signed rank test

– logaritmetransformation

• sammenligning af to grupper

– uparret t-test

– Mann-Whitney test

Page 3: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

Per Kragh Andersen,

Biostatistisk Afdeling

Institut for Folkesundhedsvidenskab,

Københavns Universitet

Slides af Lene T. Skovgaard findes pa

http://staff.pubhealth.ku.dk/~ebj/basal08_2

Page 4: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 1

Eksempel:

To metoder, som forventes at

skulle give samme resultat:

• MF: Transmitral volumetric

flow, bestemt ved Doppler

ekkokardiografi

• SV: Left ventricular stroke

volume, bestemt ved cross-

sectional ekkokardiografi

person MF SV

1 47 43

2 66 70

3 68 72

4 69 81

5 70 60

. . .

. . .

. . .

. . .

17 104 94

18 105 98

19 112 108

20 120 131

21 132 131

gennemsnit 86.05 85.81

SD 20.32 21.19

SEM 4.43 4.62

Er der forskel pa de to malemetoder?

Page 5: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 2

Personen er sin egen kontrol

Det giver stor styrke til at opdage evt. forskelle.

Parret situation: Se pa differenserne

– men pa hvilken skala?

• Er differensernes størrelse nogenlunde uafhængig af niveauet?

• Eller er der snarere tale om relative (procentuelle) forskelle:

I sa fald skal der tages differenser pa en logaritmisk skala.

Undersøg om differenserne har middelværdi 0

Page 6: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 3

Page 7: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 4

Statistisk model for differenser mellem parrede observationer:

Xi: flowmalingen MF for den i’te person

Yi: flowmalingen SV for den i’te person

Differenser di = Xi − Yi (i = 1, · · · , 21)

uafhængige, normalfordelte

E(di) = δ, V ar(di) = σ2d

OBS: Intet krav om fordeling af selve flowmalingerne!

Page 8: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 5

Estimation:

Gennemsnit: δ = d = 0.24 cm3

Spredning: sd = 6.96 cm3

Spredning pa δ: SEM = sd√

n= 6.96 cm3

21= 1.52

95% sikkerhedsinterval for δ:

d ± ’ca. 2’ × SEM

eller mere præcist

d ± t97.5%(20) × SEM

= 0.24 ± 2.086 × 6.96√21

= (−2.93, 3.41)

idet 2.086 er t97.5%(20), den relevante t-fraktil.

Page 9: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 6

Test af nulhypotesen H0 : δ = 0 (ingen bias)

t =δ − 0

SEM=

0.24 − 06.96√

21

= 0.158 ∼ t(20)

P = 0.88, altsa ingen indikation af bias

(hvilket ogsa fremgar af sikkerhedsintervallet, der indeholder 0)

Test og sikkerhedsintervaller er ækvivalente!

Page 10: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 7

Indlæsning fra data-filen ’mf_sv.tal’

en tekstfil med 2 kolonner a 21 linier, en for hver person,

med variabelnavne i første linie.

Definer nye variable:

dif=mf-sv

average=(mf+sv)/2

Herefter bruges Statistics/Descriptive/Summary Statistics:

The MEANS Procedure

Variable N Mean Std Dev Std Error t Value Pr > |t|

---------------------------------------------------------------

mf 21 86.0476190 20.3211126 4.4344303 19.40 <.0001

sv 21 85.8095238 21.1863613 4.6232431 18.56 <.0001

dif 21 0.2380952 6.9635103 1.5195625 0.16 0.8771

average 21 85.9285714 20.4641673 4.4656474 19.24 <.0001

---------------------------------------------------------------

Page 11: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 8

Parret t-test i SAS ANALYST:

• Statistics/Hypothesis Tests/Two-Sample Paired t-test

for Means,

klik af i Interval under Tests for at fa et 95% konfidensomrade

for forskellen:

Two Sample Paired t-test for the Means of mf and sv

Sample Statistics

Group N Mean Std. Dev. Std. Error

----------------------------------------------------

mf 21 86.04762 20.321 4.4344

sv 21 85.80952 21.186 4.6232

Hypothesis Test

Null hypothesis: Mean of (mf - sv) = 0

Alternative: Mean of (mf - sv) ^= 0

t Statistic Df Prob > t

---------------------------------

0.157 20 0.8771

Page 12: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 9

95% Confidence Interval for the Difference

between Two Paired Means

Lower Limit Upper Limit

----------- -----------

-2.93 3.41

• Statistics/Hypothesis Tests/One-Sample t-test for a

Mean

næsten uændret output, dog:

One Sample t-test for a Mean

Sample Statistics for dif

N Mean Std. Dev. Std. Error

-------------------------------------------------

21 0.24 6.96 1.52

Page 13: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 10

Direkte programmering:

data a1;

infile ’mf_sv.tal’;

input mf sv;

/* definition af nye variable */

dif=mf-sv;

average=(mf+sv)/2;

run;

/* summary statistics */

proc means mean std stderr data=mf_sv;

run;

Page 14: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 11

/* fordelingsbeskrivelse, herunder test af normalfordeling */

proc univariate normal data=mf_sv;

var dif;

run;

/* parret t-test */

proc ttest data=mf_sv;

paired mf*sv;

run;

Page 15: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 12

Antagelser for det parrede t-test:

Differenserne di:

• er uafhængige:

personerne har ikke noget med hinanden at gøre

• har samme varians:

vurderes ved det sakaldte Bland-Altman plot af differenser mod

gennemsnit

• er normalfordelte:

vurderes grafisk eller numerisk

– histogram har vi set, hmm....

– formelt test??

Page 16: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 13

Formelt test af normalfordeling for differenser

(proc univariate normal fra side ??)

Statistics/Descriptive/Distributions

Fit: normal parameters

Goodness-of-Fit Tests for Normal Distribution

Test ---Statistic---- -----p Value-----

Kolmogorov-Smirnov D 0.15302875 Pr > D >0.150

Cramer-von Mises W-Sq 0.07566425 Pr > W-Sq 0.230

Anderson-Darling A-Sq 0.48963127 Pr > A-Sq 0.206

Page 17: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 14

Hvis normalfordelingen ikke er en god beskrivelse, sker der følgende:

• Test og konfidensinterval bliver stadigvæk nogenlunde OK

– i flg. den centrale grænseværdisætning

• Normalomrader bliver misvisende!

Normalomradet kaldes i dette specialtilfælde (sammenligning af

malemetoder) for limits-of-agreement:

d ± ’ca. 2’ × sd

Disse grænser er vigtige for at afgøre om to malemetoder kan erstatte

hinanden.

Page 18: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 15

Nonparametriske test:

Test, der ikke bygger pa en normalfordelingsantagelse

– Ikke forudsætningsfri

Ulemper

• tab af efficiens (sædvanligvis lille)

• uklar problemformulering

- manglende model, og dermed ingen fortolkelige parametre

• ingen estimater !– og ingen sikkerhedsintervaller

• kan kun anvendes i simple problemstillinger

– med mindre man har godt med computerkraft

Page 19: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 16

Nonparametrisk one-sample test

af middelværdi 0 (parret two-sample test)

• sign test, fortegnstest

– udnytter kun observationernes fortegn, ikke deres størrelse

– ikke særligt stærkt

– invariant ved transformation

• Wilcoxon signed rank test

– udnytter observationernes fortegn,

kombineret med rangordenen af de numeriske værdier

– stærkere end sign-testet

– kræver at man kan tale om ’store’ og ’sma’ forskelle

– kan pavirkes af transformation

Page 20: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 17

Sign testet (fortegnstest)

Xi: flowmalingen MF for den i’te person

Yi: flowmalingen SV for den i’te person

Vi ønsker at teste hypotesen

P (X > Y ) = P (X < Y ) =1

2

Vi tæller

• Hvor mange af de 21 differenser er positive? n+ (=12)

• Hvor mange af de 21 differenser er negative? n− (=7)

• Hvor mange af de 21 differenser er præcis 0? n0 (=2)

Blandt dem, der ikke er 0 (n = n+ + n− = 19), er der da signifikant

flest af den ene slags?

Page 21: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 18

Er 12 vs. 7 signifikant skævt?

Binomialtest:

X ∼ Bin(n, p) H0 : p = 0.5

Her er n = 19, x = 12 og dermed

P=0.36

Geigy tabeller giver

95% konfidensgrænser:

(0.38,0.84)

Page 22: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 19

Wilcoxon signed rank test: størrelsen af differenserne rangordnes

person MF SV differens positiv diff. negativ diff.

1 47 43 4 7.5

2 66 70 -4 7.5

3 68 72 -4 7.5

4 69 81 -12 18.0

5 70 60 10 15.5

6 70 67 3 4.0

7 73 72 1 1.5

8 75 72 3 4.0

9 79 92 -13 19.0

. . . .

. . . .

16 100 100 0 - -

17 104 94 10 15.5

18 105 98 7 12.0

19 112 108 4 7.5

20 120 131 -11 17.0

21 132 131 1 1.5

Sum 103 87

Page 23: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 20

R: summen af positive

(eller negative) range,

n=19, R=103

Rangene 46-144 giver ingen

signifikans pa 5% niveau

(Tabel B9)

Page 24: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 21

Nonparametriske parrede tests i SAS, approksimation for n > 25

OBS: Disse kan kun foretages direkte pa de udregnede differenser!

ANALYST:

Statistics/Descriptive

/Distributions

Direkte programmering:

proc univariate normal data=mf_sv;

var dif;

run;

Tests for Location: Mu0=0

Test -Statistic- -----p Value------

Student’s t t 0.156687 Pr > |t| 0.8771

Sign M 2.5 Pr >= |M| 0.3593

Signed Rank S 8 Pr >= |S| 0.7603

Forskellige programmer benytter forskellige teststørrelser!

Page 25: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 22

Eksempel:

To forskellige metoder til bestemmelse af glucosekoncentration.

Ref: R.G. Miller et.al. (eds): Biostatistics Casebook. Wiley, 1980.

REFE:

Farvetest, der kan ’forurenes’ af

urinsyre

TEST:

Enzymatisk test, mere specifikt

for glucose.

nr. REFE TEST

1 155 150

2 160 155

3 180 169

. . .

. . .

. . .

44 94 88

45 111 102

46 210 188

X 144.1 134.2

SD 91.0 83.2

Page 26: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 23

Scatter plot:

Page 27: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 24

Vi skal se pa differenser: di = refei − testi ∼ N(δ, σ2d)

Er der systematisk forskel? Test ’δ=0’

δ=9.89, sd=9.70,

t= δsem = δ

sd/√

n=6.91 ∼ t(45) P< 0.0001

Stærk indikation af bias.

The MEANS Procedure

Variable N Mean Std Dev t Value Pr > |t|

---------------------------------------------------------------

dif 46 9.8913043 9.7027562 6.91 <.0001

---------------------------------------------------------------

Page 28: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 25

Limits of agreement siger, at de typiske differenser ligger i

intervallet

9.89 ± 2 × 9.70 = (−9.51, 29.29)

Pa tegningen ses, at dette er en darlig beskrivelse, idet

• differenserne stiger med niveauet

(gennemsnittet)

• variationen stiger ogsa med niveauet

Page 29: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 26

Limits of agreement

Relative afvigelser giver ide til

tage logaritmer

Page 30: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 27

Scatter plot, efter

logaritmetransformation:

Page 31: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 28

Bemærk:

• Det er de oprindelige malinger, der skal

logaritmetransformeres, ikke differenserne!

• Det er ligegyldigt, hvilken logaritmefunktion, der vælges

(der er proportionalitet mellem alle logaritmer)

• For den naturlige logaritme gælder

Var(log(Y)) ≈Var(Y)

Y 2 ≈ CV2

• Efter logaritmering gentages proceduren med differenser og

konstruktion af

limits of agreement

Page 32: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 29

Der findes uafhængig information om reproducerbarheden, ud fra

gentagne malinger pa samme prøve:

Spredning mod gennemsnit giver

nogenlunde proportionalitet:

Page 33: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 30

Limits of agreement, for logaritmer

Der er en tydelig outlier

(den mindste observation)

Page 34: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 31

Efter logaritmetransformation

(og udeladelse af den laveste

maling),

far vi en acceptabel figur

Page 35: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 32

Limits of agreement

0.066 ± 2 × 0.042 = (−0.018, 0.150)

Det betyder, at der i 95% af tilfældene vil gælde

−0.018 < log(REFE) − log(TEST) = log(REFETEST ) < 0.150

hvilket ved tilbagetransformation giver, at

0.982 < REFETEST < 1.162

eller ’omvendt’

0.861 < TESTREFE < 1.018

Fortolkning:

TEST ligger typisk mellem

14% under og 2% over REFE.

Page 36: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 33

Limits of agreement,

omsat til oprindelig skala:

Page 37: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 34

Vi benytter Statistics/Descriptive/Summary Statistics

(proc means;) for at fa en oversigt over de logaritmiske differenser

The MEANS Procedure

Variable N Mean Std Dev t Value Pr > |t|

-------------------------------------------------------------

ldif 45 0.0657295 0.0419547 10.51 <.0001

-------------------------------------------------------------

Der er helt klart en signifikant bias mellem de to malemetoder:

t =0.0660.042√

45

=0.066

0.0063= 10.51

som vurderet i en t-fordeling med 44 frihedsgrader giver P < 0.0001

Som det ses af tegningen, er denne bias ikke helt konstant, idet den

afhænger (svagt) af niveauet.

Page 38: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 35

Vi kunne ogsa have arbejdet direkte pa en ratio-skala:

ratio =refe

testThe MEANS Procedure

Variable Mean Std Dev Std Error

--------------------------------------------------------

ratio 1.0688607 0.0451184 0.0067259

--------------------------------------------------------

som giver limits of agreement:

1.069 ± 2 × 0.045 = (0.979, 1.159)

altsa refe fra 2% under til 16% over test

(pa 2 decimaler identisk med resultatet for logaritmerne)

Dette er ikke altid tilfældet!!

Page 39: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 36

Limits of agreement pa ratio-skala

Page 40: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 37

Ny problemstilling:

Er der forskel pa energiindtaget for magre og fede kvinder?

Page 41: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 38

Her kan vi ikke benytte personen som sin egen kontrol. I stedet har vi

To uafhængige stikprøver, uparret sammenligning

Statistics/Descriptive/Summary Statistics med figur som

Class-variabel, eller

proc means N mean std stderr data=lean_obese;

class figur;

var energi;

run;

Analysis Variable : energi

N

figur Obs N Mean Std Dev Std Error

------------------------------------------------------------------

lean 13 13 8.0661538 1.2380801 0.3433816

obese 9 9 10.2977778 1.3978714 0.4659571

------------------------------------------------------------------

Page 42: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 39

Traditionelle antagelser:

X1.1, · · · , X1.13 ∼ N(µ1, σ2)

X2.1, · · · , X2.9 ∼ N(µ2, σ2)

• alle observationerne er uafhængige

– personerne har ikke noget med hinanden at gøre

• der er samme populationsvarians i de to grupper

– bør checkes

• observationerne følger en normalfordeling i hver gruppe, med

hver deres middelværdi

– normalfordelingen checkes ligesom tidligere,

hvis det kan lade sig gøre

Page 43: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 40

To-stikprøve t-test

H0 : µ1 = µ2

t =x1 − x2

se(x1 − x2)=

x1 − x2

s√

1n1

+ 1n2

= −2.232

0.5656= −3.95

hvilket i en t-fordeling med 20 frihedsgrader giver P = 0.0008

Page 44: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 41

Begrundelse for teststørrelse:

X1 normalfordelt N(µ1,1

n1σ2)

X2 normalfordelt N(µ2,1

n2σ2)

X1 − X2 ∼ N(µ1 − µ2, (1

n1+ 1

n2)σ2)

σ2 estimeres ved s2, et poolet variansskøn,

og antallet af frihedsgrader er

df=(n1-1)+(n2-1)=(13-1)+(9-1)=20

Page 45: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 42

Hvad betyder teststørrelsens fordeling?

Vi forestiller os mange ens undersøgelser af de samme to

populationer:

1. 13 magre, 9 fede =⇒ t1

2. 13 magre, 9 fede =⇒ t2

3. 13 magre, 9 fede =⇒ t3

.

.

Fordeling af t’erne?

Hvorfor ikke bare x1 − x2?

Fordi fordelingen sa afhænger af σ2

og derfor ikke kan slas op i en tabel

Page 46: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 43

Indlæsning af 22 datalinier, en for hver kvinde,

men to variable for hver kvinde:

status energi

1 6.13

1 7.05

. .

. .

. .

2 11.85

2 12.79

Nar data er gemt i sasuser, defineres en ny variabel (i dette

tilfælde en karaktervariabel) ved hjælp af /Data/Transform/Recode

status=1 ⇒ figur=’lean’

status=2 ⇒ figur=’obese’

Page 47: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 44

Et uparret t-test i SAS ANALYST:

Statistics/Hypothesis Tests/Two-Sample t-test for Means

kryds af i Confidence Interval under Tests

>

<

Hypothesis Test

Null hypothesis: Mean 1 - Mean 2 = 0

Alternative: Mean 1 - Mean 2 ^= 0

If Variances Are t statistic Df Pr > t

----------------------------------------------------

Equal -3.946 20 0.0008

Not Equal -3.856 15.92 0.0014

95% Confidence Interval for the Difference between Two Means

Lower Limit Upper Limit

----------- -----------

-3.41 -1.05

Bemærk, at der er 2 forskellige udgaver af t-testet, afhængig af, om

varianserne kan antages at være ens eller ej.

Page 48: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 45

Direkte programmering:

data lean_obese;

infile ’lean_obese.tal’;

input nr status energi rang;

if status=2 then figur=’obese’;

if status=1 then figur=’lean’;

run;

proc means N mean std stderr;

class figur;

var energi;

run;

proc ttest data=lean_obese;

class figur;

var energi;

run;

proc npar1way wilcoxon data=lean_obese;

class figur;

var energi;

run;

Page 49: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 46

Rimeligheden af ens varianser undersøges ved

F =s22

s21

=1.3982

1.2382= 1.27

Hvis de to varianser faktisk er ens, skal denne størrelse være F-fordelt

med (8,12) frihedsgrader. Vi finder P=0.68 og kan altsa med god

samvittighed anvende et poolet variansskøn.

Hvad skulle vi ellers have gjort?

t =x1 − x2

se(x1 − x2)=

x1 − x2√

s21

n1+

s22

n2

∼ t(??)

Dette ville give os:

t = −3.86 ∼ t(15.9), P = 0.0014

Page 50: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 47

Test for varianshomogenitet i SAS:

Statistics/Hypothesis Tests/Two-Sample test for Variances

kryds af i Confidence Interval under Tests

Two Sample Test for Variances of energi within figur

Sample Statistics

figur

Group N Mean Std. Dev. Variance

--------------------------------------------------

lean 13 8.066154 1.2381 1.532842

obese 9 10.29778 1.3979 1.954044

Hypothesis Test

Null hypothesis: Variance 1 / Variance 2 = 1

Alternative: Variance 1 / Variance 2 ^= 1

- Degrees of Freedom -

F Numer. Denom. Pr > F

----------------------------------------------

0.78 12 8 0.6797

Den tidligere viste teststørrelse er den reciprokke, 1/0.78=1.27,

samme P-værdi.

Page 51: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 48

Forskel, ja ...men hvor stor?

Estimeret forskel = gennemsnitlig forskel

= 10.30 − 8.07

= 2.23

Den sande forskel er nok ikke lige 2.23, men et sted i nærheden.

95% sikkerhedsinterval

= interval, der med 95% sandsynlighed

omslutter den sande forskel

= (1.05, 3.41)

Page 52: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 49

Signifikansniveauet α (sædvanligvis 0.05) angiver den risiko, vi er

villige til at løbe for at

forkaste en sand nulhypotese,

ogsa betegnet som fejl af type I.

accept forkast

H0 sand 1-α α

fejl af type I

H0 falsk β 1-β

fejl af type II

1-β kaldes styrken,

denne angiver sandsynligheden for at forkaste en falsk hypotese.

Page 53: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 50

Men hvad betyder ’H0 falsk’? Hvor store forskelle er der?

Styrken er en funktion af forskellen!

Styrkefunktion:

’Hvis forskellen er xx, hvad er sa

styrken, dvs. sandsynligheden for

at opdage den – pa 5% niveau’??

−0.02 −0.01 0.00 0.01 0.02

0.0

0.2

0.4

0.6

0.8

1.0

size of difference

powe

r

Bemærk:

• styrken udregnes for at dimensionere en undersøgelse

• nar resultaterne er i hus, præsenteres konfidensintervaller

Page 54: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 51

Statistisk signifikans afhænger af:

• sand forskel

• antal observationer

• den tilfældige variation, dvs.

den biologiske variation

• signifikansniveau

Klinisk signifikans afhænger af:

• størrelsen af den paviste forskel

Page 55: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 52

To aktive behandlinger: A og B, vs. Placebo: P

Resultater fra to trials:

1. trial: A signifikant bedre end P (n=100)

2. trial: B ikke signifikant bedre end P (n=50)

Konklusion:

A er bedre end B ???

Nej, ikke nødvendigvis.

Page 56: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 53

Ingen signifikans?

Hvad kan det skyldes?

• At der ikke er en forskel

• At forskellen er sa lille, at den er vanskelig at opdage

• At variationen er sa stor, at en evt. forskel drukner

• At materialet er for lille til at kunne pavise nogensomhelst forskel

af interesse.

Inden undersøgelsens gennemførelse bør man

• Fastsætte MIREDIF (mindste relevante differens)

• foretage styrkeberegninger (power)

• beregne det nødvendige patientantal

Page 57: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 54

Variation

Hvordan kan vi nedbringe variationen, sa vi bliver i stand til at se

evt. differenser klarere?

• Benytte personen som sin egen kontrol.

• Begrænse effekten af uønskede kovariater:

– foretage alle malinger pa samme tidspunkt af dagen, evt. ogsa

pa samme ugedag.

– begrænse aldersvariationen

(eller lave regression pa alderen)

– benytte skrappere inklusionskriterier for f.eks. vægt for at

undga outliers.

– randomisere

• tage flere malinger lige efter hinanden pa samme person og

benytte gennemsnittet i beregningerne

Page 58: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 55

Nonparametrisk test (uden normalfordelingsantagelsen):

Mann-Whitney test (Kruskal-Wallis test)

Det totale materiale rangordnes,

rangværdi rangværdi

person figur energi lean obese

1 lean 6.13 1

2 lean 7.05 2

3 lean 7.48 3.5

4 lean 7.48 3.5

.

13 lean 10.88 19

14 obese 8.79 12

.

22 obese 12.79 22

Sum 103 150

Forventet sum 149.5 103.5

Page 59: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 56

herefter Tabel B10, s. 534:

ns=9, nl=13 (mindste gruppe skal først ved opslag).

Rangsum: R=150

Page 60: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 57

Nonparametrisk uparret test i SAS, approksimation for n > 25

Statistics/ANOVA/Nonparametric One-Way ANOVA/

med energi som Dependent og figur som Independent

The NPAR1WAY Procedure

Wilcoxon Scores (Rank Sums) for Variable energi

Classified by Variable figur

Sum of Expected Std Dev Mean

figur N Scores Under H0 Under H0 Score

---------------------------------------------------------------------

lean 13 103.0 149.50 14.970751 7.923077

obese 9 150.0 103.50 14.970751 16.666667

Average scores were used for ties.

Page 61: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 58

Wilcoxon Two-Sample Test

Statistic (S) 150.0000

Normal Approximation

Z 3.0727

One-Sided Pr > Z 0.0011

Two-Sided Pr > |Z| 0.0021

t Approximation

One-Sided Pr > Z 0.0029

Two-Sided Pr > |Z| 0.0058

Exact Test

One-Sided Pr >= S 5.287E-04

Two-Sided Pr >= |S - Mean| 0.0010

Z includes a continuity correction of 0.5.

Kruskal-Wallis Test

Chi-Square 9.6476

DF 1

Pr > Chi-Square 0.0019

Page 62: Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

En- og to-stikprøve problemer, september 2008 59

Som regel gør det ingen synderlig forskel i P-værdi

om man benytter parametriske eller non-parametriske metoder.

Men det er vigtigt at respektere sit design!

Eks: Malemetoderne MF og SV:

Parret T-test:

t = 0.16, f = 20

P = 0.88

Sikkerhedsinterval:

(-2.93 cm3, 3.41 cm3)

Uparret T-test:

t = 0.04, f = 40

P = 0.97

Sikkerhedsinterval:

(-12.71 cm3, 13.19 cm3)