Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning

Basal statistik

16. september 2008

En- og to-stikprøve problemer

• sammenligning af to situationer:

– parret t-test

– Wilcoxon signed rank test

– logaritmetransformation

• sammenligning af to grupper

– uparret t-test

– Mann-Whitney test

Per Kragh Andersen,

Biostatistisk Afdeling

Institut for Folkesundhedsvidenskab,

Københavns Universitet

Slides af Lene T. Skovgaard findes pa

http://staff.pubhealth.ku.dk/~ebj/basal08_2

En- og to-stikprøve problemer, september 2008 1

Eksempel:

To metoder, som forventes at

skulle give samme resultat:

• MF: Transmitral volumetric

flow, bestemt ved Doppler

ekkokardiografi

• SV: Left ventricular stroke

volume, bestemt ved cross-

sectional ekkokardiografi

person MF SV

1 47 43

2 66 70

3 68 72

4 69 81

5 70 60

. . .

. . .

. . .

. . .

17 104 94

18 105 98

19 112 108

20 120 131

21 132 131

gennemsnit 86.05 85.81

SD 20.32 21.19

SEM 4.43 4.62

Er der forskel pa de to malemetoder?


Personen er sin egen kontrol

Det giver stor styrke til at opdage evt. forskelle.

Parret situation: Se pa differenserne

– men pa hvilken skala?

• Er differensernes størrelse nogenlunde uafhængig af niveauet?

• Eller er der snarere tale om relative (procentuelle) forskelle:

I sa fald skal der tages differenser pa en logaritmisk skala.

Undersøg om differenserne har middelværdi 0



Statistisk model for differenser mellem parrede observationer:

Xi: flowmalingen MF for den i’te person

Yi: flowmalingen SV for den i’te person

Differenser di = Xi − Yi (i = 1, · · · , 21)

uafhængige, normalfordelte

E(di) = δ, V ar(di) = σ2d

OBS: Intet krav om fordeling af selve flowmalingerne!


Estimation:

Gennemsnit: δ = d = 0.24 cm3

Spredning: sd = 6.96 cm3

Spredning pa δ: SEM = sd√

n= 6.96 cm3

√

21= 1.52

95% sikkerhedsinterval for δ:

d ± ’ca. 2’ × SEM

eller mere præcist

d ± t97.5%(20) × SEM

= 0.24 ± 2.086 × 6.96√21

= (−2.93, 3.41)

idet 2.086 er t97.5%(20), den relevante t-fraktil.


Test af nulhypotesen H0 : δ = 0 (ingen bias)

t =δ − 0

SEM=

0.24 − 06.96√

21

= 0.158 ∼ t(20)

P = 0.88, altsa ingen indikation af bias

(hvilket ogsa fremgar af sikkerhedsintervallet, der indeholder 0)

Test og sikkerhedsintervaller er ækvivalente!


Indlæsning fra data-filen ’mf_sv.tal’

en tekstfil med 2 kolonner a 21 linier, en for hver person,

med variabelnavne i første linie.

Definer nye variable:

dif=mf-sv

average=(mf+sv)/2

Herefter bruges Statistics/Descriptive/Summary Statistics:

The MEANS Procedure

Variable N Mean Std Dev Std Error t Value Pr > |t|

---------------------------------------------------------------

mf 21 86.0476190 20.3211126 4.4344303 19.40 <.0001

sv 21 85.8095238 21.1863613 4.6232431 18.56 <.0001

dif 21 0.2380952 6.9635103 1.5195625 0.16 0.8771

average 21 85.9285714 20.4641673 4.4656474 19.24 <.0001

---------------------------------------------------------------


Parret t-test i SAS ANALYST:

• Statistics/Hypothesis Tests/Two-Sample Paired t-test

for Means,

klik af i Interval under Tests for at fa et 95% konfidensomrade

for forskellen:

Two Sample Paired t-test for the Means of mf and sv

Sample Statistics

Group N Mean Std. Dev. Std. Error

----------------------------------------------------

mf 21 86.04762 20.321 4.4344

sv 21 85.80952 21.186 4.6232

Hypothesis Test

Null hypothesis: Mean of (mf - sv) = 0

Alternative: Mean of (mf - sv) ^= 0

t Statistic Df Prob > t

---------------------------------

0.157 20 0.8771


95% Confidence Interval for the Difference

between Two Paired Means

Lower Limit Upper Limit

----------- -----------

-2.93 3.41

• Statistics/Hypothesis Tests/One-Sample t-test for a

Mean

næsten uændret output, dog:

One Sample t-test for a Mean

Sample Statistics for dif

N Mean Std. Dev. Std. Error

-------------------------------------------------

21 0.24 6.96 1.52


Direkte programmering:

data a1;

infile ’mf_sv.tal’;

input mf sv;

/* definition af nye variable */

dif=mf-sv;

average=(mf+sv)/2;

run;

/* summary statistics */

proc means mean std stderr data=mf_sv;

run;


/* fordelingsbeskrivelse, herunder test af normalfordeling */

proc univariate normal data=mf_sv;

var dif;

run;

/* parret t-test */

proc ttest data=mf_sv;

paired mf*sv;

run;


Antagelser for det parrede t-test:

Differenserne di:

• er uafhængige:

personerne har ikke noget med hinanden at gøre

• har samme varians:

vurderes ved det sakaldte Bland-Altman plot af differenser mod

gennemsnit

• er normalfordelte:

vurderes grafisk eller numerisk

– histogram har vi set, hmm....

– formelt test??


Formelt test af normalfordeling for differenser

(proc univariate normal fra side ??)

Statistics/Descriptive/Distributions

Fit: normal parameters

Goodness-of-Fit Tests for Normal Distribution

Test ---Statistic---- -----p Value-----

Kolmogorov-Smirnov D 0.15302875 Pr > D >0.150

Cramer-von Mises W-Sq 0.07566425 Pr > W-Sq 0.230

Anderson-Darling A-Sq 0.48963127 Pr > A-Sq 0.206


Hvis normalfordelingen ikke er en god beskrivelse, sker der følgende:

• Test og konfidensinterval bliver stadigvæk nogenlunde OK

– i flg. den centrale grænseværdisætning

• Normalomrader bliver misvisende!

Normalomradet kaldes i dette specialtilfælde (sammenligning af

malemetoder) for limits-of-agreement:

d ± ’ca. 2’ × sd

Disse grænser er vigtige for at afgøre om to malemetoder kan erstatte

hinanden.


Nonparametriske test:

Test, der ikke bygger pa en normalfordelingsantagelse

– Ikke forudsætningsfri

Ulemper

• tab af efficiens (sædvanligvis lille)

• uklar problemformulering

- manglende model, og dermed ingen fortolkelige parametre

• ingen estimater !– og ingen sikkerhedsintervaller

• kan kun anvendes i simple problemstillinger

– med mindre man har godt med computerkraft


Nonparametrisk one-sample test

af middelværdi 0 (parret two-sample test)

• sign test, fortegnstest

– udnytter kun observationernes fortegn, ikke deres størrelse

– ikke særligt stærkt

– invariant ved transformation

• Wilcoxon signed rank test

– udnytter observationernes fortegn,

kombineret med rangordenen af de numeriske værdier

– stærkere end sign-testet

– kræver at man kan tale om ’store’ og ’sma’ forskelle

– kan pavirkes af transformation


Sign testet (fortegnstest)

Xi: flowmalingen MF for den i’te person

Yi: flowmalingen SV for den i’te person

Vi ønsker at teste hypotesen

P (X > Y ) = P (X < Y ) =1

2

Vi tæller

• Hvor mange af de 21 differenser er positive? n+ (=12)

• Hvor mange af de 21 differenser er negative? n− (=7)

• Hvor mange af de 21 differenser er præcis 0? n0 (=2)

Blandt dem, der ikke er 0 (n = n+ + n− = 19), er der da signifikant

flest af den ene slags?


Er 12 vs. 7 signifikant skævt?

Binomialtest:

X ∼ Bin(n, p) H0 : p = 0.5

Her er n = 19, x = 12 og dermed

P=0.36

Geigy tabeller giver

95% konfidensgrænser:

(0.38,0.84)


Wilcoxon signed rank test: størrelsen af differenserne rangordnes

person MF SV differens positiv diff. negativ diff.

1 47 43 4 7.5

2 66 70 -4 7.5

3 68 72 -4 7.5

4 69 81 -12 18.0

5 70 60 10 15.5

6 70 67 3 4.0

7 73 72 1 1.5

8 75 72 3 4.0

9 79 92 -13 19.0

. . . .

. . . .

16 100 100 0 - -

17 104 94 10 15.5

18 105 98 7 12.0

19 112 108 4 7.5

20 120 131 -11 17.0

21 132 131 1 1.5

Sum 103 87


R: summen af positive

(eller negative) range,

n=19, R=103

Rangene 46-144 giver ingen

signifikans pa 5% niveau

(Tabel B9)


Nonparametriske parrede tests i SAS, approksimation for n > 25

OBS: Disse kan kun foretages direkte pa de udregnede differenser!

ANALYST:

Statistics/Descriptive

/Distributions


proc univariate normal data=mf_sv;

var dif;

run;

Tests for Location: Mu0=0

Test -Statistic- -----p Value------

Student’s t t 0.156687 Pr > |t| 0.8771

Sign M 2.5 Pr >= |M| 0.3593

Signed Rank S 8 Pr >= |S| 0.7603

Forskellige programmer benytter forskellige teststørrelser!


Eksempel:

To forskellige metoder til bestemmelse af glucosekoncentration.

Ref: R.G. Miller et.al. (eds): Biostatistics Casebook. Wiley, 1980.

REFE:

Farvetest, der kan ’forurenes’ af

urinsyre

TEST:

Enzymatisk test, mere specifikt

for glucose.

nr. REFE TEST

1 155 150

2 160 155

3 180 169

. . .

. . .

. . .

44 94 88

45 111 102

46 210 188

X 144.1 134.2

SD 91.0 83.2


Scatter plot:


Vi skal se pa differenser: di = refei − testi ∼ N(δ, σ2d)

Er der systematisk forskel? Test ’δ=0’

δ=9.89, sd=9.70,

t= δsem = δ

sd/√

n=6.91 ∼ t(45) P< 0.0001

Stærk indikation af bias.

The MEANS Procedure

Variable N Mean Std Dev t Value Pr > |t|

---------------------------------------------------------------

dif 46 9.8913043 9.7027562 6.91 <.0001

---------------------------------------------------------------


Limits of agreement siger, at de typiske differenser ligger i

intervallet

9.89 ± 2 × 9.70 = (−9.51, 29.29)

Pa tegningen ses, at dette er en darlig beskrivelse, idet

• differenserne stiger med niveauet

(gennemsnittet)

• variationen stiger ogsa med niveauet


Limits of agreement

Relative afvigelser giver ide til

tage logaritmer


Scatter plot, efter

logaritmetransformation:


Bemærk:

• Det er de oprindelige malinger, der skal

logaritmetransformeres, ikke differenserne!

• Det er ligegyldigt, hvilken logaritmefunktion, der vælges

(der er proportionalitet mellem alle logaritmer)

• For den naturlige logaritme gælder

Var(log(Y)) ≈Var(Y)

Y 2 ≈ CV2

• Efter logaritmering gentages proceduren med differenser og

konstruktion af

limits of agreement


Der findes uafhængig information om reproducerbarheden, ud fra

gentagne malinger pa samme prøve:

Spredning mod gennemsnit giver

nogenlunde proportionalitet:


Limits of agreement, for logaritmer

Der er en tydelig outlier

(den mindste observation)


Efter logaritmetransformation

(og udeladelse af den laveste

maling),

far vi en acceptabel figur


Limits of agreement

0.066 ± 2 × 0.042 = (−0.018, 0.150)

Det betyder, at der i 95% af tilfældene vil gælde

−0.018 < log(REFE) − log(TEST) = log(REFETEST ) < 0.150

hvilket ved tilbagetransformation giver, at

0.982 < REFETEST < 1.162

eller ’omvendt’

0.861 < TESTREFE < 1.018

Fortolkning:

TEST ligger typisk mellem

14% under og 2% over REFE.


Limits of agreement,

omsat til oprindelig skala:


Vi benytter Statistics/Descriptive/Summary Statistics

(proc means;) for at fa en oversigt over de logaritmiske differenser

The MEANS Procedure

Variable N Mean Std Dev t Value Pr > |t|

-------------------------------------------------------------

ldif 45 0.0657295 0.0419547 10.51 <.0001

-------------------------------------------------------------

Der er helt klart en signifikant bias mellem de to malemetoder:

t =0.0660.042√

45

=0.066

0.0063= 10.51

som vurderet i en t-fordeling med 44 frihedsgrader giver P < 0.0001

Som det ses af tegningen, er denne bias ikke helt konstant, idet den

afhænger (svagt) af niveauet.


Vi kunne ogsa have arbejdet direkte pa en ratio-skala:

ratio =refe

testThe MEANS Procedure

Variable Mean Std Dev Std Error

--------------------------------------------------------

ratio 1.0688607 0.0451184 0.0067259

--------------------------------------------------------

som giver limits of agreement:

1.069 ± 2 × 0.045 = (0.979, 1.159)

altsa refe fra 2% under til 16% over test

(pa 2 decimaler identisk med resultatet for logaritmerne)

Dette er ikke altid tilfældet!!


Limits of agreement pa ratio-skala


Ny problemstilling:

Er der forskel pa energiindtaget for magre og fede kvinder?


Her kan vi ikke benytte personen som sin egen kontrol. I stedet har vi

To uafhængige stikprøver, uparret sammenligning

Statistics/Descriptive/Summary Statistics med figur som

Class-variabel, eller

proc means N mean std stderr data=lean_obese;

class figur;

var energi;

run;

Analysis Variable : energi

N

figur Obs N Mean Std Dev Std Error

------------------------------------------------------------------

lean 13 13 8.0661538 1.2380801 0.3433816

obese 9 9 10.2977778 1.3978714 0.4659571

------------------------------------------------------------------


Traditionelle antagelser:

X1.1, · · · , X1.13 ∼ N(µ1, σ2)

X2.1, · · · , X2.9 ∼ N(µ2, σ2)

• alle observationerne er uafhængige

– personerne har ikke noget med hinanden at gøre

• der er samme populationsvarians i de to grupper

– bør checkes

• observationerne følger en normalfordeling i hver gruppe, med

hver deres middelværdi

– normalfordelingen checkes ligesom tidligere,

hvis det kan lade sig gøre


To-stikprøve t-test

H0 : µ1 = µ2

t =x1 − x2

se(x1 − x2)=

x1 − x2

s√

1n1

+ 1n2

= −2.232

0.5656= −3.95

hvilket i en t-fordeling med 20 frihedsgrader giver P = 0.0008


Begrundelse for teststørrelse:

X1 normalfordelt N(µ1,1

n1σ2)

X2 normalfordelt N(µ2,1

n2σ2)

X1 − X2 ∼ N(µ1 − µ2, (1

n1+ 1

n2)σ2)

σ2 estimeres ved s2, et poolet variansskøn,

og antallet af frihedsgrader er

df=(n1-1)+(n2-1)=(13-1)+(9-1)=20


Hvad betyder teststørrelsens fordeling?

Vi forestiller os mange ens undersøgelser af de samme to

populationer:

1. 13 magre, 9 fede =⇒ t1



.

.

Fordeling af t’erne?

Hvorfor ikke bare x1 − x2?

Fordi fordelingen sa afhænger af σ2

og derfor ikke kan slas op i en tabel


Indlæsning af 22 datalinier, en for hver kvinde,

men to variable for hver kvinde:

status energi

1 6.13

1 7.05

. .

. .

. .

2 11.85

2 12.79

Nar data er gemt i sasuser, defineres en ny variabel (i dette

tilfælde en karaktervariabel) ved hjælp af /Data/Transform/Recode

status=1 ⇒ figur=’lean’

status=2 ⇒ figur=’obese’


Et uparret t-test i SAS ANALYST:

Statistics/Hypothesis Tests/Two-Sample t-test for Means

kryds af i Confidence Interval under Tests

>

<

Hypothesis Test

Null hypothesis: Mean 1 - Mean 2 = 0

Alternative: Mean 1 - Mean 2 ^= 0

If Variances Are t statistic Df Pr > t

----------------------------------------------------

Equal -3.946 20 0.0008

Not Equal -3.856 15.92 0.0014

95% Confidence Interval for the Difference between Two Means

Lower Limit Upper Limit

----------- -----------

-3.41 -1.05

Bemærk, at der er 2 forskellige udgaver af t-testet, afhængig af, om

varianserne kan antages at være ens eller ej.



data lean_obese;

infile ’lean_obese.tal’;

input nr status energi rang;

if status=2 then figur=’obese’;

if status=1 then figur=’lean’;

run;

proc means N mean std stderr;

class figur;

var energi;

run;

proc ttest data=lean_obese;

class figur;

var energi;

run;

proc npar1way wilcoxon data=lean_obese;

class figur;

var energi;

run;


Rimeligheden af ens varianser undersøges ved

F =s22

s21

=1.3982

1.2382= 1.27

Hvis de to varianser faktisk er ens, skal denne størrelse være F-fordelt

med (8,12) frihedsgrader. Vi finder P=0.68 og kan altsa med god

samvittighed anvende et poolet variansskøn.

Hvad skulle vi ellers have gjort?

t =x1 − x2

se(x1 − x2)=

x1 − x2√

s21

n1+

s22

n2

∼ t(??)

Dette ville give os:

t = −3.86 ∼ t(15.9), P = 0.0014


Test for varianshomogenitet i SAS:

Statistics/Hypothesis Tests/Two-Sample test for Variances

kryds af i Confidence Interval under Tests

Two Sample Test for Variances of energi within figur

Sample Statistics

figur

Group N Mean Std. Dev. Variance

--------------------------------------------------

lean 13 8.066154 1.2381 1.532842

obese 9 10.29778 1.3979 1.954044

Hypothesis Test

Null hypothesis: Variance 1 / Variance 2 = 1

Alternative: Variance 1 / Variance 2 ^= 1

- Degrees of Freedom -

F Numer. Denom. Pr > F

----------------------------------------------

0.78 12 8 0.6797

Den tidligere viste teststørrelse er den reciprokke, 1/0.78=1.27,

samme P-værdi.


Forskel, ja ...men hvor stor?

Estimeret forskel = gennemsnitlig forskel

= 10.30 − 8.07

= 2.23

Den sande forskel er nok ikke lige 2.23, men et sted i nærheden.

95% sikkerhedsinterval

= interval, der med 95% sandsynlighed

omslutter den sande forskel

= (1.05, 3.41)


Signifikansniveauet α (sædvanligvis 0.05) angiver den risiko, vi er

villige til at løbe for at

forkaste en sand nulhypotese,

ogsa betegnet som fejl af type I.

accept forkast

H0 sand 1-α α

fejl af type I

H0 falsk β 1-β

fejl af type II

1-β kaldes styrken,

denne angiver sandsynligheden for at forkaste en falsk hypotese.


Men hvad betyder ’H0 falsk’? Hvor store forskelle er der?

Styrken er en funktion af forskellen!

Styrkefunktion:

’Hvis forskellen er xx, hvad er sa

styrken, dvs. sandsynligheden for

at opdage den – pa 5% niveau’??

−0.02 −0.01 0.00 0.01 0.02

0.0

0.2

0.4

0.6

0.8

1.0

size of difference

powe

r

Bemærk:

• styrken udregnes for at dimensionere en undersøgelse

• nar resultaterne er i hus, præsenteres konfidensintervaller


Statistisk signifikans afhænger af:

• sand forskel

• antal observationer

• den tilfældige variation, dvs.

den biologiske variation

• signifikansniveau

Klinisk signifikans afhænger af:

• størrelsen af den paviste forskel


To aktive behandlinger: A og B, vs. Placebo: P

Resultater fra to trials:

1. trial: A signifikant bedre end P (n=100)

2. trial: B ikke signifikant bedre end P (n=50)

Konklusion:

A er bedre end B ???

Nej, ikke nødvendigvis.


Ingen signifikans?

Hvad kan det skyldes?

• At der ikke er en forskel

• At forskellen er sa lille, at den er vanskelig at opdage

• At variationen er sa stor, at en evt. forskel drukner

• At materialet er for lille til at kunne pavise nogensomhelst forskel

af interesse.

Inden undersøgelsens gennemførelse bør man

• Fastsætte MIREDIF (mindste relevante differens)

• foretage styrkeberegninger (power)

• beregne det nødvendige patientantal


Variation

Hvordan kan vi nedbringe variationen, sa vi bliver i stand til at se

evt. differenser klarere?

• Benytte personen som sin egen kontrol.

• Begrænse effekten af uønskede kovariater:

– foretage alle malinger pa samme tidspunkt af dagen, evt. ogsa

pa samme ugedag.

– begrænse aldersvariationen

(eller lave regression pa alderen)

– benytte skrappere inklusionskriterier for f.eks. vægt for at

undga outliers.

– randomisere

• tage flere malinger lige efter hinanden pa samme person og

benytte gennemsnittet i beregningerne


Nonparametrisk test (uden normalfordelingsantagelsen):

Mann-Whitney test (Kruskal-Wallis test)

Det totale materiale rangordnes,

rangværdi rangværdi

person figur energi lean obese

1 lean 6.13 1

2 lean 7.05 2

3 lean 7.48 3.5

4 lean 7.48 3.5

.

13 lean 10.88 19

14 obese 8.79 12

.

22 obese 12.79 22

Sum 103 150

Forventet sum 149.5 103.5


herefter Tabel B10, s. 534:

ns=9, nl=13 (mindste gruppe skal først ved opslag).

Rangsum: R=150


Nonparametrisk uparret test i SAS, approksimation for n > 25

Statistics/ANOVA/Nonparametric One-Way ANOVA/

med energi som Dependent og figur som Independent

The NPAR1WAY Procedure

Wilcoxon Scores (Rank Sums) for Variable energi

Classified by Variable figur

Sum of Expected Std Dev Mean

figur N Scores Under H0 Under H0 Score

---------------------------------------------------------------------

lean 13 103.0 149.50 14.970751 7.923077

obese 9 150.0 103.50 14.970751 16.666667

Average scores were used for ties.


Wilcoxon Two-Sample Test

Statistic (S) 150.0000

Normal Approximation

Z 3.0727

One-Sided Pr > Z 0.0011

Two-Sided Pr > |Z| 0.0021

t Approximation

One-Sided Pr > Z 0.0029

Two-Sided Pr > |Z| 0.0058

Exact Test

One-Sided Pr >= S 5.287E-04

Two-Sided Pr >= |S - Mean| 0.0010

Z includes a continuity correction of 0.5.

Kruskal-Wallis Test

Chi-Square 9.6476

DF 1

Pr > Chi-Square 0.0019


Som regel gør det ingen synderlig forskel i P-værdi

om man benytter parametriske eller non-parametriske metoder.

Men det er vigtigt at respektere sit design!

Eks: Malemetoderne MF og SV:

Parret T-test:

t = 0.16, f = 20

P = 0.88

Sikkerhedsinterval:

(-2.93 cm3, 3.41 cm3)

Uparret T-test:

t = 0.04, f = 40

P = 0.97

Sikkerhedsinterval:

(-12.71 cm3, 13.19 cm3)

Documents

Basal statistik 16. september 2008publicifsv.sund.ku.dk/~ebj/basal08_2/overheads/omvendt_ttest.pdf · Basal statistik 16. september 2008. En- og to-stikprøve problemer • sammenligning