48
PODSTAWY STATYSTYKI SEMINARIUM 3 Jan E. Zejda Katedra Epidemiologii – WLK, SUM STUDIUM DOKTORANCKIE – KATOWICE, 2011/12 ! UWAGA ! SLAJDY WYBRANE I ZMODYFIKOWANE POD KĄTEM PREZENTACJI W INTERNECIE

PODSTAWY STATYSTYKI - Katedra i Zakład Epidemiologiiepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/DRsem3.pdf · podstawy statystyki. seminarium 3. jan e. zejda. katedra epidemiologii

Embed Size (px)

Citation preview

PODSTAWY STATYSTYKISEMINARIUM 3

Jan E. Zejda

Katedra Epidemiologii –

WLK, SUM

STUDIUM DOKTORANCKIE –

KATOWICE, 2011/12

! UWAGA !

SLAJDY WYBRANE I ZMODYFIKOWANE

POD KĄTEM PREZENTACJI W INTERNECIE

TRETREŚĆŚĆ

SEMINARIUM 2 i 3SEMINARIUM 2 i 3

Statystyka Analityczna

-

zarys metodologii badań

naukowych-

hipotezy badawcze

-

testowanie hipotez ▫

proste testy statystycznej znamienności różnic

-

dla zmiennych ilościowych-

dla zmiennych jakościowych

proste testy statystycznej znamienności zależności-

minimalna niezbędna wielkość

próby

-

przedział

ufności

POPRZEDNIO: CZĘŚĆ

IA

TRETREŚĆŚĆ

SEMINARIUM 3SEMINARIUM 3

Statystyka Analityczna –

Część

IB

-

zarys metodologii badań

naukowych-

hipotezy badawcze

-

testowanie hipotez ▫

proste testy statystycznej znamienności różnic

-

dla zmiennych ilościowych-

dla zmiennych jakościowych

proste testy statystycznej znamienności zależności-

minimalna niezbędna wielkość

próby

-

przedział

ufności

TESTY STATYSTYCZNEJ ZNAMIENNOTESTY STATYSTYCZNEJ ZNAMIENNOŚŚCICI

RÓŻNICE ZALEŻNOŚCI

ZMIENNE

ILOŚCIOWE

ZMIENNE

JAKOŚCIOWE

ZMIENNE

ILOŚCIOWE

ZMIENNE

JAKOŚCIOWE

dodatkowo, w zależności od rozkładu, testy parametryczne lub nieparametryczne

TESTY STATYSTYCZNEJ ZNAMIENNOTESTY STATYSTYCZNEJ ZNAMIENNOŚŚCICI

RÓŻNICE ZALEŻNOŚCI

ZMIENNE

ILOŚCIOWE

ZMIENNE

JAKOŚCIOWE

ZMIENNE

ILOŚCIOWE

ZMIENNE

JAKOŚCIOWE

dzisiaj

TESTY STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNIC

(ROZKŁADÓW)

< ZMIENNE JAKOŚCIOWE >

OCENA OCENA STATYSTYCZNEJ ZNAMIENNOSTATYSTYCZNEJ ZNAMIENNOŚŚCI RCI RÓÓŻŻNICNIC

! KLUCZOWE PYTANIA !

Oczekiwana częstość

(bezwględna) wartości zmiennej jakościowej ?

<5 lub

5+

Liczba porównywanych grup ?

Dwie grupy lub Więcej niż

dwie grupy

Zależność

obserwacji ?

Dane sparowane lub

Dane niesparowane

wg: Pereira-Maxwell F.: A-Z of Medical Statistics. A companion for critical appraisal. Arnold, London 1998

OCENA OCENA STATYSTYCZNEJ ZNAMIENNOSTATYSTYCZNEJ ZNAMIENNOŚŚCI RCI RÓÓŻŻNICNIC

ZMIENNE JAKOŚCIOWE

Dane pochodzące z niezależnych pomiarów (dane niesparowane)Scenariusz: otyłość

(%) wśród chłopców (grupa A) i dziewcząt (grupa B)

-Liczba grup 2: test chi2, test Fisher’a

(dla małej częstości)

-Liczba grup 3 lub więcej:

test chi2

Dane pochodzące z zależnych pomiarów (dane sparowane)Scenariusz: otyłość

(%) wśród dziewcząt przed (grupa A1) i po kuracji (grupa A2) odchudzającej

-Liczba grup (punktów pomiaru) 2: test McNemar’a

-

Liczba grup 3 lub więcej: test Stuart-Maxwell’a

TEST CHITEST CHI--KWADRAT (ChiKWADRAT (Chi22

, , χχ22))( H0 : πA = πB )

Podstawowa procedura dla porównania częstości

Chi2

= Σ

[ (O –

E)2 / E] O –

częstości obserwowane; E –

częstości oczekiwane

15% i 30% 20% i 20%

Wynikiem testu chi2

jest statystyka chi2, która posiada swój rozkład (dla konkretnej wartości istnieje konkretne prawdopodobieństwo ‘p’)

Gdy p<0,05 → są

podstawy do odrzucenia H0

Uwaga: wypowiedź

na temat różnic częstości w grupie A i B można też

interpretować

jako zależność

częstości od grupy

TEST CHITEST CHI--KWADRATKWADRATWYNIK: STATYSTYKA „CHI2”

i JEJ WARTOŚĆ

„P”

JAKIE OGRANICZENIA ?

Test chi2 jest czuły wobec wielkości próby. Nie powinien być

stosowany, gdy zachodzi jedna z dwóch okoliczności:

n<20;

20<n<40 i oczekiwana częstość

wynosi mniej niż

5, przynajmniej w jednym polu tabeli

ROZWIĄZANIE PROBLEMU

Poprawka Yates’a

(ze względu na fakt, że analizowane są

dane jakościowe, a rozkład chi2 ma charakter ciągły) –

obecnie kwestionowana i nie jest

rekomendowana

Dokładny test Fisher’a

TEST CHITEST CHI--KWADRATKWADRAT

SCENARIUSZ

Czy 11,9% różni się

od 21,3 % ?

The FREQ ProcedureStatistics for Table of FEV1 by RTG

Statistic DF Value ProbChi-Square 1 8.5666 0.0034Continuity Adj. Chi-Square 1 7.8610 0.0051Mantel-Haenszel

Chi-Square 1 8.5503 0.0035

Fisher's Exact TestLeft-sided Pr <= F 0.9987Right-sided Pr >= F 0.0027Two-sided Pr <= P 0.0045

Test ma zastosowanie, gdy oczekiwane częstości są

małe (np.<5 w jednej z „klatek”)

TEST CHITEST CHI22

––

INTEPRETACJA DLA ZMIENNEJ INTEPRETACJA DLA ZMIENNEJ WIELOWARTOWIELOWARTOŚŚCIOWEJ (2 GRUPY)CIOWEJ (2 GRUPY)Test chi2

ocenia różnicę

pomiędzy rozkładami, a nie poszczególnymi wartościami porównywanych zmiennych

Zmienna WartośćZmiennej

Grupa „A” Grupa „B” Statystyka „Chi2” (p)

Ból

Brak 10 6

5,23 (0,06)Mały 12 23Średni 21 18

Duży 6 12Bardzo duży 6 9

Wynik testu nie odpowiada bezpośrednio na pytanie, czy chorzy w grupie „B”

bardziej cierpią

z powodu obecności dużego lub bardzo dużego bólu niż

chorzy w grupie „A”.

INTEPRETACJA !

OCENA OCENA STATYSTYCZNEJ ZNAMIENNOSTATYSTYCZNEJ ZNAMIENNOŚŚCI RCI RÓÓŻŻNICNIC

ZMIENNE JAKOŚCIOWE

Dane pochodzące z niezależnych pomiarów (dane niesparowane)Scenariusz: otyłość

(%) wśród chłopców (grupa A) i dziewcząt (grupa B)

-Liczba grup 2: test chi2, test Fisher’a

(dla małej częstości)

-Liczba grup 3 lub więcej:

test chi2

Dane pochodzące z zależnych pomiarów (dane sparowane)Scenariusz: otyłość

(%) wśród dziewcząt przed (grupa A1) i po kuracji (grupa A2) odchudzającej

-Liczba grup (punktów pomiaru) 2: test McNemar’a

-

Liczba grup 3 lub więcej: test Stuart-Maxwell’a

TEST CHITEST CHI--KWADRAT (TRZY GRUPY)KWADRAT (TRZY GRUPY)

SCENARIUSZ

Czy 11,5%, 15,7%, 25,5% różnią

się

w sposób statystycznie znamienny ?

The FREQ ProcedureStatistics for Table of FEV1 by RTG

Statistic DF Value ProbChi-Square 2

11.4906

0.0032

Mantel-Haenszel

Chi-Square 2 10.9834

0.0009

Fisher's Exact TestLeft-sided Pr <= F 0.9987Right-sided Pr >= F 0.0027Two-sided Pr <= P 0.0045

ODPOWIEDŹ

Tak, albowiem MHChi2 p=0,0009 (p<0,05), co uwzględnia charakter zmiennej

porządkowej i pozwala na odrzucenie H0

ODPOWIEDŹ

Tak, albowiem p=0,003 (p<0,05), co pozwala na odrzucenie H0

o równości częstości

TEST CHITEST CHI--KWADRAT (TRZY GRUPY)KWADRAT (TRZY GRUPY)

SCENARIUSZ

Czy trend ma charakter statystycznie znamienny ?

The FREQ ProcedureStatistics for Table of FEV1 by RTG

COCHRAN-ARMITAGE

TREND TEST

Statistic

(Z)

-3.3173One-sided

Pr<Z

0.0005

Two-sided

Pr<Z 0.0009

Fisher's Exact TestLeft-sided Pr <= F 0.9987Right-sided Pr >= F 0.0027Two-sided Pr <= P 0.0045

ODPOWIEDŹ

Tak, albowiem p<0,05), co pozwala na odrzucenie H0 o nieznamienności

statystycznej trendu

OCENA OCENA STATYSTYCZNEJ ZNAMIENNOSTATYSTYCZNEJ ZNAMIENNOŚŚCI RCI RÓÓŻŻNICNIC

ZMIENNE JAKOŚCIOWE

Dane pochodzące z niezależnych pomiarów (dane niesparowane)Scenariusz: otyłość

(%) wśród chłopców (grupa A) i dziewcząt (grupa B)

-Liczba grup 2: test chi2, test Fisher’a

(dla małej częstości)

-Liczba grup 3 lub więcej:

test chi2

Dane pochodzące z zależnych pomiarów (dane sparowane)Scenariusz: otyłość

(%) wśród dziewcząt przed (grupa A1) i po kuracji (grupa A2) odchudzającej

-Liczba grup (punktów pomiaru) 2: test McNemar’a

-

Liczba grup 3 lub więcej: test Stuart-Maxwell’a

TEST TEST McNEMARMcNEMAR’’aaInterpretacja przy zmiennych sparowanych analogiczna do

interpretacji dla zmiennych niesparowanych

SZCZEGÓLNE ZASTOSOWANIE

wyniki sparowanego badania kliniczno-kontrolnego

np. dla 60-letniego mężczyzny z Rtg+ dobieramy 60-letniego mężczyznę

z Rtg-, dla 56-letniego mężczyzny z Rtg+

dobieramy 56-letniego mężczyznę

z Rtg-, itd.

aby

sprawdzić, czy różnią

się

grupy Rtg+ i Rtg-

w zakresie narażenia na dym tytoniowy

Kontrola wieku (parowanie) uzasadniona zależnością

czasu palenia od wieku

TRETREŚĆŚĆ

SEMINARIUM 3SEMINARIUM 3

Statystyka Analityczna –

Część

IB

-

zarys metodologii badań

naukowych-

hipotezy badawcze

-

testowanie hipotez ▫

proste testy statystycznej znamienności różnic

-

dla zmiennych ilościowych-

dla zmiennych jakościowych

proste testy statystycznej znamienności zależności-

minimalna niezbędna wielkość

próby

-

przedział

ufności

(PROSTE) TESTY (PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOSTATYSTYCZNEJ ZNAMIENNOŚŚCI ZALECI ZALEŻŻNONOŚŚCICI

ZMIENNA ZALEZMIENNA ZALEŻŻNANA

←←

ZMIENNA NIEZALEZMIENNA NIEZALEŻŻNANA……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....

Dwie Zmienne IloDwie Zmienne Ilośścioweciowe

Masa (kg)Masa (kg)

Wzrost (cm)Wzrost (cm)……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....

Dwie Zmienne JakoDwie Zmienne Jakośścioweciowe

Mutacja (tak/nie)Mutacja (tak/nie)

NaraNarażżenie na WWA (tak/nie)enie na WWA (tak/nie)……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....

Zmienna IloZmienna Ilośściowa i Jakociowa i Jakośściowaciowa

FEVFEV11

(%(%w.nw.n.).)

Zmiany Zmiany rtgrtg

w pw płłucach (tak/nie)ucach (tak/nie)……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....

Zmienna JakoZmienna Jakośściowa i Ilociowa i Ilośściowaciowa

Hiperglikemia (tak/nie)Hiperglikemia (tak/nie) PodaPodażż

kalorii na dobkalorii na dobęę

(kcal)(kcal)

TESTY STATYSTYCZNEJ ZNAMIENNOTESTY STATYSTYCZNEJ ZNAMIENNOŚŚCICI

RÓŻNICE ZALEŻNOŚCI

ZMIENNE

ILOŚCIOWE

ZMIENNE

JAKOŚCIOWE

ZMIENNE

ILOŚCIOWE

ZMIENNE

JAKOŚCIOWE

(PROSTE) TESTY (PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOSTATYSTYCZNEJ ZNAMIENNOŚŚCI ZALECI ZALEŻŻNONOŚŚCICI

ZMIENNA ZALEZMIENNA ZALEŻŻNANA

←←

ZMIENNA NIEZALEZMIENNA NIEZALEŻŻNANA……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....

Dwie Zmienne IloDwie Zmienne Ilośścioweciowe

Masa (kg)Masa (kg)

Wzrost (cm)Wzrost (cm)……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....

Dwie Zmienne JakoDwie Zmienne Jakośścioweciowe

Mutacja (tak/nie)Mutacja (tak/nie)

NaraNarażżenie na WWA (tak/nie)enie na WWA (tak/nie)……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....

Zmienna IloZmienna Ilośściowa i Jakociowa i Jakośściowaciowa

FEVFEV11

(%(%w.nw.n.).)

Zmiany Zmiany rtgrtg

w pw płłucach (tak/nie)ucach (tak/nie)……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....

Zmienna JakoZmienna Jakośściowa i Ilociowa i Ilośściowaciowa

Hiperglikemia (tak/nie)Hiperglikemia (tak/nie) PodaPodażż

kalorii na dobkalorii na dobęę

(kcal)(kcal)

rozkład normalny

ANALIZA KORELACJI LINIOWEJ

rozkład nie-normalny

ANALIZA REGRESJI LINIOWEJ

KORELACJA LINIOWAKORELACJA LINIOWA

HH0 0 : r = 0: r = 0

0

20

40

60

80

100

0 2 4 6 8 10 12

Pb-B [ug/dl]

IQ [j

]

r = 0,21 (p=0,6) (95%PU: r = 0,21 (p=0,6) (95%PU: --0,10 0,10 --

0,34) 0,34) ergo ergo „„rr””=0,21 nie r=0,21 nie róóżżni sini sięę

w sposw sposóób statystycznie znamienny od b statystycznie znamienny od ‘‘00’’

NIEPOROZUMIENIA INTERPRETACYJNE „r”

Interpretacja ‘r’

jako miernika siły zależności pomiędzy „przyczyną”

i „skutkiem”

Wykorzystanie analizy korelacji do porównania wartości dwóch metod

Przewidywanie wartości Y na podstawie wartości X

Obecność

korelacji liniowej nie jest automatycznym dowodem na obecność

zależności biologicznej

ALTERNATYWA NIEPARAMETRYCZNA (r)Nazwa ‘współczynnik korelacji liniowej”

mnemotechnicznie przywołuje wymóg

analizy wartości zmiennych mierzonych według skali liniowej. Gdy pomiary pochodzą

z innych skal (np. stopień

duszności, poziom samopoczucia, średnica

bąbla itp.) wówczas zasadne metody odwołujące się

do rankingu wyników:

ANALIZA KORELACJI METODĄ

SPEARMANA(dla zmiennych o normalnym rozkładzie metoda Pearson’a)

ANALIZA ANALIZA REGRESJI LINIOWEJREGRESJI LINIOWEJ

ANALIZA REGRESJI LINIOWEJy = a + b x

gdzie: a –

punkt odcięcia; b –

kąt nachylenia prostej (zmiana wartości ‘y’

w odpowiedzi na jednostkową

zmianę

wartości ‘x’)

DEFINICJA ZMIENNEJ ZALEŻNEJ !

Y jest funkcją

X, Y zależy od X

PREZENTACJA GRAFICZNAPREZENTACJA GRAFICZNA

0

20

40

60

80

100

0 2 4 6 8 10 12

X

Y

ba

Y = b * X + 18

PREZENTACJA GRAFICZNAPREZENTACJA GRAFICZNA

0

20

40

60

80

100

0 2 4 6 8 10 12

X

Y

b=0a

Y = b * X + 18

gdy b = 0, to Y = 0*X + 18, zatem Y = 18 (stale !)

PREZENTACJA GRAFICZNAPREZENTACJA GRAFICZNA

HH0 0 : b = 0: b = 0

0

20

40

60

80

100

0 2 4 6 8 10 12

X

Y

b=0a

Na gruncie statystycznym b=0, gdy w sposób statystycznie znamienny ‘b’

nie różni się

od ‘0’: b=1,39

(p=0,09) lub (95%PU dla ‘b’: -0,14 -

2,82)

PRAKTYCZNE ZNACZENIE PRAKTYCZNE ZNACZENIE ANALIZY REGRESJI LINIOWEJANALIZY REGRESJI LINIOWEJ

DOKUMENTOWANIE (ILOŚCIOWE) ZALEŻNOŚCI POMIĘDZY ‘Y’

I ‘X’

PRZEWIDYWANIE WARTOŚCI ‘Y’

DLA DANEJ WARTOŚCI ‘X’

ANALIZA REGRESJI LINIOWEJANALIZA REGRESJI LINIOWEJSCENARIUSZSCENARIUSZ

Czy FEV1

(w %w.n.) zależy od stażu pracy ?

Y = a + bXThe

SAS System Plot of FEV1P*STAZ. Symbol used is '*'.

150 * *

* * * * * * ** * * * * * * * * * * * * * * * * *

* * * * * * * * * * * * * * * * * * * * * * * * *F 100

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *E * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *V * * * * * * * * * * * * * * * * * * * * * * * * * * * *1 * * * * * * * * * * * * * * * *

*P * * * * * * * *

50 * * * ** * * *

0 4 8 12 16 20 24 28 32 36

StaStażż

(lata)(lata)

The REG ProcedureModel: MODEL1

Dependent Variable: FEV1P

Parameter Estimates

Parameter StandardVariable DF Estimate Error t Value Pr > |t|

Intercept

1 97.85787 1.15190 84.95 <.0001

STAZ 1 -0.27953

0.08143 -3.43 0.0006

Współczynnik regresji ‘b’

różni się

w sposób statystycznie znamienny od ‘0’95%PU dla B: (-0,43950) -

(-0,11950)

ANALIZA REGRESJI LINIOWEJANALIZA REGRESJI LINIOWEJ

-

ZNACZENIE WSPÓŁCZYNNIKA DETERMINACJI R2

-

y = a + b x

PRZYKŁAD

FVC(l)

= 2,5Wzrost(m) + 1,75

Współczynnik korelacji ‘FVC’

~ ‘Wzrost’: r = 0,6

a więc r2

= 0,36

Model wyjaśnia zaledwie 36% okoliczności tłumaczących wartość

FVC (tu uwzględniono wzrost)

Inne czynniki ?(dodanie wieku, nałogu palenia, narażenia na pył

zwiększy wartość

‘r2’)

Uwaga: zmienność

w ‘x’

objaśnia zmienność

w ‘y’, w stopniu ‘r2’(zmienna objaśniana = zależna, zmienna objaśniająca = niezależna)

TESTY STATYSTYCZNEJ ZNAMIENNOTESTY STATYSTYCZNEJ ZNAMIENNOŚŚCICI

RÓŻNICE ZALEŻNOŚCI

ZMIENNE

ILOŚCIOWE

ZMIENNE

JAKOŚCIOWE

ZMIENNE

ILOŚCIOWE

ZMIENNE

JAKOŚCIOWE

(PROSTE) TESTY (PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOSTATYSTYCZNEJ ZNAMIENNOŚŚCI ZALECI ZALEŻŻNONOŚŚCICI

ZMIENNA ZALEZMIENNA ZALEŻŻNANA

←←

ZMIENNA NIEZALEZMIENNA NIEZALEŻŻNANA……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....

Dwie Zmienne Ilościowe

Masa (kg)

Wzrost (cm)……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....

Dwie Zmienne JakoDwie Zmienne Jakośścioweciowe

Mutacja (tak/nie)Mutacja (tak/nie)

NaraNarażżenie na WWA (tak/nie)enie na WWA (tak/nie)……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....

Zmienna IloZmienna Ilośściowa i Jakociowa i Jakośściowaciowa

FEVFEV11

(%(%w.nw.n.).)

Zmiany Zmiany rtgrtg

w pw płłucach (tak/nie)ucach (tak/nie)

Zmienna JakoZmienna Jakośściowa i Ilociowa i Ilośściowaciowa

Hiperglikemia (tak/nie)Hiperglikemia (tak/nie) PodaPodażż

kalorii na dobkalorii na dobęę

(kcal)(kcal)

TEST CHITEST CHI--KWADRATKWADRAT

ANALIZA REGRESJI LOGISTYCZNEJANALIZA REGRESJI LOGISTYCZNEJ

TEST CHITEST CHI--KWADRATKWADRAT

ANALIZA REGRESJI ANALIZA REGRESJI LOGISTYCZNEJLOGISTYCZNEJ

UNIWERSALNY MODEL REGRESJIUNIWERSALNY MODEL REGRESJI

Y

~ X

Dla zmiennych ilościowych rozwiązanie jest intuicyjnie proste:

gdy X wzrasta o daną

wartość, to Y wzrasta o iloczyn danej wartości i współczynnika regresji b

(Trójglicerydemia

= b*dobowa

podaż

tłuszczu + a)

ADAPTACJA MODELU DO JAKOŚCIOWEJ POSTACI ZMIENNEJ ZALEŻNEJ

Hipertrójgicerydemia(tak/nie) ~ duża dobowa podaż

tłuszczu

JAK POŁĄCZYĆ

OBIE STRONY RÓWNANIA?

MODEL REGRESJI MODEL REGRESJI

Z JAKOZ JAKOŚŚCIOWCIOWĄĄ

ZMIENNZMIENNĄĄ

ZALEZALEŻŻNNĄĄ

Hipertrójgicerydemia

~ dobowa podaż

tłuszczu

SOLUTIO

FUNKCJA ŁĄCZĄCA (FŁ)

Hipertrójgicerydemia

[FŁ]

= dobowa podaż

tłuszczu

FUNKCJA ŁĄCZĄCA W REGRESJI LOGISTYCZNEJ

Hipertrójgicerydemia

[FŁ] = dobowa podaż

tłuszczu

Przyjęcie przez ‘y’

wartości 0 („nie”) lub 1 („tak”) jest mierzone prawdopodobieństwem ‘p’, powiązanym z ‘1-p’, w układzie ‘p/1-p’

ale

prawdopodobieństwo jest zawsze dodatnie, co ogranicza obszar modelowania -

brak kompatybilności z prawą

stroną

równania

Transformacja logarytmiczna –

naturalny logarytm wyrażenia („logit transformation”) usuwa tę

niedogodność

-∞

…‘ln[p/1-p]’

… + ∞

teraz zatem bez przeszkód lewa strona ↔ prawa stronaln[p/1-p] = a+bx

czyli model regresji logistycznej

ANALIZA REGRESJI LOGISTYCZNEJANALIZA REGRESJI LOGISTYCZNEJy = a + b x

(logit

ukryty w procedurze)

Analiza regresji logistycznej testuje konwencjonalny układ hipotez:

H0

: b = 0HA

: b ≠

0

Gdy ‘p’

dla ‘b’

>0,05 wówczas

„y nie zależy od x w sposób statystycznie znamienny”

***Analiza regresji logistycznej nie tylko informuje o obecności i sile

związku, ale także umożliwia przewidywanie wartości zmiennej zależnej na podstawie wartości zmiennej niezależnej

The LOGISTIC Procedure

Analysis of Maximum Likelihood Estimates

Standard WaldParameter DF Estimate Error Chi-Square Pr > ChiSqIntercept 1 1.6539 0.1212 186.1928 <.0001rtg

1 -0.3505 0.1212 8.3605 0.0038

Odds Ratio EstimatesPoint 95% Wald

Effect Estimate Confidence LimitsRTG 0 vs

1 2.016 1.253 3.241

MODEL: FEV1

(N/P) = 1,6539 –

0,3505 * Rtg

ANALIZA REGRESJI LOGISTYCZNEJANALIZA REGRESJI LOGISTYCZNEJSCENARIUSZ

Pytanie: Czy obecność

obniżonej wartości FEV1 (norma/patologia) zależy od obecności zmian Rtg

(-/+) ?

The LOGISTIC ProcedureAnalysis of Maximum Likelihood Estimates

Standard WaldParameter DF Estimate Error Chi-Square Pr > ChiSqIntercept 1 1.5946 0.1308 148.5302 <.0001

RTG 0 1 0.4399 0.1652 7.0883 0.0078RTG 1 1 0.0831 0.2010 0.1708 0.6794

Odds Ratio EstimatesPoint 95% Wald

Effect Estimate Confidence LimitsRTG 0 vs

2

2.619

1.483 4.627

RTG 1

vs

2

1.833

0.921

3.651

ANALIZA REGRESJI LOGISTYCZNEJANALIZA REGRESJI LOGISTYCZNEJSCENARIUSZ

Pytanie: Czy obecność

obniżonej wartości FEV1

(norma/patologia) zależy od obecności zmian Rtg

(-/+/++) ?

Uwaga: regresja logistyczna analizuje zmienne o różnej liczbie wartości (nie tylko zmienne binarne)

(PROSTE) TESTY (PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOSTATYSTYCZNEJ ZNAMIENNOŚŚCI ZALECI ZALEŻŻNONOŚŚCICI

ZMIENNA ZALEZMIENNA ZALEŻŻNANA

←←

ZMIENNA NIEZALEZMIENNA NIEZALEŻŻNANA……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....

Dwie Zmienne IloDwie Zmienne Ilośścioweciowe

analiza korelacji i analiza regresji liniowejanaliza korelacji i analiza regresji liniowej……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....

Dwie Zmienne JakoDwie Zmienne Jakośścioweciowe

test chitest chi--kwadrat i analiza regresji logistycznejkwadrat i analiza regresji logistycznej……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....

Zmienna IloZmienna Ilośściowa i Jakociowa i Jakośściowaciowa

analiza regresji liniowejanaliza regresji liniowej……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....

Zmienna JakoZmienna Jakośściowa i Ilociowa i Ilośściowaciowa

analiza regresji logistycznejanaliza regresji logistycznej

OBLICZENIE MINIMALNEJ NIEZBOBLICZENIE MINIMALNEJ NIEZBĘĘDNEJ LICZEBNODNEJ LICZEBNOŚŚCI CI PRPRÓÓB DLA TESTU CHIB DLA TESTU CHI--KWADRATKWADRAT

Obliczenia wykorzystują

formułę

wypracowaną

dla proporcji

Liczebność

jednej (każdej) grupy wynosi:n = [ zα

√{2π(1-π)} + zβ

√{π1(1-

π1

)+ π2

(1-

π2

)}]2

/ [π1

π2

]2

gdzie:π1

proporcja pierwsza;

π2

proporcja druga; π

proporcja średnia (π1

+ π2

/ 2)

Częstość

↑LCD4 wynosi 15% u dzieci z ‘NNO’. Istnieją

dane, że jest ona wyższa u dzieci bez ‘NNO’.

Jak duże muszą

być

grupy, aby wykazać

statystycznie znamienną

różnicę

?

Niezbędne założenia1. Wielkość

różnicy: np. dwukrotna ma znaczenie kliniczne (a więc 15% i 30%)

2. Znamienność

i moc:

α

= 0,05 (z=1,96); β

= 0,2 (z=0,84)

n = [ 1,96 √{2* 0,225(1-0,225)} + 0,84 √{0,15(1-

0,15) + 0,30(1-

0,30)}]2

/ [0,15-0,30]2

n = [1,96√0,35 + 0,84√0,13 +0,21]2

/ 0,022 = [1,16+0,3+0,21]2

/ 0,022 = 123,5

Do każdej z grup należy wylosować

124 osoby

MINIMALNA NIEZBMINIMALNA NIEZBĘĘDNA DNA LICZEBNOLICZEBNOŚĆŚĆ

PRPRÓÓBYBY

--

UZUPEUZUPEŁŁNIENIA NIENIA --

ALTERNATYWNY (POZORNIE) SPOSÓB SZACOWANIA „N”

Chcę

udowodnić, że wskutek różnego reżimu terapeutycznego średnia masa myszy w grupie T będzie wyższa o 10 g niż

w

grupie K (50 g vs

40 g). Zakładam (bo wiem lub przyjmuję), że współczynnik zmienności masy wynosi 20% (CV = SD/X).

Pozwalam, aby przypadkowe (gdyby reżim T=K) wystąpienie różnicy jak wyżej nie było częstsze niż

5/100 (5% lub 0,05).

Chcę, aby szansa wykrycia różnicy, gdy ma ona rzeczywiście miejsce, wynosiła co najmniej 80% (co to za badanie, które daje

szansę

„50:50”

na zasadzie efekt albo jest albo go nie ma)

PROSTA FORMUŁA:

N = 25*V / (D*D)

V –

zmienność

(SD*X); D –

różnica „do wykazania”

ALTERNATYWNY (POZORNIE) SPOSÓB SZACOWANIA „N”

N = 25*V / (D*D)

Zgodnie z założeniami:

D = 10g (50g –

40g)

SD = CV*X

= 20% * 40g = 8g ponieważ

CV = SD/X (uwaga – mniejsza zmienność, gdy myszy są

„kopiami”

1 egzemplarza)

V = SD*SD

= 8g * 8g

= 64gg

N = (25 * 64) / (10 * 10)

N = 16 myszy w jednej grupie

ALTERNATYWNY (POZORNIE) SPOSÓB SZACOWANIA „N”

ZAŁOŻENIA, W TYM absolutna różnica lub względna różnica:

PROCENTOWA (%)

WARTOŚĆ

LICZBA

ZNAMIENNOŚĆ

RÓŻNICA „T-K”

CV

ZWIERZĄT

NA POZIOMIE 0,05

20

20

2-7

NIE

20 20

8 TAK

20 15 5 TAK

25 20 5 PRAWIE TAK

30 20 5 TAK

25 15 5 TAK

PUNKT CIĘŻKOŚCI: ZMIENNA DECYDUJĄCA

W randomizowanym

badaniu nad skutecznością

treningu fizycznego w leczeniu POCHP po 2 miesiącach oceni się:

1)

Kliniczny stopień

duszności;

2)

Wartość

FEV1

;

3)

Wartość

PEFR;

4)

Wartość

MMEF25-75

;

5)

Objętość

plwociny dobowej;

6)

Częstość

napadów duszności;

7)

Itd

KTÓRA ZMIENNA MA DECYDOWAĆ

O SZACOWANIU N ?