Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Biomatematika (SZIE ÁOTK, 2011. tavasz) 1
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
A logit modell (=logisztikus regresszió)
Ha a függő változó (y ) dichotom (=két lehetséges értéke van, pl. túlélés-halál, siker-kudarc stb.), akkor általában azt feltételezzük, hogy a magyarázó változók az eredmény bekövetkezési valószínűségét befolyásolják, ezért inkább a
π = P(y bekövetkezik)
valószínűséget tekintjük függő változónak.
Példa: Függ-e a tanulásra fordított időtől annak valószínűsége, hogy sikerül a vizsga statisztikából? Függ-e attól is, hogy vizsga előtt iszunk kávét? Gyengét vagy erőset? Pozitív vagy negatív az összefüggés? Fellép-e interakció a magyarázó változók között?
A tanulásra fordított idő folytonos kovariáns, a kávéivás pedig faktor (3 szinttel: nem iszunk, gyengét iszunk, erőset iszunk).
Biomatematika (SZIE ÁOTK, 2011. tavasz) 2
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
A kínálkozó legegyszerűbb modell, a lineáris regresszió alkalmazhatatlan, mert a bekövetkezési valószínűség becsült értékei nem mindig fognak 0 és 1 közé esni.
A logit modell alapgondolata, hogy a valószínűség helyett egy olyan – a valószínűséggel egyenértékű – mérőszámot használunk, – az ún. logit-et – amelynek értékei nem korlátozódnak a [0, 1] tartományra.
π → O = π / (1- π) → l = ln( π / (1- π) ) valószínűség oddsz logit
Visszafelé:
l → O = exp(l) → π = exp(l) / (1+exp(l))
Biomatematika (SZIE ÁOTK, 2011. tavasz) 3
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
Valószínűség
0 0.5 1 (szinte) lehetetlen azonos eséllyel igen vagy nem (szinte) biztos
Oddsz
0 1 ∞ (szinte) lehetetlen azonos eséllyel igen vagy nem (szinte) biztos
Logit
–∞ 0 ∞ (szinte) lehetetlen azonos eséllyel igen vagy nem (szinte) biztos
Házi feladat: ellenőrizzék a számításokat!
0.75
3
1.098
0.2
0.25
–1.386
Ismétlés:
Biomatematika (SZIE ÁOTK, 2011. tavasz) 4
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
-5
-4
-3
-2
-1
0
1
2
3
4
5
0 0,5 1
probab.
logit
A logit transzformáció egyértelmű megfeleltetést teremt a [0, 1]
és a [–, +] tartományok között.
1ln)(logit
valószínűség logit
0 –
0.001 –6.907
0.01 –4.595
0.1 –2.197
0.25 –1.099
0.5 0
0.75 1.099
oddsz
Biomatematika (SZIE ÁOTK, 2011. tavasz) 5
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
A regressziós egyenlet
logit(π) = 0 + 1x1 + 2x2 + …, itt π = P(y bekövetkezik).
Az egyenletben az x-ek folytonosak vagy dichotomok. Dichotom magyarázó változó esetén az értékeket 0/1-gyel kódoljuk. A 0 lesz a „referencia-csoport”, az 1 a „vizsgált csoport” kódja.
Például ha az egyik magyarázó változó
„A beteg manduláját korábban eltávolították-e? 0-nem, 1-igen”
akkor a mandulaműtéten átesetteket hasonlítjuk a többiekhez, mint referenciacsoporthoz. A kapott regressziós együtthatóból kiolvashatjuk, hogy befolyásolja-e (és hogyan, mennyire) az y bekövetkezésének esélyét a mandula eltávolítása.
> 0: növeli, < 0: csökkenti, = 0: nem befolyásolja
Biomatematika (SZIE ÁOTK, 2011. tavasz) 6
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
„dummy változók”
Ha olyan kategóriás magyarázó változónk van, amelynek k > 2 kategóriája van, akkor abból (k –1) darab x-et készítünk.
Például ha a magyarázó változó
Milyen gyakran fogyaszt alkoholt?
(A) soha
(B) évente 1-2-szer
(C) havonta 1-2-szer
(D) hetente többször
akkor ebből három x-et képezünk:
és ezzel a (B), (C) és (D) csoportokat hasonlítjuk az (A)-hoz mint referenciacsoporthoz.
A kapott három regressziós együttható az y bekövetkezésének
esélyéről informál a (B), (C) és (D) csoportban az (A)-hoz képest!
válasz x1 x2 x3
A 0 0 0
B 1 0 0
C 0 1 0
D 0 0 1
Biomatematika (SZIE ÁOTK, 2011. tavasz) 7
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
átlagosan! (feltéve,
hogy mindig ugyanannyira)
Mit olvashatunk ki a regressziós együtthatókból?
A regressziós együtthatóból esélyhányadost (=odds ratio, OR ) számolhatunk amelynek jelentése
a) ha az x magyarázó változó folytonos (pl. testtömeg): az x egy egységgel való növekedése hányszorosára növeli az y bekövetkezésének oddszát
b) ha az x magyarázó változó dichotom a vizsgált csoportban az y bekövetkezésének oddsza hányszorosa a referenciacsoportbelinek
c) ha a magyarázó változó több mint 2 kategóriás a szóban forgó csoportban az y bekövetkezésének oddsza hányszorosa a referenciacsoportbelinek
eOR
Biomatematika (SZIE ÁOTK, 2011. tavasz) 8
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
Példa: Mondjuk, a tanulással töltött időhöz tartozó regressziós együttható becslése és a hozzá tartozó SE, illetve p-érték a következők:
b = 0.71, SE = 0.23, p = 0.002.
Ekkor az esélyhányados
OR = eb = 2.7180.71 = 2.03,
vagyis 1 nappal több tanulás az y bekövetkezésének (a sikeres vizsgának) az oddszát 2.03-szorosára növeli.
95%-os konfidenciaintervallum az oddsz növekedésére:
eb 1.96SE = 2. 7180.71 1.960.23 = (1.30, 3.19)
A p-érték pedig azt mondja, hogy a sikeres vizsga esélye függ a tanulással töltött időtől (szignifikáns, bizonyító erejű).
Biomatematika (SZIE ÁOTK, 2011. tavasz) 9
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
Példa: Mondjuk, a mandulaműtétre, mint magyarázó változóra az alábbi regressziós együtthatót kaptuk:
b = –0.73, SE = 0.31, p = 0.0112.
Ennek alapján
OR = eb = 2.718–0.73 = 0.48,
vagyis azoknál, akik korábban átestek mandulaműtéten, az y bekövetkezésének (pl. torokgyulladásnak) az oddsza kisebb (0.48-szorosa a referenciacsoportbelinek).
A p-érték alapján a különbség szignifikáns.
Konfidenciaintervallumot is adhatnánk, ugyanúgy, mint az előbb.
Biomatematika (SZIE ÁOTK, 2011. tavasz) 10
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
Példa: Mondjuk, a vizsga előtti kávéivásra az alábbi regressziós együtthatókat kaptuk:
bgyenge kávé = 0.31, SE = 0.15, p = 0.039, berős kávé = -0.43, SE = 0.33, p = 0.193,
Ezek alapján
OR gyenge kávé = 2.7180.31 = 1.36, OR erős kávé = 2.718-0.43 = 0.65,
vagyis egy gyenge kávé elfogyasztása a sikeres vizsga oddszát 1.36-szorosára növeli a kávét nem iváshoz képest. Az oddsz szignifikánsan nő, mert p < 0.05.
Az erős kávé 0.65-szeresre csökkenti az oddsz-t a kávét nem iváshoz képest. A p-érték 0.193, a csökkentés nem szignifikáns.
Biomatematika (SZIE ÁOTK, 2011. tavasz) 11
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
Ha két vizsgált csoport közötti esélyhányados érdekel, akkor azt így kaphatjuk:
)( ji bb
j
iji e
OR
OROR
Például az erős és gyenge kávét ivók csoportja között:
2.718(-0.43–0.31) = 2.718-0.74 = 0.48,
vagyis az erős kávét ivók esélye 48%-a a gyenge kávét ivók esélyének.
Ezek fiktív megállapítások, illusztrációk,
nem támasztja alá kísérlet!
Biomatematika (SZIE ÁOTK, 2011. tavasz) 12
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
Kitekintés: az általánosított lineáris modell
Láttuk, hogy a logisztikus regresszió a lineáris regresszióhoz képest abban különbözik, hogy a baloldalon nem maga az y, hanem egy függvénye, logit( P(y bekövetkezik) ) áll.
(Nem láttuk, de az is különbség, hogy az véletlen
komponensnek most nem normális eloszlásúnak kell lennie, hanem másmilyennek.)
A jobboldal egyébként ugyanaz, az x -ek egy lineáris kifejezése.
Az általánosított lineáris modellben megválaszthatjuk, hogy
az y helyett mely függvényét használjuk (pl. logit, probit, log),
az milyen eloszlású (pl. binomiális, Poisson stb).
„link függvény” R-ben: family
Biomatematika (SZIE ÁOTK, 2011. tavasz) 13
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
A logisztikus regressziós modellezés menete azonos a lineáris regressziós modellezésével.
Főbb különbségek:
A modell illesztése nem a legkisebb négyzetek módszerével, hanem a maximum likelihood módszerrel történik. Ennek
lényege, hogy olyan modellt illesztünk, melynek
valószínűsége – az ún. likelihood – a megfigyelt adatok (a
minta) mellett a lehető legnagyobb.
A magyarázó erő számszerűsítésére az R2 helyett más mérőszámokat használnak (az R2 interpretációja problémás).
A modell diagnosztikája bonyolult, rendszerint statisztikussal való konzultációt igényel.
Bánjunk takarékosan a magyarázó változókkal! Ha sok irreleváns
változót teszünk a modellbe, nem sok jóra számíthatunk!
Biomatematika (SZIE ÁOTK, 2011. tavasz) 14
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
Példa: Egérembriók fejlődése során a blastocysta állapot elérésének valószínűségét vizsgálták in vitro körülmények között. Összesen 94 embrió szerepelt a kísérletben. A magyarázó változók az egycellástól a kétcellás állapotig tartó idő, a kétcellástól a háromcellásig tartó idő, valamint az, hogy az embrió időközben fragmentálódott-e (károsodott-e).
Logisztikus regresszióval modellezzük a blastocysta állapot elérésének valószínűségét. Minden embrióra feljegyezzük:
elérte-e a blastocysta állapotot (blastocyst: 1, ha elérte, 0, ha nem – dichotom vagy más néven dummy változó),
a kétcellás állapotig tartó időt (time2C, folytonos),
a kétcellástól a háromcellásig tartó időt (D3C2C, folytonos),
fragmentálódott-e (fragmented: 1, ha igen, 0, ha nem, dichotom).
Biomatematika (SZIE ÁOTK, 2011. tavasz) 15
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
A célváltozó a blastocyst, folytonos kovariánsok a time2C és a
D3C2C magyarázó változók, fragmented pedig kétszintű faktor (amit azonban rögtön dummy változó formájúra írtunk át).
Az adatokat táblázatba rendeztük, melyben minden embriónak egy sor és minden változónak egy oszlop felel meg:
embryo id time2C D3C2C fragmented blastocyst
1 1556 1254 0 1
2 1355 1164 0 1
3 1436 1605 0 0
4 1355 1295 0 1
5 1496 1705 0 0
6 1536 1374 1 0
7 1294 1221 1 1
8 1424 1302 0 1
… … … … …
Biomatematika (SZIE ÁOTK, 2011. tavasz) 16
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
A regressziós egyenlet
logit( P(blastocyst=1) ) = 0 + 1 time2C + 2 D3C2C + 3 fragmented
Valójában két regressziós egyenletről van szó, ugyanúgy, mint az ANCOVA modellnél (vö. 11. előadás):
logit( P(blastocyst=1) ) = 0 + 3 0 + 1 time2C + 2 D3C2C
a nem fragmentálódott embriókra,
logit( P(blastocyst=1) ) = 0 + 3 + 1 time2C + 2 D3C2C
a fragmentálódottakra.
Az egyenlet skálája logaritmusos, ezért a blastocysta oddsza
exp(3)-szeres a fragmentálódott embriókra a nem
fragmentálódottakhoz képest. (Azt gondoljuk, hogy az oddsz csökken, ezért 3 –ra negatív értéket várunk.)
Biomatematika (SZIE ÁOTK, 2011. tavasz) 17
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
Vizsgáljuk meg a kapcsolatot először grafikusan!
Graphs >> XY conditioning plot
Minél rövidebb a 2C-ig, illetve a 2C-től a 3C-ig terjedő időszak, annál nagyobb a blastocysta valószínűsége.
A fragmentálódás csökkenti a valószínűséget, bár ezt nehéz a grafikonról megítélni, mert kevés a fragmentálódott embrió.
time2C
D3
C2
C
1200
1400
1600
1800
2000
2200
1100 1200 1300 1400 1500 1600
nem fragmentálódott
1100 1200 1300 1400 1500 1600
fragmentálódott
nem érte elelérte
Biomatematika (SZIE ÁOTK, 2011. tavasz) 18
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
A modell illesztéséhez válasszuk a Statistics >> Fit models >> Generalized linear model funkciót. A párbeszéd-panelt az alábbi módon állítsuk be:
Biomatematika (SZIE ÁOTK, 2011. tavasz) 19
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
Az eredmény:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 60.752853 16.139927 3.764 0.000167 ***
time2C -0.022677 0.007294 -3.109 0.001878 **
D3C2C -0.018798 0.004987 -3.769 0.000164 ***
fragmented -3.413947 1.281424 -2.664 0.007718 **
Amit kaptunk, formailag pontosan ugyanolyan, mint az ANCOVA vagy a lineáris regresszió eredménytáblája. A
különbség az értelmezésben van.
Ha a 2C állapot eléréséig tartó idő (time2C) egy perccel több, akkor a blastocysta állapot elérésének oddsza exp(-0.022677)≈0.978-szeresére változik. Reálisabb és könnyebben elképzelhető, ha a 10 perccel több idő hatását számítjuk ki: ekkor az oddsz exp(10(-0.022677))≈0.80-szoros. A csökkenés szignifikáns, p=0.001878.
Biomatematika (SZIE ÁOTK, 2011. tavasz) 20
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
Ha a 2C-től 3C-ig tartó idő (D3C2C) 10 perccel megnő – miközben a többi magyarázó változó ugyanaz marad –, akkor a blastocysta állapot elérésének oddsza exp(-0.18798)≈0.83-szorosára csökken.
Ha az embrió a fejlődése közben fragmentálódik, akkor a blastocysta állapot elérésének oddsza drasztikusan, exp(-3.413947)≈0.03-szeresére csökken. Vegyük azért figyelembe,
hogy a standard hiba nagy, a csökkenés 95%-os
konfidenciaintervalluma exp(-3.41 ± 1.961.28)≈[0.003, 0.41].
Ezért, bár a csökkenés szignifikáns, elképzelhető, hogy populációs mértéke csak 0.41-szeres.
Az általánosított lineáris modellek diagnosztizálása jóval nehezebb, mint a lineáris regresszió – ANOVA – ANCOVA modelleké. Az R lehetőséget ad ugyan a grafikus modellvizsgálatra, de ez inkább csak a kiugró értékek, torzító pontok kiszűrésére elegendő.
Biomatematika (SZIE ÁOTK, 2011. tavasz) 21
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
A menüből válasszuk a Models >> Graphs >> Basic diagnostic plots funkciót:
A reziduumok szórása nem kell, hogy homogén legyen, eloszlása sem szükségképpen normális.
Néhány kiugró érték előfordul a bal felső reziduumplot-on. A jobb alsó ábráról látszik, hogy ezek nem torzító pontok.
-20 -15 -10 -5 0 5 10
-20
2
Predicted values
Resid
uals
Residuals vs Fitted
59
17
15
-2 -1 0 1 2
-20
2Theoretical Quantiles
Std
. devia
nce r
esid
.
Normal Q-Q
59
17
15
-20 -15 -10 -5 0 5 10
0.0
1.0
Predicted values
Std
. devi
ance r
esid
.
Scale-Location5917
15
0.00 0.10 0.20 0.30
-40
24
Leverage
Std
. P
ears
on r
esid
.
Cook's distance10.5
0.51
Residuals vs Leverage
93
15
17
glm(blastocysta ~ time2C + D3C2C + fragmented)
Biomatematika (SZIE ÁOTK, 2011. tavasz) 22
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
Van azonban egy egyszerű módszer, amivel könnyen vizsgálható a logisztikus regresszió illeszkedése.
Csoportosítsuk a 2C-ig és a 2C-3C-ig tartó időszakokat mondjuk 300 percenként, adjuk össze a csoportokban megfigyelt blastocystás embriók számát (megfigyelt gyakoriság) és a blastocysta modell szerinti valószínűségeit (várt gyakoriság). Ha e két érték minden csoportban jó egyezést mutat, akkor a modell jól illeszkedik az adatokhoz.
Illesztett valószínűségek: > embryo$expected = fitted(glmMod)
Csoportosítás:
> embryo$Bintime2C = with(embryo, round(time2C/300)*300)
> embryo$BinD3C2C = with(embryo, round(D3C2C/300)*300)
Biomatematika (SZIE ÁOTK, 2011. tavasz) 23
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
Összegzés, megfigyelt és várt gyakoriságok:
> aggregate(embryo[,c("blastocyst","expected")],
by=list(Bintime2C=embryo$Bintime2C, BinD3C2C=embryo$BinD3C2C,
fragmented=embryo$fragmented), function(x) round(sum(x),2))
Bintime2C BinD3C2C fragmented blastocyst expected
1 1200 1200 0 16 15.99
2 1500 1200 0 24 24.52
3 1200 1500 0 8 7.61
4 1500 1500 0 14 14.40
5 1200 1800 0 0 0.34
6 1500 1800 0 1 0.15
7 1200 2100 0 0 0.00
8 1200 1200 1 1 1.00
9 1500 1200 1 1 1.01
10 1200 1500 1 4 3.98
11 1500 1500 1 0 0.01
12 1500 2100 1 0 0.00
Az
illeszkedés
minden
csoportban
jó!
Biomatematika (SZIE ÁOTK, 2011. tavasz) 24
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
Érdemes a magyarázó változók szóródási diagramján ábrázolni a blastocysta valószínűségének szintvonalait –
ezek egyenesek lesznek, ami kifejezi a modell lineáris jellegét – library(graphics); contour(...):
Biomatematika (SZIE ÁOTK, 2011. tavasz) 25
13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt
A statisztika megalapozója, tudománnyá szervezője, a kurzus során tanultak nagy részének felfedezője Sir Ronald Aymler Fisher angol statisztikus, matematikus és biológus volt (1890-1962).