A logit modell (=logisztikus regresszió)202011%20(13%20logisztikus%20regresszi%f3).p… · Biomatematika (SZIE ÁOTK, 2011. tavasz) 2 13. előadás (május 17.) Reiczigel Jenő,

Biomatematika (SZIE ÁOTK, 2011. tavasz) 1

13. előadás (május 17.) Reiczigel Jenő, Lang Zsolt

A logit modell (=logisztikus regresszió)

Ha a függő változó (y ) dichotom (=két lehetséges értéke van, pl. túlélés-halál, siker-kudarc stb.), akkor általában azt feltételezzük, hogy a magyarázó változók az eredmény bekövetkezési valószínűségét befolyásolják, ezért inkább a

π = P(y bekövetkezik)

valószínűséget tekintjük függő változónak.

Példa: Függ-e a tanulásra fordított időtől annak valószínűsége, hogy sikerül a vizsga statisztikából? Függ-e attól is, hogy vizsga előtt iszunk kávét? Gyengét vagy erőset? Pozitív vagy negatív az összefüggés? Fellép-e interakció a magyarázó változók között?

A tanulásra fordított idő folytonos kovariáns, a kávéivás pedig faktor (3 szinttel: nem iszunk, gyengét iszunk, erőset iszunk).



A kínálkozó legegyszerűbb modell, a lineáris regresszió alkalmazhatatlan, mert a bekövetkezési valószínűség becsült értékei nem mindig fognak 0 és 1 közé esni.

A logit modell alapgondolata, hogy a valószínűség helyett egy olyan – a valószínűséggel egyenértékű – mérőszámot használunk, – az ún. logit-et – amelynek értékei nem korlátozódnak a [0, 1] tartományra.

π → O = π / (1- π) → l = ln( π / (1- π) ) valószínűség oddsz logit

Visszafelé:

l → O = exp(l) → π = exp(l) / (1+exp(l))



Valószínűség

0 0.5 1 (szinte) lehetetlen azonos eséllyel igen vagy nem (szinte) biztos

Oddsz

0 1 ∞ (szinte) lehetetlen azonos eséllyel igen vagy nem (szinte) biztos

Logit

–∞ 0 ∞ (szinte) lehetetlen azonos eséllyel igen vagy nem (szinte) biztos

Házi feladat: ellenőrizzék a számításokat!

0.75

3

1.098

0.2

0.25

–1.386

Ismétlés:



-5

-4

-3

-2

-1

0

1

2

3

4

5

0 0,5 1

probab.

logit

A logit transzformáció egyértelmű megfeleltetést teremt a [0, 1]

és a [–, +] tartományok között.

1ln)(logit

valószínűség logit

0 –

0.001 –6.907

0.01 –4.595

0.1 –2.197

0.25 –1.099

0.5 0

0.75 1.099

oddsz



A regressziós egyenlet

logit(π) = 0 + 1x1 + 2x2 + …, itt π = P(y bekövetkezik).

Az egyenletben az x-ek folytonosak vagy dichotomok. Dichotom magyarázó változó esetén az értékeket 0/1-gyel kódoljuk. A 0 lesz a „referencia-csoport”, az 1 a „vizsgált csoport” kódja.

Például ha az egyik magyarázó változó

„A beteg manduláját korábban eltávolították-e? 0-nem, 1-igen”

akkor a mandulaműtéten átesetteket hasonlítjuk a többiekhez, mint referenciacsoporthoz. A kapott regressziós együtthatóból kiolvashatjuk, hogy befolyásolja-e (és hogyan, mennyire) az y bekövetkezésének esélyét a mandula eltávolítása.

> 0: növeli, < 0: csökkenti, = 0: nem befolyásolja



„dummy változók”

Ha olyan kategóriás magyarázó változónk van, amelynek k > 2 kategóriája van, akkor abból (k –1) darab x-et készítünk.

Például ha a magyarázó változó

Milyen gyakran fogyaszt alkoholt?

(A) soha

(B) évente 1-2-szer

(C) havonta 1-2-szer

(D) hetente többször

akkor ebből három x-et képezünk:

és ezzel a (B), (C) és (D) csoportokat hasonlítjuk az (A)-hoz mint referenciacsoporthoz.

A kapott három regressziós együttható az y bekövetkezésének

esélyéről informál a (B), (C) és (D) csoportban az (A)-hoz képest!

válasz x1 x2 x3

A 0 0 0

B 1 0 0

C 0 1 0

D 0 0 1



átlagosan! (feltéve,

hogy mindig ugyanannyira)

Mit olvashatunk ki a regressziós együtthatókból?

A regressziós együtthatóból esélyhányadost (=odds ratio, OR ) számolhatunk amelynek jelentése

a) ha az x magyarázó változó folytonos (pl. testtömeg): az x egy egységgel való növekedése hányszorosára növeli az y bekövetkezésének oddszát

b) ha az x magyarázó változó dichotom a vizsgált csoportban az y bekövetkezésének oddsza hányszorosa a referenciacsoportbelinek

c) ha a magyarázó változó több mint 2 kategóriás a szóban forgó csoportban az y bekövetkezésének oddsza hányszorosa a referenciacsoportbelinek

eOR



Példa: Mondjuk, a tanulással töltött időhöz tartozó regressziós együttható becslése és a hozzá tartozó SE, illetve p-érték a következők:

b = 0.71, SE = 0.23, p = 0.002.

Ekkor az esélyhányados

OR = eb = 2.7180.71 = 2.03,

vagyis 1 nappal több tanulás az y bekövetkezésének (a sikeres vizsgának) az oddszát 2.03-szorosára növeli.

95%-os konfidenciaintervallum az oddsz növekedésére:

eb 1.96SE = 2. 7180.71 1.960.23 = (1.30, 3.19)

A p-érték pedig azt mondja, hogy a sikeres vizsga esélye függ a tanulással töltött időtől (szignifikáns, bizonyító erejű).



Példa: Mondjuk, a mandulaműtétre, mint magyarázó változóra az alábbi regressziós együtthatót kaptuk:

b = –0.73, SE = 0.31, p = 0.0112.

Ennek alapján

OR = eb = 2.718–0.73 = 0.48,

vagyis azoknál, akik korábban átestek mandulaműtéten, az y bekövetkezésének (pl. torokgyulladásnak) az oddsza kisebb (0.48-szorosa a referenciacsoportbelinek).

A p-érték alapján a különbség szignifikáns.

Konfidenciaintervallumot is adhatnánk, ugyanúgy, mint az előbb.



Példa: Mondjuk, a vizsga előtti kávéivásra az alábbi regressziós együtthatókat kaptuk:

bgyenge kávé = 0.31, SE = 0.15, p = 0.039, berős kávé = -0.43, SE = 0.33, p = 0.193,

Ezek alapján

OR gyenge kávé = 2.7180.31 = 1.36, OR erős kávé = 2.718-0.43 = 0.65,

vagyis egy gyenge kávé elfogyasztása a sikeres vizsga oddszát 1.36-szorosára növeli a kávét nem iváshoz képest. Az oddsz szignifikánsan nő, mert p < 0.05.

Az erős kávé 0.65-szeresre csökkenti az oddsz-t a kávét nem iváshoz képest. A p-érték 0.193, a csökkentés nem szignifikáns.



Ha két vizsgált csoport közötti esélyhányados érdekel, akkor azt így kaphatjuk:

)( ji bb

j

iji e

OR

OROR

Például az erős és gyenge kávét ivók csoportja között:

2.718(-0.43–0.31) = 2.718-0.74 = 0.48,

vagyis az erős kávét ivók esélye 48%-a a gyenge kávét ivók esélyének.

Ezek fiktív megállapítások, illusztrációk,

nem támasztja alá kísérlet!



Kitekintés: az általánosított lineáris modell

Láttuk, hogy a logisztikus regresszió a lineáris regresszióhoz képest abban különbözik, hogy a baloldalon nem maga az y, hanem egy függvénye, logit( P(y bekövetkezik) ) áll.

(Nem láttuk, de az is különbség, hogy az véletlen

komponensnek most nem normális eloszlásúnak kell lennie, hanem másmilyennek.)

A jobboldal egyébként ugyanaz, az x -ek egy lineáris kifejezése.

Az általánosított lineáris modellben megválaszthatjuk, hogy

az y helyett mely függvényét használjuk (pl. logit, probit, log),

az milyen eloszlású (pl. binomiális, Poisson stb).

„link függvény” R-ben: family



A logisztikus regressziós modellezés menete azonos a lineáris regressziós modellezésével.

Főbb különbségek:

A modell illesztése nem a legkisebb négyzetek módszerével, hanem a maximum likelihood módszerrel történik. Ennek

lényege, hogy olyan modellt illesztünk, melynek

valószínűsége – az ún. likelihood – a megfigyelt adatok (a

minta) mellett a lehető legnagyobb.

A magyarázó erő számszerűsítésére az R2 helyett más mérőszámokat használnak (az R2 interpretációja problémás).

A modell diagnosztikája bonyolult, rendszerint statisztikussal való konzultációt igényel.

Bánjunk takarékosan a magyarázó változókkal! Ha sok irreleváns

változót teszünk a modellbe, nem sok jóra számíthatunk!



Példa: Egérembriók fejlődése során a blastocysta állapot elérésének valószínűségét vizsgálták in vitro körülmények között. Összesen 94 embrió szerepelt a kísérletben. A magyarázó változók az egycellástól a kétcellás állapotig tartó idő, a kétcellástól a háromcellásig tartó idő, valamint az, hogy az embrió időközben fragmentálódott-e (károsodott-e).

Logisztikus regresszióval modellezzük a blastocysta állapot elérésének valószínűségét. Minden embrióra feljegyezzük:

elérte-e a blastocysta állapotot (blastocyst: 1, ha elérte, 0, ha nem – dichotom vagy más néven dummy változó),

a kétcellás állapotig tartó időt (time2C, folytonos),

a kétcellástól a háromcellásig tartó időt (D3C2C, folytonos),

fragmentálódott-e (fragmented: 1, ha igen, 0, ha nem, dichotom).



A célváltozó a blastocyst, folytonos kovariánsok a time2C és a

D3C2C magyarázó változók, fragmented pedig kétszintű faktor (amit azonban rögtön dummy változó formájúra írtunk át).

Az adatokat táblázatba rendeztük, melyben minden embriónak egy sor és minden változónak egy oszlop felel meg:

embryo id time2C D3C2C fragmented blastocyst

1 1556 1254 0 1

2 1355 1164 0 1

3 1436 1605 0 0

4 1355 1295 0 1

5 1496 1705 0 0

6 1536 1374 1 0

7 1294 1221 1 1

8 1424 1302 0 1

… … … … …



A regressziós egyenlet

logit( P(blastocyst=1) ) = 0 + 1 time2C + 2 D3C2C + 3 fragmented

Valójában két regressziós egyenletről van szó, ugyanúgy, mint az ANCOVA modellnél (vö. 11. előadás):

logit( P(blastocyst=1) ) = 0 + 3 0 + 1 time2C + 2 D3C2C

a nem fragmentálódott embriókra,

logit( P(blastocyst=1) ) = 0 + 3 + 1 time2C + 2 D3C2C

a fragmentálódottakra.

Az egyenlet skálája logaritmusos, ezért a blastocysta oddsza

exp(3)-szeres a fragmentálódott embriókra a nem

fragmentálódottakhoz képest. (Azt gondoljuk, hogy az oddsz csökken, ezért 3 –ra negatív értéket várunk.)



Vizsgáljuk meg a kapcsolatot először grafikusan!

Graphs >> XY conditioning plot

Minél rövidebb a 2C-ig, illetve a 2C-től a 3C-ig terjedő időszak, annál nagyobb a blastocysta valószínűsége.

A fragmentálódás csökkenti a valószínűséget, bár ezt nehéz a grafikonról megítélni, mert kevés a fragmentálódott embrió.

time2C

D3

C2

C

1200

1400

1600

1800

2000

2200

1100 1200 1300 1400 1500 1600

nem fragmentálódott

1100 1200 1300 1400 1500 1600

fragmentálódott

nem érte elelérte



A modell illesztéséhez válasszuk a Statistics >> Fit models >> Generalized linear model funkciót. A párbeszéd-panelt az alábbi módon állítsuk be:



Az eredmény:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 60.752853 16.139927 3.764 0.000167 ***

time2C -0.022677 0.007294 -3.109 0.001878 **

D3C2C -0.018798 0.004987 -3.769 0.000164 ***

fragmented -3.413947 1.281424 -2.664 0.007718 **

Amit kaptunk, formailag pontosan ugyanolyan, mint az ANCOVA vagy a lineáris regresszió eredménytáblája. A

különbség az értelmezésben van.

Ha a 2C állapot eléréséig tartó idő (time2C) egy perccel több, akkor a blastocysta állapot elérésének oddsza exp(-0.022677)≈0.978-szeresére változik. Reálisabb és könnyebben elképzelhető, ha a 10 perccel több idő hatását számítjuk ki: ekkor az oddsz exp(10(-0.022677))≈0.80-szoros. A csökkenés szignifikáns, p=0.001878.



Ha a 2C-től 3C-ig tartó idő (D3C2C) 10 perccel megnő – miközben a többi magyarázó változó ugyanaz marad –, akkor a blastocysta állapot elérésének oddsza exp(-0.18798)≈0.83-szorosára csökken.

Ha az embrió a fejlődése közben fragmentálódik, akkor a blastocysta állapot elérésének oddsza drasztikusan, exp(-3.413947)≈0.03-szeresére csökken. Vegyük azért figyelembe,

hogy a standard hiba nagy, a csökkenés 95%-os

konfidenciaintervalluma exp(-3.41 ± 1.961.28)≈[0.003, 0.41].

Ezért, bár a csökkenés szignifikáns, elképzelhető, hogy populációs mértéke csak 0.41-szeres.

Az általánosított lineáris modellek diagnosztizálása jóval nehezebb, mint a lineáris regresszió – ANOVA – ANCOVA modelleké. Az R lehetőséget ad ugyan a grafikus modellvizsgálatra, de ez inkább csak a kiugró értékek, torzító pontok kiszűrésére elegendő.



A menüből válasszuk a Models >> Graphs >> Basic diagnostic plots funkciót:

A reziduumok szórása nem kell, hogy homogén legyen, eloszlása sem szükségképpen normális.

Néhány kiugró érték előfordul a bal felső reziduumplot-on. A jobb alsó ábráról látszik, hogy ezek nem torzító pontok.

-20 -15 -10 -5 0 5 10

-20

2

Predicted values

Resid

uals

Residuals vs Fitted

59

17

15

-2 -1 0 1 2

-20

2Theoretical Quantiles

Std

. devia

nce r

esid

.

Normal Q-Q

59

17

15

-20 -15 -10 -5 0 5 10

0.0

1.0

Predicted values

Std

. devi

ance r

esid

.

Scale-Location5917

15

0.00 0.10 0.20 0.30

-40

24

Leverage

Std

. P

ears

on r

esid

.

Cook's distance10.5

0.51

Residuals vs Leverage

93

15

17

glm(blastocysta ~ time2C + D3C2C + fragmented)



Van azonban egy egyszerű módszer, amivel könnyen vizsgálható a logisztikus regresszió illeszkedése.

Csoportosítsuk a 2C-ig és a 2C-3C-ig tartó időszakokat mondjuk 300 percenként, adjuk össze a csoportokban megfigyelt blastocystás embriók számát (megfigyelt gyakoriság) és a blastocysta modell szerinti valószínűségeit (várt gyakoriság). Ha e két érték minden csoportban jó egyezést mutat, akkor a modell jól illeszkedik az adatokhoz.

Illesztett valószínűségek: > embryo$expected = fitted(glmMod)

Csoportosítás:

> embryo$Bintime2C = with(embryo, round(time2C/300)*300)

> embryo$BinD3C2C = with(embryo, round(D3C2C/300)*300)



Összegzés, megfigyelt és várt gyakoriságok:

> aggregate(embryo[,c("blastocyst","expected")],

by=list(Bintime2C=embryo$Bintime2C, BinD3C2C=embryo$BinD3C2C,

fragmented=embryo$fragmented), function(x) round(sum(x),2))

Bintime2C BinD3C2C fragmented blastocyst expected

1 1200 1200 0 16 15.99

2 1500 1200 0 24 24.52

3 1200 1500 0 8 7.61

4 1500 1500 0 14 14.40

5 1200 1800 0 0 0.34

6 1500 1800 0 1 0.15

7 1200 2100 0 0 0.00

8 1200 1200 1 1 1.00

9 1500 1200 1 1 1.01

10 1200 1500 1 4 3.98

11 1500 1500 1 0 0.01

12 1500 2100 1 0 0.00

Az

illeszkedés

minden

csoportban

jó!



Érdemes a magyarázó változók szóródási diagramján ábrázolni a blastocysta valószínűségének szintvonalait –

ezek egyenesek lesznek, ami kifejezi a modell lineáris jellegét – library(graphics); contour(...):



A statisztika megalapozója, tudománnyá szervezője, a kurzus során tanultak nagy részének felfedezője Sir Ronald Aymler Fisher angol statisztikus, matematikus és biológus volt (1890-1962).

Documents

A logit modell (=logisztikus regresszió)202011%20(13%20logisztikus%20regresszi%f3).p… · Biomatematika (SZIE ÁOTK, 2011. tavasz) 2 13. előadás (május 17.) Reiczigel Jenő,