REGRESSZIÓS SZÁMÍTÁSOK II

Preview:

DESCRIPTION

REGRESSZIÓS SZÁMÍTÁSOK II. LOGISZTIKUS REGRESSZIÓ. LOGISZTIKUS REGRESSZIÓ. - PowerPoint PPT Presentation

Citation preview

REGRESSZIÓS SZÁMÍTÁSOK II

LOGISZTIKUS REGRESSZIÓ

LOGISZTIKUS REGRESSZIÓ

A lineáris és a logisztikus regresszió kérdésfeltevése hasonló, számítási módjuk azonban egészen más. A logisztikus regresszió nem a legkisebb négyzetek elve szerint dolgozik, hanem egy, a valószínűségi eloszláson alapuló számítást hajt végre. A végeredmény az esély-arány, azaz az odds ratio (OR). Ez – mint neve is mutatja – két esély (odds) aránya. Az esélyt külön-külön kiszámítja a program akkor, ha egy bizonyos feltétel fennáll, illetve nem áll fenn, és a két esély arányát adja meg részünkre. A változó, amely az y tengelyre kerül (függő változó) bináris (igen/nem). A program nem magukkal az OR-ekkel, hanem ezek természetes logaritmusaival (lnOR) dolgozik, amiket a legtöbb program B-nek nevez. A program megadja a B értékeket, ezek SEM-jét, egy ún. közti (Wald) statisztikát, végül az OR-t és ennek 95%-os konfidencia intervallumát. (Utóbbit sokszor külön kell kérnünk). Folyamatos változóknál alapesetben egy SD változás hatását mutatja meg az OR, tehát azt, hogy ha az x tengelyre mért (független), folyamatos változó egy S.D. egységet nő, akkor az hányszorosára növeli (vagy esetleg csökkenti) a bináris függő változó bekövetkezésének (y=1) valószínűségét a be nem következésével (y=0) szemben.

A testtömegindex (BMI), mint az ischemiás szívbetegség (ISZB) rizikófaktora cukorbetegekben. Számítás logisztikus

regresszió módszerével. Változó B SEM Wald df p-érték R

BMI 0,0796 0,0274 8,4703 1 0,0036 0,1487

Konstans

-2,9343 0,7845 13,9890

1 0,0002

A BMI anti-ln(B)-je (esélyaránya, odds ratio, OR)

OR Az OR 95%-os CI-je

1,0829 1,0263-1,1425

A testtömeg index egy SD-vel) való növekedése 1,08-szorosára növeli az ISZB kockázatot. A BMI egy SD-je 5,28, tehát ha pl. egy normál 25 testtömeg-indexű és egy kissé elhízott 30,28 testtömeg indexű beteget hasonlítunk össze, akkor az utóbbi betegnek 1,08-szor magasabb az ISZB kockázata

A szérum HDL-koleszterin szint, mint az ischemiás szívbetegség (ISZB) védőfaktora cukorbetegekben. Számítás logisztikus regresszió

módszerével.Változó B SEM Wald df p-érték R

HDL -1,0140 0,3855 6,9169 1 0,0085 -0,1294

Konstans 0,5003 0,4736 1,1149 1 0,2910

A HDL anti-ln(B)-je (esélyaránya, odds ratio, OR)

OR Az OR 95%-os CI-je

0,3628 0,1704-0,7723

A HDL-koleszterin szint 1 SD-vel (0,40 mmol/l-rel) való csökkenése az ISZB kockázatot kb. az egyharmadára (OR: 0,3628) csökkenti le.

Szabó

Gábor, 2005.

Logisztikus regresszió 1.• binomiális vagy kétváltozós (bináris)

logisztikus regresszió

• Analyze Regression Binary Logistic …

• akkor használjuk, ha a célváltozónk dichotóm(pl. igen/nem)

• a próba megmutatja, hogy a bemeneti változók közül melyiknek van szignifikáns hatása

• ha a hatás szignifikáns, az esélyhányados /Exp(B)/ megmutatja, hogy a dichotóm célváltozó egyik értékének mennyivel nagyobb a valószínűsége

Szabó

Gábor, 2005.

Logisztikus regresszió 2.• alkalmas a próba a közvetett hatások

kimutatására is

• ha egy változó szignifikáns hatása eltűnik egy újabb változó bevonásával, ott közvetett hatásra gyanakodhatunk

sikeresen vizsgázott? (igen/nem)

szemüveges-e

Szign.:0,04; Exp(B)=2,0

sikeresen vizsgázott? (igen/nem)

szemüveges-e

Szign.:0,25; Exp(B)=1,2

hány könyvet olvas évente

Szign.:0,03; Exp(B)=1,8

Bináris logisztikus regresszió• AZ Y ESEMÉNY BEKÖVETKEZÉSÉNEK ESÉLYE• A vizsgált Y esemény lehet pl.

a szívinfarktus (bekövetkezett vagy nem következett be), transzplantáció eredménye (a beültetett szerv kilökődött vagy nem lökődött ki) a tüdőrák megfigyelésének az eredménye egy prospektív vizsgálat során (kialakult a megfigyelt egyéneknél a tüdőrák vagy sem). Ilyen esetekben – az xi független változók egyaránt tartalmazhatnak folytonos és nominális adatokat –, az Y esemény bekövetkezési valószínűségét logisztikus regresszióval becsüljük. Az eljárás nagyon hasonlít a korábban megismert lineáris regresszióhoz

Logisztikus regresszió (folyt)

• A logisztikus regreszió használata előtt az y függő változót binárissá kell kódolni (0= az esemény nem következett be, 1= az esemény bekövetkezett). A számítógépes programok a regressziós koefficiensek mellett (a, bi) az OR értékeket és azok 95%-os konfidenciaintervallumát is meghatározzák.

• A számítási eljárás bonyolultabb mint a lineáris regressziónál. Általában az iteratív maximum likelihood módszert használják a számítógépes programok.

• A logisztikus regresszió alkalmazásánál vegyük figyelembe a következőket:

• az egyéneket egymástól függetlenül, random módon válasszuk a mintába legalább 5 - 10 esemény jusson mindegyik vizsgált prediktor változóra.

A logisztikus reakció „lelke” az adatok binárissá tétele

• A már eleve bináris adatok közül az informatívak kiválasztása

• A folyamatos adatok binárissá való átváltoztatása úgy, hogy a létrejövő két csoport biológiailag/orvosilag is különbözzön egymástól

1. példa: HANO (herediter angioneurotikus oedema) genetikája

Összefüggést találtunk

• A) a XII faktor gén egy polimorfizmusa és az első tünetek jelentkezésének időpontja (év) között

• B) A bradykinin receptor gén és az évi tünet előfordulás között

P=0,002

CC CT TT

P=0,018

Tovább a logisztikus regresszió felé

• Mind a tünetkezdeti életkor, mind pedig az évi rohamszám folyamatos változó

• Ahhoz, hogy maghatározhassuk, milyen mértékű változást idéz elő a vizsgált értékekben a két genetikai polimorfizmus, ezeket binárissá kell tenni. A legtöbbször erre a célra használt felosztás: a mediánon alapszik 1. csop. medián alatti, 2. csop medián vagy medián feletti értékeket mutató betegek

Percentiles

,0000 ,5000 1,0625 5,2500 13,5625 23,2500 29,5000

2,0000 3,0000 5,0000 10,0000 18,7500 22,0000 30,7500

1,1250 5,2500 13,3750

5,0000 10,0000 18,5000

összr4

tunkezd

összr4

tunkezd

WeightedAverage(Definition 1)

Tukey's Hinges

5 10 25 50 75 90 95

Percentiles

Factor 12

F12 C/T or T/T (F12 -) F12 CC (F12 +)0

10

20

30

40

50

p=0.005

(n=41) (n=73)

nu

mb

er

of

pa

tie

nts

<= 10 éves >10 éves

Variables in the Equation

1,131 ,408 7,690 1 ,006 3,099 1,393 6,895

-,657 ,329 3,977 1 ,046 ,519

f12rev

Constant

Step1

a

B S.E. Wald df Sig. Exp(B) Lower Upper

95,0% C.I.for EXP(B)

Variable(s) entered on step 1: f12rev.a.

Bradykinin receptor (BR) polymorphism

Ins/Ins Ins/Del vagy Del/Del0

5

10

15

20

25

30

35

40

45p=0.042 <5,5

>=5,5

roham/év

bet

egek

szá

ma

Variables in the Equation

1,484 ,852 3,037 1 ,081 4,412 ,831 23,422

-1,609 ,775 4,317 1 ,038 ,200

brrev

Constant

Step1

a

B S.E. Wald df Sig. Exp(B) Lower Upper

95,0% C.I.for EXP(B)

Variable(s) entered on step 1: brrev.a.

Életkor és BMI összefüggése

25 50 751.0×1013

1.5×1013

2.0×1013

2.5×1013

3.0×1013

3.5×1013

4.0×1013

4.5×1013

5.0×1013

gyengepozitív korreláció

Kor

BM

I

Dichotomizálás

• Nézzük most meg, hogy ha az idős kor határát 50 évben, ill. 60 évben határozzuk meg, akkor az így létrejövő 2-2 csoportban mennyire különbözik majd a BMI?

• A BMI-t a medián szerint dichotomizáljuk: alacsony: medián (27) vagy ennél kevesebb, magas: 27-nél több

P=0,026

P=0,012

Variables in the Equation

,634 ,285 4,956 1 ,026 1,885 1,079 3,295

-,350 ,234 2,230 1 ,135 ,705

kor50hil

Constant

Step1

a

B S.E. Wald df Sig. Exp(B) Lower Upper

95,0% C.I.for EXP(B)

Variable(s) entered on step 1: kor50hil.a.

Variables in the Equation

,540 ,269 4,033 1 ,045 1,717 1,013 2,909

-,152 ,175 ,756 1 ,385 ,859

kor60hil

Constant

Step1

a

B S.E. Wald df Sig. Exp(B) Lower Upper

95,0% C.I.for EXP(B)

Variable(s) entered on step 1: kor60hil.a.

Logistic regression (1)Table 2 Age and signs of coronary heart disease (CD)

How can we analyse these data?

• Compare mean age of diseased and non-diseased

– Non-diseased: 38.6 years– Diseased: 58.7 years (p<0.0001)

• Linear regression?

Dot-plot: Data from Table 2

Logistic regression (2)

Table 3 Prevalence (%) of signs of CD according to age group

Dot-plot: Data from Table 3

0

20

40

60

80

100

0 2 4 6 8

Diseased %

Age group

Logistic function (1)

0,0

0,2

0,4

0,6

0,8

1,0

Probability of disease

x

An interpretation of the logit coefficient which is usually more intuitive is the "odds ratio"

Since:

[p/(1-p)] = exp( + X)

exp() is the effect of the independent variable on the "odds ratio"

Q: EVAC

Did you evacuate your home to go someplace safer before Hurricane Dennis (Floyd) hit?  1 YES 2 NO 3 DON'T KNOW 4 REFUSED

An Example: Hurricane Evacuations

The Data

EVAC PETS MOBLHOME TENURE EDUC0 1 0 16 160 1 0 26 120 1 1 11 131 1 1 1 101 0 0 5 120 0 0 34 120 0 0 3 140 1 0 3 160 1 0 10 120 0 0 2 180 0 0 2 120 1 0 25 161 1 1 20 12

From SPSS Output:

Variable B Exp(B) 1/Exp(B)

PETS -0.6593 0.5172 1.933MOBLHOME 1.5583 4.7508TENURE -0.0198 0.9804 1.020EDUC 0.0501 1.0514Constant -0.916

“Households with pets are 1.933 times more likely to evacuate than those without pets.”

Example - Rizatriptan for Migraine

• Response - Complete Pain Relief at 2 hours (Yes/No)• Predictor - Dose (mg): Placebo (0),2.5,5,10

Dose # Patients # Relieved % Relieved0 67 2 3.0

2.5 75 7 9.35 130 29 22.310 145 40 27.6

Source: Gijsmant, et al (1997)

Example - Rizatriptan for Migraine (SPSS)

Variables in the Equation

.165 .037 19.819 1 .000 1.180

-2.490 .285 76.456 1 .000 .083

DOSE

Constant

Step1

a

B S.E. Wald df Sig. Exp(B)

Variable(s) entered on step 1: DOSE.a.

x

x

e

ex

165.0490.2

165.0490.2^

1)(

Example - Rizatriptan for Migraine

)2375.0,0925.0()037.0(96.1165.0:%95

037.0165.0 ^^^

CI

• 95% CI for :

• 95% CI for population odds ratio:

)27.1,10.1(, 2375.00925.0 ee

• Conclude positive association between dose and probability of complete relief

TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ

A többszörös elemzés a klinikai

orvostudományban, egy példa Volpato, S et al: Cardiovascular Disease,

Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, 2001

620 >65 éves nő, anamnézis, orvosi vizsgálat, vérvétel, különböző gyulladásos markerek meghatározása: IL-6, CRP, albumin

3 éves követés (PROSPEKTÍV VIZSGÁLAT), a halálozás és ennek okának regisztrálása

Az alap szérum IL-6 szint és a 3 éves mortalitás

IL-6 szint,pg/ml

<1.78 1.79-3.10 >3.10

Meghalt(%)

17 (8) 24 (12) 54 (27)

Túlé lt 197 180 148

Össze-sen

214 204 202

A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői

IL-6 s zint,pg/ml

<1.78 1.79-3.10 >3.10 p (trend)

>20000 USDévi jöv., %

25.2 17.6 18.3 <0.05

dohányzik, % 12.3 29.7 33.8 <0.001

BMI kg/m2 27.6 0.4 29.1 + 0.5 29.8 + 0.5 <0.001

CHD, % 23.4 38.7 39.6 <0.001

Diabetes , % 10.3 17.7 23.8 <0.001

atheros c l.index

1.04 + 0.02 0.99 + 0.01 0.94 + 0.02 <0.001

Kérdés

• Mennyivel nagyobb kockázatuk (relatív rizikó) a magas IL-6 szintű egyéneknek a közepes és az alacsony IL-6 szintű egyénekhez viszonyítva arra, hogy 3 éven belül meghaljanak?

• Prospektív vizsgálat, RR számolható.

• A feladat az, hogy matematikai módszerekkel kiküszöböljük az egyéb tényezőket, amelyek a három IL-6 szintű csoportban különböznek és így adjunk választ a fenti kérdésre

• Ebből a célból különböző modelleket építünk fel, és a logisztikus regresszió módszerével végezzük el a számítást.

A 3 éves mortalitás nyers és adjusztált relatív rizikója (95% CI) az IL-6 szérumszint szerint

1. modelcs ak IL-6

2. model IL-IL-6, kor,dohányzás ,BMI

3.modelIL-6, kor,dohányzás ,BMI, CHD,diabetes ,carotisvas tags ág

Alacs onyIL-6 s zint

1 1 1

KözepesIL-6 s zint

1,51(0.81-2.81)

1.32 (0.70-2.47)

1.08 (0.57-3.04)

MagasIL-6 s zint

3.83 (2.22-6.62)

3.54 (2.03-6.17)

2.63 (1.48-4.96)

Kiechl, S. et al.: Chronic Infections and the Risk of Carotid Atherosclerosis. Circulation, 103,

1064, 2001

• Bruneck tanulmány: 1990, 826 40-79 éves egyén, carotis duplex scan: carotis atherosclerosis foka, plakkok száma).

• A vizsgált egyéneknél rögzítették, hogy szenvednek-e valamilyen krónikus légúti, húgyúti, fogászati vagy egyéb infekcióban.

• A vizsgált egyének vérében megmértek egyes a krónikus infekcióra jellemző laboratóriumi markereket)

KÉRDÉSEK

• 1) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS A CAROTIS ATHEROSCLEROSIS MÉRTÉKE KÖZÖTT A VIZSGÁLAT IDŐPONTJÁBAN (keresztmetszeti vizsgálat)2) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS AZ ÚJ CAROTIS PLAKKOK KIFEJLŐDÉSE KÖZÖTT (prospektív vizsgálat)

• Számítás módja: többszörös lépcsőzetes logisztikus regressziós analízis

500 egyénben a kezdeti vizsgálatkor nem találtak carotis plakkot, közülük 125-ben fejlődött ki carotis plakk az 5 éves megfigyelési idő alatt. Mi jelezte ezt előre? OR: kategorikus:

igen/nem, folyamatos: 1 egység növekedés

Változó Sorrend(s tepwis eregres s ion)

OR (95% CI) p érték

Krónikusinfekció

1. 4.10 (2.37-7.10)

<0.0001

Ferritin 2. 1.45 (1.13-1.87)

0.005

Magasvérnyomás

3. 2.01 (1.19-3.42)

0.011

LDLkoles zterin

4. 1.51 (1.18-1.93)

<0.001

Életkor 5. 1.39 (1.08-1.78)

0.010

Alkohol (1-50 g /nap vsabs ztinens )

6. 0.55 (0.32-0.99

0.042

Hypo-thyreos is

7. 2.31 (1.00-5.45

0.050

Micro-albuminuria

8. 1.25 (0.99-1.60)

0.075

HDLkoles zterin

9. 0.81 (0.64-1.02)

0.081

Tsobuno Y et al. Green Tea and the Risk of Gastric Cancer in Japan. NEJM 344, 632, 2001.

• 1984, 26311 > 40 éves Miyagi tartomány, kérdőív: zöldtea fogyasztás mértéke

• Követési idő: 1999 748 személy-év 1982 dec.-ig. 419 gyomorrák, diagnózis időpontja

• Kérdés: befolyásolja-e a zöldtea fogyasztás a gyomorrák kifejlődésének az esélyét?

• Számítás: Cox regressiós analízis, reletív rizikó (prospektív vizsgálat): alap: <1 csésze/nap. A gyomorrák kimenetelét esetleg még befolyásoló változók (confounding variables): életkor, nem, ulcus az anamnézisban, dohányzás, alkohol, rizs, hús/zöldség fogyasztás

A zöldtea fogyasztás és a gyomorrák kifejlődésének relatív rizikója

Változó Zöldtea fogyas ztás , c s és ze /nap P fortrend

<1 1 vagy 2 3 vagy 4 >5

Gyomor-rák

41 49 55 151

Köv. idős zemély-év

36572 34129 43748 85299

Életkoradj. RR

1.0 1.1 (0.8-1.6))

1.0 (0.7-1.4)

1.3 (1.0-1.7)

0.05

Többvál-tozósRR1(mindenes et)

1.0 1.1 (0.8-1.6))

1.0 (0.7-1.4)

1.2 (0.8-1.6)

0.13

Többvál-tozósRR2(e ls ő 3 évki-hagyva)

1.0 1.2 (0.8-1.8))

1.0 (0.7-1.4)

1.4 (1.0-1.9)

0.07

Kimenetel (függő változó)

Példa a kimenetelre

A használandó többszörös analitikai módszer

Folyamatos Vérnyomás, testsúly, hőmérséklet

Többszörös lineáris regresszió

Dichotóm (igen-nem)

Halál, rák, felvétel intenzív osztályra

Többszörös logisztikus regresszió

Az igen eseményig eltelt idő

A halálig, a rák dg-ig eltelt idó

Cox regresszió (proportinal hazard analízis)

A cukorbetegek magas testtömeg-indexe ill. HDL-koleszterin szintje befolyásolja-e az ischemiás

szívbetegség kifejlődésének kockázatát?Változó Nem ISZB-s

(n=156)ISZB-s (n=76) p-érték (Fisher

exact teszt)

BMI (kg/m2)

<25 64 160,003

>25 92 60

 

HDL-koleszterin (mmol/l)

<1,3 88 560,014

>1,3 68 20

Változó B SEM Wald df p-érték

BMI magas/normál*

0,959 0,325 8,701 1 0,003

Konstans -1,386 0,280 24,599 1 0,0002

A BMI anti-ln(B)-je (esélyhányados, odds ratio, OR)  

OR Az OR 95%-os CI-je

2,609 1,380 - 4,933

Változó B SEM Wald df p-érték

HDL normál/alacsony*

-0,772 0,306 6,342 1 0,012

Konstans 0,500-0,4523

0,171 6,991 1 <0,0001

A HDL anti-ln(B)-je (esélyhányados, odds ratio, OR)

OR Az OR 95%-os CI-je

0,462 0,253 - 0,843

A többszörös modellek feltételezései

(assumptions) TÖBBSZÖRÖS LINEÁRIS

TÖBBSZÖRÖS LOGISZTIKUS

PROPRCIONÁLIS HAZARD ANALÍZIS

MIT MODELLEZÜNK? A függő változó átlaga A függő változó egyik értéke bekövetkezése esélyének (odds) temészetes logaritmusa (logit)

A relativ kockázat (hazard)

logaritmusa

A FOLYAMATOS FÜGGETLEN VÁLTOZÓK VISZONYA A FÜGGŐHÖZ (KIMENETELHEZ)

A függő változó átlaga lineárisan változhat több független változóval is

A függő változó logitja lineárisan változhat több független áltozóval is

A relatív hazard logaritmusa lineárisan változhat több független áltozóval is

A SKALARIS FÜGGETLEN VÁLTOZÓK VISZONYA A FÜGGŐHÖZ (KIMENETELHEZ)

A függő változó átlaga lineárisan változhat több független változó egységnyi változásával is

A függő változó logitja lineárisan változhat több független változó egységnyi változásával is

A relatív hazard logaritmusa lineárisan változhat több független változó egységnyi változásával is

A FÜGGŐ VÁLTOZÓ ELOSZLÁSA

Normális Binomiális Nincs meghatározva

Többszörös logisztikus regresszió

• Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció.

Relatív rizikó (relative risk) , esély-arány (odds ratio)

• Példa: Az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulása (továbbiakban röviden és helytelenül AIDS) előrehaladott HIV betegségben szenvedő betegekben. A betegeket folyamatosan két reverz transzkriptáz gátló szerrel kezelték, és két csoportra randomizálták. Az egyik csoport egy proteáz inhibitort (Ritonavir) is kapott, a másik csak placebot az alapkezelés mellett. 16 hétig regisztrálták az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulását. (Cameron et al. Lancet 351, 543, 1998)

AIDS igen AIDS nem Ös s zes en

Ritonavir 119 (A) 424 (B) 543 (A+B)

Placebo 205 (C 342 (D) 547 (C+D)

Ös s zes en 324 (A+C) 766 (B+D) 1090(A+B+C+D)

Relatív rizikó

• Relatív rizikó: A/A+B osztva C/C+D-vel: a példában 119/543 osztva 205/547-el: 0.22/0.37=0.59 (95% CI: 0,48-0.71), tehát az AIDS kiejlõdésének a relatív kockázata a Ritonavírral kezelt csoportban csaknem a fele a szokásos kezelést kapott betegek kockázatának

Esély-arány (OR)• Először mindkét csoportban kiszámítjuk az esélyét

annak, hogy egy esemény, példánkban az AIDS kifejlődése, bekövetkezzen. Ez A/B, ill C/D, tehát példánkban 119/424=0.28, ill. 205/342=0.60. A két esély arány tehát A/B osztva C/D-vel, 0.28/0.60=0.47 (95% CI 0.33-0.67). Tehát a ritonavírrel is kezelt betegeknek az esélye arra, hogy bennük AIDS fejlõdjön ki. kevesebb, mint fele annak, amely a ritonavirrel nem kezelt betegek esetében áll fenn.

• EZ AZ ÖSSZEFÜGGÉS AZONBAN CSAK AKKOR IGAZ, HA A KÉT CSOPORT MÁS SZEMPONTBÓL NEM KÜLÖNBÖZIK EGYMÁSTÓL. HA IGEN: TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ VAGY MÁS HASONLÓ ELJÁRÁS ELVÉGZÉSE SZÜKSÉGES

Recommended