47
Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios PD Dr.Gabriele Doblhammer, Fortgescrittene Methoden, SS2004

Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

  • Upload
    others

  • View
    49

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Logistische RegressionI.

Odds,Logits,

Odds Ratios,Log Odds Ratios

PD Dr.Gabriele Doblhammer, Fortgescrittene Methoden, SS2004

Page 2: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Logistische Regression

Alter CD Alter CD Alter CD

22 0 40 0 54 023 0 41 1 55 124 0 46 0 58 127 0 47 0 60 128 0 48 0 60 030 0 49 1 62 130 0 49 0 65 132 0 50 1 67 133 0 51 0 71 135 1 51 1 77 138 0 52 0 81 1

Tabelle 2 Alter und Symptome von Herz-/Kreislauferkrankung(CD)

Quelle:http://www.tulane.edu/~PsycStat/ruscher/logistic.ppt

Page 3: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Beobachtete vw. geschätzte Werte auf der Basis eineslinearen Regressionsmodells für eine dichotome abhängige

VariableBeispiel: CHD und Alter

Beobachtete Werte Lineare Regression

Age

9080706050403020

CD

1.2

1.0

.8

.6

.4

.2

0.0

-.2

Alter

9080706050403020G

esch

ätzt

e W

erte

1.2

1.0

.8

.6

.4

.2

0.0

-.2

Page 4: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Probleme bei linearer Regression mitdichotomer abhängiger Variable

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

1. Kleinste Quadrate Regression basiert aufNormalverteilten Fehlertermen

Bei dichotomer abhängiger Variable kann derFehlerterm nur zwei Werte annehmen (richtig, falsch)

Folge: Hypothesentests können ungültig sein

2. Vorhergesagten Werte können größer als “eins” undkleiner als “null” sein

Page 5: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Wahrscheinlichkeiten und Odds

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Wahrscheinlichkeit Herz-/KreislauferkrankungBeispiel CDCD=0:P= 0.58 (=19/33) Wahrscheinlichkeit keine HKCD=1:P= 0.42 (=14/33) Wahrscheinlichkeit HK

Odds Herz/Kreislauferkrankung:Wahrscheinlichkeit, dass etwas wahr ist dividiert durchdie Wahrscheinlichkeit, dass es nicht wahr istBeispiel CDOdds=(P/1-P)Odds=0.42/0.58=0.75 Odds HK

Page 6: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Odds in einer 2x2 Tabelle

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Raucher Nicht Raucher

gestorben p1

(0.30)

p2

(0.25)

überlebt 1-p1

(0.70)

1-p2

(0.75)

Odds als Raucher zu sterben: odds(1)= p1/(1-p1) = .30/.70=0.43Odds als Nichtraucher zu sterben:odds(2)= p2/(1-p2)= .25./75=0.33

Page 7: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

• Logit ist symmetrisch um 0 (p = .50)

• Je extremer die Wahrscheinlichkeit p von .50 abweicht, desto stärker verändertsich der Logit

• Für sehr große Logits nähert sich p null bzw. eins an, ohne jedoch diese Wertezu erreichen

• Daher befinden sich die Wahrscheinlichkeiten p auch für sehr große Logits immerin den Schranken von null und eins

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Logit Transformation

���

����

−=

p

pLogit

1ln

Page 8: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

-10

-5

0

5

10

15

20

0.01

0.09

0.17

0.25

0.33

0.41

0.49

0.57

0.65

0.73

0.81

0.89

0.97

Odds p/1-p logit ln(p/1-p)

Wertebereich p, odds und logits

p

p/1-p; ln(p/1-p)

p: 0<=p<=1

odds: 0,+∞

logit: -∞, +∞

Page 9: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Transformation Odds in Logitsund zurück

Bsp: p = 0.20; 1-p = 0.80

Odds = p/1-p = 0.20/0.80 = 0.25

Logit = ln(Odds) = ln(0.25) = -1.386

Odds = exp(Logit)=exp(-1.386)=0.25 exp...Euler’sche Zahl=2.71828

���

����

−=

p

pLogit

1ln

Page 10: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Odds Ratio in einer 2x2 Tabelle

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Raucher Nicht Raucher

gestorben p1

(0.30)

p2

(0.25)

überlebt 1-p1

(0.70)

1-p2

(0.75)

Odds als Raucher zu sterben: odds(1)= p1/(1-p1) = .30/.70=0.43Odds als Nichtraucher zu sterben:odds(2)= p2/(1-p2)= .25./75=0.33

Page 11: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Odds Ratio in einer 2x2 Tabelle

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Odds ratio (1): Quotient aus odds(1) und odds(2)

Quotient: odds als Raucher zur sterbenzu odds als Nichtraucher zu sterben.

Odds ratio (1)= p1/(1-p1) / p2/(1-p2) = .43 / .33 =1.29

Das Risiko eines Rauchers zu sterben ist um 29% höher, als das Risiko eines Nichtrauchers zu sterben.

Nichtraucher: Referenzgruppe

Page 12: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Odds Ratio in einer 2x2 Tabelle

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Odds ratio (2): Quotient aus odds(2) und odds(1)

Quotient: odds als Nichtraucher zur sterbenzu Odds als Raucher zu sterben.

Odds Ratio (2) = p2/(1-p2) / p1/(1-p1) = .33 / .43 = 0.77

Das Risiko eines Nichtrauchers zu sterben ist um 23% niedriger, als das Risiko eines Rauchers zu sterben.

Raucher: Referenzgruppe

Page 13: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Odds, Odds Ratio

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Der Odds

• Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

odds(1)= p1/(1-p1) = .30/.70=0.43 Odds Raucher zu sterben

odds(2)= p2/(1-p2)= .25/.75=0.33 Odds Nichtraucher zu sterben

Der LN(Odds)

LN(odds(1))= LN(0.43)= -0.84

LN(odds(2))= LN(0.33)= -1.11

Der Odds Ratio

• Der Quotient aus zwei Odds

Odds ratio (1) = odds(1)/odds(2)= 1.29 (RF Nichtraucher)

Odds ratio (2) =odds(2)/odds(1)= 0.77 (RF Raucher)

Der LN(Odds Ratio)

• Der natürliche Logarithmus des Odds Ratios

LN (Odds ratio 1) = 0.25 (RF Nichtraucher)

LN (Odds ratio 2) = -0.25 (RF Raucher)

Page 14: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Interpretation Odds ratiound LN(Odds ratio)

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Odds ratio (OR):1. OR=1, kein Zusammenhang2. OR>1, positiver Zusammenhang3. OR<1, negativer Zusammenhang4. Schief verteilt

Ln(Odds ratio) (LN(OR)):1. LN(OR=0), kein Zusammenhang2. LN(OR>0), positiver Zusammenhang3. LN(OR)<0, negativer Zusammenhang4. symmetrisch um Null verteilt

Anteilswerte p Odds Odds Ratio ln (Odds ratio)

RaucherNicht

Raucher RaucherNicht

RaucherBeispiel 1gestorben 0.3 0.25 0.429 0.333 1.286 0.251überlebt 0.7 0.75 2.333 3.000 0.778 -0.251Beispiel 2gestorben 0.9 0.1 9.000 0.111 81.000 4.394überlebt 0.1 0.9 0.111 9.000 0.012 -4.394Beispiel 2gestorben 0.5 0.5 1.000 1.000 1.000 0.000überlebt 0.5 0.5 1.000 1.000 1.000 0.000

Page 15: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Logistische RegressionII.

ModellKategorielle Variablen

Interpretation der Parameter

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Page 16: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Logistische Regression

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

lnπ x( )

1−π x( )�

� � �

� � = β 0 + β1x1 +. .. ..+ βkxk

Abhängige Variable = logit

Unabhängige Variablen:x1 .. xk

Parameterwerte: β0 .. βk

Page 17: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Abhängige Variablelogit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

lnπ x( )

1−π x( )�

� � �

� �

Page 18: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

-10

-5

0

5

10

15

20

0.01

0.09

0.17

0.25

0.33

0.41

0.49

0.57

0.65

0.73

0.81

0.89

0.97

Odds p/1-p logit ln(p/1-p)

Wertebereich p, odds und logits

p

p/1-p; ln(p/1-p)

p: 0<=p<=1

odds: 0,+∞

logit: -∞, +∞

Page 19: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Logistische Regression

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

π x( ) =exp β0 + β1x1...+ βkxk( )

1+ exp β0 + β1x1...+ βkxk( )

Logistische Verteilung

Page 20: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Logistische Verteilung

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

y=exp(b0+b1x)/(1+exp(b0+b1x))b0=0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

-50

-40

-30

-20

-10 0

10 20 30 40 50

Covariate X

Dep

ende

nt V

aria

ble

Y

b1=0.1

b1=0.3

b1=0.9

Page 21: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Unabhängige Variablen

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

lnπ x( )

1−π x( )�

� � �

� � = β0 + β1x1 +. .. ..+ βkxk

Page 22: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Kategorielle unabhängige Variablen= Dummy Variablen

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Kodierung von Bildung mit Hochschule als Referenzgruppe

Bildung Dummy Variablen D1 D2 D3 D4 Hochschule 0 0 0 0 Abitur 1 0 0 0 Fachschule 0 1 0 0 Lehre 0 0 1 0 Pflichtschule 0 0 0 1

Referenzgruppe wird immer ausgelassen in der Kodierung

Page 23: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Datenstruktur:Sterblichkeit in Abhängigkeit von Alter

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

age survive count35-39 1 8435-39 1 535-39 0 435-39 1 135-39 1 135-39 0 235-39 1 435-39 1 635-39 0 135-39 1 2335-39 1 340-44 1 240-44 0 140-44 1 1

1. age: kategoriell

2. survive: 1.. gestorben 0.. überlebt

3. count: Anzahl der Personen SPSS Syntax: WEIGHTBY count .

Page 24: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

SPSS Syntax

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

WEIGHT by COUNT.

LOGISTIC REGRESSION VAR=survive

/METHOD=ENTER age

/CONTRAST (age)=Indicator(1).

Abhängige Variable survive 0 überlebt 1 gestorben

Unabhängige Variable ageAGE

241426 20,5 20,5 20,5

248388 21,1 21,1 41,5

200114 17,0 17,0 58,5

224376 19,0 19,0 77,5

265165 22,5 22,5 100,0

1179469 100,0 100,0

35-39

40-44

45-49

50-54

55-59

Gesamt

GültigHäufigkeit Prozent

GültigeProzente

KumulierteProzente

Dummy Kodierung1. Kategorie: Referenzgruppe

Page 25: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

SPSS Output

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Variablen in der Gleichung

1101,007 4 ,000

,289 ,078 13,840 1 ,000 1,335

,815 ,073 123,584 1 ,000 2,259

1,224 ,068 324,924 1 ,000 3,401

1,631 ,064 644,390 1 ,000 5,109

-6,737 ,059 12971,259 1 ,000 ,001

AGE

AGE(1)

AGE(2)

AGE(3)

AGE(4)

Konstante

Schritt1

a

RegressionskoeffizientB

Standardfehler Wald df Sig. Exp(B)

In Schritt 1 eingegebene Variablen: AGE.a.

lnπ x( )

1−π x( )�

� � �

� � = β0 + β1x1 +. .. ..+ βkxk

eβ0 * eβ1 x1 * eβ2 x2 *..... * eβk xk π x( )

1−π x( )�

� � �

� � =

Page 26: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Interpretation der ParameterwerteReferenzgruppe (RF) ist jüngste Altersgruppe 35-39

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Variablen in der Gleichung

1101,007 4 ,000

,289 ,078 13,840 1 ,000 1,335

,815 ,073 123,584 1 ,000 2,259

1,224 ,068 324,924 1 ,000 3,401

1,631 ,064 644,390 1 ,000 5,109

-6,737 ,059 12971,259 1 ,000 ,001

AGE

AGE(1)

AGE(2)

AGE(3)

AGE(4)

Konstante

Schritt1

a

RegressionskoeffizientB

Standardfehler Wald df Sig. Exp(B)

In Schritt 1 eingegebene Variablen: AGE.a.

0: kein Effekt, gleiches Risiko wie in RF>0: Risiko, dass π(x)=1(zu sterben) ist höher als in RF <0: Risiko, dass π(x)=1(zu sterben) ist niedriger als in RF

Page 27: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Variablen in der Gleichung

1101,007 4 ,000

,289 ,078 13,840 1 ,000 1,335

,815 ,073 123,584 1 ,000 2,259

1,224 ,068 324,924 1 ,000 3,401

1,631 ,064 644,390 1 ,000 5,109

-6,737 ,059 12971,259 1 ,000 ,001

AGE

AGE(1)

AGE(2)

AGE(3)

AGE(4)

Konstante

Schritt1

a

RegressionskoeffizientB

Standardfehler Wald df Sig. Exp(B)

In Schritt 1 eingegebene Variablen: AGE.a.

1: kein Effekt, gleiches Risiko wie RF>1: Risiko, dass π(x)=1(zu sterben) ist höher als in RF

Age(1) hat ein um 33.5% höheres Risiko zu sterben als RF <1: Risiko, dass π(x)=1(zu sterben) ist niedriger als in RF

Interpretation der ParameterwerteReferenzgruppe (RF) ist jüngste Altersgruppe 35-39

Page 28: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

1: kein Effekt, gleiches Risiko wie RF>1: Risiko, dass π(x)=1(zu sterben) ist höher als in RF

<1: Risiko, dass π(x)=1(zu sterben) ist niedriger als in RFAge(1) hat ein um 80% niedrigeres Risiko zu sterben als die RF

(1-exp(B))*100

Interpretation der ParameterwerteReferenzgruppe (RF) ist älteste Altersgruppe 55-59

Variablen in der Gleichung

1101,007 4 ,000

-1,631 ,064 644,390 1 ,000 ,196

-1,342 ,056 566,466 1 ,000 ,261

-,816 ,050 266,037 1 ,000 ,442

-,407 ,042 94,998 1 ,000 ,666

-5,106 ,025 41403,541 1 ,000 ,006

AGE

AGE(1)

AGE(2)

AGE(3)

AGE(4)

Konstante

Schritt1

a

RegressionskoeffizientB

Standardfehler Wald df Sig. Exp(B)

In Schritt 1 eingegebene Variablen: AGE.a.

Page 29: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Logistische RegressionIII.

Parameter InterpretationMaximum Likelihood Schätzung

Modell Testen

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Page 30: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Parameter Interpretation

Page 31: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Odds Ratio in einer 2x2 Tabelle

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Raucher Nicht Raucher

gestorben p1

(0.30)

p2

(0.25)

überlebt 1-p1

(0.70)

1-p2

(0.75)

Odds als Raucher zu sterben:odds(1)= p1/(1-p1) = .30/.70=0.43Odds als Nichtraucher zu sterben:odds(2)= p2/(1-p2)= .25./75=0.33Odds ratio (1)= p1/(1-p1) / p2/(1-p2) .43 / .33 =1.29

Page 32: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Logistische Regression mit einerunabhängigen Variable

(2x2 Tabelle)

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

( ) ( )( )10

110

exp1

exp

x

xx

ββββπ++

+=

Y=1…gestorbenY=0…überlebt

X=1…RaucherX=0…Nicht-Raucher

Page 33: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Logistische Regressionmit einer unabhängigen Variable

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Independent Variable X

x=1 x=0

Outcome

y=1

π 1( ) =eβ0 +β1

1 + eβ0 +β1

π 0( ) =eβ0

1 + eβ0

Variable

Y

y=0

1 −π 1( )=1

1 + eβ0 +β1

1 −π 0( )=1

1 + eβ0

Total 1.00 1.00

Raucher Nicht-Raucher

gestorben

überlebt

Page 34: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

Ψ =

eβ0 +β1

1 + eβ0 +β1

� � � �

� � 1

1 + eβ0

� �

� �

eβ0

1 + eβ0

� � � �

� � 1

1+ eβ 0 + β1

� �

� �

=eβ0 +β1

eβ0= eβ1

ln Ψ = lnπ 1( ) / 1 −π 1( )( )π 0( ) / 1 −π 0( )( )�

� � �

� �

Log odds ratio Einsetzen aus Tabelle

Logistische Regressionmit einer unabhängigen Variable

β1 ist der Logarithmus des Odds ratiosexp(β1) ist der Odds ratio

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Page 35: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgescrittene Methoden, SS2004

Maximum Likelihood Schätzungder Parameter

Page 36: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgescrittene Methoden, SS2004

Maximum Likelihood Schätzungder Parameter

Parameterwerte β0, β1,.., βk so zu waehlen, dass die beobachtete Stichprobenvereilung am wahrscheinlichsten ist.

lnπ x( )

1−π x( )�

� � �

� � = β 0 + β1x1 +. .. ..+ βkxk

Page 37: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Beispiel ML Schaetzung:

Von 10 untersuchten Personenhaben 5 Symptome einerHerz-/Kreislauferkrankung.Fuer welchen Wert ist dasZustandekommen derStichprobenverteilung(x=5 Kranke auf n=10 Beobachtete) am wahrscheinlichsten?

[ ]xnx PPxnx

nxP −−

−= )1(

)!(!

!)(

P P(x)0,1 0,001488

0,15 0,0084910,2 0,026424

0,25 0,0583990,3 0,102919

0,35 0,153570,4 0,200658

0,45 0,2340330,5 0,246094

0,55 0,2340330,6 0,200658

0,65 0,153570,7 0,102919

0,75 0,0583990,8 0,026424

0,85 0,0084910,9 0,001488

0,95 6,09E-05

Page 38: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Schaetzen der Parameter:

{ }ii Yi

Yi PPLF −−Π= 1)1(

Likelihood Funktion (LF)

nn

nn

xx

xx

e

eP βββ

βββ

+++

+++

+= ...

...

110

110

1

Jene Parameterwerte β0,β1,…,βn sollen gesucht werden, diedie Likelihoodfunktion LF maximieren.

Yi.. Outcome Variable; z.B. 0 wenn ueberlebt und 1 wenn gestorben

Page 39: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Schaetzen der Parameter:

{ }ii Yi

Yi PPLF −−Π= 1)1(

Likelihood Funktion (LF)

nn

nn

xx

xx

e

eP βββ

βββ

+++

+++

+= ...

...

110

110

1

Jene Parameterwerte β0,β1,…,βn sollen gesucht werden, diedie Likelihoodfunktion LF maximieren.

Yi.. Outcome Variable; z.B. 0 wenn ueberlebt und 1 wenn gestorben

Page 40: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Schaetzen der Parameter:Log Likelihood Funktion (LN (LF))

nn

nn

xx

xx

i e

eP βββ

βββ

+++

+++

+= ...

...

110

110

1Yi.. Outcome Variable; z.B. 0 wenn ueberlebt und 1 wenn gestorben

[ ]���

���

−−+��

�= � )1()1( iiii PLNYPLNYLFLN

soll maximiert werden.

• Die 1. Partiellem Ableitungen bilden• Gleichungssystem gleich Null setzen• Gleichung loesen Kann nicht analytisch geloest werden

1. Startwerte, 2. Newton-Raphson Algorithmus

Page 41: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgescrittene Methoden, SS2004

Modell Testen

Page 42: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Guete des logistischenRegressionsmodells

1. Je groesser die LN LF (je naeher bei Null) desto besser reproduzieren die Schaetzer der Parameterwerte die Stichprobenverteilung (desto besser das Modell)Problem: LN LF haengt von Stichprobengroesse und Anzahl der Parameter ab

Log-Likelihood Test

Vergleich LN LF aktuelles Modell mit Baseline Modell (Modellohne abhaengigen Variablen aber mit Konstante)

Nullhypothese: Alle Parameterwerte der Kovariaten sind gleichNull

Page 43: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Guete des logistischenRegressionsmodells

Log-Likelihood Test

1. Vergleich LN LF aktuelles Modell mit Baseline Modell(Modell ohne abhaengigen Variablen aber mit Konstante)

Nullhypothese: Alle Parameterwerte der Kovariaten sind gleichNullG=-2(LN0-LN1)LN0 Modell ohne Kovariaten LN1 Modell mit KovariatenG ist χχχχ2 verteiltDF=Anzahl der Kovariaten

Page 44: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Guete des logistischenRegressionsmodells

Log-Likelihood Test

2. Vergleich LN LF aktuelles Modell mit vorhergehendemModell

Nullhypothese: Alle Parameterwerte der neu integrierten Kovariaten sind gleich Null

G=-2(LNn-LNn+k)LNn Modell mit n Kovariaten, LNn+k Modell mit n+k KovariatenG ist χχχχ2 verteiltDF=Anzahl der k neu integrierten Kovariaten

Page 45: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

SPSS

Page 46: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Oesterreichische Volkszaehlungund Gestorbenen Daten

Österreichische Volkszählung1981 verknüpft mit Gestorbenen 1981/82

1,254,153jemals verheiratete Frauen

35,234 Todesfälle

F35icdn.savF60icdn.savM35icdn.savM60icdn.sav

Label file:Value Labels Österreichische Gestorbenen Daten.doc

Page 47: Logistische Regression I. Odds, Logits, Odds Ratios, …Odds, Odds Ratio PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004 Der Odds • Wahrscheinlichkeit zur Gegenwahrscheinlichkeit

PD Dr.Gabriele Doblhammer, Fortgeschrittene Methoden, SS2004

Ausblick• Interaktionseffekte• Wie gehe ich meine Studie an?• 4 Gruppen: (1) Bildung

(2) Soziooekonomischer Status (3) Kinder (4) Familienstand

4. Wie gehe ich meine Modellierung an5. Literatur

Praesentation der Ergebnisse und Diskussion der Angewandten Modellierungsstrategien in den letzten beiden Einheiten