Kapitel 1: Einführung in die Mikroökonometrie 1.1 ...lsw.wiso.uni-erlangen.de/userfiles/studium/veranstaltungen/ss_2013/MOE/... · Kapitel 1: Einführung in die Mikroökonometrie

Kapitel 1: Einführung in die Mikroökonometrie

1.1 Allgemeine Bemerkungen zur Veranstaltung

1.2 Was ist Mikroökonometrie?

1–2

1.1 Allgemeine Bemerkungen zur Veranstaltung

1.1.1 Ziele der Veranstaltung Mikroökonometrie

(1) Vermittlung anwendungsrelevanter Methodenkenntnis durch

– Vorlesung

– Nachbereiten und Literaturstudium

– Wiederholung in der Übung

(2) Einüben eigenen empirischen Arbeitens durch

– Anwendung mit Programmpaket STATA

– Üben der Interpretation von Schätzergebnissen

– Eigenständig bearbeitete, kurze Hausarbeit

1–3

(3) Stärkung der Kritikfähigkeit gegenüber empirischen Arbeiten, durch Diskus-

sion von Beispielstudien.

1–4

1.1.2 Inhaltlicher Veranstaltungsüberblick

1. Einführung

2. Schätz- und Testverfahren für qualitative abhängige Variablen

3. Schätzverfahren für bivariate abhängige Variablen

4. Schätzverfahren für multivariate und ordinale abhängige Variablen

5. Tobitmodelle

6. Selektionsmodelle für nicht repräsentative Stichproben

7. Verweildauermodelle

8. Zählerdatenmodelle

1–5

1.1.3 Prüfungen und Kreditpunkte

• Hausaufgabe freiwillig, Note zu 20% anrechenbar. Leistung im laufenden

oder nachfolgenden Semester anrechenbar.

• Alte Klausuren z.T. mit Musterlösung im Netz.

1–6

1.1.4 Literatur zur Veranstaltung

Literatur: Textsammlung mit Texten zu Beispielstudien

Empfohlene Lehrbücher: Cameron Colin A. und P.K. Trivedi, 2005, Microceconometrics. Methods and

Applications, Cambridge: Cambridge University Press. Cameron Colin A. und P.K. Trivedi, 2009, Microceconometrics Using Stata,

Stata Press Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice

Hall, 6. Auflage. Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley &

Sons, 3. Auflage Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel

Data, Cambridge: The MIT Press. Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer

Verlag, Heidelberg, Kapitel 1.

1–7

1.2 Was ist Mikroökonometrie?

• Ökonometrie:

"Econometrics is the field of economics that concerns itself with the applica-

tion of mathematical statistics and the tools of statistical inference to the em-

pirical measurement of relationships postulated by economic theory."

(Greene, 2000, S.1)

• Die Mikroökonometrie beschäftigt sich besonders mit folgenden Situationen:

(i) Nicht stetige, abhängige Variablen (diskret, qualitativ, beschränkt, Ver-

weildauer, Zähldaten)

(ii) Fehlende Zufälligkeit der Stichprobe erfordert Korrektur für Selektion

1–8

• Beitrag der Mikroökonometrie

– hilft, Hypothesen zum Verhalten von Unternehmen, Haushalten und Individuen

zu testen (wissenschaftlicher Fortschritt)

– erlaubt, Existenz und Größe vermuteter Effekte zu messen

– sensibilisiert für nicht zufällig gewählte Stichproben

– bietet vielfache Einsatzmöglichkeiten zu zahlreichen Fragestellungen aus der

VWL, BWL und Sozialwissenschaft.

Kapitel 2: Schätz- und Testverfahren für qualitative abhängige Variablen

2.1 Das Maximum-Likelihood-Prinzip

2.2 Algorithmen der ML Schätzung

2.3 Testprinzipien und Modellselektion

2–2

2.1 Das Maximum-Likelihood-Prinzip

2.1.1 Intuition

• Wie findet man den KQ Schätzer?

berechne ( )-1β = X'X X'Y, um quadrierte Abweichungen zu minimieren

• Wie findet man den GMM Schätzer?

minimiere (gewichtete) Abweichungen von Momentenbedingungen

• Wie findet man den ML Schätzer?

maximiere die Likelihoodfunktion, ( )L β

2–3

• Grundidee des ML Schätzers

– Annahme: Datensatz, Hypothese über Beziehung und über Verteilung ge-

geben, z.B. C = α + βY; ML sucht die Parameter (α, β), die die Wahrschein-

lichkeit maximieren, die gegebenen Daten unter der unterstellten Verteilung

vorzufinden.

– Wenn die wahre Beziehung lautet: C = 0,5+0,8Y und die Daten mit zufälli-

gen Störeffekten beobachtet werden, dann werden die Werte (0,5;0,8) die

tatsächliche Beziehung am ehesten widerspiegeln.

• Beispiel: Gesucht sind die Verteilungsparameter ( )2,μ σ , die die tatsächlich

beobachteten Werte x erzeugt haben:

2–4

( )2A AA μ ,σ ( )2

B BB μ ,σ

Ist es wahrscheinlicher, dass die dargestellte Ziehung auf der x-Achse aus

Verteilung A oder Verteilung B stammt?

• ML Schätzer bestimmen den Parametervektor, bei dessen Gültigkeit die beo-

bachteten Daten mit der höchsten Wahrscheinlichkeit (maximum likelihood)

beobachtet werden, "ML maximizes the probability of obtaining the observed

data."

x

2–5

2.1.2 Formale Beschreibung – Allgemein

• Gegeben seien Beobachtungen zu yi, xi für i=1, 2, ... , N und das Modell

i i iy = x ' + εβ .

• Ann.: Die Verteilung von yi wird durch die bedingte Dichte f(yi | xi, θ) be-

stimmt, mit xi als exogener Einflussgröße und θ als dem zu bestimmenden

Parametervektor.

• Ann.: Die einzelnen Beobachtungen i = 1, 2, ..., N sind statistisch unabhän-

gig.

• Dann ist die gemeinsame Dichte aller Beobachtungen:

( ) ( )N

1 2 N 1 2 N i ii=1g y ,y ,...,y x ,x ,...,x ,θ = f y x ,θΠ

2–6

und die Likelihoodfunktion wird geschrieben als:

( ) ( )N

i ii=1L θ = f y x ,θΠ

• Wir suchen den Vektor θ, der L maximiert. Dieses θ ist der Maximum

Likelihood Schätzer für den Parametervektor θ.

2–7

2.1.3 Formale Beschreibung – Beispiel Normalverteilung

• Allgemein gilt für eine Zufallsvariable x mit ( )2x ~ N ,μ σ :

( ) ( ) 2

222

x1 1f x , exp22

⎧ ⎫− μ⎪ ⎪μ σ = ⋅ − ⋅⎨ ⎬σσ ⋅ π ⎪ ⎪⎩ ⎭

• Für i i iy x '= β + ε mit ( )2

i ~ N 0, εε σ , und daher ( )2i iy ~ N x ' , εβ σ gilt

( ) ( ) 2

i i2i i 22

y x '1 1f y x , , exp22

ε

εε

⎧ ⎫− β⎪ ⎪β σ = ⋅ − ⋅⎨ ⎬σσ ⋅ π ⎪ ⎪⎩ ⎭

und es folgt:

( ) ( )N

2 2i ii 1

L , f y x , ,ε ε=

β σ = ∏ β σ .

• θ enthält hier zwei Elemente: ( )2' , εθ = β σ über deren Wahl L maximiert wird. 2–8

• Zur Vereinfachung der Rechnung logarithmiert man die Likelihoodfunktion. Da es sich um eine monotone Transformation handelt, hat ( )2L , εβ σ die glei-

chen Maxima wie ( )2lnL , εβ σ .

• Man schreibt:

( ) ( )( )N

2 2i i

i 1

lnL , ln f y x , ,ε ε=

β σ = β σ∑

( ) ( )2N

i i22

i 1

y x '1 1 1ln ln 22 2 2ε

= ε

⎛ ⎞− β= − σ − π −⎜ ⎟

⎜ ⎟σ⎝ ⎠∑

( ) ( )22i i2

i

N N 1ln ln 2 y x '2 2 2ε

ε

= − σ − π − − βσ ∑

• Um über ( )2, εβ σ zu maximieren, leiten wir ab:

2–9

( )

!2

i i2 2 4i

lnL N 1 1 y x ' 02 2ε ε ε

∂= − ⋅ + ⋅ − β =

∂σ σ σ ∑

( )22i i

i

1ˆ y x 'Nε⇔ σ = − β∑

( )

!

i i i2i

lnL 1 x y x ' 0ε

∂= − β =

∂β σ ∑

i i

2i

x yˆx

⇔ β = ∑∑

• Unterschied zu KQ?

- ML Schätzer für 2εσ konsistent, aber nicht erwartungstreu. Erwartungstreu

wäre: ( ) 22i i

i

1ˆ y x 'N kεσ = ⋅ − β− ∑ , mit k=Anzahl der Steigungsparameter+1

- KQ braucht keine Verteilungsannahme 2–10

2.1.4 Eigenschaften von ML Schätzern

• Folgende Eigenschaften von ML Schätzern gelten für große Stichproben und

unter der starken Annahme, dass die Likelihoodfunktion korrekt spezifiziert ist

d.h., dass die Zufallsvariablen tatsächlich der unterstellten Verteilung folgen.

a) ML Schätzer sind oft nicht unverzerrt (Beispiel 2ˆ εσ ).

b) ML Schätzer sind konsistent, plim θ = θ.

c) ML Schätzer sind asymptotisch effizient. Asymptotisch haben ML Schät-

zer unter allen konsistenten, asymptotisch normalverteilten Schätzern die

kleinste Varianz. ML Schätzer erreichen asymptotisch das "Cramer-Rao

lower bound", die untere mögliche Grenze für die Varianz unverzerrter

Schätzer.

2–11

d) ML Schätzer sind auch ohne Verteilungsannahmen asymptotisch nor-

malverteilt, mit

( ) ( )ˆn ~ N 0,Vθ − θ ,

wobei n die Stichprobengröße angibt und V die asymptotische Varianz-

Kovarianz Matrix ist:

( ) ( )

12 lnL1ˆV cov E

N '

−⎧ ⎫⎡ ⎤∂ θ⎪ ⎪= θ = −⎨ ⎬⎢ ⎥∂θ ∂θ⎪ ⎪⎣ ⎦⎩ ⎭

− Für jede Beobachtung i gibt die Informationsmatrix l,

( ) ( )2i

i

lnLI E ,

'⎧ ⎫∂ θ

θ ≡ − ⎨ ⎬∂θ ∂θ⎩ ⎭

die in Beobachtung i enthaltene Information zu θ

an. Die mittlere Informationsmatrix ist 2–12

( ) ( ) ( )2N

ii 1

lnL1 1I I EN N '=

⎧ ⎫∂ θθ ≡ θ = − ⎨ ⎬

∂θ ∂θ⎩ ⎭∑

und beschreibt die Krümmung der Likelihoodfunktion: ( ) ( )1I cov−θ = θ

− Wenn die Likelihoodfunktion um ihr Maximum stark gekrümmt ist, sind

die zweiten Ableitungen von ln L groß. Dann ist die Varianz von θ klein

und der ML-Schätzer präzise. Je flacher die Likelihoodfunktion, umso

größer ist die Varianz von θ. Da der ML-Schätzer asymptotisch effizient ist, ist ( ) 1I −

θ die kleinstmögliche Varianz-Kovarianz-Matrix für alle konsis-

tenten und asymptotisch normalverteilten Schätzer für θ.

Gebräuchliche Approximation, um die zweiten Ableitungen für die Va-

rianz-Kovarianz-Matrix V zu berechnen:

2–13

( ) ( ) ( )2 lnL lnL lnLE E

'

′⎧ ⎫⎛ ⎞⎧ ⎫ ⎞⎛∂ θ ∂ θ ∂ θ⎪ ⎪− = ⎜ ⎟⎨ ⎬ ⎨ ⎬⎟⎜⎜ ⎟∂ θ ∂ θ ∂ θ ∂ θ⎩ ⎭ ⎠⎝⎪ ⎪⎝ ⎠⎩ ⎭

=> I lässt sich aus dem Gradienten (Vektor der ersten Ableitung) der

Likelihoodfunktion berechnen, ohne dass man die zweite Ableitung be-

stimmen muss. Diese hilfreiche Approximation bezeichnet man als

BHHH Schätzer nach Berndt, Hall, Hall, Hausman (1974).

e) Invarianzeigenschaft: Wenn MLθ der ML Schätzer von θ ist, dann ist ( )MLˆg θ der ML Schätzer von ( )g θ .

• Nachteile: – Ohne spezifische Verteilungsannahme kann der ML Schätzer

nicht bestimmt werden, kaum Hinweise dafür aus der Theorie.

2–14

– Die Schätzverfahren sind aufwendig.

– Bei Fehlspezifikation ist der ML-Schätzer nicht robust.

2–15

2.2 Algorithmen der ML Schätzung

• Da die Zielfunktion typischerweise nicht linear ist, ist es nicht mehr einfach

möglich, die Optima auszurechnen. Daher benutzt man numerische Verfah-

ren, um MLθ zu bestimmen:

2–16

2.2.1 "Grid Search"

• Man gibt sich ein Bündel von k Kombinationen der zu schätzenden Parame-

ter vor und berechnet für jede mögliche Parameterkonstellation [z.B. für ( )2

1 1, εβ σ ,( )22 2, εβ σ , ...,( )2

k k, εβ σ ] den zugehörigen Wert der Likelihoodfunktion

L1, L2, ..., Lk. Die Parameterkonstellation, die zum höchsten Wert der

Likelihoodfunktion führt (also zur höchsten Wahrscheinlichkeit, das zu be-

obachten, was wir beobachten), ist das Schätzergebnis.

• Voraussetzung: Man kennt den Werterahmen der wahren Parameter und

sucht eine "Feinabstimmung". Sonst besteht bei nicht konkaven

Likelihoodfunktionen die Gefahr, dass man statt globaler nur lokale Optima

erhält.

2–17

2.2.2 Iterative Verfahren

• Grundidee der Iteration:

a) Startwerte für θ (=Parametervektor) vorgeben

b) L ausrechnen

c) Werte für θ anpassen

d) L ausrechnen: Optimum erreicht? nein: gehe zu c ; ja: Ende

• Kriterien für das Erreichen des Optimums:

a) Vordefinierte, minimale weitere Änderung in ln L (z. B. wenn Verbesse-

rung < 1 * e-7, Optimum erreicht)

2–18

b) Vordefinierte, minimale weitere Änderung in θ

c) Vordefinierte, minimale weitere Annäherung von lnL∂∂θ an 0.

• Problem bei nicht-konkaven Likelihoodfunktionen: Nicht sicher, dass globales

Optimum erreicht wird. Lösungsmöglichkeit: Von alternativen Startwerten aus

beginnen und Ergebnis mit bestem L Wert wählen. Kombination von Grid

Search und iterativen Verfahren.

• Verfahren zur Anpassung von θ in Iterationsschritt "i": i i 1 i 1 i 1− − −θ = θ +Δ λ

wobei: i 1−λ Schrittlänge

i 1−Δ Richtungsvektor

i 1−θ Ausgangswert

2–19

• Gebräuchliche Verfahren zur Anpassung von θ

a) Newton-Raphson Verfahren

b) Methode des steilsten Anstiegs

c) Quadratic Hill Climbing

d) DFP (Davidon - Fletcher - Powell)

• Konzepte zur Erklärung der Verfahren

(a) Hessematrix der zweiten partiellen Ableitungen

2–20

2 2 2

21 1 2 1 k

2 2 22

21 2 2 2 k

2 2

21 k k

lnL lnL lnL

lnL lnL lnLlnLH

'

lnL lnL

⎡ ⎤⎛ ⎞ ⎛ ⎞ ⎛ ⎞∂ ∂ ∂⎢ ⎥⎜ ⎟ ⎜ ⎟ ⎜ ⎟∂θ ∂θ ∂θ ∂θ ∂θ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎢ ⎥⎢ ⎥⎛ ⎞ ⎛ ⎞ ⎛ ⎞∂ ∂ ∂⎢ ⎥ ∂⎜ ⎟ ⎜ ⎟ ⎜ ⎟= =∂θ ∂θ ∂θ ∂θ ∂θ⎢ ⎥⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ∂θ ∂θ⎢ ⎥⎢ ⎥⎢ ⎥⎛ ⎞ ⎛ ⎞∂ ∂⎢ ⎥⎜ ⎟ ⎜ ⎟∂θ ∂θ ∂ θ⎢ ⎥⎝ ⎠ ⎝ ⎠⎣ ⎦

Wenn H negativ definit ist, hat L(θ) ein eindeutiges globales Maximum,

L(θ) ist dann konkav. Es gilt: - E [H (θ)] = I(θ).

(b) Gradientenvektor

2–21

( ) ( )

( )

( )

1

k

lnL

S GlnL

⎡ ⎤∂ θ⎢ ⎥∂θ⎢ ⎥⎢ ⎥θ = θ =⎢ ⎥∂ θ⎢ ⎥⎢ ⎥∂ θ⎣ ⎦

• Beispiel: Das Newton-Raphson Verfahren

Allgemein: i i 1 i 1 i 1− − −θ = θ + Δ λ

Hier ( ) ( )1

i i 1 i 1 i 1H G 1−

− − −θ = θ − θ ⋅ θ ⋅

wobei i 1−Δ i 1−λ

Richtungsvektor Schrittlänge 2–22

• Bei quadratischen Funktionen ist man mit Newton-Raphson in einem Schritt

am Ziel. Bei nicht-quadratischen Funktionen sind große Schwankungen in

den Werten für θ möglich.

2–23

2.3 Testprinzipien und Modellselektion

2.3.1 Testprinzipien

• t- und F-Tests sind nicht anwendbar bei:

– nichtlinearen Restriktionen

– Modellen, die nichtlinear in Parametern sind

– wenn Fehler nicht normalverteilt sind.

• Da ML-Schätzer nichtlinear in Parametern sind, verwendet man andere Ver-

fahren.

2–24

• Es gibt 3 Alternativen, die asymptotisch äquivalent sind:

Likelihood Ratio Test LR

Wald Test W

Lagrange Multiplier Test LM

• Grundideen: Vergleiche restringiertes und unrestringiertes Modell.

Grundform eines Vektors von Restriktionen: H0: ( )c 0θ = .

• Beispiel: ln y = α + β ln L + γ ln K + ε,

H0: β + γ -1 = 0 (linear homogene C-D-Produktionsfunktion)

alle drei sind χ2-verteilt

2–25

• LR: Wenn im Optimum H0 gilt, dann sind die Likelihood-Werte mit (LR) und

ohne Restriktion (LU) sehr ähnlich => vergleiche LU, LR. Es wird mit und ohne

Restriktion geschätzt.

• W: Wenn im Optimum H0 gilt, muss ( )ˆc 0θ = gelten, da ML konsistent =>

überprüfe ( )ˆc 0θ = . Es wird nur ohne Restriktion geschätzt.

• LM: Wenn im Optimum H0 gilt, sollte die erste Ableitung der Log-Likelihood

hinsichtlich der Parameter auch dann gleich Null sein, wenn der unter der

Restriktion geschätzte Parametervektor in die unrestringierte Form der ersten

Ableitung eingesetzt wird. Es wird nur mit Restriktion geschätzt.

2–26

• Graphische Darstellung der Intuition:

( )θcLln

ULln

RLln

LR

LM

Lln

W

Rθ Uθ θ

c(θ)

2–27

• Likelihood Ratio Test – formal:

Test Statistik: 2k2 ln ~− ⋅ λ χ k = Anzahl der Restriktionen

mit R Uln lnL lnLλ = − , bzw. R

U

LL

λ =

ln LU

ln LR

1

0

ln L

L

2–28

• Beispiel: i 1 i1 2 i2 3 i3 4 i4 iy x x x x= β + β + β + β + ε

0 3 4H : 0β = β = , d.h. k = 2

LR-Schätzung ohne β3, β4 Lu-Schätzung mit β3, β4

• Beachte:

– zweimalige Schätzung nötig

– es können nur genestete Hypothesen getestet werden, d.h. solche For-

mulierungen, die durch Restriktion aus unrestringierten Formulierungen

gewonnen werden können.

• Beispiel: Nicht genestet sind i 1 i1 2 i2 iy x x= β + β + ε und i 1 i1 3 i3 iy x z u= β + β +

2–29

• Beispiel: ln UL 615= − k = 2

ln RL 680= − kritisches ( )22 0.95 5.99χ =

( )2 680 615 130 5.99− − + = >

=> H0 verwerfen (Intuition: ln L zu stark verbessert, als dass die Restriktion

gelten könnte). Der LR Test wird häufig verwendet.

• Wald Test – formal:

Unrestringiertes Modell schätzen und prüfen, ob Restriktion gilt.

H0: ( )c qθ = <=> ( )c q 0θ − =

Test Statistik:

2–30

( )( ) ( )( ) ( )( )1

2k

ˆ ˆ ˆW c q Var c q c q ~−′ ⎡ ⎤= θ − θ − θ − χ

⎣ ⎦

Mit ( )( ) ( ) ( ) ( )ˆ ˆc cˆ ˆVar c q Varˆ ˆ

′⎛ ⎞ ⎛ ⎞∂ θ ∂ θ⎜ ⎟ ⎜ ⎟θ − = θ⎜ ⎟ ⎜ ⎟∂θ ∂θ⎝ ⎠ ⎝ ⎠

1 k× k k× k 1×

Empfehlenswert, wenn die Restriktion die Schätzung stark verkomplizieren

würde, da Test nur unrestringierte Schätzung erfordert.

• Beispiel: 0 1 2 3H : β = β ⋅β <=> 1 2 3 0β −β ⋅β =

Modell: i 1 1i 2 2i 3 3i 4 4i iy x x x x= β + β + β + β + ε

2–31

( )[ ]3 2

ˆchier : ' 1 0ˆ

⎛ ⎞∂ θ⎜ ⎟ = − β − β⎜ ⎟∂θ⎝ ⎠

• Lagrange Multiplier Test (Score Test) – formal:

Maximiere die unrestringierte Log-Likelihood Funktion, lnL(θ), unter der linea-

re Nebenbedingung c(θ) Lagrange Ansatz

( ) ( ) ( )lnL * lnL 'cθ = θ + λ θ

( )ˆclnL * lnL 0ˆ

⎛ ⎞∂ θ∂ ∂ ′⎜ ⎟= + ⋅ λ =⎜ ⎟∂θ ∂θ ∂θ⎝ ⎠

( )lnL * c∂

= θ∂λ

2–32

Wenn die Restriktion zutrifft, dann sollte der Schattenpreis der Restriktion, λ,

nahe Null sein und

( )ˆcˆ

⎛ ⎞∂ θ⎜ ⎟ ⋅ λ⎜ ⎟∂θ⎝ ⎠

sollte klein sein. Wegen ( )ˆlnLc ' 0ˆ

⎛ ⎞∂ θ⎜ ⎟ = − ⋅ λ ≈⎜ ⎟∂θ⎝ ⎠

c’

sollte dann gelten: (restringiert) (unrestringiert)

lnL * lnL∂ ∂≈

∂θ ∂θ

d.h. die Restriktion sollte keinen Unterschied machen.

2–33

• Test Statistik:

( ) ( ) ( )1R R 2R k

R R

ˆ ˆlnL lnLˆLM Iˆ ˆ

−

′⎛ ⎞ ⎛ ⎞∂ θ ∂ θ

⎡ ⎤⎜ ⎟ ⎜ ⎟= θ χ⎣ ⎦⎜ ⎟ ⎜ ⎟∂θ ∂θ⎝ ⎠ ⎝ ⎠

∼

• Vorgehensweise:

– in restringierter Form schätzen und überprüfen, ob erste Ableitung der

unrestringierten Likelihood-Funktion am Schätzer der restringierten Likelihoodfunktion Rθ Null ist.

– ( )1

RÎ

−⎡ ⎤θ⎣ ⎦

über ( ) ( )lnL lnL′

⎛ ⎞ ⎛ ⎞∂ θ ∂ θ⋅⎜ ⎟ ⎜ ⎟

∂ θ ∂θ⎝ ⎠ ⎝ ⎠ approximieren.

2–34

• Oft angewendet, wenn restringiertes Modell einfach zu schätzen und das

unrestringierte Modell kompliziert ist.

• Im Ergebnis:

– LR, W, LM sind asymptotisch äquivalent

– Wenn Restriktion kompliziert, nutze W

– Wenn restringiertes Modell einfacher (z.B: Parameterwert = 0), nutze LM

– In der Praxis vorherrschend: LR, wenn es einfach ist, die Schätzung (mit

und ohne Restriktion) mehrfach durchzuführen.

• Hinweis: Wenn die Parameter nicht normalverteilt sind, ist der t-Test nicht

exakt gültig, da die Teststatistik nicht mehr der t-Verteilung folgt. Da ML-

2–35

Schätzer jedoch asymptotisch normalverteilt sind, ist die t-Teststatistik

asymptotisch t verteilt. Daher wird sie auch bei Modellen verwendet, die

nichtlinear in Parametern sind (gelegentlich wird der „t-Wert“ von der Soft-

ware aus diesem Grund als „z-Wert“ ausgegeben.)

2–36

2.3.2 Modellselektion

• Maße der Schätzgüte beschreiben, wie genau das Modell die vorliegenden

Daten widerspiegelt. Im linearen Rahmen verwendet man das R2, das den

Anteil erklärter an der gesamten Variation der abhängigen Variable darstellt.

• Bei nichtlinearen Modellen ist das R2 nicht direkt übertragbar, da die Schätz-

verfahren nicht darauf abzielen, den Anteil der erklärten Variation zu maxi-

mieren. Gebräuchliche Gütemaße für qualitative Modelle vergleichen den

Wert der Likelihoodfunktion für ein Schätzmodell mit lediglich einer Regres-

sionskonstanten (ln LR) mit dem Wert für das geschätzte Modell (ln LU). Je

grösser der Unterschied, desto besser der Erklärungswert des Modells.

2–37

• Die statistische Signifikanz dieses Unterschieds kann mit Hilfe eines

Likelihood-Ratio Tests formal getestet werden.

• Das sogenannte McFadden R2, das zuweilen auch als Likelihood-Ratio-

Index bezeichnet wird, wird wie folgt berechnet:

2 U

R

lnLMcFadden R 1

lnL⎡ ⎤

= − ⎢ ⎥⎣ ⎦

Da die Likelihoodfunktion die Summe der logarithmierten Wahrscheinlichkei-ten ist, gilt wegen ( )ln 1 0= : R UlnL lnL 0≤ <

Daher liegen die Mc Fadden R2-Werte im Intervall [0,1]. Wären alle Stei-gungsparameter β des Modells gleich 0, so wäre U RlnL lnL= und Mc Fadden

2R 0= .

2–38

Wäre das Modell in der Lage, die beobachteten Werte exakt vorherzusagen, ergäbe sich der Maximalwert für die Likelihood von 1 und daher UlnL 0= . In

diesem Fall erreicht das McFadden R2 den Wert von 1.

2–39

Literatur: Cameron Colin A. und P.K. Trivedi, 2005, Microceconometrics. Methods and

Applications, Cambridge: Cambridge University Press. Kapitel 5, 7 Cameron Colin A. und P.K. Trivedi, 2009, Microceconometrics Using Stata,

Stata Press. Kapitel 12 Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice

Hall, 6. Auflage. Kapitel 16.1 - 16.4. Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley &

Sons, 3. Auflage. Kapitel 6.1 - 6.2, 6.4. Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer

Verlag, Heidelberg, Kapitel 3. Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel

Data, Cambridge: The MIT Press. Kapitel 13.1 - 13.6.

3. Schätzverfahren für bivariate abhängige Variablen

3.1 Einführung

3.2 Das lineare Wahrscheinlichkeitsmodell

3.3 Logit Modell

3.4 Probit Modell

3.5 Allgemeine Bemerkungen

3.6 Logit und Probit Modelle für Paneldaten

3–2

3.1 Einführung

• Bivariate (binomiale, dichotome) abhängige Variablen beschreiben Prozesse

mit zweiwertigen Ausprägungen: 0 / 1, nein / ja. Es gibt zahlreiche Beispiele

für ökonomische Prozesse mit solchen Ausprägungen: Erwerbstätigkeit,

Kaufentscheidung oder Änderung der Unternehmensstrategie.

• Die Modelle spezifizieren die Beziehung zwischen erklärenden Variablen

und der Wahrscheinlichkeit, dass ein Ereignis eintritt bzw. dass man die

Ausprägung "1" erhält. Es gibt zwei Modellierungsstrategien, um bivariate

abhängige Variablen zu motivieren, die "random utility maxization" Hypothe-

se und latente Variablen.

3–3

3.1.1 Die "Random Utility Maximization" Hypothese

• Annahme 1: Entscheidungsträger maximiert erwarteten Nutzen

• Annahme 2: Der Nutzen bei der Wahl zwischen zwei Alternativen (yi =0 oder

yi = 1) hängt ab von den Charakteristika der beiden Alternativen, den Attri-

buten des Entscheidungsträgers sowie dem Zufall.

• Definiere für Entscheidungsträger i:

Ui1, Ui0 Nutzen aus den Alternativen 1 und 0

zi1, zi0 Vektor mit Charakteristika der Alternativen

xi Vektor mit Charakteristika des Entscheiders

• Unter der Annahme von Linearität unterstellen wir:

3–4

i0 i0 i0 0 i0 i 0 i0U U e z ' x ' e= + = α + β + γ +

i1 i1 i1 1 i1 i 1 i1U U e z ' x ' e= + = α + β + γ +

• Individuum i wählt:

yi = 0, wenn i1 i0U U≤

yi = 1, wenn i1 i0U U> .

• Es ergibt sich

( ) ( )i i1 i0P y 1 P U U= = >

( )1 i1 i 1 i1 0 i0 i 0 i0P z ' x ' e z ' x ' e= α + β + γ + > α + β + γ +

( ) ( ) ( ) ( )( )i0 i1 1 0 i1 i0 i 1 0P e e z z ' x '= − < α − α + − β + γ − γ

3–5

( )iF x '= θ

wobei: ( )i i1 i0 ix ' 1, z z ',x '⎡ ⎤= −⎣ ⎦ ( ) ( )1 0 1 0' ', ', '⎡ ⎤θ = α − α β γ − γ⎣ ⎦

F = kumulative Verteilungsfunktion von (ei0 – ei1)

Wenn γ1 = γ0, ist der Einfluss von wi' auf die Entscheidung nicht signifikant.

• Für F unterscheidet man herkömmlich drei Formulierungen:

– das lineare Wahrscheinlichkeitsmodell

– das Probitmodell

– das Logitmodell

3–6

3.1.2 Unbeobachtete latente Variable *iy

• Die wahre abhängige Variable ( *iy ) stellt ein kontinuierliches, nicht beob-

achtbares Maß dar, z.B. die Neigung etwas zu tun (z.B. extreme Parteien zu

wählen, Arbeit anzubieten). Dann lautet das wahre Modell: *i i iy ' x= β + ε

• Beobachtbar ist nur die Variable yi, die zwei Werte annehmen kann:

wenn

wenn

• Die Schätzmethode zur Bestimmung der Parameter im Vektor β variiert mit

den Annahmen zur Verteilung von εi.

*iy 0≤*

iy 0>iy 0=

iy 1=

3–7

3.2 Das lineare Wahrscheinlichkeitsmodell

• Hier wird die binäre abhängige Variable y durch ein KQ Modell geschätzt.

• Beispiel: Die Entscheidung über die Erwerbstätigkeit wird regressiert auf

Faktoren x, wie Alter, Familienstand, Ausbildung. Erwerbstätigkeit (y) ist als

0/1 Variable kodiert. • Prinzipiell betrachtet man ( ) ( )i iP y 1 F ' x= = β

( ) ( )i iP y 0 1 F ' x= = − β

• β beschreibt den Einfluss einer Änderung in x auf die Wahrscheinlichkeit,

erwerbstätig zu sein. Das lineare Regressionsmodell leitet die Verteilung

von F nicht über die Verteilungsannahmen an den Fehlerterm ε ab, sondern

setzt:

( )i iF ' x ' xβ = β . 3–8

• Für den Erwartungswert von yi gilt

( ) ( ) ( ) ( )i i i iE y 1 F ' x 0 1 F ' x F ' x⎡ ⎤= × β + × − β = β⎣ ⎦

• Das Modell für yi besteht aus einem systematischen und einem unsystema-

tischen (zufälligen) Teil: ( ) ( )i i i iy E y [y E y ]= + −

( )i iF ' x= β + ε

i i' x= β + ε

• Die typischen Annahmen des KQ Schätzers werden beibehalten: wenn xi nicht stochastisch ist: ( )iE 0ε = und ( )i jE 0ε ε = . Dann gilt z.B. für die erwar-

tete Wahrscheinlichkeit, dass Person i erwerbstätig ist:

( )i iE y ' x= β ,

3–9

• Dies entspricht dem Anteil der Erwerbspersonen in der Stichprobe, wenn ei-

ne Regressionskonstante im Modell berücksichtigt ist. (Warum?)

• Für gegebenes xi kann εi nur zwei verschiedene Werte annehmen:

yi εi Wahrscheinlichkeit

0 iβ'x− fi

1 i1 β'x− i1 f−

Daher ist εi nicht normal-, sondern diskret verteilt, mit zwei möglichen Aus-

prägungen pro Person i.

• Aus der Annahme folgt: ( ) ( )i i i i' x f 1 ' x 1 f 0−β ⋅ + − β ⋅ − = ⇔

( )iE 0ε =

3–10

( )i i i i i i' x f 1 ' x f ' x f 0−β ⋅ + − β − + β ⋅ = ⇔

i if 1 ' x= − β

• Erstes Problem des linearen Wahrscheinlichkeitsmodells: Da es keine Ga-

rantie dafür gibt, dass , kann fi sowohl < 0 als auch > 1 sein.

• Ein zweites Problem ergibt sich aus der Betrachtung der Varianz von εi. All-gemein wissen wir: ( ) ( )( )2

var y E y E y= −

diskret (hier): ( )( ) ( )2y E y f y−∑

stetig: ( )( ) ( )2

y E y f y dy−∫

• Jetzt gilt

( )ivar ε ( )( ) ( ) ( )( ) ( )2 2

i0 i0 i1 i1E f E f= ε − ε ⋅ ε + ε − ε ⋅ ε

( ) ( ) ( )2 2

i0 i i1 if 1 f= ε + ε −

i0 ' x 1≤ β ≤

3–11

( ) ( ) ( ) ( )2 2

i i i i' x 1 ' x 1 ' x ' x= −β − β + − β β

( ) ( ) ( )i i i i' x 1 ' x ' x 1 ' x⎡ ⎤= β −β β + −β⎣ ⎦

( ) ( )i i' x 1 ' x= β − β

( ) ( )i iE y 1 E y⎡ ⎤= −⎣ ⎦ .

• Es zeigt sich also, dass die Varianz von εi eine Funktion der abhängigen Va-

riablen für i ist, ein typischer Fall von Heteroskedastie.

• Das Problem lässt sich über FGLS (feasible generalized least squares)

lösen:

statt i i iy ' x= β + ε definiere * ii

i

yy

ˆ=σ

und * ii

i

xx

ˆ=σ

mit ( )2i i i

ˆ ˆˆ y 1 yσ = − und schätze

* * *i i iy ' x= β + ε (dann homoskedastische *

iε )

3–12

• Abschließende Bemerkungen zum linearen Wahrscheinlichkeitsmodell:

(1) Der Störterm einer Beobachtung kann nur zwei verschiedene Werte an-

nehmen; er ist daher nicht normalverteilt. Damit , muss mit

Wahrscheinlichkeit der Wert und mit Wahrscheinlich-

keit der Wert angenommen werden. Dabei können

fi und 1 – fi außerhalb des (0,1) Intervalls liegen.

(2) Selbst wenn , kann der vorhergesagte Wert von yi für

xi, die nicht in der Stichprobe enthalten sind, außerhalb des (0,1) Inter-

valls liegen.

(3) Die Varianz des Störterms variiert mit i. Damit ist der Störterm hetero-

skedastisch und die KQ Schätzung ineffizient.

( )iE 0ε =

i if 1 ' x= − β i' x−β

i i1 f ' x− = β i1 ' x− β

( )i i0 E y x 1≤ ≤

3–13

(4) Da die abhängige Variable nicht stetig ist und nicht der Normalverteilung

folgt, ist die lineare Schätzmethode nicht effizient.

• Um sicherzustellen, dass alle vorhergesagten Werte im (0,1) Intervall liegen,

müsste gelten:

( )i' xilim P y 1 1

β →∞= = und ( )i' xi

lim P y 1 0β → −∞

= =

• Daher verwendet man typischerweise die beiden folgenden Verteilungsfunk-

tionen zur Modellierung binärer abhängiger Variablen:

( )iF ' xβ

1

0 i' xβ

3–14

(a) Logistische Verteilung (Logit Verfahren):

( ) ( ) ii i

i

exp ' xP y 1 ' x

1 exp ' xβ

= = Λ β =+ β

(b) Normalverteilung (Probit Verfahren)

( ) ( ) ( ) ( )2' x ' xi i t122

i iP y 1 t dt ' x 2 e dtβ β

−−

−∞ −∞

= = φ = Φ β = π∫ ∫

3–15

3.3 Logit

• Allgemeine Formulierung:

( )( )

ii

i

P y 1ln ' x

P y 0⎛ ⎞=

= β⎜ ⎟⎜ ⎟=⎝ ⎠ Wertebereiche: -∞, +∞

(die linke Seite wird als log-odds bezeichnet)

( )( ) ( )i

ii

P y 1exp ' x

P y 0=

⇔ = β=

Wertebereich: 0, +∞

( )( )

i

i

P y 11 P y 1

==

− =

( ) ( )

( )i

ii

exp ' xP y 1

1 exp ' xβ

⇔ = =+ β

Wertebereich: 0, 1

3–16

( ) ( )i

i

1P y 01 exp ' x

⇔ = =+ β

Wertebereich: 0, 1

• Die Likelihoodfunktion für den Logitschätzer:

( )

N

i i ii 1

L f y ,x=

= θ∏

( ) ( )N

y 1 yi ii i

i 1

P y 1 P y 0 −

=

= = =∏

( )( ) ( )

y 1 yi iN

i

i 1 i i

exp ' x 11 exp ' x 1 exp ' x

−

=

⎛ ⎞ ⎛ ⎞β= ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟+ β + β⎝ ⎠ ⎝ ⎠∏

• Vorzeichen und Signifikanz der Koeffizienten können interpretiert werden.

Die Koeffizienten selbst entsprechen nicht den marginalen Effekten.

• Allgemein gilt: ( ) ( ) ( )i i i

i kk i k

E y dF ' x ' x f ' xx d ' x x

∂ β ⎛ ⎞∂β= ⋅ = β ⋅β⎜ ⎟∂ β ∂⎝ ⎠

3–17

• Im Fall des Logit Modells können wir einsetzen:

( ) ( ) ( )( )

ii i

i

exp ' xE y P y 1

1 exp ' xβ

= = =+ β

( ) ( )

( ) ( )i i

kk i i

E y exp ' x 1x 1 exp 'x 1 exp 'x

∂ β= ⋅ ⋅β

∂ + β + β

( ) ( )i i kF ' x 1 F ' x⎡ ⎤= β ⋅ − β ⋅β⎣ ⎦

Die Stärke des marginalen Effektes hängt von den Werten der erklärenden

Variablen x ab. Zur Interpretation kann man den Stichprobenmittelwert aller

N marginalen Effekte von xk bestimmen, den mittleren marginalen Effekt:

( )N

1i k

i 1

N f ' x .−

=

β β∑

• Alternativ berechnen manche Programme den marginalen Effekt am Mittel-

wert der Regressoren: 3–18

( ) kf ' xβ β .

• Die Berechnung eines „marginalen“ Effektes von dichotomen (also 0/1) er-

klärenden Variablen ″d″ ist nicht sinnvoll. Daher wird in diesen Fällen E(y)

mit der dichotomen Variable d = 0 bzw. mit d = 1 vorhergesagt. Alle anderen

erklärenden Variablen werden auf ihre Mittelwerte gesetzt. Man berechnet

den Einfluss von d: ( ) ( )E y d 1,x E y d 0,x= − = .

• Interpretiert werden insgesamt: (i) Vorzeichen, (ii) statistische Signifikanz

und (iii) marginale Effekte.

• Die Ergebnisse von Logitschätzungen finden gelegentlich eine andere Dar-stellungs- und Interpretationsform: da ( ) ( ) ( )( )iP y 1 exp ' x 1 exp ' x= = β + β ,

3–19

ergibt sich für ( ) ( ) ( )i iP y 1 P y 0 exp ' x= = = β was als odds ratio bezeichnet

wird.

• Das odds-ratio beschreibt die relative Wahrscheinlichkeit von y = 1 zu y = 0.

Ändert sich xk um eine Einheit, so ist das neue odds-ratio ( )( ) ( ) ( )kexp ' x 1 exp ' x expβ + = β ⋅ β . Das odds ratio ist um den Faktor

( )kexp β gestiegen. Wenn k 0,1β = folgt ( )exp 0,1 1,105= , d.h. die relative

Wahrscheinlichkeit von y = 1 gegenüber y = 0 steigt um 10,5 Prozent. Viel-

fach werden statt der Koeffizienten die odds-ratios ausgewiesen, wobei o.r.

> 1, wenn β > 0 und o.r. < 1, wenn β < 0.

3–20

3.4 Probit

• Ausgangspunkt: Normalverteilungsannahme für Fehlerterme, beispielsweise

im Modell latenter Variablen: *

i i iy ' x= β + ε mit ( )i ~ IN 0, 1ε

• IN steht für independently normally distributed; IID steht für identically and

independently distributed. • Bei einem Schwellenwert von 0, ist die beobachtbare Variable yi dem *

iy wie

folgt zugeordnet:

iy 0= wenn *iy 0≤

iy 1= wenn *iy 0>

3–21

Dann

( ) ( ) ( )' xi

i iF ' x ' x t dtβ

−∞

= β = Φ β = φ∫

• Die kumulierte Wahrscheinlichkeitsfunktion F und die Wahrscheinlichkeits-

dichtefunktion f der Standardnormalverteilung werden standardmäßig mit Φ

und φ abgekürzt. • Die Likelihoodfunktion für den Probitschätzer mit ( )2

i ~ IN 0,ε σ nutzt:

( ) ( ) ( )* i iii i i

' xP y 0 P y 0 P ' x P

ε −β⎛ ⎞= = ≤ = ε ≤ −β = ≤⎜ ⎟σ σ⎝ ⎠

i i' x ' x1

−β β⎛ ⎞ ⎛ ⎞= Φ = − Φ⎜ ⎟ ⎜ ⎟σ σ⎝ ⎠ ⎝ ⎠

( ) i ii

' x ' xP y 1 1

β −β⎛ ⎞ ⎛ ⎞= = Φ = −Φ⎜ ⎟ ⎜ ⎟σ σ⎝ ⎠ ⎝ ⎠

( ) ( ) ( ) ( )*i i i i iE y P y 1 P y 0 P ' x= = = > = −ε < β

3–22

wobei:

( ) ( )

Ny 1 yi i

i ii 1

L P y 1 P y 0 −

=

= = =∏

y 1 yi iNi i

i 1

' x ' x1−

=

⎡ ⎤ ⎡ ⎤−β −β⎛ ⎞ ⎛ ⎞= − Φ Φ⎢ ⎥ ⎢ ⎥⎜ ⎟ ⎜ ⎟σ σ⎝ ⎠ ⎝ ⎠⎣ ⎦ ⎣ ⎦∏

was hinsichtlich β und σ bzw. β / σ maximiert wird.

• Da der β-Vektor in der Likelihoodfunktion nur gemeinsam mit σ vorkommt,

sind die beiden Parameter nicht separat identifizier- und schätzbar. Daher

ix′β⎛ ⎞Φ⎜ ⎟σ⎝ ⎠

0

ix′−β⎛ ⎞Φ⎜ ⎟σ⎝ ⎠

0

3–23

normiert man und setzt σ = 1, um anschließend nur über den Vektor β zu

maximieren. Letztlich lässt sich der genaue Wert für β also nie bestimmen,

da man den wahren Wert von σ nicht kennt und nicht kennen kann.

• Dies ist unproblematisch hinsichtlich der Interpretation von Vorzeichen und

statistischer Signifikanz von β, da die Multiplikation mit einer Konstanten

(σ-1) Varianz und Standardfehler des geschätzten β ebenso modifiziert wie

den Schätzwert selbst. Dies kürzt sich also bei der t-Statistik weg. Wenn 2 1σ ≠ , beschreibt der ausgewiesene Parameterschätzer nicht β , sondern

( )β σ . Der marginale Effekt ist nach wie vor korrekt:

( )i i

k

P y 1 ' x.

x∂ = β β⎛ ⎞= φ ⋅⎜ ⎟∂ σ σ⎝ ⎠

3–24

• Falls die Normalverteilungsannahme für ε korrekt ist, ist der Maximum

Likelihood Schätzer für β konsistent und asymptotisch effizient.

• Interpretiert werden Vorzeichen und Signifikanz der geschätzten Koeffizien-

ten. Da es sich um ein nichtlineares Modell handelt, sind die geschätzten

Koeffizienten von den marginalen Effekten verschieden.

• Der Einfluss einer Variable x auf die Ereigniswahrscheinlichkeit hängt von

den Ausprägungen der anderen Variablen ab. Daher werden marginale Ef-

fekte berechnet und Simulationen durchgeführt, um die Effektstärke zu be-

stimmen.

• Für die Berechnung der marginalen Effekte gilt bei σ = 1: ( ) ( )i

i kk

' x' x

x∂Φ β

= φ β ⋅β∂

3–25

Dies sollte an verschiedenen Werten von xi berechnet werden, um die Ro-

bustheit des marginalen Effektes abzuschätzen (siehe Beispiel unten).

• Simulation der Wahrscheinlichkeit eines Ereignisses unter alternativen Sze-

narien:

Methode 1:

– Alle erklärenden Variablen werden auf den Stichprobenmittelwert gesetzt

und die Ereigniswahrscheinlichkeit wird für diese künstliche „Mittelwertbe-

obachtung“ berechnet.

– Einzelne Variablen werden modifiziert und bei veränderten Werten wird

die Ereigniswahrscheinlichkeit erneut vorhergesagt.

3–26

Methode 2:

– Der Datensatz wird unverändert gelassen, für jedes Individuum i wird die

Ereigniswahrscheinlichkeit bestimmt und dann der Stichprobendurch-

schnitt berechnet.

– Einzelne Variablen werden für alle Beobachtungen gleich modifiziert. Bei

veränderten Werten wird die Ereigniswahrscheinlichkeit für alle i und dann

im Durchschnitt bestimmt.

• Durch einen Vergleich der vorhergesagten Wahrscheinlichkeiten ergibt sich

in beiden Fällen ein Maß für den Einfluss der modifizierten Variablen. Die

Standardfehler der berechneten Effekte lassen sich per Bootstrap erzeugen.

• Beispiel: (Quelle: Greene, 6.A., S. 782) Es soll geprüft werden, ob die

Lehrmethode PSI (personalized system of instruction) die Noten (GPA) ver-

3–27

bessert: Grade = 1 wenn verbessert, Grade = 0 wenn nicht verbessert. Kont-

rollvariablen sind

GPA = vorheriger Notendurchschnitt

TUCE = Testergebnis vor dem Kurs

PSI = neue Lehrmethode angewendet (1 = ja, 0 = nein).

Die Tabelle gibt die Schätzergebnisse an: Linear Logistic Probit

Variable Coefficient Slope Coefficient Slope Coefficient Slope

Constant -1,498 - -13,021 - -7,452 - GPA 0,464 0,464 2,826 0,534 1,626 0,533 TUCE 0,010 0,010 0,095 0,018 0,052 0,017 PSI 0,379 0,379 2,379 0,450 1,426 0,468

( )ˆf x 'β 1,000 0,189 0,328

3–28

Slope bezeichnet für alle Variablen die erste Ableitung der Verteilungsfunk-

tion nach xk, auch für PSI. Während sich die Koeffizientenschätzer deutlich

unterscheiden, sind die marginalen Effekte sehr ähnlich.

Den Effekt von PSI könnte man im Probit-Modell am Mittelwert von TUCE

von 21,938 aus der Differenz folgender Größen berechnen:

PSI = 0: P(Grade = 1) = Φ (-7,452 + 1,626 GPA + 0,052 ⋅ 21,938)

PSI = 1: P(Grade = 1) = Φ (-7,452 + 1,626 GPA + 0,052 ⋅ 21,938 + 1,426).

Dabei variiert der Effekt von PSI hier z.B. mit den Ausprägungen von GPA,

sichtbar als Differenz der beiden Kurven:

3–29

3–30

3.5 Allgemeine Bemerkungen

3.5.1 Vergleich von Logit und Probit Modell

• Im Allgemeinen ähnliche Ergebnisse

• Kumulative Verteilungsfunktionen der Ereigniswahrscheinlichkeit unterschei-

den sich an den Rändern, im mittleren Bereich sind die Ergebnisse vergleich-

bar:

x'β x'β

Probit

Logit Probit

Logit

∞− ∞

)'( xF β )'( xf β

∞− ∞

3–31

• Für kleine und große i' xβ : ( ) ( )LOGIT PROBIT

i if ' x f ' xβ > β , Ergebnisse im mittleren

Bereich ähnlich.

• Alle Modelle für bivariate abhängige Variablen haben grundsätzlich die gleiche

Likelihoodfunktion

( ) ( )i iy 1 y 0i i

L F ' x 1 F ' x= =

⎡ ⎤= β ⋅ − β⎣ ⎦∏ ∏ ,

die sich nur durch die jeweiligen Verteilungsannahmen für F unterscheiden:

( ) ( )i iP y 1 F ' x= = β

Lineares Wahrscheinlichkeitsmodell: i' x= β

Logit Modell: ( )( )

i

i

exp ' x1 exp ' x

β=

+ β

3–32

Probit Modell: ( )i' x= Φ β

• Die Parameterschätzungen sind wegen der verschiedenen Nichtlinearitäten

der Modelle nicht direkt vergleichbar. Amemiya (1981) leitete folgende appro-ximative Beziehungen ab für den Fall, dass 0,1 E(y) 0,9≤ ≤ .

Konstante: LW LO PRˆ ˆ ˆ0,25 0,5 0,4 0,5α = α + ≅ α +

Steigungsparameter: LW LO PRˆ ˆ ˆ0,25 0,4β = β ≅ β ⇔ LO PR

ˆ ˆ1,6β ≅ β

• Logitschätzer sind rechnerisch einfacher zu bestimmen als Probitschätzer.

• Modelltheoretisch gibt es keine Rechtfertigung für die Wahl zwischen Logit

und Probit. Allerdings stellt die dem Probit unterliegende Normalverteilungs-

annahme die allgemeinere Annahme dar.

3–33

• Statistische Signifikanz der Parameter sind im Allgemeinen für Logit und

Probit sehr ähnlich.

• Beispiel: Heij et al. Example 6.2

3–34

3.5.2 Schätzung von nichtlinearen Modellen mit binären abhängigen Vari-

ablen

• Maximum Likelihoodansatz, allgemein:

( ) ( )N y 1 yi i

i ii 1

L F 'x 1 F 'x−

=

⎡ ⎤ ⎡ ⎤= β − β⎣ ⎦ ⎣ ⎦∏

( ) ( ) ( )( )N

i i i ii 1

lnL y lnF 'x 1 y ln 1 F 'x=

= ⋅ β + − ⋅ − β∑

• Allgemeine Bedingung erster Ordnung:

( )N

i i ii i

i 1 i i

y f flnL 1 y x 0F 1 F=

⎡ ⎤⎛ ⎞ ⎛ ⎞⋅ −∂= + − ⋅ ⋅ =⎢ ⎥⎜ ⎟ ⎜ ⎟∂β −⎝ ⎠ ⎝ ⎠⎣ ⎦∑

• Für den Logitschätzer

3–35

( )( )

Ni

i iji 1j i

exp ' xlnL y x 01 exp ' x=

⎛ ⎞β∂= − ⋅ =⎜ ⎟⎜ ⎟∂β + β⎝ ⎠∑

• Für den Probitschätzer

( )i iy 0 y 1i i

lnL ln 1 ln= =

= − Φ + Φ∑ ∑

i iij ij

y 0 y 1i ij i i

lnL x x 01= =

⎛ ⎞−φ φ∂= ⋅ + ⋅ =⎜ ⎟∂β − Φ Φ⎝ ⎠∑ ∑

( )

Ni i

i iji 1 i i

y x 01=

⎛ ⎞−Φ= ⋅ φ ⋅ =⎜ ⎟⎜ ⎟Φ −Φ⎝ ⎠∑

• Für beide Schätzverfahren gilt, dass die Hessematrix überall negativ definit ist.

3–36

Daher ist die Loglikelihoodfunktion global konkav, und die Schätzverfahren

konvergieren zum globalen Maximum. Es können alle iterativen Methoden an-

gewendet werden.

• Hypothesentests hinsichtlich der Koeffizienten β:

– t-Test für einfache Hypothesen

– Wald-Test für lineare Restriktionen (R, q) . Nachdem das Mo-

dell ohne Restriktionen geschätzt wurde, werden die Restriktionen anhand

der geschätzten Parameter getestet.

– Likelihood Ratio Test: Das Modell wird in restringierter

und unrestringierter Form geschätzt.

0H : R qβ =

( )R ULR 2 lnL lnL= − −

3–37

– Lagrange Multiplier Test:

( ) ( ) ( ) 2k

lnL lnLLM cov ~

′⎛ ⎞ ⎛ ⎞∂ θ ∂ θ⎜ ⎟ ⎜ ⎟= θ χ⎜ ⎟ ⎜ ⎟∂θ ∂θ⎝ ⎠ ⎝ ⎠

.

θ = Parametervektor aus restringierter Schätzung

ln L = unrestringierte log-Likelihoodfunktion

Das Modell wird mit k Restriktionen geschätzt, anschließend werden die

Restriktionen getestet.

– W, LR, LM sind 2χ -verteilt; die Freiheitsgrade entsprechen der Anzahl der

Restriktionen k.

3–38

• Es ist nicht möglich zu testen, ob das Logit- oder das Probit-Verfahren ange-

messen ist, da die Modelle nicht "genestet" sind (man kann nicht ein Modell

durch Restriktionen aus dem anderen gewinnen).

3–39

3.5.3 Eigenschaften binärer Modelle unter nicht-idealen Bedingungen

(a) Auslassen exogener Variablen

• KQ: systematische Verzerrung der geschätzten Parameter, wenn ausgelasse-

ne Variable mit den berücksichtigten Variablen korreliert ist.

• ML: Selbst wenn ausgelassene Variable mit den berücksichtigten Variablen

nicht korreliert ist, werden die geschätzten Parameter durch das Auslassen ei-

ner wichtigen Variablen inkonsistent.

• Test mittels Wald, LR oder LM:

*

0 1 1 2H : y ' x , 0= β + + ε β = versus

*1 1 1 2 2 2H : y ' x ' x , 0= β + β + ε β ≠

3–40

(b) Heteroskedastie

• KQ: bei heteroskedastischen Fehlertermen bleibt der KQ Schätzer unverzerrt

und konsistent, büßt aber Effizienz ein. Ebenso erhält man falsche Schätzer

für die Varianz-Kovarianz-Matrix und fehlerhafte t-Statistiken für einzelne Pa-

rameter.

• ML: Bei Heteroskedastie werden Maximum Likelihood Schätzer inkonsistent

und die Varianz-Kovarianz-Matrix ist nicht korrekt. Letztlich ist die Verteilungs-

annahme für die abhängige Variable falsch, und damit gelten die günstigen

Eigenschaften des ML Schätzers nicht mehr.

3–41

(c) Bemerkungen

• Die Bedeutung inkonsistenter Koeffizientenschätzer unterscheidet sich bei

bivariaten Modellen vom KQ Schätzer. Der Unterschied liegt darin, dass selbst

bei inkonsistenten Parameterschätzungen im nichtlinearen Modell (z.B. beim

Probit) die mittleren marginalen Effekte noch konsistent sein können.

• Wenn also statt eines Parameters kβ nun wie im Fall von ausgelassenen nicht

korrelierten erklärenden Variablen ein kβ geschätzt wird, so können unter be-

stimmten Annahmen beim Probit-Schätzer Vorzeichen, relative Effektstärke (im Vergleich zu kβ ) und der mittlere marginale Effekt korrekt sein, obwohl kβ

inkonsistent ist.

3–42

• Auch die Auswirkung einer fehlspezifizierten Likelihoodfunktion muss relati-

viert werden. Wenn eine Normalverteilung vorliegt und wir schätzen ein

Logitmodell, so sind die Parameterschätzer klar verzerrt und inkonsistent. In

3.5.1 haben wir die Zusammenhänge klar gemacht, die belegen, dass die Pa-

rameterschätzer der beiden Modelle hauptsächlich unterschiedlich skaliert

sind. Das PSI-Beispiel zeigt, dass die marginalen Effekte von Logit und Pro-

bitschätzern nahezu identisch sein können, obwohl sich die Koeffizienten un-

terscheiden.

• Wie im linearen Modell auch, können bei binären Modellen keine konsistenten

Ergebnisse erzielt werden, wenn die ausgelassene Variable mit den berück-

sichtigten Variablen korreliert ist.

3–43

3.5.4 Maße für die Schätzgüte in binären Regressionen

(a) Vergleich der Log Likelihood im Modell mit und ohne Steigungsparameter

über (Modell-Signifikanz).

(b) McFadden R2 („Likelihood Ratio Index“) in Anlehnung an Standardregressi-

onsmodell: McFadden

Wobei UlnL = log Likelihood Wert ohne Restriktion

RlnL = log Likelihood Wert mit Restriktion (alle Steigungsparameter

sind = 0)

R UlnL lnL 0≤ ≤

2LRT ~ χ

( )2U RR 1 lnL lnL= −

3–44

Der Wertebereich von lnL ist ( ), 0 .−∞ Das McFadden R2 hat den Wert 0,

wenn U RlnL lnL= und den Wert 1, wenn UlnL 0= .

(c) Anteil korrekter Vorhersagen

Berechne für jede Beobachtung ( )i iˆZ F ' x= β . Wenn iZ s> , dann ,

wenn iZ s≤ dann iy 0= , wobei s ein Schwellenwert ist, typischerweise wird

s = 0,5 gewählt. Ein Vergleich von iy mit yi ergibt den Anteil korrekter Vor-

hersagen. Probleme:

(i) eine feste Vorhersage am Durchschnittswert von yi gibt unter Umständen

eine bessere Anpassung als das Modell.

(ii) die Vorhersagequalität ist von der Wahl des s abhängig, wofür keine ge-

eignete Regel existiert.

iy 1=

3–45

• Beispiel: Tunali (1986) schätzt ein Modell zur Rückkehrwahrscheinlichkeit von

Migranten. Ein LR-Test ergibt hohe Signifikanz der Parameter, der Likelihood-

Ratio-Index beträgt 0,083. Bei einem Schwellenwert von s = 0,5 ergibt sich:

Vorhersage D = 0 D = 1 Gesamt Beobachtet D = 0 471 16 487 D = 1 183 20 203 Gesamt 654 36 690

491 von 690, d.h. 71,2 Prozent der Vorhersagen treffen zu. Ein naives Modell,

das für alle Beobachtungen D = 0 vorhersagt, trifft in 70,6 Prozent der Fälle

zu. Obwohl signifikante Zusammenhänge aufgezeigt werden, erzeugt die

Schätzung kaum eine bessere Vorhersage.

3–46

(d) Man findet auch 2N

2 R

U

Lpseudo R 1L⎡ ⎤

= − ⎢ ⎥⎣ ⎦

LR und LU sind die nicht logarithmierten Likelihoodwerte mit und ohne Rest-

riktion, dass alle Steigungsparameter = 0. N ist die Beobachtungszahl.

… viele alternative Pseudo R2 Maße auch auf Basis der Residualvarianz

( )2

i iˆy F−∑ . Der Begriff des Pseudo R2 hat keine eindeutige Definition.

(e) Das Akaike Informationskriterium minimiert

AIC 2k 2lnL= −

k= Anzahl der Parameter, keine Berücksichtigung der Beobachtungszahl.

3–47

(f) Schwarz Kriterium minimiert mit stärkerem Gewicht auf k als AIC:

( )SC 2lnL k ln N= − +

N = Anzahl der Beobachtungen. Ziel bei AIC und SC: Optimierung des Ver-

hältnisses Anpassung / Parameterzahl.

• Insgesamt: – kein etabliertes Kriterium vergleichbar zum R2

– nicht alle Kriterien liegen im Intervall (0,1)

– nicht alle Kriterien repräsentieren Varianzaufteilung in erklärten und nicht er-

klärten Teil.

– nicht in allen Gütemaßen ist die Zahl der Freiheitsgrade repräsentiert.

3.6 Logit- und Probitmodelle für Paneldaten 3–48

3.6.1 Die KQ Situation

• Stetige abhängige Variable mit nicht IID (unabhängig und identisch) verteiltem

Fehlerterm, beispielsweise wegen ausgelassener unbeobachtbarer Variablen:

it it ity ' x= β + ε mit [ ]it i t ituε = α + + η (ηit ist der Zufallsfehler)

(i) wenn αi oder ut mit xit korreliert => Verzerrung

(ii) sonst: ineffiziente Schätzung (nicht sphärische Varianz-Kovarianz-Matrix)

• Korrekturansätze:

(a) Fixed Effects – Annahme: αi hat fixen konstanten Wert für jedes i, Schät-

zung über Dummies oder Differenzen

3–49

(b) Random Effects-Annahme: αi ist als Zufallsvariable durch ihre Verteilung

beschrieben, nicht mit xit korreliert, Schätzung mit FGLS, korrigierte Varianz-

Kovarianz-Matrix.

• Bewertung:

– Wenn mit αi korrelierte xit => Random Effects Schätzung inkonsistent

– FE per Dummyvariablenansatz (LSDV) kann bei kleinem T zu verzerrten

Schätzern für αi führen ("incidental parameter problem")

– FE erlaubt keine Parameterschätzung für zeitkonstante Variablen.

3–50

3.6.2 Unterschiede im Fall diskreter abhängiger Variablen

• Im linearen Wahrscheinlichkeitsmodell gilt die gleiche Ausgangslage, wie bei

KQ.

• Wird das wahre Modell

auf Basis von per Maximum Likelihood ge-

schätzt, dann

(i) ist die Likelihoodfunktion falsch spezifiziert.

(ii) wird keine Korrektur für unbeobachtete Heterogenität αi vorgenommen, was

zu Inkonsistenz führt.

it it i ity ' x∗ = β + α + ε

it it ity ' x∗ = β + ε

3–51

(iii) wird die Fehlertermvarianz nicht korrekt abgebildet, was im nichtlinearen

Modell - auch ohne Korrelation mit xit - zu ineffizienten und inkonsistenten

Schätzern für alle Parameter führt.

(iv) besteht die Möglichkeit des "incidental parameter“ Problems (s.u.).

3–52

3.6.3 Fixed Effects Schätzer bei binären abhängigen Variablen

• Problem des LSDV Schätzers: Bei großem N und kleinem T wenig Beobach-

tungen pro Einheit, z.B. 3000 Haushalte über 3 Perioden, 9000 Beobachtun-

gen, aber nur 3 pro Haushalt. Zu wenig, um αi konsistent zu schätzen

(incidental parameter problem). Dies ist unproblematisch bei KQ, da β unab-

hängig von αi konsistent geschätzt werden kann. Bei nichtlinearen Modellen

überträgt sich die Inkonsistenz auf andere Parameter.

• Lösbar bei Logitmodellen mit Chamberlain's "conditional maximum

likelihood" Modell.

• Hier ( )α β'xi it

i α β'xi it

eP y 11 e

+

+= =

+ und ( )i ' xi it

1P y 01 eα +β

= =+ .

3–53

• Die unbedingte Likelihoodfunktion wäre

( ) ( )N T

y 1 yit itit it

i 1 t 1

L F 1 F −

= =

= −∏∏

• Chamberlain’s bedingte (conditional) Likelihoodfunktion ist

N TC

i1 i1 i2 i2 iT iT itt 1i 1

L P Y y , Y y ,...,Y y y==

⎛ ⎞= = = =⎜ ⎟

⎝ ⎠∑∏

Der Beitrag einer Beobachtung i zur Likelihoodfunktion hängt von der Summe

der Ausprägungen z.B. mit Wert „1“ ab.

• Beispiel: T=2, es gibt 3 mögliche Ausprägungssummen:

Fall 1: i1 i2y 0, y 0= = Summe: 0 ( )P 0, 0 Summe 0 1= =

3–54

d.h. wenn bei zwei Ausprägungen die Summe 0 ist, muss mit 100% Wahr-

scheinlichkeit in beiden Fällen eine 0 vorliegen. Der Beitrag zur bedingten

Log-Likelihoodfunktion bei Konditionierung auf Ausprägungssumme 0 ist Null.

Fall 2: i1 i2y 1, y 1= = Summe: 2 ( )P 1, 1 Summe 2 1= =

genauso, Beitrag zur bedingten Log-Likelihoodfunktion ist null.

Fall 3: i1y 1= , i2y 0= oder i1y 0= , i2y 1= Summe: 1

( )P 0, 1 Summe 1= ( )

( ) ( )P 0,1

1P 0,1 P 1, 0

= <+

Nur Beobachtungen mit Ausprägungswechsel (0,1) oder (1,0) tragen zur Log-

Likelihoodfunktion bei.

3–55

Da ( )' xi i1

i1 i2 ' x ' xi i1 i i2

e 1P y 1,y 01 e 1 e

α +β

α +β α +β= = = ⋅

+ +

und ( )' xi i2

i1 i2 ' x ' xi i1 i i2

1 eP y 0,y 11 e 1 e

α +β

α +β α +β= = = ⋅

+ +,

ist der Beitrag zur Likelihood, bedingt auf Summe = 1, (also auf einen Ausprä-

gungswechsel) für ' xi i2

' xi2' x ' xi i1 i i2

it ' x ' x ' x ' xi i2 i i1 i1 i2t

' x ' x ' x ' xi i1 i i2 i i1 i i2

1 ee1 e 1 eP 0,1 y 1

1 e e 1 e e1 e 1 e 1 e 1 e

α +β

βα +β α +β

α +β α +β β β

α +β α +β α +β α +β

⋅⎛ ⎞ + += = =⎜ ⎟ +⎝ ⎠ ⋅ + ⋅+ + + +

∑

sowie entsprechend für

( )

( ) ( )itt

P 1,0P 1,0 Wechsel, d.h. y 1 .

P 1,0 P 0,1⎛ ⎞

= =⎜ ⎟ +⎝ ⎠∑

3–56

Es ergibt sich

( ) ( )

' xi2

' x ' x ' x xi1 i2 i1 i2

e 1P 0,1 Wechsele e e 1

β

β β β −= =

+ +

( )( )

( )

' x xi1 i2

' x xi1 i2

eP 1,0 Wechsel .e 1

β −

β −=

+

• Durch Konditionieren können die unbeobachtbaren Effekte aus den Elemen-

ten der Likelihoodfunktion heraus gekürzt werden. Die Koeffizienten für β wer-

den konsistent und asymptotisch effizient geschätzt, wenn nur Beobachtungen

mit einem Ereigniswechsel betrachtet werden und auf die ersten Differenzen

in xit regressiert wird.

• Nachteile:

- viele Beobachtungen werden nicht genutzt

3–57

- Verfahren bei Probit wegen funktionaler Form nicht anwendbar

- wenn Heterogenität nicht existiert, ist der fixed effects logit nicht effizient.

• Entscheidend: Gibt es Heterogenität in den Daten? - Hausman Test:

H0: Homogenität αi = 0

H1: Heterogenität αi ≠ 0

• Schätzer 1 (hier Logit)

– konsistent und asymptotisch effizient unter H0

– nicht konsistent unter H1

• Schätzer 2 (hier Chamberlains conditional logit)

3–58

– konsistent aber nicht effizient unter H0

– konsistent unter H1

Test auf Gleichheit der beiden Parametervektoren. Wenn Logit cond.Logitβ ≠ β H0

verwerfen. Teststatistik

( ) ( ) ( ) ( )1

CL L CL L CL L 2k

ˆ ˆ ˆ ˆ ˆ ˆW Var Var ~−′

⎡ ⎤= β − β β − β β − β χ⎣ ⎦

Anzahl der Parameter

3–59

3.6.4 Random Effects Schätzer bei binären abhängigen Variablen

• Annahme: unbeobachtete Heterogenität ist Zufallsvariable und unabhängig

von xit

• Modell: it it i ity * ' x= β + α + ε it i itη = α + ε

( ) ( ) 2 2 2it i itVar Var α ε ηη = α + ε = σ + σ = σ

( )2

is it 2 2Corr ,

( )α

α ε

ση η = ρ =

σ + σ

itη besteht aus der Summe zweier Zufallsvariablen. Die möglichen Korrelatio-

nen von itη über die Zeit (ρ) variieren mit den zugrunde gelegten Verteilungs-

annahmen: Bei einer multivariaten logistischen Verteilung (von αi und εit) ist

1 2ρ = . Bei Annahme von multivariaten Normalverteilungen ist ρ nicht vorher 3–60

bestimmt. Daher wird für die Random Effects Schätzung das Probitmodell be-

vorzugt.

• Hierzu existieren mehrere Ansätze:

(a) Der Butler-Moffitt (1982) Ansatz (siehe Exkurs)

Kritik daran: Äquikorrelationsannahme ist restriktiv, dennoch der gebräuch-

lichste Ansatz und in gängigen Programmpaketen vorprogrammiert.

(b) Avery-Hansen-Hotz Ansatz (1983) keine Äquikorrelationsannahme.

(c) Chamberlain Modell (1984) völlig anders, hebt Restriktion der Unkorreliert-

heit von x mit unbeobachtetem Effekt auf.

3–61

• Beispiel: Greene, Handout.

• Exkurs: Ansatz von Butler und Moffitt (1982) für Random Effects Probit

Modell it it ity ' x∗ = β + η

it i itη = α + ε ( )2i ~ N 0, αα σ ( )2

it ~ N 0, εε σ

Probitschätzung ergibt standardisierte Koeffizienten wegen:

N(0,1)

it it itiy ' x∗

ε ε ε ε

β εα= + +

σ σ σ σ

Problem: i

ε

ασ ist nicht standardnormalverteilt

Trick: 2

2 2

1αε α

α ε

σ − ρρ = ⇔ σ = σ

σ + σ ρ

3–62

Jetzt:

N(0,1)N(0,1)

it it itiy ' x1ε ε α ε

β εαρ= + ⋅ +

σ σ − ρ σ σ

i iit it it

'P y 0 x1α ε α

⎛ ⎞ ⎛ ⎞α αβ ρ= = Φ − ⋅ − ⋅ = Φ⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟σ σ − ρ σ⎝ ⎠⎝ ⎠

iit itP y 1 1

α

⎛ ⎞α= = − Φ⎜ ⎟⎜ ⎟σ⎝ ⎠

• Likelihoodfunktionsbeitrag von Beobachtung i:

( )Ti y1 yi itit

i it itt 1i

L , 1−

=α

⎛ ⎞αβ ρ = Φ ⋅ − Φ⎜ ⎟⎜ ⎟σ⎝ ⎠

∏ .

3–63

• Da i

α

ασ

nicht beobachtet ist, Übergang von Lii, α

⎛ ⎞αβ ρ⎜ ⎟⎜ ⎟σ⎝ ⎠

zu Li( ),β ρ bei konti-

nuierlicher Verteilung von αi durch Ausintegrieren:

( ) i i ii iL , L , f d

∞

−∞ α α α

⎛ ⎞ ⎛ ⎞ ⎛ ⎞α α αβ ρ = β ρ ⋅ ⋅⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎜ ⎟σ σ σ⎝ ⎠ ⎝ ⎠⎝ ⎠

∫

mit ( )2

i i i1 1~ N 0, 1 : f exp22α α α

⎧ ⎫⎛ ⎞ ⎛ ⎞α α α⎪ ⎪= − ⋅⎨ ⎬⎜ ⎟ ⎜ ⎟σ σ σπ⎝ ⎠ ⎝ ⎠⎪ ⎪⎩ ⎭

• Komplizierte Integralberechnung wird durch Approximation über diskrete Ver-

teilung von αi vermieden.

( )K

ii i k

k 1 k

L , L , P= α

⎛ ⎞⎛ ⎞αβ ρ = β ρ ⋅⎜ ⎟⎜ ⎟⎜ ⎟σ⎝ ⎠⎝ ⎠

∑

3–64

Idee: Fläche unter der Verteilung wird durch K Rechtecke approximiert:

„Gauss-Hermite Quadratur“ Verfahren

Letztlich: ( )N

i,i 1

max L L ,β ρ

=

= β ρ∏

• Kritik am Butler-Moffitt Ansatz: Annahme, dass ρ über alle Perioden t und alle i

gleich ist, ist restriktiv („Äquikorrelation“).

3–65

• Zum Schluß: Praxisrelevanz von Schätzverfahren für bivariate abhängige

Variablen

− erlauben die Modellierung von ja/nein Fragen

− in allen wissenschaftlichen Themengebieten und interdisziplinär relevant

− für alle Praxisfelder bedeutsam, bspw. automatisierte Berechnung der Aus-

fallwahrscheinlichkeit (ja/nein) von Konsumentenkrediten bei der Teambank,

bspw. Sterberisiko von Krebspatienten nach Behandlung etc.

− interessante Erweiterungen auf dynamische Verfahren, die zeitlich verzöger-

te abhängige Variable (yt-1) als Kontrollvariable nutzen

3–66

• Literatur: Cameron Colin A. und P.K. Trivedi, 2005, Microceconometrics. Methods and

Applications, Cambridge: Cambridge University Press. Kapitel 14 Cameron Colin A. und P.K. Trivedi, 2009, Microceconometrics Using Stata,

Stata Press. Kapitel 14, 18 Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice

Hall, 6. Auflage. Kapitel 23.1 – 23.5. Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley &

Sons, 3. Auflage. Kapitel 7.1. Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer

Verlag, Heidelberg, Kapitel 4. Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel


4. Schätzverfahren für multivariate und ordinale abhängige Variablen

4.1 Einführung

4.2 Multinomiales Logit Modell

4.3 Multinomiales Probit Modell

4.4 Modelle für geordnete abhängige Variablen

4–2

4.1 Einführung

• Betrachtet werden "qualitative", kategoriale abhängige Variablen, z.B.

– Transportmittelwahl: Bus / Auto / Bahn

– Mensaessen: gut / mittel / schlecht / sehr schlecht

• Man unterscheidet geordnete und ungeordnete Variablen. Da im geordne-

ten Fall mehr Information über die Beziehung unter den Ausprägungen vor-

liegt als im ungeordneten Fall, werden für die beiden Situationen unter-

schiedliche Schätzverfahren angewendet.

• Die Anzahl der Alternativen spielt für die Auswahl der Verfahren keine Rolle.

4–3

• Die Modellierung der zugrunde liegenden Entscheidungsprozesse erfolgt

über stochastische Nutzenfunktionen (random utility hypothesis):

ij ij ijU 'x= β + ε

wobei: i=1,2,...,N Beobachtungseinheiten

j=1,2,...,J Entscheidungsalternativen

Entscheidungsregel: i wählt j, wenn, Uij > Uik, für alle k ≠ j

Dann für J = 3, und j, k, m = 1, 2, 3:

P(Alternative j wird gewählt) = ( )ij ik ij imP U U , U U> >

= ( ) ( )( ij ik ik ijP x x ,− β > ε − ε ( ) ( ))ij im im ijx x− β > ε − ε

4–4

• Aus der Annahme über die Verteilung der Fehlertermdifferenz ergibt sich die

Modellwahl. Meist unterstellt man entweder eine Normalverteilung, aus der

sich das multinomiale Probitmodell ableitet, oder eine Typ I Extremwertver-

teilung, die zum multinomialen Logit Modell führt.

• Allgemeine Spezifizierung multinomialer Modelle:

ij j i j ijU ' x 'z= β + α + ε

d.h. wenn x die Beobachtung i beschreibt, variiert β über die Alternativen,

wenn z die Alternative j beschreibt, ist der Koeffizientenvektor α konstant.

• Dabei findet man folgende Bezeichnungen:

ij j i ijU ' x= β + ε multinomial logit (MNL)

4–5

ij j ijU 'z= α + ε conditional logit (CL)

ij j i j ijU ' x 'z= β + α + ε mixed logit

4–6

4.2 Multinomiales Logit Modell

4.2.1 Allgemeines

• Typischerweise wird unterstellt: ij j iU ' x= β + ε ij

• Das multinomiale Logit Modell verallgemeinert das binomiale Logit Modell.

Binomial: ( ) ( ) ( )( )i i iP y 1 exp ' x 1 exp ' x= = β + β

( ) ( )( )i iP y 0 1 1 exp ' x= = + β

daher ( )( )

ii

i

P y 1ln ' x "log odds"

P y 0⎡ ⎤=

= β −⎢ ⎥=⎢ ⎥⎣ ⎦

• Bei J > 2 Alternativen:

4–7

( )( )

i2 i

i

P y 2ln ' x

P y 1⎡ ⎤=

= β⎢ ⎥=⎢ ⎥⎣ ⎦

( )( )

i3 i

i

P y 3ln ' x , ,

P y 1⎡ ⎤=

= β⎢ ⎥=⎢ ⎥⎣ ⎦

… ( )( )

iJ i

i

P y Jln ' x

P y 1⎡ ⎤=

= β⎢ ⎥=⎢ ⎥⎣ ⎦

• Dies zeigt, dass der geschätzte Koeffizientenvektor relativ zu einer Basiska-

tegorie zu interpretieren ist.

• Welche der J Alternativen zur Basiskategorie wird, ist unerheblich und kann

willkürlich bestimmt werden. Nach einer Schätzung können die Ergebnisse

auf eine andere Basiskategorie hin umgerechnet werden:

• Beispiel:

( )( )

( )( )

( )( )

i i i

i i i

P y 3 P y 3 P y 2ln ln ln

P y 2 P y 1 P y 1⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = =

= −⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

4–8

( ) ( ) ( ) ( )i i i ilnP y 3 lnP y 1 lnP y 2 lnP y 1= = − = − = + =

( )3 2 i' x= β −β

• Berechnung der dazugehörenden Standardfehler:

( ) ( ) ( ) ( )12

3 2 3 2 3 2SE V V 2 Cov ,⎡ ⎤β − β = β + β − ⋅ β β⎣ ⎦

• Wie implizit beim binomialen Logitmodell auch, ist vor der Schätzung der

Koeffizienten eine Normalisierung durchzuführen:

In der Berechnung von: ( ) ( ) ( )i j i k ikP y j exp ' x exp ' x= = β β∑ für alle j

wird für eine Basiskategorie j der Vektor β gleich 0 gesetzt. Es ergibt sich,

wenn dies z.B. für j=1 geschieht:

4–9

( ) ( )J

i j ij 2

P y 1 1 1 exp ' x=

⎡ ⎤= = + β⎢ ⎥

⎣ ⎦∑

( ) ( ) ( )J

i 2 i j ij 2

P y 2 exp ' x 1 exp ' x=

⎡ ⎤= = β + β⎢ ⎥

⎣ ⎦∑

…

( ) ( ) ( )J

i J i j ij 2

P y J exp ' x 1 exp ' x=

⎡ ⎤= = β + β⎢ ⎥

⎣ ⎦∑

4–10

4.2.2 Schätzung

• Für J=3 ergibt sich als Likelihoodfunktion

( ) ( ) ( )i i iy 1 y 2 3yi i i

L P y 1 P y 2 P y 3= = =

= = ⋅ = ⋅ =∏ ∏ ∏ ,

• Alternative Schreibweisen:

( ) ( ) ( )N

d d di1 i2 i3i i i

i 1

L P y 1 P y 2 P y 3=

= = ⋅ = ⋅ =∏

( )N 3

diji

i 1 j 1

P y j= =

= =∏ ∏

( )N 3

ij ii 1 j 1

lnL d lnP y j= =

= ⋅ =∑ ∑ , wobei iij

1 wenn y jd

0 sonst=⎧

= ⎨⎩

4–11

• Da die Likelihoodfunktion für den multinomialen Logitschätzer global konkav

ist, gibt es immer ein globales Maximum und keine Probleme mit der Opti-

mierung.

• Beim MNL gilt ebenso wie beim bivariaten Logitmodell, dass – solange Kon-

stanten im Modell sind – die durchschnittliche vorhergesagte Wahrschein-

lichkeit jeder Alternative der tatsächlich beobachteten Wahrscheinlichkeit

entspricht.

4–12

4.2.3 Interpretation der Schätzergebnisse

• Gesamtmodell: Wie im binomialen Fall ist die Bewertung der Schätzgüte

insgesamt problematisch; typisch sind LR-Tests auf gemeinsame Signifi-

kanz der Steigungsparameter.

• Einzelne Koeffizienten: Bezüglich des Effektes einer Variablen x auf die

Wahrscheinlichkeit einer der Ausprägungen kann nur die statistische Signifi-

kanz verlässlich interpretiert werden, nicht aber Vorzeichen (!) und Größe

der Koeffizienten!

Statt dessen berechnet man marginale Effekte der k=2,…,K Charakteristika

( )' xj

i ' x' x 32

eP y j j 1,2,3.1 e e

β

ββ= = =

+ +

4–13

Bei Alternativen j = 2 oder 3 mit Alternative 1 als Basis:

( ) ( )

( )

' x ' x' x ' x' x ' xj j3 32 2jk 2k 3ki

2' x' x 32k

e 1 e e e e eP y jx 1 e e

β ββ ββ β

ββ

⎡ ⎤β ⋅ ⋅ + + − β ⋅ + β ⋅∂ = ⎣ ⎦=∂ + +

( ) ( ) ( ) ( )( )jk i i 2k 3k iP y j P y j P y 2 P y 3= β ⋅ = − = ⋅ β ⋅ = + β ⋅ =

( ) [ ( ) ( ) ]i jk 2k i 3k iP y j P y 2 P y 3= = ⋅ β −β ⋅ = −β ⋅ =

• Das Vorzeichen der Koeffizienten kann sich also vom Vorzeichen des mar-

ginalen Effektes unterscheiden. Daher Interpretation entweder über margi-

nale Effekte, oder Simulation der interessierenden Zusammenhänge.

• Als mittleren marginalen Effekt einer Variable xk auf die Wahrscheinlichkeit

P(yi = j) über alle Beobachtungen i bestimmt man:

4–14

( )Ni1

i 1 ik

P y jN

x−

=

∂ =

∂∑ .

• Einzelne Koeffizienten können in Signifikanz und Vorzeichen hinsichtlich des

Effektes einer Variablen x auf Wahrscheinlichkeitsverhältnisse interpretiert

werden.

Da ( )( )

ij i

i

P y jln ' x

P y 1⎡ ⎤=

= β⎢ ⎥=⎢ ⎥⎣ ⎦

, gilt

( )( )

i

i

jkk

P y jln P y 1x

⎛ ⎞=∂ ⎜ ⎟=⎝ ⎠ = β∂

.

• Elastizitäten der Auswahlwahrscheinlichkeiten hinsichtlich einzelner Variab-

len lassen sich berechnen, indem der marginale Effekt eines Regressors mit

dem Regressor multipliziert und durch die entsprechende Wahrscheinlich-

keit dividiert wird. Anschließend wird über alle Beobachtungen gemittelt:

4–15

( )( )

( )N

i ikP y j ,xk

i 1 ik i

P y j x1N x P y j=

=

∂ =ε = ⋅

∂ =∑

• Beispiel: Berufsgruppen von Bankangestellten

Frage: Wie sind Eigenschaften von Individuen mit ihrer Stelle korreliert?

Daten: 258 Angestellte in Verwaltung (1), Haus und Technik (2) und Mana-

gement (3). Erklärende Variablen: Bildung (in Jahren), Minderheit (0/1).

Schätzergebnisse:

4–16

Cat Variable Coefficient Std.Error z-Statistic Prob. Cat 2: CONSTANT 4.760 1.268 3.75 0.00 EDUC -0.553 0.114 -4.84 0.00 MINORITY 0.426 0.488 0.87 0.38 Cat 3: CONSTANT -26.01 2.717 -9.57 0.00 EDUC 1.633 0.168 9.68 0.00 MINORITY -2.109 0.636 -3.31 0.00 Log likelihood -118.7360 Akaike info criterion 0.966

Signifikante Koeffizienten besonders für Bildung, sonst nur Zusammenhang

mit Wahrscheinlichkeitsverhältnissen interpretierbar: Minderheiten sind im

Vergleich zur Verwaltung signifikant seltener im Management.

Test auf Signifikanz des Gesamtmodells: Ohne erklärende Variablen ist

log likelihood = -231,34 mit erklärenden Variablen: -118,74.

4–17

LR = -2 (-231,34 + 118,74) = 225,2 2df 4, 5% 9,49= α=χ = ⇒ Modell ist am 5% Niveau signifikant, da 225,2 > 9,49.

Marginaler Effekt der Bildung wurde für alle i berechnet und nach Teilgrup-

pen gemittelt:

MARGINAL EFFECTS OF EDUCATION ON PROBABILITIES JOBCAT JOBCAT = 1 JOBCAT = 2 JOBCAT = 3 NON-MINORITIES -0.127 -0.030 0.157 MINORITIES 0.012 -0.062 0.049

Ein weiteres Jahr Bildung ist für Nicht-Minderheiten mit einer um 15,7 Pro-

zentpunkte höheren Wahrscheinlichkeit korreliert, im Management zu arbei-

ten. (Quelle: Heij et al. 2004, 6.4, S. 470 ff)

4–18

4.2.4 Das IIA (Independence of Irrelevant Alternatives) Problem

• Eigenschaft des MNL Schätzers: Das Wahrscheinlichkeitsverhältnis zweier

Ausprägungen ist unabhängig von der Einführung weiterer Alternativen:

Für J = 3 mit j=1 als Referenz:

( )( )

( ) ( )( ) ( ) ( )

2 i 3 ii

i 2 i 2 i 3 i

1 1 exp ' x exp ' xP y 1P y 2 exp ' x 1 exp ' x exp ' x

⎡ ⎤+ β + β= ⎣ ⎦== ⎡ ⎤β + β + β⎣ ⎦

( )2 i

1exp ' x

=β

Das Verhältnis ist von den Parametern β3 (bzw. bei J>3 auch von allen an-

deren) unabhängig und bleibt konstant, unabhängig von der Formulierung

der abhängigen Variable.

4–19

• Diese Invarianz kann problematisch sein, wenn das Verhältnis auf die be-

trachteten Alternativen reagieren sollte.

• Beispiel: red bus - blue bus Problem

Ausgangssituation (P0): mit 2/3 Wahrscheinlichkeit zu Fuß, mit 1/3 Wahr-

scheinlichkeit roter Bus. Wahrscheinlichkeitsverhältnis: 2:1

Änderung: Es werden blaue Busse eingeführt (P1).

Wir erwarten, dass sich die Wahrscheinlichkeit zu Fuß zu gehen nicht än-

dert, wenn gleich viele rote wie blaue Busse, also: zu Fuß 4/6, roter Bus 1/6,

blauer Bus 1/6. Neues Wahrscheinlichkeitsverhältnis 4:1 für zu Fuß versus

roter Bus.

4–20

• Änderung ist im MNL Schätzer nicht möglich, da Wahrscheinlichkeitsver-

hältnis a priori von der Anzahl der betrachteten Alternativen unabhängig ist.

Wegen IIA: zu Fuß 2/4, roter Bus 1/4, blauer Bus 1/4 – vorheriges Wahr-

scheinlichkeitsverhältnis 2:1 bleibt und es wird unterstellt, dass die Wahr-

scheinlichkeit für "zu Fuß" gehen von 2/3 auf 2/4 gesunken ist.

• Damit kann die IIA Annahme zu inkonsistenten Schätzern führen. Die statis-

tische Ursache dieses Problems ist die Annahme, dass die Fehler über die

Alternativen hinweg unabhängig verteilt sind. Wenn manche Alternativen ei-

nander mehr ähneln als andere, ist diese Annahme nicht zutreffend.

• Hier: Die Wahrscheinlichkeit, den roten Bus zu nehmen, ist hoch mit der

Wahrscheinlichkeit, den blauen Bus zu nehmen, korreliert.

4–21

• Würde statt dem blauen Bus ein individueller Taxi-Service eingeführt, könn-

ten sich die Wahrscheinlichkeitsverhältnisse wie folgt ändern (P2):

P0 P1 P2

1: zu Fuß

2: roter Bus

3: blauer Bus

4: Taxiservice

0,67

0,33

-

-

0,67

0,165

0,165

-

0,335

0,165

-

0,500

Summe

zu Fuß : roter Bus

IIA problematisch?

1,00

2:1

-

1,00

4:1

ja

1,00

2:1

nein

4–22

• Hausman Test der IIA Annahme:

H0 : IIA unproblematisch, kein Einfluss auf Schätzung

H1 : IIA führt zu inkonsistenten Schätzern

Schätzer 1 (alle Alternativen, J = 3)

– konsistent und effizient unter H0

– nicht konsistent unter H1

hier: J = 3 => (J – 1 = 2) ⋅ k Parameter, geschätzt für N = N1 + N2 + N3 Be-

obachtungen aller drei Alternativen.

Schätzer 2 (reduzierte Zahl von Alternativen und Beobachtungen, J=2, nur

roter Bus und zu Fuß)

4–23

– konsistent aber nicht effizient unter H0

– konsistent unter H1

hier: J = 2 => (J –1 = 1) ⋅ k Parameter, geschätzt für N = N1 + N2 Beobach-

tungen von zwei Alternativen.

• Im Test werden nur die k Koeffizienten für das Wahrscheinlichkeitsverhältnis

( )( )

P y 2ln ' x

P y 1⎛ ⎞=

= β⎜ ⎟⎜ ⎟=⎝ ⎠ verglichen.

• Wald Test: ( ) ( ) ( ) ( )1

2 3 2 3 2 3 Kˆ ˆ ˆ ˆ ˆ ˆW ' Var Var ~

−⎡ ⎤= β − β β − β β − β χ⎣ ⎦

4–24

wobei 2β den Schätzer mit 2 und 3β den Schätzer mit 3 Alternativen reprä-

sentiert. K entspricht der Anzahl der Steigungsparameter plus 1 für die Kon-

stante.

• Wenn H0 verworfen:

– "irrelevante" Kategorien zusammenfassen

– andere Schätzverfahren lassen Korrelation der Ausprägungen zu

(MNProbit, Nested Logit).

4–25

4.2.5 Modifikationen des MNL Modells

4.2.5.1 Conditional Logit

• Unterstellte Nutzenfunktion: statt ij j i ijU ' x= β + ε jetzt

ij j ijU 'z= α + ε .

• Beispiel: Transportmittelwahl, z = (Preis, Komfort, Zeit statt Merkmale des

Individuums). Koeffizienten nicht separat für jede Alternative, sondern kon-

stante einheitliche Gewichtungsfaktoren für Merkmale in der Nutzenfunktion

(könnte auch zij berücksichtigen).

• Jetzt z.B. j = 1, 2, 3

( )iP y 1= = ( )i1 i2 i1 i3P U U ,U U> >

( 1 i1 2 i2P 'z 'z ,= α + ε > α + ε )1 i1 3 i3' z ' zα + ε > α + ε

4–26

( )( i1 i2 2 1P ' z z ,= ε − ε > α − ( ))i1 i3 3 1' z zε − ε > α −

• Ähnlich zum multinomialen Logit gilt:

( ) ( ) ( )i 1 jjP y 1 exp 'z exp 'z= = α α∑



• Likelihoodfunktion wird über den Parametervektor α maximiert:

( )diji

i j

L P y j= =∏ ∏

wobei iij

i

1 für i wenn y jd

0 für i wenn y j=⎧

= ⎨ ≠⎩

4–27

• Die IIA Restriktion gilt auch hier, das Wahrscheinlichkeitsverhältnis wird nur

von den jeweils zutreffenden Faktoren zj bestimmt.

• Unterschiede zum MNL

– erklärende Variablen variieren über j statt i

– Koeffizientenvektor für alle Alternativen j gleich ("gleiches Gewicht für ge-

gebene Charakteristika")

– keine Normalisierung über einen Koeffizientenvektor

– Grundidee nicht, Verhalten von i vorherzusagen, sondern "impliziten

Preis" von Charakteristikum k für die Gruppe der Alternativen zu bewer-

ten.

– Vorzeichen ist interpretierbar:

4–28

a) Marginaler Effekt von Charakteristikum m aus Alternative k auf Wahr-scheinlichkeit von Alternative j ( j k)≠

( ) ( ) ( )i

i m iikm

P y jP y j P y k

z∂ =

= − = ⋅α ⋅ =∂

b) Marginaler Effekt von Charakteristikum m aus Alternative k auf Wahr-

scheinlichkeit von Alternative k:

( ) ( ) ( )i

i m iikm

P y kP y k 1 P y k

z∂ =

⎡ ⎤= = ⋅α ⋅ − =⎣ ⎦∂

4–29

4.2.5.2 Mixed Logit

• Kombiniert multinomialen und conditional Logit

ij j j i ijU 'z ' x= α +β + ε

• Entscheidung wird von Charakteristika der Beobachtung i und der Alternati-

ve j beeinflusst.

Jetzt ( ) ( )( )

'k k i

i J'

j j ij 1

exp 'z xP y k

exp 'z x=

α + β= =

α + β∑ mit β1 = 0.

• Das Mixed Logit Modell wird meist als conditional logit Modell programmiert,

so dass:

4–30

( )( )( )

( )

J

k j ijk ij 1

i M J J

m j ijm im 1 j 1

exp 'z D xP y k

exp 'z D x

=

=

= =

⎛ ⎞α + β ⋅⎜ ⎟⎝ ⎠= =⎛ ⎞α + β ⋅⎜ ⎟⎝ ⎠

∑

∑ ∑

wobei Dijk als Dummy für i beschreibt, ob k = j (1 ja, 0 nein) und mit den indi-viduellen Charakteristika xi interagiert wird. ijk iD x⋅ ist für alle Beobachtungen

0, für die k ≠ j. Die Koeffizienten β1 werden auf 0 normalisiert. Ohne Berück-

sichtigung der Parameter α ergibt sich ein multinomiales Logitmodell.

• Beispiel: Wie geht man angeln und wie lässt sich diese Wahl modellieren?

Erklärende Variablen: individuelles Einkommen, Preise und Fangraten der

Kategorien

4–31

Fishing Mode Multinomial Choice: Data Summary

Sub sample Averages y = 1 y = 2 y = 3 y = 4 All y Explanatory Variable Beach Pier Private Charter Overall Income ($ 1.000s per month) 4.052 3.387 4.654 3.881 4.099 Price beach ($) 36 31 138 121 103 Price pier ($) 36 31 138 121 103 Price private ($) 98 82 42 45 55 Price charter ($) 125 110 71 75 84 Catch rate beach 0.28 0.26 0.21 0.25 0.24 Catch rate pier 0.22 0.20 0.13 0.16 0.16 Catch rate private 0.16 0.15 0.18 0.18 0.17 Catch rate charter 0.52 0.50 0.65 0.69 0.63 Sample probability 0.113 0.151 0.354 0.382 1.000 Observations 134 178 418 452 1182

4–32

Es lassen sich alternativen-spezifische, individuen-spezifische und gemisch-

te Modelle schätzen:

4–33

Fishing Mode Multinomial Choice: Logit Estimates

Model type Regressor Type Coefficient CL MNL MixedPrice (P) Specific αP -0.021 - -0.025Catch rate (C) Specific αCR 0.953 - 0.358Intercept Invariant β01:Beach (Ref.) - 0.0 0.0 β02: Pier - 0.814 0.778 β03: Private - 0.739 0.527 β04: Charter - 1.341 1.694Income (I) Invariant β11: Beach(Ref.) - 0.0 0.0 β12: Pier - -0.143 -0.128 β13: Private - 0.092 0.089 β14: Charter - -0.032 -0.033ln L -1311 -1477 -1215Pseudo-R2 0.162 0.099 0.258

4–34

MLE estimates are for conditional logit (CL), multinomial logit (MNL), and mixed logit (Mixed) models. MNL and Mixed models are normalized to base category beach.

Im CL-Modell lassen sich die Vorzeichen interpretieren, αP < 0 bedeutet,

dass eine Alternative seltener gewählt wird wenn ihr Preis steigt. Umgekehr-

tes gilt für die Fangrate mit αCR > 0. Die anderen Koeffizienten können nur

hinsichtlich der Zusammenhänge von Wahrscheinlichkeitsverhältnissen in-

terpretiert werden.

(Quelle: Cameron & Trivedi 2005 15.2)

4–35

4.3 Multinomiales Probit Modell

• Modell

Annahmen des MNL und Conditional Logit: εij ist unabhängig und identisch

extremwertverteilt. Dies lässt keine Korrelation der Fehlerterme zu und führt

zum IIA Problem.

Das multinomiale Probit Modell modelliert die möglichen Korrelationen der

Fehlerterme über die Alternativen j hinweg explizit.

• Bei k = 3 Alternativen mit bspw. latentem Nutzen ky *, der modelliert werden

kann mit k kV X'= β :

*1 1 1Y V= + ε

ij ij ijU ' x= β + ε

4–36

*2 2 2Y V= + ε

*3 3 3Y V= + ε

Ann.:

21 1 12 13

22 12 2 23

23 13 23 3

0~ N 0 , mit

0

⎛ ⎞ε σ σ σ⎡ ⎤⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎢ ⎥⎜ ⎟ ⎜ ⎟ε = σ σ σ⎜ ⎟ ⎢ ⎥⎜ ⎟ ⎜ ⎟

⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎢ ⎥ε σ σ σ⎝ ⎠ ⎝ ⎠ ⎣ ⎦⎝ ⎠

∑ ∑

• Man betrachtet wieder:

( ) ( )* * * *i 1 2 1 3P y 1 P Y Y ,Y Y= = > >

( )1 2 2 1 1 3 3 1P V V ,V V= − > ε − ε − > ε − ε

( )12 21 13 31P V , V= > η > η

4–37

wobei

12 1 2 13 1 3V V V , V V V= − = −

21 2 1 31 3 1,η = ε − ε η = ε − ε 21

31

0~ N ,

0η ⎛ ⎞⎛ ⎞ ⎛ ⎞

Ω⎜ ⎟⎜ ⎟ ⎜ ⎟η ⎝ ⎠⎝ ⎠ ⎝ ⎠

2 2 21 2 12 1 13 12 23

2 2 21 13 12 23 1 3 13

22

⎡ σ + σ − ⋅σ σ − σ − σ + σ ⎤Ω = ⎢ ⎥σ − σ − σ + σ σ + σ − ⋅σ⎣ ⎦

• Dies bedeutet, dass wir in diesem Modell wie auch im Fall des

multinomialen Logit Modells nur Vergleiche betrachten und eine Alternative j

zur Referenzgröße machen, mit βj = 0.

• Der Beitrag jeder Beobachtung i zur Likelihoodfunktion ist:

4–38

( ) ( )VV 1312

i 21 31 21 31P y 1 f , d d−∞ −∞

= = η η η η∫ ∫

( )diji

i j

L P y j= =∏ ∏ ( )ij ii j

lnL d lnP y j⇔ = ⋅ =∑ ∑

• Die Schätzung des multinomialen Probits ist rechnerisch aufwendig (Greene

gibt als Vergleichsgröße an: 1 Sek. für MNL, 10 Min. für MNP). Je mehr Al-

ternativen, umso rechenaufwendiger ist das Verfahren.

• Die Interpretation erfolgt typischerweise über die Berechnung marginaler Ef-

fekte.

4–39

4.4 Modelle für geordnete abhängige Variablen

4.4.1 Allgemeines

• Beispiele: Abhängige Variablen mit geordneten Kategorien:

Wochenarbeitszeit: < 20 Std, 20-30, 30-40, > 40

Schulbildung: keine, Pflicht, Sekundär, Tertiär

• Durch die Ordnung der abhängigen Variable in Kategorien steht Information

zur Verfügung, die bei einer Schätzung mit MNL oder MNP nicht genutzt

wird. Diese Verfahren sind hier anwendbar. Auch ein KQ Schätzer wäre an-

wendbar, würde aber kardinale Interpretation unterstellen und wie im linea-

ren Wahrscheinlichkeitsmodell zu heteroskedastischen Fehlern führen.

4–40

• Grundsätzlich gehen wir bei ordinalen (= geordneten) abhängigen Variablen

von einer unbeobachteten (= latenten) Variable (y*) aus, von der nur eine begrenzte Zahl (J + 1) von Ausprägungen beobachtet wird: *y ' x= β + ε .

• Wir definieren

y = 0 wenn *y 0≤ (Schwellenwert von y*, hier normalisiert auf 0)

y = 1 wenn *10 y< ≤ μ

y = 2 wenn *1 2yμ < ≤ μ

…

y = J wenn *J 1 y−μ <

bzw. allgemein

4–41

y = j für *j 1 jy−μ < ≤ μ

• Die Schwellenwert-Parameter jμ werden gemeinsam mit β geschätzt.

• Es finden sich zwei äquivalente Darstellungen: Entweder es gibt J-1 Schwel-

lenwerte, der erste ist auf 0 normalisiert und eine Konstante wird mit ge-

schätzt oder man schätzt J Schwellenwerte und berücksichtigt keine Reg-

ressionskonstante (beachte: Wir betrachten J + 1 Alternativen, da wir mit y =

0 anfangen).

• Beispiel: Bei 4 Alternativen (J+1 = 4) sind 3 Parameter identifizierbar. Ent-

weder man schätzt 3 Schwellenwerte ohne Konstante, oder 2 Schwellen-

werte mit Konstante. im letzteren Fall wird ein Schwellenwert auf 0 gesetzt.

• Als Elemente der Likelihoodfunktion erhalten wir: 4–42

( ) ( )i iP y 0 F 'x= = −β

( ) ( ) ( )i 1 i iP y 1 F 'x F ' x= = μ −β − −β

( ) ( ) ( )i 2 i 1 iP y 2 F ' x F ' x= = μ −β − μ −β

...

( ) ( )i J 1 iP y J 1 F 'x−= = − μ −β

Hier enthält xi eine Konstante. Um sicherzugehen, dass wir nur positive Wahrscheinlichkeiten erhalten, wird unterstellt: 1 2 J 10 ... −< μ < μ < < μ .

4–43

yi=0 yi=1 yi=2 yi=3

• Je nach angenommener Verteilung für ε erhalten wir das geordnete Probit

oder das geordnete Logit Schätzverfahren.

• Dabei werden ohne Konstante J - 1 Schwellenwerte und K - 1 Steigungspa-

rameter geschätzt, also deutlich weniger Parameter als im Fall des multinomialen Logitschätzers: ( )K J 1⋅ − .

ε

'x−β 1 ' xμ − β 2 ' xμ − β

f (εi | xi)

4–44

4.4.2 Geordnetes Probit Modell

• Wenn wir für ε eine Normalverteilung unterstellen, erhalten wir das geordne-

te Probit-Modell. Wir ersetzen F durch Ф und definieren:

ijZ 1= wenn Yi in der Kategorie j ist

ijZ 0= wenn Yi nicht in der Kategorie j ist

i = 1, 2,..., N individuelle Beobachtungen,

j = 1, 2,..., J Kategorien der abhängigen Variable (jetzt Zählung ab 1).

• Es gilt: ( ) ( ) ( )ij j i j 1 iP Z 1 ' x ' x−= = Φ μ −β −Φ μ −β

und für die Likelihoodfunktion:

4–45

( ) ( )ZijN J

j i j 1 ii 1 j 1

L ' x ' x−= =

⎡ ⎤= Φ μ −β −Φ μ −β⎣ ⎦∏ ∏

( ) ( )N J

ij j i j 1 ii 1 j 1

lnL Z ln ' x ' x−= =

⎡ ⎤= Φ μ − β − Φ μ − β⎣ ⎦∑ ∑

• Da die Hessematrix negativ definit ist, konvergiert das Newton-Raphson

Verfahren für den geordneten Probit Schätzer rasch zum globalen Maximum

der Likelihood Funktion.

• Beim geordneten Probitschätzer stellen die geschätzten Koeffizienten nicht

die marginalen Effekte dar. Diese werden wie folgt abgeleitet (z.B. J = 3):

( ) ( ) ( )i i iP y 1 ' x 1 ' x= = Φ −β = −Φ β

( ) ( ) ( )i i iP y 2 ' x ' x= = Φ μ −β −Φ −β

4–46

( ) ( )i iP y 3 1 ' x= = −Φ μ −β

dann ( ) ( ) ( )k k

k

P y 1' x ' x

x∂ =

= −φ β ⋅β = −φ −β ⋅β∂

( ) ( ) ( )k

k

P y 2' x ' x

x∂ =

⎡ ⎤= β ⋅ φ −β − φ μ −β⎣ ⎦∂

( ) ( ) k

k

P y 3' x

x∂ =

= φ μ −β ⋅β∂

• An den Gleichungen für den marginalen Effekt kann man ablesen, dass im

Fall eines positiven Koeffizienten βk bei einem Anstieg von xk die Wahr-

scheinlichkeit von:

4–47

( )iP y 1= fällt, da das Vorzeichen des marginalen Effekts umgekehrt zum

Vorzeichen von βk ist,

( )iP y 3= steigt, da das Vorzeichen des marg. Effektes mit dem von βk

übereinstimmt,

( )iP y 2= sich in unbestimmte Richtung ändert.

• Allgemein lässt sich die Richtung der marginalen Effekte (auch bei J > 3) nur

für die Randkategorien direkt aus den Schätzwerten ablesen.

4–48

• Wenn β > 0 und x 0Δ > Rechtsverschiebung der Kurve: Wahrscheinlichkeit

für Ausprägung 0 sinkt, für Ausprägung 2 steigt, für Ausprägung 1 abhängig

vom Einzelfall.

μ

f(εi | xi)

εi

4–49

• Über das Konzept der kompensierenden Variation lässt sich der relative

Einfluss verschiedener erklärender Variablen deutlich machen. Man betrach-

tet die Änderung einer Variablen x2, die erforderlich ist, um eine Änderung in

x1 auszugleichen, so dass Δ y* = 0. Dies erfordert

1 21 1 2 2

2 1

xx xxΔ β

β Δ = β Δ ⇔ =Δ β

• Beispiel: Wenn y* die unbeobachtete Lebenszufriedenheit darstellt, x1 das

Einkommen und x2 das Alter messen und sowohl Alter wie Einkommen posi-

tiv mit der Lebenszufriedenheit korrelieren, dann gibt β2 / β1 an, wie stark

das Einkommen steigen müsste, um den Zufriedenheitseffekt eines weiteren

Altersjahres zu erreichen.

4–50

4.4.3 Geordnetes Logit Modell

• Wenn wir für ε eine logistische Verteilungsfunktion unterstellen, erhalten wir

das geordnete Logit Modell.

• Hier gilt:

( ) ( )( )i 1P y 1 1/ 1 exp x'⎡ ⎤= = + − μ − β⎣ ⎦

( ) [ ( )( ) ]}{ [ ( )( ) ]}{i j j 1P y j 1/ 1 exp x ' 1/ 1 exp x '−= = + − μ − β − + − μ − β

( ) ( )( ){ }i J 1P y J 1 1 / 1 exp x '−⎡ ⎤= = − + − μ − β⎣ ⎦

• Damit keine negativen Wahrscheinlichkeiten resultieren, müssen die Schwellenwerte wieder die Bedingung 1 2 J 1... −μ < μ < < μ erfüllen.

4–51

• Die Likelihoodfunktion wird bestimmt wie im Fall des geordneten Probitmo-

dells.

• Beispiel: Jobkategorien von Bankangestellten (Textsammlung)

Die abhängige Variable kann nach Einkommen geordnet werden: Haus &

Technik < Verwaltung < Management. Wir betrachten die Schätzergebnisse

eines geordneten Logit-Modells:

4–52

Variable Coefficient Std. Error z-Statistic Prob. EDUC 0.870 0.089 9.764 0.000 MINORITY -1.056 0.375 -2.814 0.004 LIMIT_2:C(3) 7.852 1.004 7.914 0.000 LIMIT_3:C(4) 14.17 1.429 9.913 0.000 Log likelihood -130.31 Akaike info criterion 1.0412 Restr. log likelihood -231.34 Schwarz criterion 1.0963 LR statistic (2df) 202.04 Probability (LR stat) 0.0000

Wie erwartet, ist das Vorzeichen von Bildung positiv, das für Minderheiten

negativ; beide sind signifikant von Null verschieden. Der LR-Test weist auf

Gesamtsignifikanz des Modells hin.

Bei Schätzung eines geordneten Probitmodells sind die Ergebnisse ähnlich:

4–53

Variable Coefficient Std. Error z-Statistic Prob.EDUC 0.479 0.046 10.27 0.000MINORITY -0.509 0.213 -2.379 0.017LIMIT_2:C(3) 4.443 0.556 7.982 0.000LIMIT_3:C(4) 7.843 0.744 10.53 0.000Log likelihood -131.20 Akaike info criterion 1.048Restr. log likelihood -231.34 Schwarz criterion 1.103LR statistic (2df) 200.27 Probability (LR stat) 0.0000

Es lässt sich zeigen, wie stark eine Erhöhung der Bildung um 4 Jahre die

Verteilung der abhängig'en Variable verändert: y* = β' xi + εi, unterstellt, σ2 =

1, verschiebt sich y* um 4 × 0,479 nach rechts.

4–54

Eine kompensierende Variation der Bildung, die ausreicht, den Nachteil aus

dem Minderheitenstatus auszugleichen, beträgt mindestens ein Jahr, bzw.

genau 0,5090,479

= 1,063 Jahre.

Verteilung für Non-Minorities mit 12 und 16 Jahren Schulbildung:

(Quelle: Heij et al., 2004, 6.5 S.477ff)

4–55

4.4.4 Allgemeine Anmerkungen

• Die Likelihoodfunktion für das geordnete Logit- und das geordnete Probit-

modell ist global konkav. Die Schätzergebnisse beider Verfahren sind typi-

scherweise sehr ähnlich.

• Beim geordneten Probit wird eine Standardnormalverteilung für den Fehler-

term unterstellt. Wäre die Fehlervarianz in Wahrheit 4 statt 1, so wären die

wahren Parameter doppelt so groß wie die geschätzten, da von einer Stan-dardabweichung für ε von 1 ausgegangen wird; nur β σ ist identifiziert.

• Eine Normierung für Logit und Probit Modelle besteht darin, dass entweder

eine Regressionskonstante geschätzt und µ1 = 0 gesetzt wird, oder keine

4–56

Regressionskonstante berücksichtigt wird und µ1 frei geschätzt wird (STATA

schätzt ohne Konstante).

• Voraussetzung sinnvoller Anwendung der Verfahren ist, dass die Ausprä-

gungen der abhängigen Variablen eine natürliche Ordnung besitzen. Wen-

det man das Modell für nicht geordnete Zusammenhänge an, so sind die

Parameter verzerrt und inkonsistent.

• Man kann ungeordnete Schätzverfahren für geordnete abhängige Variablen

anwenden. Dies ist ineffizient, aber konsistent, und im Zweifelsfall die kon-

servativere Vorgehensweise.

• Die marginalen Effekte in geordneten Modellen lassen sich allgemein dar-

stellen als:

4–57

( ) ( ) ( ) ( )ijk i k j i j 1 i

ik

P y jME x f x f x

x +

∂ =⎡ ⎤′ ′= = β μ − β − μ − β⎣ ⎦∂

Daraus folgt, dass in diesen Modellen die relativen Größen der marginalen

Effekte verschiedener erklärender Variablen über alle Ausprägungskatego-

rien gleich groß sind:

( )( )

jk i k

jm i m

ME xME x

β=β

• Damit ist ausgeschlossen, dass die relative Bedeutung einer erklärenden

Variablen für unterschiedliche Ordungskategorien unterschiedlich ausfällt.

• Eine weitere Restriktion der Modelle liegt darin, dass beim Übergang von

den unteren zu den oberen Ordnungskategorien die marginalen Effekte

4–58

entweder erst negativ dann positiv sind oder umgekehrt. Ein weiterer Vor-

zeichenwechsel ist nicht möglich.

• Diese Restriktionen können durch flexiblere Modelle umgangen werden.

Hierzu zählen MNL und MNP Modelle, sowie Verallgemeinerte Schwellen-

wert Modelle (Generalized Threshold Models), die die Schwellenwerte μ als lineare Funktionen der erklärenden Variablen modellieren: ij j ix′μ = μ + γ und

den Vektor γ mit schätzen.

4–59

• Zum Schluß: Praxisrelevanz von Verfahren für multivariate und ordinale

abhängige Variablen

− große Bedeutung im Bereich der Produktnachfrageforschung, z.B. Jog-

hurt-Sorten-Nachfrage mit Konsumentendaten erforscht

− sehr flexible Modellierung der abhängigen kategorischen Variablen

− Neuentwicklungen bei Verwendung von verzögerten abhängigen Variab-

len auf der rechten Seite.

− Neue Interpretationsdimension "state dependence" im Sinne von bspw.

"macht Transferbezug abhängig?"

4–60

− Modelle auch wichtig bei Simulationsrechnungen für Arbeitsangebots-

wirkungen von Reformen, z.B. "erhöht Abschaffung des Ehegattensplit-

tings die Erwerbsneigung verheirateter Frauen?"

4–61

Literatur: Cameron Colin A. und P.K. Trivedi, 2005, Microceconometrics. Methods and

Applications, Cambridge: Cambridge University Press. Kapitel 15 Cameron Colin A. und P.K. Trivedi, 2009, Microceconometrics Using Stata,

Stata Press. Kapitel 15 Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice



Verlag, Heidelberg, Kapitel 5, 6. Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel


5. Tobitmodelle

5.1 Einführung

5.2 Gestutzte Daten

5.3 Zensierte Daten

5-2

5.1 Einführung

• Gestutzte Verteilung ("truncated distribution"): Der Teil einer nicht ge-

stutzten Verteilung, der oberhalb eines unteren (US) oder unterhalb eines

oberen Schwellenwertes (OS) liegt.

• Beispiele:

- Verteilung der Klausurnoten derjenigen, die bestanden haben

- Einkommensverteilung derjenigen, die weniger verdienen als der Me-

dian

- Arbeitsangebot am Fabriktor erfragt - keine 0 Werte.

5-3

• Grafisch:

• Zensierte Verteilung ("censored distribution"): Beobachtungen jenseits

des Schwellenwertes werden dem Schwellenwert zugewiesen.

• Beispiele:

- Nachfrage nach Eintrittskarten wenn Veranstaltung ausverkauft

- Ausgaben für langlebige Konsumgüter: unterhalb eines Mindestpreises

beträgt der Wert 0.

OS US

5-4

- "Top coding" in Umfragen, z.B. obere Grenze des ausgewiesenen Ver-

mögens 5 Mio € für alle mit ≥ 5 Mio €.

• Grafisch:

• Zensierte Beobachtungen stehen für die Analyse zur Verfügung, "gestutzte"

nicht.

OS US

5-5

5.2 Gestutzte Daten

5.2.1 Allgemeines zur gestutzten Verteilung

• Die Dichtefunktion der am Schwellenwert A von unten gestutzten Zufallsva-

riable y lautet

( ) ( ) ( )f y y A f y Pr y A> = > .

• Bei normalverteilter Zufallsvariable y, ( )2y ~ N ,μ σ mit

( ) ( )( ) ( )Pr y A 1 A 1> = − Φ − μ σ = − Φ α und A − μα =

σ folgt:

( ) ( ) ( )f y y A f y 1⎡ ⎤> = − Φ α⎣ ⎦ ( ) ( )

1 y

f y1

− μ⎛ ⎞⋅ φ⎜ ⎟σ σ⎝ ⎠= >− Φ α

wobei 5-6

( ) 21 1y exp y22

⎛ ⎞φ = ⋅ −⎜ ⎟π ⎝ ⎠ wenn ( )y ~ N 0,1

( )y

21 1y exp t dt22−∞

⎛ ⎞Φ = ⋅ −⎜ ⎟π ⎝ ⎠∫ wenn ( )y ~ N 0,1

• Die Dichtefunktion für gestutzte Zufallsvariable unterscheidet sich von der

für ungestutzte Zufallsvariable durch den Korrekturfaktor im Nenner.

• φ und Φ sind Dichte- und kumulative Verteilungsfunktion der Standardnor-

malverteilung.

• Der Erwartungswert von y steigt, wenn y von unten gestutzt wird und fällt,

wenn y von oben gestutzt wird. Stutzen reduziert die Varianz von y.

5-7

• Theorem: Für ( )2y ~ N ,μ σ und bei konstantem Schwellenwert A gilt:

( ) ( )E y gestutzt = μ + σ ⋅ λ α

( ) ( )( )2Var y gestutzt 1= σ − δ α

wobei: ( )Aα = − μ σ

und ( ) ( ) ( )1⎡ ⎤λ α = φ α − Φ α⎣ ⎦ , wenn von unten gestutzt und y A> ,

( ) ( ) ( )⎡ ⎤λ α = −φ α Φ α⎣ ⎦ , wenn von oben gestutzt und y A< .

( ) ( ) ( )⎡ ⎤δ α = λ α ⋅ λ α − α⎣ ⎦ , für alle α mit ( )0 1< δ α < .

5-8

5.2.2 Regression auf gestutzte abhängige Variablen

• Modell:

( ) ( )2 2i i i i i iy ' x , ~ N 0, y ~ N ' x ,= β + ε ε σ => β σ

• Bei Stutzung von unten beobachten wir nur iy A>

( ) ( )i iPr y beobachtet Pr y A= >

( )i iPr ' x A= β + ε > ( )i iPr A ' x= ε > − β

( )( )i i1 Pr A ' x= − ε σ ≤ − β σ

( )( ) ( ) ( )i i i1 A ' x 1= − Φ −β σ = − Φ α = Φ −α

mit ii

A ' x− βα =

σ

5-9

( )

( )

i

i i ii

i i

A ' x

E y y A ' xA ' x1

' x

− β⎛ ⎞φ ⎜ ⎟σ⎝ ⎠> = β + σ ⋅− β⎛ ⎞− Φ ⎜ ⎟σ⎝ ⎠

= β + σ ⋅ λ α

( ) ( )( )2i i iVar y y A 1> = σ − δ α < ( )iVar y

• Im Vergleich zum ungestutzten Modell verschieben sich Erwartungswert und

Varianz (s. Theorem).

• Marginale Effekte auf die ungestutzte (latente) abhängige Variable:

( )i ij jE y x∂ ∂ = β

• Marginale Effekte auf die gestutzte (beobachtete) abhängige Variable:

5-10

( ) ( ){ }i i ij i i ijE y y A x ' x x∂ > ∂ = ∂ β + σ ⋅ λ α ∂

i ij

i ijx∂ λ ∂ α

= β + σ ⋅ ⋅∂ α ∂

( )( )i

i jj

i

1⎛ ⎞φ α

∂ ⎜ ⎟− Φ α −β⎛ ⎞⎝ ⎠= β + σ ⋅ ⋅ ⎜ ⎟∂ α σ⎝ ⎠

( ) j2j i

−β⎛ ⎞⎡ ⎤= β + σ ⋅ λ ⋅ −α + λ ⋅ ⎜ ⎟⎣ ⎦ σ⎝ ⎠

( )2j i i i1= β ⋅ − λ + α ⋅ λ

( )( )j i i i1= β ⋅ − λ λ − α

5-11

( )( )j i1= β ⋅ − δ α

Hinweis: ( ) ( ) ( ) ( ) ( ) ( )i

i i ii

; / 1∂φ α

⎡ ⎤= φ α ⋅ −α λ α = φ α −Φ α⎣ ⎦∂α.

Da für alle α gilt ( )0 1< δ α < , ist der marginale Effekt bei Stutzung kleiner als

ohne Stutzung.

• Der marginale Effekt wird für die Stichprobe berechnet, muss daher um den

Effekt der Stutzung korrigiert werden. Der Koeffizient β wird für die Bevölke-

rung geschätzt, eine Korrektur ist nicht erforderlich.

5-12

5.2.3 KQ-Schätzung gestutzter abhängiger Variablen

• Grafisch (Stutzung von oben):

• Formal :

Ungestutzt ( )2i i i iy ' x , ~ N 0,= β + ε ε σ

( )iE y ' x= β

Gestutzt ( ) ( )i i iE y ' x= β + σ ⋅ λ α

Verzerrte Schätzung

wahr

x

y

5-13

... erforderliche Schätzgleichung bei Schätzung mit KQ::

( )i i i iy ' x= β + σ ⋅ λ α + ε mit ii

A ' x− βα =

σ

• Wenn nur auf β′xi regressiert:

(a) Verzerrung wegen ausgelassener Variablen

( ) ( )

( )i i i i i

i i i

E |y A E | ' x A

E | A ' x 0

ε < = ε β + ε <

= ε ε < − β ≠

da E(εi) = g(xi) folgt E(εi xi) ≠ 0

(b) heteroskedastische Fehler.

5-14

5.2.4 Schätzung mit Maximum Likelihood

• Modell: * *i i i i

i

y ' x wenn y Ay

unbeobachtet sonst= β + ε >⎧

= ⎨⎩

mit iy * als unbeobachteter, latenter Variable

( )N

i ii 1

L f y y * A=

= >∏

mit

( )i i

i ii

y ' x1

f y y * AA ' x1

− β⎛ ⎞⋅ φ⎜ ⎟σ σ⎝ ⎠> =− β⎛ ⎞− Φ⎜ ⎟σ⎝ ⎠

5-15

folgt:

( )

2

i i

N

A ' xii 1

y ' x1 1 1exp22

L

1 z dz

−β= σ

−∞

⎧ ⎫− β⎛ ⎞⎪ ⎪⋅ ⋅ −⎨ ⎬⎜ ⎟σ σπ ⎝ ⎠⎪ ⎪⎩ ⎭=

− φ

∏∫

( ) ( )N N

22 ii i2

i 1 i 1

A ' xN 1lnL ln2 ln y ' x ln 12 2 = =

⎡ ⎤− β⎛ ⎞= − ⋅ π + σ − ⋅ − β − −Φ⎢ ⎥⎜ ⎟σ σ⎝ ⎠⎣ ⎦∑ ∑

Der letzte Term korrigiert für die Stutzung.

• Ergibt konsistente und asymptotisch effiziente Schätzer, solange ( )2

i ~ N 0,ε σ .

5-16

• Beispiel 1: Hausman & Wise, 1977, Econometrica 45(4), 919-938.

Daten aus "negative income tax experiment" für Personen mit Einkommen

von bis zum 1,5-fachen der Armutsgrenze. Gesucht sind konsistente Schät-

zer der Effekte von Ausbildung und Intelligenz auf das logarithmierte

Burttoeinkommen des Vorjahres

Stichprobe: Männliche Haushaltsvorstände (N=684).

Schätzergebnisse:

5-17

Least Squares Maximum Likelihood Ratio Variable Estimate (S.E.) Estimate (S.E.) ML ÷ LS Constant 8.203 9.102 1.11 (0.091) (0.026)Education 0.010 0.015 1.54 (0.006) (0.007)IQ 0.002 0.006 3.81 (0.002) (0.005)Training 0.002 0.007 2.95 (0.002) (0.003)Union 0.090 0.246 2.74 (0.031) (0.089)Illness -0.076 -0.226 2.97 (0.038) (0.107)Age Linear -0.003 -0.016 5.40 (0.002) (0.005) R2 = 0.095 x2(676) = 706.5

5-18

• Beispiel 2 (Textsammlung, Handout):

Heij et al., Beispiel 6.6, S. 488-490

5-19

5.3 Zensierte Daten

5.3.1 Zur zensierten Verteilung

• Nutzt das Konzept latenter Variablen:

*iy = Betrag, den i für Gut y ausgeben möchte.

• Beobachtet wird yi:

iy A= falls *iy A≤ (A = untere Schwelle z.B. niedrigster Preis, typisch A=0)

*i iy y= falls *

iy A>

• Theorem: Wenn ( )* 2y ~ N ,μ σ

und A wenn y* A und

yy * sonst

≤⎧= ⎨⎩

5-20

dann: ( ) ( ) ( ) ( )E y A 1⎡ ⎤= Φ α ⋅ + − Φ α ⋅ μ + σλ⎣ ⎦

und: ( ) ( ) ( ) ( ) ( ){ }22Var y 1 1⎡ ⎤= σ −Φ α ⋅ − δ + α − λ ⋅Φ α⎣ ⎦

wobei: ( ) ( ) ( )*A P y Aα = − μ σ Φ α = ≤

( ) ( ) 21⎡ ⎤λ = φ α − Φ α δ = λ − λ ⋅α⎣ ⎦

5-21

5.3.2 Regression auf zensierte Daten "Tobit Modell"

• Modell: *i i iy ' x ,= β + ε ( )2

i ~ N 0,ε σ

iy 0= für *iy 0≤

*

i iy y= für *iy 0>

• Alternativen:

– Konstante A nimmt Schwellenwert statt 0 an. Hat keinen Einfluss auf die

Schätzung, wird in der Regressionskonstanten aufgefangen.

– Individuelle Schwellenwerte Ai. Wenn die Werte bekannt sind, ist dies

modellierbar, z.B. als Ai = α‘xi.

– Zensierung von oben. 5-22

• 3 mögliche Formulierungen für Erwartungswerte:

i. Erwartungswert der unzensierten latenten Variable: ( )*i iE y ' x= β .

Wenig interessant, da *iy nur zensiert beobachtbar.

ii. Erwartungswert der gestutzten Verteilung

( ) ( )*i i i i i iE y y 0 ' x E 0 ' x> = β + ε ε > − β

( )( )

ii

i

' x' x

1 ' x⎡ ⎤φ −β σ

= β + σ ⋅ ⎢ ⎥− Φ −β σ⎢ ⎥⎣ ⎦

( )( )

ii

i

' x /' x

' x /⎡ ⎤φ −β σ

= β + σ ⋅ ⎢ ⎥Φ β σ⎢ ⎥⎣ ⎦

(∗)

i' x= β + σ ⋅ λ

5-23

iii. Erwartungswert der gesamten Bevölkerung, d.h. Erwartungswert der zen-

sierten Verteilung:

Bei Schwellenwert A = 0 gilt ( ) ( ) ( )* *i i i iE y E y y 0 P y 0 0= > ⋅ > +

• Der Erwartungswert der gesamten Bevölkerung ist das Produkt der Wahr-

scheinlichkeit, unzensiert zu sein und des Erwartungswertes der gestutzten

Verteilung (solange A = 0).

• Daher lässt sich aus (∗) durch Multiplikation für unseren Fall ableiten:

( ) i ii i

' x ' xE y ' x β −β⎛ ⎞ ⎛ ⎞= β ⋅Φ + σ ⋅ φ⎜ ⎟ ⎜ ⎟σ σ⎝ ⎠ ⎝ ⎠

bzw. genauer:

5-24

( ) ( ) ( ) ( ) ( )* * *i i i i i i iE y P y 0 E y y 0 P y 0 E y y 0= > ⋅ > + = ⋅ ≤

( )i i

i

' x ' x' x 1 0⎡ ⎤β β⎛ ⎞ ⎛ ⎞= Φ ⋅ β + σ ⋅ λ + −Φ ⋅⎢ ⎥⎜ ⎟ ⎜ ⎟σ σ⎝ ⎠ ⎝ ⎠⎣ ⎦

• Welcher Erwartungswert relevant ist, variiert mit der Fragestellung.

• Beispiel: Nachfrage nach Eintrittskarten wegen Platzbegrenzung nur von oben zensiert messbar. Für den Veranstalter ausreichend: ( )*

i iE y y A< , für

Stadionplaner von Interesse: ( )iE y * .

• Beispiel: Wenn die bei 0 zensierte Variable „gearbeitete Stunden“ betrach-

tet wird, dann ist Erwartungswert (i) die gewünschte Anzahl Arbeitsstunden,

(ii) die Arbeitszeit der erwerbstätigen Bevölkerung und (iii) die Arbeitszeit für

erwerbstätige und nichterwerbstätige Personen.

5-25

• 3 mögliche marginale Effekte:

(i) Marginaler Effekt auf die latente Variable:

( )*i ij jE y x∂ ∂ = β

(ii) Marginaler Effekt auf die gestutzte Verteilung von y:

( ) ( ) ( )( )* 2i i ij j i i i jE y y 0 x 1 1∂ > ∂ = β ⋅ − λ + α ⋅ λ = β − δ α

(iii) Marginaler Effekt auf eine Zufallsziehung aus der gesamten Bevölkerung,

beziehungsweise auf die zensierte Variable:

Da ( ) ( ) ( )* *i i i iE y P y 0 E y y 0= > ⋅ > (bei Schwellenwert von 0):

5-26

( ) ( ) ( ) ( ) ( )* * * *i ij i i i ij i i i ijE y x Pr y 0 E y y 0 x E y y 0 Pr y 0 x∂ ∂ = > ⋅ ∂ > ∂ + > ⋅ ∂ > ∂

Zweiteilig, da eine Änderung in xij sowohl einen Effekt auf den Erwar-

tungswert als auch auf die Wahrscheinlichkeit der Beobachtung hat.

Es lässt sich zeigen, dass ( ) ( )i ij j iE y / x ' x /∂ ∂ = β ⋅Φ β σ , so dass der mar-

ginale Effekt von xj sowohl vom Koeffizienten βj abhängt als auch von der

Wahrscheinlichkeit, nicht zensiert zu sein (Theorem 24.4, Greene 6.A., S.

873).

5-27

5.3.3 Schätzung zensierter abhängiger Variablen mittels KQ

• Graphisch (Zensiert von unten bei 0)

y*

y

x

wahr

KQ mit 0 Werten

zensiert

5-28

• 2 Möglichkeiten für KQ-Schätzer, mit und ohne zensierte Beobachtungen:

(i) Berücksichtigung nur von Beobachtungen oberhalb des Schwellenwer-tes: ergibt verzerrte und inkonsistente Schätzer, da ( )E 0ε ≠ , Daten sind

gestutzt.

(ii) Berücksichtigung auch der zensierten Beobachtungen. Graphik macht

Verzerrung deutlich. Für A = 0:

( ) ( ) [ ]i i iE y ' x= Φ α ⋅ β + σ ⋅ λ ( ) ( )i i' x= Φ α ⋅β + Φ α ⋅ σ ⋅ λ

• Da Φ(α) in der KQ Schätzung nicht berücksichtigt wird, ist KQ inkonsistent.

Je größer der Anteil der zensierten Beobachtungen, umso verzerrter ist der

Schätzer.

5-29

5.3.4 Schätzung mittels Maximum Likelihood

• Index:

*i 1

i *i 0

1 für y 0 N nicht zensierte BeobachtungenD

0 für y 0 N zensierte Beobachtungen⎧ >

= ⎨≤⎩

• Likelihoodfunktion beschreibt exakt was wir beobachten:

1 D Di iN

i i i

i 1

0 ' x y ' x1L−

=

⎛ ⎞ ⎛ ⎞− β −β⎛ ⎞ ⎛ ⎞= Φ ⋅ ⋅ φ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟σ σ σ⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎝ ⎠∏

Einfluss zensierter Einfluss nicht zensierter

Beobachtungen Beobachtungen

5-30

da ( )2i ii i

22

y ' xy ' x1 1 exp22

⎧ ⎫− −β−β⎛ ⎞ ⎪ ⎪⋅ φ = ⋅ ⎨ ⎬⎜ ⎟σ σ σ⎝ ⎠ πσ ⎪ ⎪⎩ ⎭ ergibt sich:

( ) ( )2N N0 1i i2

i 2i 1 i 1

y ' x1lnL ln ln 2 ln2= =

⎛ ⎞− β= Φ − ⋅ π + σ +⎜ ⎟

⎜ ⎟σ⎝ ⎠∑ ∑

• Der ML Schätzer ist konsistent, asymptotisch normal verteilt, und asympto-

tisch effizient wenn ~ Nε .

5-31

5.3.5 Eigenschaften des ML Tobit unter nicht-idealen Bedingungen

• Bei Heteroskedastie wird der Schätzer inkonsistent.

– LM Test: Schätzen unter der Annahme von Homoskedastie (H0), kompli-

zierte Schätzung bei möglicher Heteroskedastie nicht erforderlich.

– LR Test, erfordert Schätzung unter Annahme von Homo- wie

Heteroskedastie. Eine typische Modellierung von Heteroskedastie ist z.B. ( )2 2

i iexp ' xσ = σ ⋅ α . Dann wird getestet: 0H : 0α = .

• Nicht normalverteilte ε führen zu inkonsistenten Schätzern.

• Beispiel 1: Greene, 5.A., Beispiel 22.4 (Handout, Textsammlung)

5-32

Fragestellung: Sichern sich Frauen gegen das Risiko der Ehescheidung

durch höheres Arbeitsangebot ab?

Abhängige Variable: Pro Jahr gearbeitete Stundenzahl, bei 0 zensiert für 71

Prozent der weißen und 54 Prozent der schwarzen Frauen. Für jede Frau

wurde die Scheidungswahrscheinlichkeit vorhergesagt und in 3 Indikatorva-

riablen (low, mean, high) kodiert. Ergebnisse der Tobitschätzung:

5-33

White Wives Black Wives Least Coeff. M.E. Coeff. M.E. SquaresConstant -1803.13 -2753.87 (-8.64) (-9.68) Small kids -1324.84 -385.89 -824.19 -376.53 -352.63 (-19.78) (-10.14) Education difference -48.08 -14.00 22.59 10.32 11.47 (-4.77) (1.96) Relative wage 312.07 90.90 286.39 130.93 123.95 (5.71) (3.32) Second marriage 175.85 51.51 25.33 11.57 13.14 (3.47) (0.41) Mean divorce probability 417.39 121.58 481.02 219.75 219.22 (6.52) (5.28) High divorce probability 670.22 195.22 578.66 264.36 244.17 (8.40) (5.33) σ 1559 618 1511 826 Sample size 7459 2798 Proportion working 0.29 0.46

5-34

Hohes Scheidungsrisiko scheint mit hohem Arbeitsangebot assoziiert zu

sein. Hier ergibt sich Korrelation aber keine Kausalität, die Wirkungsrichtung

könnte auch umgekehrt sein. Interpretierbar sind Vorzeichen und Signifikanz

der Koeffizienten sowie die Stärke der marginalen Effekte.

• Beispiel 2: Heij et al., Beispiel 6.7 (Handout, Textsammlung)

5-35

5.3.6 Schlussbemerkungen: Tobit Modell

5.3.6.1 Viele besondere Verwendungen:

• Zweifach zensierter Tobit

Modell: *i iy ' x= β + ε ( )2

i ~ N 0,ε σ

U * Ui i i* U * O

i i i i iO * Oi i i

y für y yy y für y y y

y für y y

<⎧⎪= ≤ ≤⎨⎪ >⎩

iy

*iy

Uiy O

iy

5-36

U Oi i i i i i

* U U * O * Oy y y y y y yi i i i i i i

y ' x y ' x y ' x1L 1< ≤ ≤ >

⎡ ⎤− β −β −β⎛ ⎞ ⎛ ⎞⎛ ⎞= Φ ⋅ ⋅ φ ⋅ − Φ⎢ ⎥⎜ ⎟ ⎜ ⎟⎜ ⎟σ σ σ σ⎝ ⎠⎝ ⎠ ⎝ ⎠⎣ ⎦∏ ∏ ∏

• Multivariates Tobit Modell

Modell:

( ) ( )*1i 1 i i1 1i 2iy ' x u u ,u ~ N 0,= β + Σ

*

2i 2 i i2y ' x u= β + 2

1 122

12 2

σ σ⎡ ⎤Σ = ⎢ ⎥σ σ⎣ ⎦

*

1i1i *

1i

1 falls y 0y

0 falls y 0>⎧

= ⎨≤⎩

z.B. Erwerbsbeteiligung

*

2i 1i2i *

1i

y falls y 0y

falls y 0>⎧

= ⎨− ≤⎩

z.B. Lohn wenn beschäftigt

5-37

( ) ( ) ( )y1 y 1i1i* * *

i1 2i 1i i1L P y 0 f y y 0 P y 0− ⎡ ⎤⎡ ⎤= ≤ ⋅ > ⋅ >⎣ ⎦ ⎣ ⎦∏ ∏

• Panel Tobit (Random Effect)

Durch das ″incidental parameter problem″ würde ein standard fixed effects

Tobit Modell inkonsistent. Daher findet man typischerweise random effects

Ansätze:

Modell: *it it i ity ' x= β + α + ε

*it ity y= falls *

ity 0>

ity 0= falls *ity 0≤

Wenn αi und εit i.i.d. normalverteilt sind mit ( )2i ~ N 0, αα σ und ( )2

it ~ N 0, εε σ

lautet der Beitrag von i zur Likelihoodfunktion: 5-38

( ) ( ) ( )i i1 iT i1 iT it it i i it

L y ,...,y x ,...,x , f y x , , f d∞

−∞

β = α β α α∏∫

wobei

( )

( )2it it iit22

it it i

it iit

y ' x1 1exp falls y 022

f y x , ,' x

1 falls y 0

εε

ε

⎧ ⎧ ⎫− β − α⎪ ⎪⎪ ⋅ − ⋅ >⎨ ⎬σ⎪ πσ ⎪ ⎪⎩ ⎭α β = ⎨

⎛ ⎞⎪ β + α−Φ =⎜ ⎟⎪ σ⎝ ⎠⎩

und

( )

2i

i 22

1 1f exp22 αα

⎧ ⎫αα = ⋅ − ⋅⎨ ⎬

σπσ ⎩ ⎭

5-39

5.3.6.2 Grundsätzliche Bemerkungen

• Eine zensierte abhängige Variable ist nicht vollständig beobachtbar.

• Im Gegensatz zum gestutzten Modell liegen erklärende Variablen für alle

Beobachtungen vor.

• Wichtig, alle vorliegenden Informationen zu nutzen, 0/1 ebenso wie stetige

Ausprägungen. Entsprechend hat die Likelihoodfunktion zwei Teile, einen

Probitteil und einen KQ-Teil.

• Restriktion: Beide Teile werden von den gleichen 'xβ bestimmt. Dies ist

nicht immer plausibel, da die 0/1 Entscheidung andere Determinanten (mit

anderen Koeffizienten) haben kann als die zahlenmäßige Ausprägung (Bei-

spiel: Arbeitsstunden, Löhne, Ausgaben). 5-40

• Solche Zusammenhänge zwischen einer diskreten 0/1 Variablen und einer

stetigen Variablen lassen sich auch allgemeiner schätzen (s. Kapitel 6).

• Darüber hinaus ist die Hypothese identischer Parameter grundsätzlich

testbar.

z.B.: ( ) ( )i 2 i21 i2 2

y 0 y 0i i1 2

y ' x' x 1lnL ln 1 ln 2 ln2= >

⎡ ⎤ ⎡ ⎤− β⎛ ⎞β= − Φ + − π + σ +⎢ ⎥ ⎢ ⎥⎜ ⎟σ σ⎝ ⎠ ⎣ ⎦⎣ ⎦∑ ∑

0 1 2 1 2H : ;β = β σ = σ

1 1 2H : β ≠ β und/oder 1 2σ ≠ σ

(Vgl. Greene 2003, 22.3.4.b)

5-41

• Zum Schluß: Praxisrelevanz von Tobitmodellen

- zensiert verteilte abhängige Variablen kommen häufig vor, bspw. fragen

viele Erhebungen Beträge nur bis zu einer Obergrenze ab, auch administ-

rative Datensätze sammeln Information nur bis zu willkürlichen Bemes-

sungsgrenzen.

- Anwendungen häufig für abhängige Variablen in Form von Anteilen, bspw.

im Bereich der Innovationsökonomie

- Verständnis hilfreich in Bezug auf Stichprobenselektionsverfahren, die in

der Arbeitsmarktökonomie entwickelt wurden, aber in allen Themenberei-

chen Anwendung finden

5-42

Literatur: Cameron Colin A. und P.K. Trivedi, 2005, Microeconometrics. Methods and Ap-

plications, Cambridge: Cambridge University Press. Kapitel 16 Cameron Colin A. und P.K. Trivedi, 2009, Microeconometrics Using Stata, Stata

Press. Kapitel 16 Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice


Sons, 3. Auflage. Kapitel 7.4 – 7.5. Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer

Verlag, Heidelberg, Kapitel 7.1, 7.2. Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel

Data, Cambridge: The MIT Press. Kapitel 16.

6. Selektionsmodelle

6.1 Einführung

6.2 Formales Gesamtmodell

6.3 Schätzansätze

6-2

6.1 Einführung

• 3 Fälle von Stichprobenselektion

Fall 1: Zufällige Auswahl aus der Grundgesamtheit - ist problemlos

Fall 2: Auswahl auf Basis eines exogenen Kriteriums

Fall 3: Auswahl auf Basis eines endogenen Kriteriums

• Beispiele für Fall 3:

(a) Y = Verdienst, Auswahl: Nur Arbeitnehmer

(b) Y = Anzahl von Arztbesuchen, Auswahl: Personen in Wartezimmern.

(c) Y = Bewertung einer Lehrveranstaltung, Auswahl: Teilnehmer am Ende

des Semesters.

6-3

• Konsequenz: Stichprobe unterscheidet sich von Bevölkerung, Auswahlkrite-

rium potentiell korreliert mit der Fragestellung.

• "At the general level, we can say that selection bias arises if the probability

of a particular observation to be included in the sample depends upon the

phenomenon we are explaining." (Verbeek, 3.A., S. 249)

• Man spricht von ignorierbarer Selektion (ignorable selection), wenn die auf

die Selektion bedingte Verteilung sich von der unbedingten Verteilung der

abhängigen Variable nicht unterscheidet:

( ) ( )i i i i if y |x , Auswahl 1 f y |x= = bzw. wenn

( ) ( )i i i i iE y |x , Auswahl 1 E y |x .= =

6-4

Dies zeigt, dass Selektion auf Basis von in xi enthaltenen Merkmalen un-

problematisch ist.

• Beispiel:

Marktlohn mi i 1 1iW X= β + ε

Reservationslohn ri i 2 2iW X= β + ε

Beobachteter Lohn iW

iW 0= wenn ri miW W> (Lohn unbeobachtet)

i miW W= wenn ri miW W≤ (Lohn beobachtet)

Wahrscheinlichkeit, Lohn zu beobachten:

( ) ( )i ri miP W 0 P W W> = ≤

6-5

( )i 2 2i i 1 1iP X X= β + ε ≤ β + ε

( )( )i 2 1 1i 2iP X= β −β ≤ ε − ε , Ann.: ( ) ( )21i 2i 1i 2 iVar , E 0ε − ε = σ ε − ε =

[ ( ) ] [ ( ) ]( )i 2 1 1i 2iP X / /= β −β σ ≤ ε − ε σ

( )i1 Z= −Φ

Ann.: ( )i i 2 1Z X⎡ ⎤= β − β σ⎣ ⎦ und mi = ( ) ( )1i 2i ~ N 0,1ε − ε σ

Werden nur Erwerbstätige beobachtet, so gilt:

( ) ( )mi i i 1 1i iE W W 0 X E W 0> = β + ε >

6-6

EXKURS: Eigenschaften der gestutzten Verteilung

Allgemeinster Fall: ( )2ix ~ N , :μ σ

( ) ( ) ( )( ) ( )

A B

i i B AE x A x B

−μ −μσ σ

−μ −μσ σ

⎡ ⎤φ − φ< < = μ + σ ⋅ ⎢ ⎥

Φ − Φ⎢ ⎥⎣ ⎦

Wenn B = ∞ , d.h. keine obere Stutzung:

( ) ( )( )

A

i i AE x x A

1

−μσ

−μσ

⎡ ⎤φ> = μ + σ ⋅ ⎢ ⎥

− Φ⎢ ⎥⎣ ⎦

EXKURSENDE

Rechtsverschiebung des Erwartungswertes:

( ) ( )( )mi i i 1 1i 1i 2i iE W W 0 X E Z⎡ ⎤> = β + ε ε − ε σ ≥⎣ ⎦

6-7

( )i 1 1i i iX E |m Z= β + ε ≥

( ) ( )( )i 1 1m i iX Z 1 Z⎡ ⎤= β + σ ⋅ φ −Φ⎣ ⎦

( )i 1 1m iX Z= β + σ ⋅ λ

wobei 1mσ = Kovarianz von 1iε und mi, 2m 1σ = und ( )1iE 0ε = .

Bei Stutzung von unten ( ) ( ) ( )( )i i iZ Z 1 Z⎡ ⎤λ = φ −Φ⎣ ⎦

Bei Stutzung von oben ( ) ( ) ( )i i iZ Z Z⎡ ⎤λ = −φ Φ⎣ ⎦

• Im Unterschied zur gestutzten Regression hat die Stutzungsbedingung im Beispiel mit 2iε ein zweites stochastisches Element. Sie ist auch wegen iZ

nicht konstant, sondern variiert über i.

• Schätzgleichung für iW 0≥ : ( )mi i 1 1m i iW X Z v= β + σ ⋅ λ + 6-8

vi ist ein normalverteilter Zufallsstörterm

• Problem 1: ( )iZλ nicht beobachtet, Schätzung ohne Korrektur verzerrt.

• Problem 2: Durch die Auswirkung des Selektionsmechanismus ist ( )iVar v

heteroskedastisch, die Schätzung ist ineffizient.

• Unterschied zu gestutzten / zensierten Modellen:

– Schwellenwert Wri variiert über i

– Wri ist nicht beobachtbar

– Beobachtbarkeit von Wmi ist abhängig vom Verhältnis zwischen Wmi und

Wri.

– Unterschiedliche Prozesse bestimmen Beobachtbarkeit und Ausprägung.

6-9

6.2 Formales Gesamtmodell

• Selektionsmechanismus:

*i i iZ W u= γ + Ann. ( )iu ~ N 0,1

mit iZ 1= für *iZ 0> (Beobachtung in Stichprobe)

Zi = 0 für *iZ 0≤ (Beobachtung nicht in Stichprobe)

( ) ( )*i iP Z 1 P Z 0⇒ = = >

( )i iP u W= > − γ

( ) ( )i iW 1 W= Φ γ = − Φ − γ

( ) ( ) ( )i i iP Z 0 1 W W= = −Φ γ = Φ − γ

6-10

• Regressionsmodell:

( )2i i i i iY X , ~ N 0, , Y stetigε= β + ε ε σ

Für Individuen mit iZ 0= : Yi unbeobachtet

Für Individuen mit iZ 1= : Yi beobachtet

( )i icov u,ε = σ

i2

i

1u~ N 0,

ε

⎛ ⎞σ⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟ σ σε⎝ ⎠ ⎝ ⎠⎝ ⎠

( ) ( ) ( )( )i i i i iE Y Z 1 X W 1 W⎡ ⎤= = β + σ φ − γ −Φ − γ⎣ ⎦

i iX= β + σ ⋅ λ

λi = "inverse Mill's Ratio"

6-11

Hinweis: ( ) ( )i iW Wφ − γ = φ γ und ( ) ( )i i1 W W− Φ − γ = Φ γ

• Die Selektionsverzerrung ergibt sich durch die Kovarianz σ zwischen ui und

εi, d.h. zwischen den unbeobachteten Determinanten von Zi und Yi. Wenn ( )i icov u, 0ε = σ = , ist die Selektion unproblematisch und führt nicht zu Ver-

zerrung. Der Selektionsmechanismus hat dann keine Auswirkung auf das

geschätzte Modell.

• Da allgemein gilt: ( ) ( )x y

x y

cov x,ycorr x,yρ = =

σ σ , finden sich als äquivalente

Darstellungen:

( )i i i i

i u, i

E Y |Z 1 xx ε ε

= = β + σ ⋅ λ

= β + ρ ⋅ σ ⋅ λ

6-12

6.3 Schätzansätze

• Regressionsmodell: i i i iY X= β + σ ⋅ λ + μ

Problem 1: ( )iZλ nicht beobachtet

Problem 2: ( )iVar μ ist heteroskedastisch. Es kann gezeigt werden, dass

( ) [ ( ) ]2 2i i i iVar 1 Wεμ = σ ⋅ − γ ⋅ λ + λ

6-13

6.3.1 Heckman's zweistufiger Schätzer

• Schritt 1: Probitschätzung von Zi ergibt γ

– damit lässt sich für jedes i iλ berechnen: ( )( )

( )( )

i ii

i i

ˆ ˆW Wˆˆ ˆW 1 W

φ ⋅ γ φ − ⋅ γλ = =

Φ ⋅ γ − Φ − ⋅ γ

– auf dieser Basis lässt sich ein FGLS Faktor zur Korrektur des

Heteroskedastieproblems bestimmen:

( )( )2 2i i i i

ˆ ˆˆ ˆ1 WΩ = − γ ⋅ λ + λ

– Vor der KQ Schätzung von Yi werden die Daten mit Hilfe dieses Faktors

korrigiert

• Schritt 2: KQ Schätzung von

6-14

*i i ii

2 2 2i i i

ˆY Xˆ ˆ ˆ

λ= ⋅β + σ ⋅ + μ

Ω Ω Ω

Indikator für Selektivität

• Da jetzt für die ausgelassene Variable kontrolliert wird, ist der Schätzer kon-sistent. Obwohl ( )i icov u, 0ε = σ ≠ , gilt jetzt ( )*

i iE u, 0μ = . Die Störterme der

Probit und KQ-Gleichung sind nicht mehr korreliert.

• Falls σ signifikant von 0 verschieden ist, war die Selektionskorrektur erfor-derlich. Ohne die Kontrolle für

iσλ wären die Ergebnisse dann verzerrt ge-

wesen.

6-15

• Es bleiben verschiedene Probleme bei diesem Verfahren:

(1) Konsistente KQ-Schätzer ergeben sich nur, wenn die Störterme tatsäch-

lich normalverteilt sind. Die Verteilungsannahmen haben einen großen

Einfluss auf das Schätzergebnis.

(2) Identifikationsproblem: Die Ergebnisse sind umso verlässlicher, je mehr

Variablen im Vektor Wi das Zi bestimmen, ohne einen Einfluss auf Yi zu

haben ("exclusion restrictions"): β = 0 für Elemente von Wi.

Theoretisch ist das Modell durch die Nichtlinearität von λ identifiziert. Es

hat sich jedoch gezeigt, dass Modelle mit großer Überlappung der Vari-

ablen in Xi und Wi schwerer zu schätzen sind und dass die Ergebnisse in

diesen Fällen stark mit der Spezifizierung der Vektoren Xi und Wi 6-16

schwanken. Da λ eine nichtlineare Funktion von X ist, ergibt sich bei Be-

rücksichtigung von λ ggf. Multikollinearität.

Dieses Problem existiert immer, wenn Zweigleichungsmodelle geschätzt

werden.

(3) Ein weiteres Problem besteht häufig darin, dass die erklärenden Variab-

len Wi des Probit auch für diejenigen Beobachtungen vorliegen müssen,

für die Y nicht beobachtet ist.

6-17

6.3.2 Der einstufige Maximum Likelihood Schätzer

• Modell

Selektion: *i i iZ W u= γ +

mit iZ 1= für *iZ 0> (Beobachtung in Stichprobe)

iZ 0= für *iZ 0≤ (Beobachtung nicht in Stichprobe)

Regression: i i iY X= β + ε für *iZ 0>

iY = unbeobachtet für *iZ 0≤

Ann.:

i2

i

1u~ N 0,

ε

⎛ ⎞σ⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟ σ σε⎝ ⎠ ⎝ ⎠⎝ ⎠

6-18

• Likelihoodfunktion:

( ) ( ) ( )i i i iZ 0 Z 1i i

L P Z * 0 P Z * 0 f Y Z * 0= =

⎡ ⎤= ≤ ⋅ > ⋅ >⎣ ⎦∏ ∏

• Es lässt sich zeigen, dass

( ) ( ) ( ) ( )i i i i i iP Z * 0 f Y Z * 0 P Z * 0 Y f Y> ⋅ > = > ⋅ , daher

( )( )( )i i i2

i ii 2

Z 0 Z 1i i

2

W Y XY X1L 1 W

1

ε

= = ε ε

ε

⎡ ⎤⎛ ⎞σ⎢ ⎥γ + ⋅ − β⎜ ⎟⎛ ⎞σ − β⎢ ⎥⎜ ⎟= − Φ γ ⋅ Φ ⋅ ⋅ φ⎜ ⎟⎢ ⎥⎜ ⎟ σ σσ ⎝ ⎠⎢ ⎥⎜ ⎟−⎜ ⎟σ⎢ ⎥⎝ ⎠⎣ ⎦

∏ ∏

L wird maximiert über , , , εβ γ σ σ .

( )if Y

6-19

• Die Likelihoodfunktion besteht aus drei Teilen:

(1) für i mit iZ 1= der Wahrscheinlichkeit, dass genau dieses yi beobachtet

wurde

(2) für i mit iZ 1= der bedingten Wahrscheinlichkeit, dass iZ 1= beobachtet

wird

(3) für i mit iZ 0= der Wahrscheinlichkeit, dass iZ 0= beobachtet wird.

• Der Maximum Likelihood Schätzer ist asymptotisch effizient (kein Hetero-

skedastieproblem) und konsistent, wenn die Annahmen erfüllt sind, dass die

Störterme der beiden Prozesse einer bivariaten Normalverteilung folgen.

6-20

• Eine Schwäche des häufig verwendeten 2-stufigen Heckman Verfahrens

liegt in der Abhängigkeit der Ergebnisse von der konkreten Spezifikation des

Modells. Oft findet man keine überzeugenden Ausschlussrestriktionen (W

enthält Variablen, die nicht in X vorkommen), um die Identifikation der bei-

den Gleichungen zu verbessern. Selbst wenn das Modell über Ausschluss-

restriktionen identifiziert ist, sind die Ergebnisse oft extrem schwankend. Je

besser die von Y unabhängige Identifikation der Probitgleichung, umso ro-

buster sollten die Schätzergebnisse auf der zweiten Stufe sein.

• Manche Autoren empfehlen daher, das 2-stufige Verfahren nur als Test auf

die Existenz von Selektionsverzerrung zu verwenden. Wenn das inverse

Mill's Ratio einen statistisch signifikanten Koeffizienten hat, dann liegt Selek-

6-21

tionsverzerrung vor und es sollte möglichst das einstufige ML Verfahren ge-

nutzt werden.

• Die Heteroskedastiekorrektur im 2-stufigen Verfahren wird nicht standard-

mäßig angewendet. Wird sie nicht verwendet, so sind die Ergebnisse ineffi-

zient.

• Beide Verfahren sind nur dann konsistent, wenn die Fehler bivariat normal-

verteilt sind.

• Beispiel: Der Klassiker: Löhne verheirateter Frauen (Handout)

Gesucht sind die Determinanten der Löhne von verheirateten Frauen, aber

nur eine nicht-zufällige Auswahl von Frauen ist erwerbstätig. Hier: Daten der

Panel Study of Income Dynamics: 6-22

Variable LFP-Probit Wage-OLS Constant 0.813** 1.969 (0.070) (0.036) Education < high school -0.566** -0.087** (0.053) (0.032) Some college 0.056 0.066** (0.041) (0.020) College graduate 0.423** 0.375** (0.046) (0.021) Northeast 0.021 0.140** (0.051) (0.025) South 0.198** -0.022 (0.042) (0.021) West 0.229** 0.076** (0.052) (0.025) Year, 1968 - 74 -0.334** 0.021 (0.046) (0.024) Year, 1979 - 83 0.165** -0.093** (0.038) (0.018) Age < 25 -0.189** -0.148** (0.041) (0.018) Age 30 - 35 0.062 0.125** (0.046) (0.020) Age > 35 -0.242** 0.097**

6-23

(0.077) (0.035) Black 0.401** -0.092** (0.041) (0.019) Child < age 3 -0.658** - (0.045) Child age 3 – 6 -0.321** - (0.049) Family size -0.163** - (0.018) Husband's income -0.010** - (0.001) Lambda - -0.057* (0.032) Sample size 7,164 3,947 Log L/R2 (adj) -4,296** 0.250 Mean ln (wage) - 1.926

Standard errors in parentheses; **, * statistically significant at 5, 10 percent level

• Beispiel: Heij et al., Bsp. 6.7 (Textsammlung)

6-24

• Zum Schluß: Praxisrelevanz und Verwendbarkeit von Selektionsmodellen

- Zentral: Sensibilisierung für Problematik endogener Selektion

- Gedankliche Überprüfung dieser Zusammenhänge sollte jeder empirischen

Untersuchung vorausgehen. Wichtiger Aspekt im kritischen Umgang mit

empirischen Studien, ob sie nun aus der Managementforschung, aus der

Marktforschung, aus der Sozial- oder ökonomischen Wirtschaftsforschung

stammen

- Schon Lehrevaluationen können durch Selektionsmechanismen zu grotesk

verzerrten Ergebnissen führen.

6-25


plications, Cambridge: Cambridge University Press. Kapitel 16, 24.3, 24.4 Cameron Colin A. und P.K. Trivedi, 2009, Microeconometrics Using Stata, Stata

Press. Kapitel 16 Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice

Hall, 6. Auflage. Kapitel 24.5. Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley &

Sons, 3. Auflage. Kapitel 7.6, 7.7. Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer

Verlag, Heidelberg, Kapitel 7.3. Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel


7-1

7. Verweildauermodelle

7.1 Einführung

7.2 Verweildauermodelle in diskreter Zeit

7.3 Verweildauermodelle in stetiger Zeit

7.4 Alternative Verfahren

7-2

7.1 Einführung

• Verweildauermodelle untersuchen, wie lange ein Zustand andauert, bis es

zum Übergang in einen anderen Zustand kommt (Dauer), bzw. wie hoch die

Übergangswahrscheinlichkeit in einen anderen Zustand ist (Übergangsrate).

• Beispielfragen:

– Überlebensdauer Kranker nach Behandlung

– Verweildauer in Arbeitslosigkeit bis beschäftigt

– Dauer von der Geburt des ersten bis zur Geburt des zweiten Kindes

7-3

• Diese Art der Analyse hat viele Namen: Hazardratenmodelle, Ereignismo-

delle, event studies, event history Modelle, duration Modelle, survival Model-

le.

• Wichtige Konzepte und Begriffe

(1) Spell und Episode: Ein Spell bzw. eine Episode beschreibt die Periode,

die in Zustand x verbracht wird.

(2) Diskrete vs. stetige Zeit: Modelle in diskreter Zeit modellieren die Ein-

trittswahrscheinlichkeit (0 / 1) des Ereignisses y in diskreten Zeitperio-

den. Modelle in stetiger Zeit modellieren die Dauer T eines Zustandes.

Wooldridge (2003) nennt diskrete Maße ″grouped duration data.″

7-4

(3) Links- und rechtszensierte Daten: Bei linkszensierten Daten ist der

Beginn einer Episode nicht beobachtet, bei rechtszensierten Daten ist

das Ende einer Episode nicht beobachtet.

Beispiel: Monatliche Daten zum Erwerbsstatus

(4) Competing Risks: Eine Episode kann durch alternative Zustände abge-

löst werden. Standard: Von Arbeitslosigkeit in Beschäftigung. Competing

Risk: Von Arbeitslosigkeit in Beschäftigung oder Rente.

t0

1 2 3

t1 t

nicht zensiert links zensiert rechts zensiert

7-5

(5) Duration Dependence: Die weitere Dauer eines Zustandes hängt von

der im Zustand verbrachten Zeit ab. Je länger man bereits im Zustand

ist, umso höher ist die Wahrscheinlichkeit, ihn zu verlassen (positive du-

ration dependence). Bei negativer duration dependence sinkt die Wahr-

scheinlichkeit, einen Zustand zu verlassen, je länger er bereits dauert.

Beispiel:

a) Nach 3 Jahren unfallfreien Fahrens ist die Wahrscheinlichkeit für ein

weiteres Jahr höher als nach einem Jahr (= negative duration

dependence).

b) Nach 3 Wochen Streik steigt die Wahrscheinlichkeit, dass er beendet

wird (= positive duration dependence).

7-6

(6) Single vs. Multiple Spell Daten: Bei Single Spell Daten wird jede Beo-

bachtungseinheit mit genau einer Episode beobachtet. Die Beobachtung

endet entweder mit einem Übergang in einen alternativen Zustand, oder

durch Zensierung (Rechtszensierung). Bei Multiple Spell Daten ist es

möglich, die gleiche Beobachtungseinheit in verschiedenen Episoden

hintereinander zu beobachten und diese zu analysieren.

Beispiel: Beobachtung des Erwerbsstatus über 30 Monate erbringt für

manche Personen mehr als eine Episode in Arbeitslosigkeit.

(7) Flow vs. Stock Sample (Stichprobenwahl): Bei Flow Samples verfolgen

wir Individuen, die in einem bestimmten Zeitraum den uns interessieren-

den Zustand beginnen (können). 2 Möglichkeiten: (i) Kontemporäre

7-7

Stichprobe: Wir beobachten eine Grundgesamtheit und interessieren

uns für die Dauer der Arbeitslosigkeit aller der Personen, die nach ei-

nem Stichtag (z.B. 1.1.98) arbeitslos werden. (ii) Retrospektive Stich-

probe: Wir haben eine Grundgesamtheit heute und interessieren uns für

alle, die seit dem letzten Stichtag (z.B. 1.1.98) arbeitslos geworden

sind. In beiden Fällen besteht die Möglichkeit von Rechtszensierung, da

die Dauer der Episode den Beobachtungszeitraum übersteigen kann.

Bei Stock Samples enthält die Grundgesamtheit ausschließlich Beo-

bachtungseinheiten, die sich zum Stichtag bereits im interessierenden

Zustand befinden (z.B. alle am 1.1.98 arbeitslos Gemeldeten). Aus die-

ser Gruppe wird eine Zufallsstichprobe gezogen. In diesem Fall besteht

7-8

nicht nur die Möglichkeit von Rechts-, sondern auch von Linkszensie-

rung, da nicht in jedem Fall beobachtbar sein muss, seit wann sich die

Person bereits im gegebenen Zustand befindet. Bei Stock Samples

kann es zudem zu Selektionsproblemen kommen, da nicht alle Mitglie-

der der Grundgesamtheit des Flow Samples (z.B. irgendwann 1998 ar-

beitslos) die Stichtagsbedingung erfüllen, und die Selektion systema-

tisch diejenigen übersieht, die im Jahr 1998 nur kurz im Zustand waren

("Linksstutzung", length biased sample, stock sampling bias).

(8) Time varying covariates: Bei der Modellierung der Dauer von Prozes-

sen bzw. von Abgangswahrscheinlichkeiten wird unterschieden, ob er-

klärende Variablen (Kovariaten) mit einem zeitlich konstanten Wert (time

7-9

invariant) berücksichtigt werden, oder ob sich ihre Werte im Zeitverlauf

ändern können (time varying). Wenn sich erklärende Variablen im Zeit-

verlauf ändern können, muss auf die Exogenität dieser Änderungen ge-

achtet werden. Endogene Änderungen erfolgen bspw., wenn die Dauer

des Zustandes die erklärenden Variablen beeinflusst (z.B. Familienstand

und Gefängnisaufenthalt, Gesundheit und Arbeitslosigkeit).

7-10

7.2 Verweildauermodelle in diskreter Zeit

• Abhängige Variable:

P (Ereignis tritt im Intervall (x, x + h) ein, gegeben, dass es nicht vor x einge-treten ist) = ( )P x T x h T x≤ ≤ + ≥ , (T = Eintrittszeitpunkt des Ereignisses).

7-11

• Beispiel: Austritt aus der Arbeitslosigkeit

Zeit: 0 1 2 3 jetzt Person 1 Person 2 Person 3 Ereignis: Person 1: 1 - - Person 2: 0 1 - Person 3: 0 0 0

t

7-12

• Schätzverfahren: Probit oder Logit. Die abhängige Variable beschreibt, ob

das Ereignis bis Periode t eingetreten ist (0/1).

• Beiträge der 3 Personen zur Likelihoodfunktion:

tiE 1= , wenn Ereignis für Person i bis Zeitpunkt t eingetreten ist.

tiE 0= sonst

Person 1: 11E 1=

( )x11 1

11 x11 1

eP E 11 e

β

β= =

+

dies ist der Beitrag von Person 1 zur Likelihoodfunktion, mit x11 = Merkmale

von Person 1 in Periode 1. Nach Periode 1 fällt Person 1 aus der Stichpro-

be.

7-13

Person 2: 12 22E 0, E 1= =

( )12 22P E 0, E 1= = = ( ) ( )22 12 12P E 1 E 0 P E 0= = ⋅ =

x22 2

x x22 2 12 1

e 11 e 1 e

β

β β= ⋅

+ +

Person 3: 13 23 33E 0, E 0, E 0= = =

( )13 23 33P E 0, E 0, E 0= = =

( ) ( ) ( )33 23 23 13 13P E 0 E 0 P E 0 E 0 P E 0= = = ⋅ = = ⋅ =

x x x33 3 23 2 13 1

1 1 11 e 1 e 1 eβ β β

= ⋅ ⋅+ + +

7-14

• Die Likelihoodfunktion entspricht dem Produkt aller individuellen Beiträge.

Somit ist Rechtszensierung im diskreten Fall problemlos, jede Beobachtung

geht mit ihrem gesamten Informationsgehalt ein.

• Schätzverfahren Alternative 1:

Für jeden Beobachtungszeitpunkt ein separates Modell, um über die Zeit po-

tentiell unterschiedliche Parametervektoren βj zu bestimmen.

Problem (i): über die Zeit schrumpfende Stichprobengröße bei konstanter

Parameterzahl. (ii) Unterstellt unkorrelierte Fehler über die Zeit.

• Schätzverfahren Alternative 2:

7-15

Daten poolen, so dass Person 1 mit einer Beobachtung vertreten ist, Person

2 mit 2 und Person 3 mit 3:

• Es lässt sich folgendes zeitlich vollständig interagierte Modell schätzen:

( )( ) ( ) ( )ti

1 1 ti 2 2i 2 ti 2i 3 3i 3 ti 3iti

P E 1log x T x T T x T

P E 0⎛ ⎞=

= α + β + α ⋅ + δ ⋅ ⋅ + α ⋅ + δ ⋅ ⋅⎜ ⎟⎜ ⎟=⎝ ⎠

wobei 2i

1 für t 2T

0 sonst=⎧

= ⎨⎩

3i

1 für t 3T

0 sonst=⎧

= ⎨⎩

dann für t = 1 t = 2 t = 3

Konstante α1 α1 + α2 α1 + α3

Steigung β1 β1 + δ2 β1 + δ3

7-16

⇒ erlaubt Test auf Parameterkonstanz über die Zeit.

H0: 2 3 2 3 0α = α = δ = δ =

H1: mindestens ein Koeffizient ≠ 0

• Die Alternativen 1 und 2 ergeben numerisch identische Ergebnisse. Alterna-

tive 2 erlaubt einfache Tests, ob die Achsenabschnitts- und Steigungspara-

meter für die drei Teilperioden konstant sind.

• Erweiterung zum competing risks Modell in diskreter Zeit: liegen statt einer

Übergangsmöglichkeit zwei Alternativen vor, kann statt eines Probit oder

Logit Modells problemlos ein multinomiales Logit Modell geschätzt werden.

7-17

• Beispiel: Anreizwirkung von Invaliditätsrentenbeträge auf den Übergang

von Erwerbstätigkeit in 1 = Erwerbstätigkeit, 2 = Invaliditätsrente, 3 = Nicht-

Erwerbstätigkeit (z.B. arbeitslos)

Die Interpretation bezieht sich nun auf Übergangswahrscheinlichkeiten statt

auf Zustände per se. Sonst bleibt alles wie im multinomial logit Modell.

7-18

into: Disability retirementt Nonemploymentt Coeff. t-ratio Coeff. t-ratio Age /10 -17.81 -3.05 -11.27 -4.47 Age squared / 1000 19.21 3.63 11.21 4.73 Health statisf. -0.29 -6.31 -0.11 -4.59 Wage / 10 -1.09 -3.16 -0.74 -4.48 Retirement benefit / 100 0.04 0.72 0.04 1.49 Foreigner (0/1) -0.66 -1.72 0.46 2.62 Experience / 10 0.0005 0.003 0.01 0.08 Prior unemployment 0.65 2.12 0.85 6.42 Education years / 10 -0.54 -1.11 0.21 0.89 Wage observed (0/1) 1.58 2.00 0.96 2.45 Constant 34.71 2.13 22.74 3.31

Quelle: Riphahn, 1999.

7-19

7.3 Verweildauermodelle in stetiger Zeit

7.3.1 Grundsätzliches

• Beschrieben wird die Verweildauer T in einem Zustand. Die abhängige Vari-

able ist immer positiv und daher nicht normalverteilt. Wenn T mit der Dichte ( )f t verteilt ist, gilt:

( ) ( ) ( )t

0

Pr T t f s ds F t≤ = =∫

und für die Wahrscheinlichkeit einer Dauer von mindestens t:

( ) ( ) ( )Pr T t 1 F t S t> = − = Survivalfunktion

7-20

• Wahrscheinlichkeit, dass der Spell im nächsten Intervall mit der Dauer Δ endet, gegeben, dass er bis t gedauert hat: ( ) ( )t, Pr t T t T tΔ = ≤ ≤ + Δ ≥

T

) ( tf

)( t F )( t S

0 t

Δ + t ) , ( Δ tl

7-21

• Hieraus lässt sich im Limit die Hazardrate als Übergangswahrscheinlichkeit

ableiten:

( ) ( )0

t limPr t T t T tΔ→

λ = ≤ ≤ + Δ ≥ Δ

( ) ( ) ( ) ( ) ( )0

lim F t F t S t f t S tΔ→

⎡ ⎤ ⎡ ⎤= + Δ − Δ ⋅ =⎣ ⎦ ⎣ ⎦

( )d lnS t d t= −

( ) ( ) ( )f t S t t⇒ = ⋅λ

• Kennt man die Hazardrate und ihre Entwicklung über die Zeit, so kann der

Prozess beschrieben werden.

7-22

7.3.2 Konstante Hazardrate (Exponential verteilte Dauer)

• Modelliert wird: ( )tλ = λ

da ( )d lnS t d t− = λ ⇔ ( )lnS t k t= − λ ⋅

⇔ ( ) ( )S t K exp t= ⋅ −λ ⋅ , ( )K exp k=

k ist die Integrationskonstante. Da S(0) = 1, folgt K = 1.

⇔ ( ) ( ) ( )S t exp t Pr T t ,= −λ ⋅ = ≥

( ) ( )F t 1 exp t= − −λ ⋅

• F(t) ist somit die kumulative Häufigkeitsfunktion der exponentialverteilten Zu-

fallsvariable t. Die Hazardrate ist konstant:

7-23

• Es gibt keine Verweildauerabhängigkeit (duration dependence), man sagt

der Prozess hat kein Gedächtnis; die Wahrscheinlichkeit eines Übergangs

im nächsten Zeitintervall ist unabhängig von der vorherigen Dauer des Zu-

standes: ( )t

0t

∂λ=

∂.

• Das Modell wird auch genutzt, um die Lebensdauer elektrischer Geräte zu

modellieren.

( )tλ

t

7-24

7.3.3 Weibull-Modell

• Modelliert ( )ln tλ als nicht-lineare Funktion der Zeit:

( ) ( )p 1 p p 1t p t p t− −λ = α ⋅ ⋅ α = ⋅ α ⋅

mit 0α > , p 0> . Der Verlauf ist abhängig von den Parametern α und p.

Für p = 1: ( )tλ = α , entspricht dem exponentiellen Modell (konstanter

Hazard).

( )tλ

p > 2

1 < p < 2

p = 1

p < 1

t

7-25

• Jetzt: ( ) [ ( ) ]pS t exp t= − α , wobei die Parameter α und p über Maximum

Likelihood zu schätzen sind. Neben dem Weibull-Modell existieren zahlrei-

che weitere Ansätze zur parametrischen Modellierung stetiger

Hazardfunktionen.

7-26

7.3.4 Schätzverfahren und Parametrisierung

• Die Likelihoodfunktion berücksichtigt sowohl abgeschlossene als auch

rechtszensierte Spells und kann auf zwei Weisen beschrieben werden.

• Annahmen:

– Single Spell Daten, keine Linkszensierung (z.B. flow sample)

– Dichte der Dauer unzensierter Spells: ( )if t

– Wahrscheinlichkeit, dass Spell rechtszensiert ist: ( ) ( )i iS t 1 F t= −

( ) ( ) ( )N

i i i ii 1

lnL c lnf t 1 c lnS t=

= ⋅ + − ⋅∑

7-27

wobei: ic 1= wenn Spell abgeschlossen und ic 0= wenn Spell rechtszen-

siert.

• Da f lnS lnf lnS

λ = ⇔ = − λ und

( ) ( )i i i i1 c lnS t lnS c ln f c ln− = − ⋅ + λ , so dass

( ) ( )N

i i ii 1

lnL c ln t lnS t=

= ⋅ λ +∑

• Beide Likelihoodfunktionen betrachten die Hazardrate als Ergebnis einer un-

terliegenden Verteilung. Erklärende Variablen wurden noch nicht berück-

sichtigt.

7-28

• Wenn die Hazardrate als Funktion von erklärenden Variablen dargestellt

wird, spricht die Literatur von accelerated failure time Modellen, da die

Kovariaten die Zeitachse in gewisser Weise umskalieren.

• Dazu ersetzen wir im Rahmen des Weibull Modells ( )i iexp xα = −β , so dass

( ) ( ) ( )( )p 1

i i it exp x p exp x t−

λ = −β ⋅ ⋅ −β ⋅

• Es lässt sich zeigen, dass bei zeitkonstanten erklärenden Variablen das

Verhältnis der Hazardraten zweier Personen i und j über die Zeit konstant

bleibt:

( )( )

( )( )

p

i ip

j j

t exp xt exp x

λ −β=

λ −β

7-29

• Alternativ könnte auch p durch Kovariate ersetzt werden: ( )i ip exp x= γ .

• (Beispiele und Stata-Anwendungen, s. Blossfeld / Golsch / Rohwer, Kap. 7)

• Neben der Weibullverteilung für die Verweildauerverteilung existieren zahl-

reiche alternative stetige Modelle. In Stata werden u.a. Exponential-,

Weibull-, Gompertz-, Lognormal- und Log-logistische Verteilung angeboten.

Sie unterscheiden sich durch die Formulierung des Hazards sowie der

Survivalfunktion. Dabei ergeben sich konsistente Parameterschätzer nur,

wenn die zutreffende Verteilungsannahme gewählt wurde.

7-30

• Parametrische Modelle und ihre Hazard- und Survivalfunktionen

Modell Hazardfunktion Survivalfunktion

Exponential γ ( )exp t−γ

Weibull ( )p 1p t −α⋅ ⋅ α ⋅ ( )( )pexp t− α

Generalized Weibull 1t S(t)α− −μγα 1/a1 tμ

− μ γ⎡ ⎤⎣ ⎦

Gompertz ( )exp tγ α ( ) ( )( )texp / e 1α− γ α −

Log-normal ( )( )

( )( )

2 2exp ln t / 2

t 2 1 ln t /

− − μ σ

⎡ ⎤σ π −Φ − μ σ⎣ ⎦ ( )( )1 ln t /−Φ − μ σ

Log-logistic 1t / [(1 ( t) )]α α− ααγ + γ ( )1/ [1 t ]α+ γ

Gamma ( ) ( )( ) ( )

1t exp t

1 I , t

α−⎡ ⎤γ γ − γ⎣ ⎦

⎡ ⎤Γ α − α γ⎣ ⎦ ( )1 I , t− α γ

7-31

7.3.5 Unbeobachtbare Heterogenität bei Verweildauermodellen in stetiger

Zeit

• Bei Verweildauermodellen kann unkontrollierte unbeobachtete Heterogenität

zu verzerrten Schätzern der duration dependence führen.

• Beispiel: Unsere Stichprobe bestehe aus 2 Gruppen, mit hoher (λH) und

niedriger (λN) konstanter Abgangsrate aus dem Zustand Arbeitslosigkeit.

Nλ

λ

Hλ

Aλ

t

7-32

• Der im Aggregat beobachtete Verlauf (λA) der Verweildauerabhängigkeit

entspricht weder dem der einen noch dem der anderen Gruppe und würde

zur Schlussfolgerung negativer duration dependence führen, obwohl keine

der Gruppen duration dependence aufweist. Der sonst nicht kontrollierte Un-

terschied zwischen den Gruppen ist auf unbeobachtete Heterogenität zurück

zu führen.

• Das Problem lässt sich in der gleichen Weise lösen, wie wir zuvor random

effects behandelt haben: Bei Annahme einer Verteilung der unbeobachteten

Heterogenität über die Stichprobe hinweg, lässt sich die Heterogenität aus-

integrieren, um die unbedingte Survivalfunktion zu erhalten.

7-33

• Wenn iυ der unbeobachtete individuelle Effekt ist und ( )f υ dessen Dichte,

dann gilt:

( ) ( ) ( )S t S t f d= υ υ υ∫ .

• Häufig wird eine Gammaverteilung für die unbeobachtete Heterogenität ge-

wählt. Alternativ kann man die Verteilung der unbeobachteten Heterogenität

nicht-parametrisch schätzen.

• Anstatt eine konkrete Verteilungsfunktion für die unbeobachtete Heterogeni-

tät zu unterstellen, wird in diesen Fällen die Verteilung von υ, z.B. als Trep-

penfunktion mit anderen Parametern gleichzeitig geschätzt (Heckman Sin-

ger Verfahren):

7-34

Geschätzt wird die Höhe und Position der Stufen.

υ

F( )υ1

Unterstellte Normalvertei-lung

Approximierte kumulative Normalverteilung

7-35

7.4 Alternative Verfahren

7.4.1 Kaplan Meier Schätzer

• Der Kaplan-Meier Schätzer ist ein zur Datenbeschreibung geeignetes In-

strument, welches die Survivalfunktion wie folgt abbildet:

t 0

1

0.5

s

7-36

• Die Zeitachse sei in m = 1, 2, …, M Perioden aufgeteilt. Zu jedem Zeitpunkt r

befinden sich Nr Beobachtungseinheiten in der Risikomenge derjenigen

Personen, die bislang weder zensiert wurden noch den Zustand gewechselt

haben. N1 ist die Ursprungsstichprobe, N2 die Anzahl der Einheiten nach der

ersten Periode, Er ist die Anzahl der Einheiten die in Periode r den "Zustand"

gewechselt haben, so dass N2 = N1 – E1. Wenn ar den Zeitpunkt des Endes der Periode r beschreibt, kann ( )r r 1Pr T a T a −> ≥ konsistent geschätzt

werden durch: ( )r r rN E N− für r = 1, 2, ..., M.

• Da sich die Survivalfunktion formulieren lässt als:

( ) ( ) ( )m

m m r r 1r 1

S a Pr T a Pr T a T a −=

= > = > ≥∏

7-37

lautet ein konsistenter Schätzer der Survivalfunktion:

( )m

r rm

r 1 r

N ES a

N=

−= ∏

• Dies ist der Kaplan-Meier Schätzer. Es gehen weder parametrische Vertei-

lungsannahmen noch erklärende Variablen oder unbeobachtete Heterogeni-

tät ein.

7-38

7.4.2 Cox' (piecewise constant) Proportional Hazard Modell

• Grundidee des beliebten Modells:

( ) ( ) ( )scale factor baseline hazard

i i 0 it exp x tλ = β ⋅ λ

( ) ( )i i 0 iln t x ln tλ = β + λ

• Der Effekt der Zeit auf die Entwicklung der Hazardrate wird vom Einfluss der

erklärenden Variablen getrennt betrachtet. Der baseline hazard λ0(ti) ist für

alle i gleich. Der Parametervektor β kann konsistent geschätzt werden, ohne

eine funktionale Form für λ0 vorzugeben.

• Das exponentielle, Weibull und Gompertz-Modell sind jeweils proportional

hazard Modelle.

7-39

• βj misst die Semielastizität des Hazards hinsichtlich xj. Wenn ( )j jx ln z= , ist

βj die Elastizität des Hazards hinsichtlich z.

• Man spricht vom piecewise constant hazard modell, wenn λ0(t) als Treppen-

funktion mit k Stufen geschätzt wird: λ0(t) = exp(αj), cj-1 ≤ t <cj, j = 1, ..., k, mit

c0 = 0 und ck = ∞.

• Der Hazard kann in jeder Periode anders aussehen und doch kann der Vek-

tor β unabhängig davon geschätzt werden.

• Das hier verwendete Verfahren der "partial likelihood" funktioniert vergleich-

bar zu Chamberlain's conditional logit, indem auf die Mitgliedschaft der Be-

obachtung in der Risikogruppe zu jedem Zeitpunkt konditioniert wird. Dabei

7-40

kürzt sich der baseline hazard heraus. Allerdings wird hierbei der oft interes-sierende Verlauf von ( )0 itλ nicht mitgeschätzt.

• Beispiel: Cameron & Trivedi 17.11

Determinanten der Arbeitslosigkeitsdauer, CPS (Current Population Survey)

Daten von 1986, 1988, 1990 und 1992. Variablenbeschreibung:

7-41

Die Analyse betrachtet "CENSOR1", d.h. ob eine Vollzeitbeschäftigung wie-

der aufgenommen wurde. Die Erhebung erfolgt in 14-tägigen Intervallen. Die

Überlebenswahrscheinlichkeit in der Arbeitslosigkeit fällt erst schnell, dann

7-42

langsamer. Es zeigen sich Unterschiede, je nachdem ob Arbeitslosengeld

gezahlt wurde:

7-43

Es wurden verschiedene Modelle mit unterschiedlichen Ergebnissen ge-

schätzt:

Interpretiert werden Vorzeichen und Signifikanz der Koeffizientenschätzer.

• Beispiel: Heij et al., Example 6.9 (Textsammlung) 7-44

• Zum Schluß: Praxisrelevanz und Verwendbarkeit von Verweildauermodel-

len

- Breite, interdisziplinäre Verwendung wie KQ.

- Auf alle Phänomene zeitlichen Verlaufs anwendbar, in allen inhaltlichen

Bereichen (Kurswerte an Börsen, medizinische Krankheitsverläufe, Ge-

sundheit partnerschaftlicher Beziehungen, Arbeitslosigkeitsdauer)

- Intensive Nutzung im Bereich der Maßnahmenevaluation

7-45

Literatur: Blossfeld, Hans-Peter, Katrin Golsch, Götz Rohwer, 2007, Event History Analysis with

Stata, Lawrence Erlbaum Assoc., Taylor & Francis Group, New York et al.

Cameron Colin A. und P.K. Trivedi, 2005, Microeconometrics. Methods and Applications, Cambridge: Cambridge University Press. Kapitel 17, 18

Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice Hall, 6. Auflage. Kapitel 25.6.

Kiefer, Nicholas M., 1988, Economic Duration Data and Hazard Functions, Journal of Economic Literature 26(2), 646-679.

Riphahn, Regina T., 1999, Disability Retirement among German Men in the 1980s, Indus-trial and Labor Relations Review 52(4), 628-647.

Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley & Sons, 3. Auflage. Kapitel 7.8.

Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer Verlag, Hei-delberg, Kapitel 8.2.

7-46

Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel Data, Cambridge: The MIT Press. Kapitel 20.

8. Zähldatenmodelle

8.1 Einführung

8.2 Das Poissonmodell

8.3 Das Negbinmodell

8–2

8.1 Einführung

• Zähldaten sind diskrete und geordnete Ergebnisse von Prozessen, die in na-

türlichen positiven Zahlen beschrieben werden können, und die sich in ei-

nem klar abgegrenzten Zeitraum ereignen.

• Beispiele: Anzahl Geburten einer Frau, Anzahl Betriebsunfälle pro Monat,

Anzahl von Patentanmeldungen pro Jahr, Anzahl Insolvenzen pro Jahr.

• Typisch: Konzentration der Ereignisse bei 0, dann geringe Häufigkeiten

• Inhaltlich sind Zähldatenprozesse mit der Ereignisanalyse / Verweildauer-

analyse (Hazardraten- / Survivalanalyse) verwandt. Die Verweildaueranaly-se betrachtet die Zeitdauer

kτ bis das k-te Ereignis eintritt, Zähldaten be-

schreiben die Anzahl von Ereignissen bis zum Zeitpunkt T.

8–3

• Im Unterschied zu geordneten multivariaten abhängigen Variablen können

Zähldaten kardinal interpretiert werden (2 ist das Doppelte von 1). Außer-

dem sind Zähldaten grundsätzlich nach oben unbegrenzt.

• Warum nicht Kleinstquadrateschätzung?

Problem 1: u.U. Vorhersagen < 0, lösbar durch Schätzung auf ln(y)?

Problem a: viele 0 Werte, lösbar durch Schätzung auf ( )ln 1 y+ .

Besser, ( )E y x direkt zu modellieren als es aus ( )E ln(1 y) x+ zu

berechnen.

Problem 2: KQ ist bei kleinen Stichproben verzerrt (Inkonsistenz ist nicht

bewiesen)

8–4

8.2 Das Poissonmodell

8.2.1 Allgemeines

• Die Poissonverteilung ergibt für Zufallsvariablen Wi mit ganzzahligen Werten

y = 0, 1, 2, 3, ... folgende Wahrscheinlichkeitsdichtefunktion:

( ) ( ) ( ) yii i

i i ii

expPr W y f y

y !−λ ⋅ λ

= = =

• Auftreten und Häufigkeit von Ereignissen sind proportional zur Länge des

betrachteten Zeitintervalls.

• Die Anzahl der Ereignisse in nicht überlappenden Zeitintervallen ist stochas-

tisch unabhängig von einander.

8–5

• Die Poissonverteilung ist eine einparametrige Verteilung, die einzig vom Pa-

rameter λ abhängt. Für λi = 2 ergibt sich beispielsweise P(yi = 0) = 0,135;

P(yi = 1) = 0,271; P(yi = 2) = 0,271 und P(yi = 3) = 0,180. Es gilt immer:

( ) ( )i iE y Var y= = λ

• Um eine poissonverteilte abhängige Variable als Funktion erklärender Vari-

ablen zu beschreiben, formulieren wir:

( )i if ' xλ = β bzw. konkret: i iln ' xλ = β

( )i iexp ' xλ = β , so dass λi ≥ 0.

• Erwartete Anzahl von Ereignissen pro Periode:

( ) ( ) ( )i i i i i iE y x V y x exp ' x= = β = λ

8–6

• Dies zeigt, dass

(a) der Poissonschätzer heteroskedastisch ist

(b) die Poissonverteilung mit E = V eine restriktive Annahme impliziert

(c) der marginale Effekt ( ) ( )i i ik i k i kE y x x exp ' x∂ ∂ = λ β = β β ist.

• Im Unterschied zum linearen Modell:

– gibt es keine Annahme hinsichtlich eines linearen Fehlers. Man könnte de-

finieren: ui = yi – E(yi | xi) aber die Interpretation ist nicht klar. ui ist nicht

poissonverteilt.

– ist die abhängige Variable diskret und nicht-negativ

– hat das Modell bessere Vorhersageeigenschaften

8–7

10.2.2 Schätzung des Poissonmodells

( )( ) ( )N yi

i i ii 1

L exp exp ' x exp ' x y !=

⎡ ⎤= − β ⋅ β⎣ ⎦∏

( ) yii i iexp y !−λ ⋅ λ

( ) ( ) ( )N

i i i ii 1

lnL exp ' x y ' x ln y !=

= − β + ⋅ β −∑

• Anwendung des Maximum Likelihood Verfahrens. Da die Hesse Matrix H

negativ definit ist, ist Konvergenz unproblematisch.

• Wenn das Modell korrekt spezifiziert ist, ist der Maximum Likelihoodschätzer

asymptotisch normalverteilt, konsistent und asymptotisch effizient.

• Die Bedingung erster Ordnung lässt sich umschreiben:

8–8

( )= =

∂⎡ ⎤= − β ⋅ = ε =⎣ ⎦∂ β ∑ ∑

N N

i i i i ii 1 i 1

lnL y exp ' x x x 0

• Da ( ) ( )i i iE y |x exp ' x= β folgt ( )ε =i iE x 0. Gemeinsam mit dieser Restriktion

kann die Bedingung erster Ordnung des Poissonmodells als Momentenbedingung analog zu den Orthogonalitätsbedingungen { }ε =i iE x 0

interpretiert werden, die sich auch ohne die Annahme einer

Poissonverteilung für yi ableiten lassen.

• In diesem Fall spricht man von einem Quasi-Maximum-Likelihood-

Schätzer. Er ist konsistent, wenn der Erwartungswert von yi korrekt spezifi-

ziert ist und benötigt keine Verteilungsannahme.

8–9

• Die Varianz-Kovarianz-Matrix des Quasi-Maximum-Likelihood-Schätzers ist

anders zu bestimmen als die des Maximum-Likelihood-Schätzers, nämlich:

( ) ( ) ( ) ( )1 1QMLˆV I J I− −β = β β β

mit ( ) ( ){ } { }2 2i i i i i i iJ E y exp ' x x ' x E x ' x⎡ ⎤β = − β = ε⎣ ⎦

• Auf diese Weise können die Koeffizienten robust geschätzt werden. Aller-

dings hat man ohne die Verteilungsannahme keine Möglichkeit, die Wahr-

scheinlichkeit etwa von P(yi = y | xi) zu beschreiben.

8–10

8.2.3 Probleme im Poissonmodell

• 2 kritische Annahmen:

(1) deterministische Beziehung: ( )i iexp ' xλ = β , daher keine unbeobachte-

te Heterogenität möglich.

(2) Unabhängigkeit der Ereignisse über t, keine Autokorrelation in y mög-

lich.

• Wenn Annahmen nicht zutreffen: ( ) ( )i iE y V y≠ Man spricht von:

Überstreuung (Overdispersion), wenn ( ) ( )i iV y E y> .

Unterstreuung (Underdispersion), wenn ( ) ( )i iV y E y< .

8–11

• Bei Überstreuung generiert das Poissonmodell zu niedrige Varianzschätzer

der Parameter und damit zu hohe t-Werte. Bei Unterstreuung generiert das

Poissonmodell zu hohe Varianzschätzer der Parameter und damit zu niedri-

ge t-Werte.

• Lösung z.B. durch alternativen Schätzer.

8–12

8.2.4 Test auf Überstreuung

• Version 1, 5 Schritte:

(1) Schätze Poisson und bestimme β

(2) Berechne ( )i iˆ êxp ' xλ = β

(3) Berechne i iˆyε = − λ

(4) Unter der plausiblen Annahme, dass ( ) ( )2i iVar y ≈ ε prüfe, ob

( ) ( )i iˆVar y E y= = λ . Berechne: ( )2i i

ˆε λ

(5) KQ Schätzung: ( )ε λ = β + β ⋅ λ + η2

i i 1 2 i iˆ ˆ

wenn Poisson-Annahme zutrifft: β = β =1 21, 0 .

8–13

• Version 2, ersetze die Schritte (4) und (5):

(4) Berechne ( )2iε

(5) KQ Schätzung: ( )2i i iˆε = α ⋅ λ + η

wenn Poisson-Annahme zutrifft: α = 1,

bei Überstreuung: α > 1,

bei Unterstreuung: α < 1.

• Es gibt zahlreiche alternative Formulierungen und Verallgemeinerungen der

Tests.

8–14

8.3 Das Negbinmodell

8.3.1 Allgemeines

• Das Negbinmodell baut auf der Negativ-Binomialverteilung auf und verall-

gemeinert den Poissonansatz durch Berücksichtigung einer stochastischen

Zufallskomponente γi (fängt unbeobachtete Einflüsse sowie Spezifikations-

fehler auf).

• Statt wie im Poissonmodell: ( )i iexp ' xλ = β wird ein unbeobachteter Effekt

(εi) zugelassen:

( )i i iexp ' xλ = β + ε i i= λ ⋅ γ mit ( )i iexpγ = ε

i iln ' xλ = β + ε i iln ln= λ + γ

8–15

wobei jetzt ( ) ( )γ = γ = λi i i i i i iE y x , Var y x , , aber ( ) ( )i i iVar y x exp ' x≠ β , da In-

dividuen sich auch in unbeobachteten Merkmalen unterscheiden können.

• Jetzt ist ( ) ( ) ( )yiyi ii iii i

i i ii i

eef y x ,

y ! y !

−λ−λ γ λλ γγ = = .

Um die unbedingte Verteilung von ( )i if y x zu erhalten, muss über die Ver-

teilung von γi ausintegriert werden:

( ) ( ) ( )= γ ⋅ γ ⋅ γ∫i i i i i i if y x f y x , g d

• Unterstellt man nun für γi die Gammaverteilung, mit

( ) ( )1i

i ig eθ

−θ γ θ−θγ = ⋅ ⋅ γ

Γ θ (θ ist der Parameter der Gammaverteilung),

8–16

so ergibt sich aus der Mischung von Poisson- und Gammaverteilung, dass yi

nun der Negativ-Binomialverteilung folgt:

( ) ( )( )

−λ γ −θ∞ θ θ−λ γ θ γ= ⋅

Γ θ∫yi u1i i i

i i ii i i

0 i

e ef y x du

y !

wobei ( )∞

θ− −Γ θ = ⋅∫ 1 y

0

y e dy. Schließlich kann gezeigt werden, dass

( ) ( )( ) ( )

θΓ + θ ⎛ ⎞ ⎛ ⎞λθ

= ⋅ ⋅⎜ ⎟ ⎜ ⎟Γ + Γ θ θ + λ θ + λ⎝ ⎠ ⎝ ⎠

yii i

i ii i i

yf y x

y 1.

• Unterstellt wird dabei

Ann. 1: γi und xi sind nicht miteinander korreliert

Ann. 2: E(γi) = 1 und ( ) γγ = σ 2iVar

8–17

8.3.2 Schätzung des Negbin Modells

• Wie immer ( )=

= ∑N

i ii 1

lnL ln f y x

• Jetzt gilt: ( ) ( )= λ = λ ⋅i i i iE y x E 1 ( )λ = βi iexp ' x

( ) = λ + ρ ⋅ λ2i i i iVar y x ρ = >

θ1 0

( )( )

⇒ = + ρ ⋅ λ > ρ >i ii

i i

Var y x1 1, da 0

E y x

damit erlaubt das Negbin Modell Überstreuung. Dies ist der relevantere Fall,

da sich bei Existenz von unbeobachteter Heterogenität die Gesamtvarianz

erhöhen sollte.

8–18

• Wenn ρ gegen Null geht, nähert sich das Negbin Modell dem Poissonfall.

Das kann explizit getestet werden (siehe 10.2.5).

• Die Literatur unterscheidet zwei Varianten des Negbin-Modells. Im Negbin I Modell ergibt sich, ( ) ( )= + ρ ⋅ λi i iVar y x 1 , während bei Negbin II: (s.o.)

( ) ( )= + ρλ ⋅ λi i i iVar y x 1 .

• Die beiden Modelle unterscheiden sich in ihrer Modellierung der Überstreu-

ung. Bei Negbin I ist die Varianz für alle Beobachtungen das gleiche Vielfa-

che des Erwartungswerts von yi. Bei Negbin II weicht die Varianz umso stär-

ker vom Erwartungswert ab, je höher dieser ist.

8–19

8.3.3 Interpretation von Poisson / Negbin Koeffizienten

• Grundsätzlich ( )= β ⇔ = βi i i iy exp ' x ln y ' x

Da ( ) ( )i j

j

E y xexp ' x

x∂

= β ⋅β∂

( )( )

( )( )

( )jj

i j j

E y x x E y x lnE y x1exp ' x x xE y x

∂ ∂ ∂ ∂⇔ β = = ⋅ =

β ∂ ∂

• ⋅β =j100 Semielastizität von E(y | x) bezüglich xj, bei kleinen Änderungen

Δxj ändert sich E(y | x) um ( )⋅β ⋅ Δj j100 x Prozent.

• Wäre xj eine logarithmierte Variable, z.B. =x ln w , dann wäre βj die Elastizi-

tät von E(y | x) hinsichtlich w.

8–20

• Gelegentlich findet man die Darstellung des über die Stichprobe gemittelten

marginalen Effektes: ( ) ( )

N Ni i1 1

j ii 1 i 1ij

E y x ˆ ˆN N exp ' xx

− −

= =

∂= β ⋅ β

∂∑ ∑ .

• Wenn das Poissonmodell eine Konstante enthält, lässt sich dieser Effekt vereinfacht berechnen als βj

ˆ y .

• Für kleine β gilt ( )β ≈ + βˆ êxp 1 , damit kann man die Prozentänderung in y

bei einer Änderung der erklärenden Variablen um eine Einheit direkt an β

ablesen.

• Beispiel: β = ⇒ˆ 0,04 y steigt um 4 Prozent, wenn xi den Wert 1 statt 0

oder 12 statt 11 annimmt.

8–21

• Für größere β berechnet sich dieser prozentuale Effekt einer Änderung von x um eine Einheit gemäß ( )( )β − ⋅êxp 1 100%.

• Beispiel: kleines β: ββ = =ˆˆ 0,02 e 1,02 ⇒ +y 2%, bei Änderung von xi um

eine Einheit; großes β: ββ = =ˆˆ 1,4 e 4,055

⇒ +y 305,5% bei Änderung von xi um eine Einheit

• Der Effekt einer diskreten Variable xDi lässt sich wie folgt illustrieren:

( )( )

β +β ⋅ +β ⋅β

β +β ⋅ +β ⋅

== =

=

1 x1 2 3D 2

0 x1 2 3D

E y x 1, x e eeE y x 0, x

• IRR Darstellung: Incidence rate ratio, Darstellung von exp(β). IRR nimmt

Werte von 0-1 an für β<0 und Werte > 1 für β>0 ("odds ratio", OR).

8–22


plications, Cambridge: Cambridge University Press. Kapitel 20 Cameron Colin A. und P.K. Trivedi, 2009, Microeconometrics Using Stata, Stata

Press. Kapitel 17, 18 Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice

Hall, 6. Auflage. Kapitel 25.2. Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley &


Verlag, Heidelberg, Kapitel 8.3. Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel


Documents

Kapitel 1: Einführung in die Mikroökonometrie 1.1 ...lsw.wiso.uni-erlangen.de/userfiles/studium/veranstaltungen/ss_2013/MOE/... · Kapitel 1: Einführung in die Mikroökonometrie