Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Kapitel 1: Einführung in die Mikroökonometrie
1.1 Allgemeine Bemerkungen zur Veranstaltung
1.2 Was ist Mikroökonometrie?
1–2
1.1 Allgemeine Bemerkungen zur Veranstaltung
1.1.1 Ziele der Veranstaltung Mikroökonometrie
(1) Vermittlung anwendungsrelevanter Methodenkenntnis durch
– Vorlesung
– Nachbereiten und Literaturstudium
– Wiederholung in der Übung
(2) Einüben eigenen empirischen Arbeitens durch
– Anwendung mit Programmpaket STATA
– Üben der Interpretation von Schätzergebnissen
– Eigenständig bearbeitete, kurze Hausarbeit
1–3
(3) Stärkung der Kritikfähigkeit gegenüber empirischen Arbeiten, durch Diskus-
sion von Beispielstudien.
1–4
1.1.2 Inhaltlicher Veranstaltungsüberblick
1. Einführung
2. Schätz- und Testverfahren für qualitative abhängige Variablen
3. Schätzverfahren für bivariate abhängige Variablen
4. Schätzverfahren für multivariate und ordinale abhängige Variablen
5. Tobitmodelle
6. Selektionsmodelle für nicht repräsentative Stichproben
7. Verweildauermodelle
8. Zählerdatenmodelle
1–5
1.1.3 Prüfungen und Kreditpunkte
• Hausaufgabe freiwillig, Note zu 20% anrechenbar. Leistung im laufenden
oder nachfolgenden Semester anrechenbar.
• Alte Klausuren z.T. mit Musterlösung im Netz.
1–6
1.1.4 Literatur zur Veranstaltung
Literatur: Textsammlung mit Texten zu Beispielstudien
Empfohlene Lehrbücher: Cameron Colin A. und P.K. Trivedi, 2005, Microceconometrics. Methods and
Applications, Cambridge: Cambridge University Press. Cameron Colin A. und P.K. Trivedi, 2009, Microceconometrics Using Stata,
Stata Press Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice
Hall, 6. Auflage. Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley &
Sons, 3. Auflage Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel
Data, Cambridge: The MIT Press. Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer
Verlag, Heidelberg, Kapitel 1.
1–7
1.2 Was ist Mikroökonometrie?
• Ökonometrie:
"Econometrics is the field of economics that concerns itself with the applica-
tion of mathematical statistics and the tools of statistical inference to the em-
pirical measurement of relationships postulated by economic theory."
(Greene, 2000, S.1)
• Die Mikroökonometrie beschäftigt sich besonders mit folgenden Situationen:
(i) Nicht stetige, abhängige Variablen (diskret, qualitativ, beschränkt, Ver-
weildauer, Zähldaten)
(ii) Fehlende Zufälligkeit der Stichprobe erfordert Korrektur für Selektion
1–8
• Beitrag der Mikroökonometrie
– hilft, Hypothesen zum Verhalten von Unternehmen, Haushalten und Individuen
zu testen (wissenschaftlicher Fortschritt)
– erlaubt, Existenz und Größe vermuteter Effekte zu messen
– sensibilisiert für nicht zufällig gewählte Stichproben
– bietet vielfache Einsatzmöglichkeiten zu zahlreichen Fragestellungen aus der
VWL, BWL und Sozialwissenschaft.
Kapitel 2: Schätz- und Testverfahren für qualitative abhängige Variablen
2.1 Das Maximum-Likelihood-Prinzip
2.2 Algorithmen der ML Schätzung
2.3 Testprinzipien und Modellselektion
2–2
2.1 Das Maximum-Likelihood-Prinzip
2.1.1 Intuition
• Wie findet man den KQ Schätzer?
berechne ( )-1β = X'X X'Y, um quadrierte Abweichungen zu minimieren
• Wie findet man den GMM Schätzer?
minimiere (gewichtete) Abweichungen von Momentenbedingungen
• Wie findet man den ML Schätzer?
maximiere die Likelihoodfunktion, ( )L β
2–3
• Grundidee des ML Schätzers
– Annahme: Datensatz, Hypothese über Beziehung und über Verteilung ge-
geben, z.B. C = α + βY; ML sucht die Parameter (α, β), die die Wahrschein-
lichkeit maximieren, die gegebenen Daten unter der unterstellten Verteilung
vorzufinden.
– Wenn die wahre Beziehung lautet: C = 0,5+0,8Y und die Daten mit zufälli-
gen Störeffekten beobachtet werden, dann werden die Werte (0,5;0,8) die
tatsächliche Beziehung am ehesten widerspiegeln.
• Beispiel: Gesucht sind die Verteilungsparameter ( )2,μ σ , die die tatsächlich
beobachteten Werte x erzeugt haben:
2–4
( )2A AA μ ,σ ( )2
B BB μ ,σ
Ist es wahrscheinlicher, dass die dargestellte Ziehung auf der x-Achse aus
Verteilung A oder Verteilung B stammt?
• ML Schätzer bestimmen den Parametervektor, bei dessen Gültigkeit die beo-
bachteten Daten mit der höchsten Wahrscheinlichkeit (maximum likelihood)
beobachtet werden, "ML maximizes the probability of obtaining the observed
data."
x
2–5
2.1.2 Formale Beschreibung – Allgemein
• Gegeben seien Beobachtungen zu yi, xi für i=1, 2, ... , N und das Modell
i i iy = x ' + εβ .
• Ann.: Die Verteilung von yi wird durch die bedingte Dichte f(yi | xi, θ) be-
stimmt, mit xi als exogener Einflussgröße und θ als dem zu bestimmenden
Parametervektor.
• Ann.: Die einzelnen Beobachtungen i = 1, 2, ..., N sind statistisch unabhän-
gig.
• Dann ist die gemeinsame Dichte aller Beobachtungen:
( ) ( )N
1 2 N 1 2 N i ii=1g y ,y ,...,y x ,x ,...,x ,θ = f y x ,θΠ
2–6
und die Likelihoodfunktion wird geschrieben als:
( ) ( )N
i ii=1L θ = f y x ,θΠ
• Wir suchen den Vektor θ, der L maximiert. Dieses θ ist der Maximum
Likelihood Schätzer für den Parametervektor θ.
2–7
2.1.3 Formale Beschreibung – Beispiel Normalverteilung
• Allgemein gilt für eine Zufallsvariable x mit ( )2x ~ N ,μ σ :
( ) ( ) 2
222
x1 1f x , exp22
⎧ ⎫− μ⎪ ⎪μ σ = ⋅ − ⋅⎨ ⎬σσ ⋅ π ⎪ ⎪⎩ ⎭
• Für i i iy x '= β + ε mit ( )2
i ~ N 0, εε σ , und daher ( )2i iy ~ N x ' , εβ σ gilt
( ) ( ) 2
i i2i i 22
y x '1 1f y x , , exp22
ε
εε
⎧ ⎫− β⎪ ⎪β σ = ⋅ − ⋅⎨ ⎬σσ ⋅ π ⎪ ⎪⎩ ⎭
und es folgt:
( ) ( )N
2 2i ii 1
L , f y x , ,ε ε=
β σ = ∏ β σ .
• θ enthält hier zwei Elemente: ( )2' , εθ = β σ über deren Wahl L maximiert wird. 2–8
• Zur Vereinfachung der Rechnung logarithmiert man die Likelihoodfunktion. Da es sich um eine monotone Transformation handelt, hat ( )2L , εβ σ die glei-
chen Maxima wie ( )2lnL , εβ σ .
• Man schreibt:
( ) ( )( )N
2 2i i
i 1
lnL , ln f y x , ,ε ε=
β σ = β σ∑
( ) ( )2N
i i22
i 1
y x '1 1 1ln ln 22 2 2ε
= ε
⎛ ⎞− β= − σ − π −⎜ ⎟
⎜ ⎟σ⎝ ⎠∑
( ) ( )22i i2
i
N N 1ln ln 2 y x '2 2 2ε
ε
= − σ − π − − βσ ∑
• Um über ( )2, εβ σ zu maximieren, leiten wir ab:
2–9
( )
!2
i i2 2 4i
lnL N 1 1 y x ' 02 2ε ε ε
∂= − ⋅ + ⋅ − β =
∂σ σ σ ∑
( )22i i
i
1ˆ y x 'Nε⇔ σ = − β∑
( )
!
i i i2i
lnL 1 x y x ' 0ε
∂= − β =
∂β σ ∑
i i
2i
x yˆx
⇔ β = ∑∑
• Unterschied zu KQ?
- ML Schätzer für 2εσ konsistent, aber nicht erwartungstreu. Erwartungstreu
wäre: ( ) 22i i
i
1ˆ y x 'N kεσ = ⋅ − β− ∑ , mit k=Anzahl der Steigungsparameter+1
- KQ braucht keine Verteilungsannahme 2–10
2.1.4 Eigenschaften von ML Schätzern
• Folgende Eigenschaften von ML Schätzern gelten für große Stichproben und
unter der starken Annahme, dass die Likelihoodfunktion korrekt spezifiziert ist
d.h., dass die Zufallsvariablen tatsächlich der unterstellten Verteilung folgen.
a) ML Schätzer sind oft nicht unverzerrt (Beispiel 2ˆ εσ ).
b) ML Schätzer sind konsistent, plim θ = θ.
c) ML Schätzer sind asymptotisch effizient. Asymptotisch haben ML Schät-
zer unter allen konsistenten, asymptotisch normalverteilten Schätzern die
kleinste Varianz. ML Schätzer erreichen asymptotisch das "Cramer-Rao
lower bound", die untere mögliche Grenze für die Varianz unverzerrter
Schätzer.
2–11
d) ML Schätzer sind auch ohne Verteilungsannahmen asymptotisch nor-
malverteilt, mit
( ) ( )ˆn ~ N 0,Vθ − θ ,
wobei n die Stichprobengröße angibt und V die asymptotische Varianz-
Kovarianz Matrix ist:
( ) ( )
12 lnL1ˆV cov E
N '
−⎧ ⎫⎡ ⎤∂ θ⎪ ⎪= θ = −⎨ ⎬⎢ ⎥∂θ ∂θ⎪ ⎪⎣ ⎦⎩ ⎭
− Für jede Beobachtung i gibt die Informationsmatrix l,
( ) ( )2i
i
lnLI E ,
'⎧ ⎫∂ θ
θ ≡ − ⎨ ⎬∂θ ∂θ⎩ ⎭
die in Beobachtung i enthaltene Information zu θ
an. Die mittlere Informationsmatrix ist 2–12
( ) ( ) ( )2N
ii 1
lnL1 1I I EN N '=
⎧ ⎫∂ θθ ≡ θ = − ⎨ ⎬
∂θ ∂θ⎩ ⎭∑
und beschreibt die Krümmung der Likelihoodfunktion: ( ) ( )1I cov−θ = θ
− Wenn die Likelihoodfunktion um ihr Maximum stark gekrümmt ist, sind
die zweiten Ableitungen von ln L groß. Dann ist die Varianz von θ klein
und der ML-Schätzer präzise. Je flacher die Likelihoodfunktion, umso
größer ist die Varianz von θ. Da der ML-Schätzer asymptotisch effizient ist, ist ( ) 1I −
θ die kleinstmögliche Varianz-Kovarianz-Matrix für alle konsis-
tenten und asymptotisch normalverteilten Schätzer für θ.
Gebräuchliche Approximation, um die zweiten Ableitungen für die Va-
rianz-Kovarianz-Matrix V zu berechnen:
2–13
( ) ( ) ( )2 lnL lnL lnLE E
'
′⎧ ⎫⎛ ⎞⎧ ⎫ ⎞⎛∂ θ ∂ θ ∂ θ⎪ ⎪− = ⎜ ⎟⎨ ⎬ ⎨ ⎬⎟⎜⎜ ⎟∂ θ ∂ θ ∂ θ ∂ θ⎩ ⎭ ⎠⎝⎪ ⎪⎝ ⎠⎩ ⎭
=> I lässt sich aus dem Gradienten (Vektor der ersten Ableitung) der
Likelihoodfunktion berechnen, ohne dass man die zweite Ableitung be-
stimmen muss. Diese hilfreiche Approximation bezeichnet man als
BHHH Schätzer nach Berndt, Hall, Hall, Hausman (1974).
e) Invarianzeigenschaft: Wenn MLθ der ML Schätzer von θ ist, dann ist ( )MLˆg θ der ML Schätzer von ( )g θ .
• Nachteile: – Ohne spezifische Verteilungsannahme kann der ML Schätzer
nicht bestimmt werden, kaum Hinweise dafür aus der Theorie.
2–14
– Die Schätzverfahren sind aufwendig.
– Bei Fehlspezifikation ist der ML-Schätzer nicht robust.
2–15
2.2 Algorithmen der ML Schätzung
• Da die Zielfunktion typischerweise nicht linear ist, ist es nicht mehr einfach
möglich, die Optima auszurechnen. Daher benutzt man numerische Verfah-
ren, um MLθ zu bestimmen:
2–16
2.2.1 "Grid Search"
• Man gibt sich ein Bündel von k Kombinationen der zu schätzenden Parame-
ter vor und berechnet für jede mögliche Parameterkonstellation [z.B. für ( )2
1 1, εβ σ ,( )22 2, εβ σ , ...,( )2
k k, εβ σ ] den zugehörigen Wert der Likelihoodfunktion
L1, L2, ..., Lk. Die Parameterkonstellation, die zum höchsten Wert der
Likelihoodfunktion führt (also zur höchsten Wahrscheinlichkeit, das zu be-
obachten, was wir beobachten), ist das Schätzergebnis.
• Voraussetzung: Man kennt den Werterahmen der wahren Parameter und
sucht eine "Feinabstimmung". Sonst besteht bei nicht konkaven
Likelihoodfunktionen die Gefahr, dass man statt globaler nur lokale Optima
erhält.
2–17
2.2.2 Iterative Verfahren
• Grundidee der Iteration:
a) Startwerte für θ (=Parametervektor) vorgeben
b) L ausrechnen
c) Werte für θ anpassen
d) L ausrechnen: Optimum erreicht? nein: gehe zu c ; ja: Ende
• Kriterien für das Erreichen des Optimums:
a) Vordefinierte, minimale weitere Änderung in ln L (z. B. wenn Verbesse-
rung < 1 * e-7, Optimum erreicht)
2–18
b) Vordefinierte, minimale weitere Änderung in θ
c) Vordefinierte, minimale weitere Annäherung von lnL∂∂θ an 0.
• Problem bei nicht-konkaven Likelihoodfunktionen: Nicht sicher, dass globales
Optimum erreicht wird. Lösungsmöglichkeit: Von alternativen Startwerten aus
beginnen und Ergebnis mit bestem L Wert wählen. Kombination von Grid
Search und iterativen Verfahren.
• Verfahren zur Anpassung von θ in Iterationsschritt "i": i i 1 i 1 i 1− − −θ = θ +Δ λ
wobei: i 1−λ Schrittlänge
i 1−Δ Richtungsvektor
i 1−θ Ausgangswert
2–19
• Gebräuchliche Verfahren zur Anpassung von θ
a) Newton-Raphson Verfahren
b) Methode des steilsten Anstiegs
c) Quadratic Hill Climbing
d) DFP (Davidon - Fletcher - Powell)
• Konzepte zur Erklärung der Verfahren
(a) Hessematrix der zweiten partiellen Ableitungen
2–20
2 2 2
21 1 2 1 k
2 2 22
21 2 2 2 k
2 2
21 k k
lnL lnL lnL
lnL lnL lnLlnLH
'
lnL lnL
⎡ ⎤⎛ ⎞ ⎛ ⎞ ⎛ ⎞∂ ∂ ∂⎢ ⎥⎜ ⎟ ⎜ ⎟ ⎜ ⎟∂θ ∂θ ∂θ ∂θ ∂θ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎢ ⎥⎢ ⎥⎛ ⎞ ⎛ ⎞ ⎛ ⎞∂ ∂ ∂⎢ ⎥ ∂⎜ ⎟ ⎜ ⎟ ⎜ ⎟= =∂θ ∂θ ∂θ ∂θ ∂θ⎢ ⎥⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ∂θ ∂θ⎢ ⎥⎢ ⎥⎢ ⎥⎛ ⎞ ⎛ ⎞∂ ∂⎢ ⎥⎜ ⎟ ⎜ ⎟∂θ ∂θ ∂ θ⎢ ⎥⎝ ⎠ ⎝ ⎠⎣ ⎦
Wenn H negativ definit ist, hat L(θ) ein eindeutiges globales Maximum,
L(θ) ist dann konkav. Es gilt: - E [H (θ)] = I(θ).
(b) Gradientenvektor
2–21
( ) ( )
( )
( )
1
k
lnL
S GlnL
⎡ ⎤∂ θ⎢ ⎥∂θ⎢ ⎥⎢ ⎥θ = θ =⎢ ⎥∂ θ⎢ ⎥⎢ ⎥∂ θ⎣ ⎦
• Beispiel: Das Newton-Raphson Verfahren
Allgemein: i i 1 i 1 i 1− − −θ = θ + Δ λ
Hier ( ) ( )1
i i 1 i 1 i 1H G 1−
− − −θ = θ − θ ⋅ θ ⋅
wobei i 1−Δ i 1−λ
Richtungsvektor Schrittlänge 2–22
• Bei quadratischen Funktionen ist man mit Newton-Raphson in einem Schritt
am Ziel. Bei nicht-quadratischen Funktionen sind große Schwankungen in
den Werten für θ möglich.
2–23
2.3 Testprinzipien und Modellselektion
2.3.1 Testprinzipien
• t- und F-Tests sind nicht anwendbar bei:
– nichtlinearen Restriktionen
– Modellen, die nichtlinear in Parametern sind
– wenn Fehler nicht normalverteilt sind.
• Da ML-Schätzer nichtlinear in Parametern sind, verwendet man andere Ver-
fahren.
2–24
• Es gibt 3 Alternativen, die asymptotisch äquivalent sind:
Likelihood Ratio Test LR
Wald Test W
Lagrange Multiplier Test LM
• Grundideen: Vergleiche restringiertes und unrestringiertes Modell.
Grundform eines Vektors von Restriktionen: H0: ( )c 0θ = .
• Beispiel: ln y = α + β ln L + γ ln K + ε,
H0: β + γ -1 = 0 (linear homogene C-D-Produktionsfunktion)
alle drei sind χ2-verteilt
2–25
• LR: Wenn im Optimum H0 gilt, dann sind die Likelihood-Werte mit (LR) und
ohne Restriktion (LU) sehr ähnlich => vergleiche LU, LR. Es wird mit und ohne
Restriktion geschätzt.
• W: Wenn im Optimum H0 gilt, muss ( )ˆc 0θ = gelten, da ML konsistent =>
überprüfe ( )ˆc 0θ = . Es wird nur ohne Restriktion geschätzt.
• LM: Wenn im Optimum H0 gilt, sollte die erste Ableitung der Log-Likelihood
hinsichtlich der Parameter auch dann gleich Null sein, wenn der unter der
Restriktion geschätzte Parametervektor in die unrestringierte Form der ersten
Ableitung eingesetzt wird. Es wird nur mit Restriktion geschätzt.
2–26
• Graphische Darstellung der Intuition:
( )θcLln
ULln
RLln
LR
LM
Lln
W
Rθ Uθ θ
c(θ)
2–27
• Likelihood Ratio Test – formal:
Test Statistik: 2k2 ln ~− ⋅ λ χ k = Anzahl der Restriktionen
mit R Uln lnL lnLλ = − , bzw. R
U
LL
λ =
ln LU
ln LR
1
0
ln L
L
2–28
• Beispiel: i 1 i1 2 i2 3 i3 4 i4 iy x x x x= β + β + β + β + ε
0 3 4H : 0β = β = , d.h. k = 2
LR-Schätzung ohne β3, β4 Lu-Schätzung mit β3, β4
• Beachte:
– zweimalige Schätzung nötig
– es können nur genestete Hypothesen getestet werden, d.h. solche For-
mulierungen, die durch Restriktion aus unrestringierten Formulierungen
gewonnen werden können.
• Beispiel: Nicht genestet sind i 1 i1 2 i2 iy x x= β + β + ε und i 1 i1 3 i3 iy x z u= β + β +
2–29
• Beispiel: ln UL 615= − k = 2
ln RL 680= − kritisches ( )22 0.95 5.99χ =
( )2 680 615 130 5.99− − + = >
=> H0 verwerfen (Intuition: ln L zu stark verbessert, als dass die Restriktion
gelten könnte). Der LR Test wird häufig verwendet.
• Wald Test – formal:
Unrestringiertes Modell schätzen und prüfen, ob Restriktion gilt.
H0: ( )c qθ = <=> ( )c q 0θ − =
Test Statistik:
2–30
( )( ) ( )( ) ( )( )1
2k
ˆ ˆ ˆW c q Var c q c q ~−′ ⎡ ⎤= θ − θ − θ − χ
⎣ ⎦
Mit ( )( ) ( ) ( ) ( )ˆ ˆc cˆ ˆVar c q Varˆ ˆ
′⎛ ⎞ ⎛ ⎞∂ θ ∂ θ⎜ ⎟ ⎜ ⎟θ − = θ⎜ ⎟ ⎜ ⎟∂θ ∂θ⎝ ⎠ ⎝ ⎠
1 k× k k× k 1×
Empfehlenswert, wenn die Restriktion die Schätzung stark verkomplizieren
würde, da Test nur unrestringierte Schätzung erfordert.
• Beispiel: 0 1 2 3H : β = β ⋅β <=> 1 2 3 0β −β ⋅β =
Modell: i 1 1i 2 2i 3 3i 4 4i iy x x x x= β + β + β + β + ε
2–31
( )[ ]3 2
ˆchier : ' 1 0ˆ
⎛ ⎞∂ θ⎜ ⎟ = − β − β⎜ ⎟∂θ⎝ ⎠
• Lagrange Multiplier Test (Score Test) – formal:
Maximiere die unrestringierte Log-Likelihood Funktion, lnL(θ), unter der linea-
re Nebenbedingung c(θ) Lagrange Ansatz
( ) ( ) ( )lnL * lnL 'cθ = θ + λ θ
( )ˆclnL * lnL 0ˆ
⎛ ⎞∂ θ∂ ∂ ′⎜ ⎟= + ⋅ λ =⎜ ⎟∂θ ∂θ ∂θ⎝ ⎠
( )lnL * c∂
= θ∂λ
2–32
Wenn die Restriktion zutrifft, dann sollte der Schattenpreis der Restriktion, λ,
nahe Null sein und
( )ˆcˆ
⎛ ⎞∂ θ⎜ ⎟ ⋅ λ⎜ ⎟∂θ⎝ ⎠
sollte klein sein. Wegen ( )ˆlnLc ' 0ˆ
⎛ ⎞∂ θ⎜ ⎟ = − ⋅ λ ≈⎜ ⎟∂θ⎝ ⎠
c’
sollte dann gelten: (restringiert) (unrestringiert)
lnL * lnL∂ ∂≈
∂θ ∂θ
d.h. die Restriktion sollte keinen Unterschied machen.
2–33
• Test Statistik:
( ) ( ) ( )1R R 2R k
R R
ˆ ˆlnL lnLˆLM Iˆ ˆ
−
′⎛ ⎞ ⎛ ⎞∂ θ ∂ θ
⎡ ⎤⎜ ⎟ ⎜ ⎟= θ χ⎣ ⎦⎜ ⎟ ⎜ ⎟∂θ ∂θ⎝ ⎠ ⎝ ⎠
∼
• Vorgehensweise:
– in restringierter Form schätzen und überprüfen, ob erste Ableitung der
unrestringierten Likelihood-Funktion am Schätzer der restringierten Likelihoodfunktion Rθ Null ist.
– ( )1
RˆI
−⎡ ⎤θ⎣ ⎦
über ( ) ( )lnL lnL′
⎛ ⎞ ⎛ ⎞∂ θ ∂ θ⋅⎜ ⎟ ⎜ ⎟
∂ θ ∂θ⎝ ⎠ ⎝ ⎠ approximieren.
2–34
• Oft angewendet, wenn restringiertes Modell einfach zu schätzen und das
unrestringierte Modell kompliziert ist.
• Im Ergebnis:
– LR, W, LM sind asymptotisch äquivalent
– Wenn Restriktion kompliziert, nutze W
– Wenn restringiertes Modell einfacher (z.B: Parameterwert = 0), nutze LM
– In der Praxis vorherrschend: LR, wenn es einfach ist, die Schätzung (mit
und ohne Restriktion) mehrfach durchzuführen.
• Hinweis: Wenn die Parameter nicht normalverteilt sind, ist der t-Test nicht
exakt gültig, da die Teststatistik nicht mehr der t-Verteilung folgt. Da ML-
2–35
Schätzer jedoch asymptotisch normalverteilt sind, ist die t-Teststatistik
asymptotisch t verteilt. Daher wird sie auch bei Modellen verwendet, die
nichtlinear in Parametern sind (gelegentlich wird der „t-Wert“ von der Soft-
ware aus diesem Grund als „z-Wert“ ausgegeben.)
2–36
2.3.2 Modellselektion
• Maße der Schätzgüte beschreiben, wie genau das Modell die vorliegenden
Daten widerspiegelt. Im linearen Rahmen verwendet man das R2, das den
Anteil erklärter an der gesamten Variation der abhängigen Variable darstellt.
• Bei nichtlinearen Modellen ist das R2 nicht direkt übertragbar, da die Schätz-
verfahren nicht darauf abzielen, den Anteil der erklärten Variation zu maxi-
mieren. Gebräuchliche Gütemaße für qualitative Modelle vergleichen den
Wert der Likelihoodfunktion für ein Schätzmodell mit lediglich einer Regres-
sionskonstanten (ln LR) mit dem Wert für das geschätzte Modell (ln LU). Je
grösser der Unterschied, desto besser der Erklärungswert des Modells.
2–37
• Die statistische Signifikanz dieses Unterschieds kann mit Hilfe eines
Likelihood-Ratio Tests formal getestet werden.
• Das sogenannte McFadden R2, das zuweilen auch als Likelihood-Ratio-
Index bezeichnet wird, wird wie folgt berechnet:
2 U
R
lnLMcFadden R 1
lnL⎡ ⎤
= − ⎢ ⎥⎣ ⎦
Da die Likelihoodfunktion die Summe der logarithmierten Wahrscheinlichkei-ten ist, gilt wegen ( )ln 1 0= : R UlnL lnL 0≤ <
Daher liegen die Mc Fadden R2-Werte im Intervall [0,1]. Wären alle Stei-gungsparameter β des Modells gleich 0, so wäre U RlnL lnL= und Mc Fadden
2R 0= .
2–38
Wäre das Modell in der Lage, die beobachteten Werte exakt vorherzusagen, ergäbe sich der Maximalwert für die Likelihood von 1 und daher UlnL 0= . In
diesem Fall erreicht das McFadden R2 den Wert von 1.
2–39
Literatur: Cameron Colin A. und P.K. Trivedi, 2005, Microceconometrics. Methods and
Applications, Cambridge: Cambridge University Press. Kapitel 5, 7 Cameron Colin A. und P.K. Trivedi, 2009, Microceconometrics Using Stata,
Stata Press. Kapitel 12 Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice
Hall, 6. Auflage. Kapitel 16.1 - 16.4. Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley &
Sons, 3. Auflage. Kapitel 6.1 - 6.2, 6.4. Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer
Verlag, Heidelberg, Kapitel 3. Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel
Data, Cambridge: The MIT Press. Kapitel 13.1 - 13.6.
3. Schätzverfahren für bivariate abhängige Variablen
3.1 Einführung
3.2 Das lineare Wahrscheinlichkeitsmodell
3.3 Logit Modell
3.4 Probit Modell
3.5 Allgemeine Bemerkungen
3.6 Logit und Probit Modelle für Paneldaten
3–2
3.1 Einführung
• Bivariate (binomiale, dichotome) abhängige Variablen beschreiben Prozesse
mit zweiwertigen Ausprägungen: 0 / 1, nein / ja. Es gibt zahlreiche Beispiele
für ökonomische Prozesse mit solchen Ausprägungen: Erwerbstätigkeit,
Kaufentscheidung oder Änderung der Unternehmensstrategie.
• Die Modelle spezifizieren die Beziehung zwischen erklärenden Variablen
und der Wahrscheinlichkeit, dass ein Ereignis eintritt bzw. dass man die
Ausprägung "1" erhält. Es gibt zwei Modellierungsstrategien, um bivariate
abhängige Variablen zu motivieren, die "random utility maxization" Hypothe-
se und latente Variablen.
3–3
3.1.1 Die "Random Utility Maximization" Hypothese
• Annahme 1: Entscheidungsträger maximiert erwarteten Nutzen
• Annahme 2: Der Nutzen bei der Wahl zwischen zwei Alternativen (yi =0 oder
yi = 1) hängt ab von den Charakteristika der beiden Alternativen, den Attri-
buten des Entscheidungsträgers sowie dem Zufall.
• Definiere für Entscheidungsträger i:
Ui1, Ui0 Nutzen aus den Alternativen 1 und 0
zi1, zi0 Vektor mit Charakteristika der Alternativen
xi Vektor mit Charakteristika des Entscheiders
• Unter der Annahme von Linearität unterstellen wir:
3–4
i0 i0 i0 0 i0 i 0 i0U U e z ' x ' e= + = α + β + γ +
i1 i1 i1 1 i1 i 1 i1U U e z ' x ' e= + = α + β + γ +
• Individuum i wählt:
yi = 0, wenn i1 i0U U≤
yi = 1, wenn i1 i0U U> .
• Es ergibt sich
( ) ( )i i1 i0P y 1 P U U= = >
( )1 i1 i 1 i1 0 i0 i 0 i0P z ' x ' e z ' x ' e= α + β + γ + > α + β + γ +
( ) ( ) ( ) ( )( )i0 i1 1 0 i1 i0 i 1 0P e e z z ' x '= − < α − α + − β + γ − γ
3–5
( )iF x '= θ
wobei: ( )i i1 i0 ix ' 1, z z ',x '⎡ ⎤= −⎣ ⎦ ( ) ( )1 0 1 0' ', ', '⎡ ⎤θ = α − α β γ − γ⎣ ⎦
F = kumulative Verteilungsfunktion von (ei0 – ei1)
Wenn γ1 = γ0, ist der Einfluss von wi' auf die Entscheidung nicht signifikant.
• Für F unterscheidet man herkömmlich drei Formulierungen:
– das lineare Wahrscheinlichkeitsmodell
– das Probitmodell
– das Logitmodell
3–6
3.1.2 Unbeobachtete latente Variable *iy
• Die wahre abhängige Variable ( *iy ) stellt ein kontinuierliches, nicht beob-
achtbares Maß dar, z.B. die Neigung etwas zu tun (z.B. extreme Parteien zu
wählen, Arbeit anzubieten). Dann lautet das wahre Modell: *i i iy ' x= β + ε
• Beobachtbar ist nur die Variable yi, die zwei Werte annehmen kann:
wenn
wenn
• Die Schätzmethode zur Bestimmung der Parameter im Vektor β variiert mit
den Annahmen zur Verteilung von εi.
*iy 0≤*
iy 0>iy 0=
iy 1=
3–7
3.2 Das lineare Wahrscheinlichkeitsmodell
• Hier wird die binäre abhängige Variable y durch ein KQ Modell geschätzt.
• Beispiel: Die Entscheidung über die Erwerbstätigkeit wird regressiert auf
Faktoren x, wie Alter, Familienstand, Ausbildung. Erwerbstätigkeit (y) ist als
0/1 Variable kodiert. • Prinzipiell betrachtet man ( ) ( )i iP y 1 F ' x= = β
( ) ( )i iP y 0 1 F ' x= = − β
• β beschreibt den Einfluss einer Änderung in x auf die Wahrscheinlichkeit,
erwerbstätig zu sein. Das lineare Regressionsmodell leitet die Verteilung
von F nicht über die Verteilungsannahmen an den Fehlerterm ε ab, sondern
setzt:
( )i iF ' x ' xβ = β . 3–8
• Für den Erwartungswert von yi gilt
( ) ( ) ( ) ( )i i i iE y 1 F ' x 0 1 F ' x F ' x⎡ ⎤= × β + × − β = β⎣ ⎦
• Das Modell für yi besteht aus einem systematischen und einem unsystema-
tischen (zufälligen) Teil: ( ) ( )i i i iy E y [y E y ]= + −
( )i iF ' x= β + ε
i i' x= β + ε
• Die typischen Annahmen des KQ Schätzers werden beibehalten: wenn xi nicht stochastisch ist: ( )iE 0ε = und ( )i jE 0ε ε = . Dann gilt z.B. für die erwar-
tete Wahrscheinlichkeit, dass Person i erwerbstätig ist:
( )i iE y ' x= β ,
3–9
• Dies entspricht dem Anteil der Erwerbspersonen in der Stichprobe, wenn ei-
ne Regressionskonstante im Modell berücksichtigt ist. (Warum?)
• Für gegebenes xi kann εi nur zwei verschiedene Werte annehmen:
yi εi Wahrscheinlichkeit
0 iβ'x− fi
1 i1 β'x− i1 f−
Daher ist εi nicht normal-, sondern diskret verteilt, mit zwei möglichen Aus-
prägungen pro Person i.
• Aus der Annahme folgt: ( ) ( )i i i i' x f 1 ' x 1 f 0−β ⋅ + − β ⋅ − = ⇔
( )iE 0ε =
3–10
( )i i i i i i' x f 1 ' x f ' x f 0−β ⋅ + − β − + β ⋅ = ⇔
i if 1 ' x= − β
• Erstes Problem des linearen Wahrscheinlichkeitsmodells: Da es keine Ga-
rantie dafür gibt, dass , kann fi sowohl < 0 als auch > 1 sein.
• Ein zweites Problem ergibt sich aus der Betrachtung der Varianz von εi. All-gemein wissen wir: ( ) ( )( )2
var y E y E y= −
diskret (hier): ( )( ) ( )2y E y f y−∑
stetig: ( )( ) ( )2
y E y f y dy−∫
• Jetzt gilt
( )ivar ε ( )( ) ( ) ( )( ) ( )2 2
i0 i0 i1 i1E f E f= ε − ε ⋅ ε + ε − ε ⋅ ε
( ) ( ) ( )2 2
i0 i i1 if 1 f= ε + ε −
i0 ' x 1≤ β ≤
3–11
( ) ( ) ( ) ( )2 2
i i i i' x 1 ' x 1 ' x ' x= −β − β + − β β
( ) ( ) ( )i i i i' x 1 ' x ' x 1 ' x⎡ ⎤= β −β β + −β⎣ ⎦
( ) ( )i i' x 1 ' x= β − β
( ) ( )i iE y 1 E y⎡ ⎤= −⎣ ⎦ .
• Es zeigt sich also, dass die Varianz von εi eine Funktion der abhängigen Va-
riablen für i ist, ein typischer Fall von Heteroskedastie.
• Das Problem lässt sich über FGLS (feasible generalized least squares)
lösen:
statt i i iy ' x= β + ε definiere * ii
i
yy
ˆ=σ
und * ii
i
xx
ˆ=σ
mit ( )2i i i
ˆ ˆˆ y 1 yσ = − und schätze
* * *i i iy ' x= β + ε (dann homoskedastische *
iε )
3–12
• Abschließende Bemerkungen zum linearen Wahrscheinlichkeitsmodell:
(1) Der Störterm einer Beobachtung kann nur zwei verschiedene Werte an-
nehmen; er ist daher nicht normalverteilt. Damit , muss mit
Wahrscheinlichkeit der Wert und mit Wahrscheinlich-
keit der Wert angenommen werden. Dabei können
fi und 1 – fi außerhalb des (0,1) Intervalls liegen.
(2) Selbst wenn , kann der vorhergesagte Wert von yi für
xi, die nicht in der Stichprobe enthalten sind, außerhalb des (0,1) Inter-
valls liegen.
(3) Die Varianz des Störterms variiert mit i. Damit ist der Störterm hetero-
skedastisch und die KQ Schätzung ineffizient.
( )iE 0ε =
i if 1 ' x= − β i' x−β
i i1 f ' x− = β i1 ' x− β
( )i i0 E y x 1≤ ≤
3–13
(4) Da die abhängige Variable nicht stetig ist und nicht der Normalverteilung
folgt, ist die lineare Schätzmethode nicht effizient.
• Um sicherzustellen, dass alle vorhergesagten Werte im (0,1) Intervall liegen,
müsste gelten:
( )i' xilim P y 1 1
β →∞= = und ( )i' xi
lim P y 1 0β → −∞
= =
• Daher verwendet man typischerweise die beiden folgenden Verteilungsfunk-
tionen zur Modellierung binärer abhängiger Variablen:
( )iF ' xβ
1
0 i' xβ
3–14
(a) Logistische Verteilung (Logit Verfahren):
( ) ( ) ii i
i
exp ' xP y 1 ' x
1 exp ' xβ
= = Λ β =+ β
(b) Normalverteilung (Probit Verfahren)
( ) ( ) ( ) ( )2' x ' xi i t122
i iP y 1 t dt ' x 2 e dtβ β
−−
−∞ −∞
= = φ = Φ β = π∫ ∫
3–15
3.3 Logit
• Allgemeine Formulierung:
( )( )
ii
i
P y 1ln ' x
P y 0⎛ ⎞=
= β⎜ ⎟⎜ ⎟=⎝ ⎠ Wertebereiche: -∞, +∞
(die linke Seite wird als log-odds bezeichnet)
( )( ) ( )i
ii
P y 1exp ' x
P y 0=
⇔ = β=
Wertebereich: 0, +∞
( )( )
i
i
P y 11 P y 1
==
− =
( ) ( )
( )i
ii
exp ' xP y 1
1 exp ' xβ
⇔ = =+ β
Wertebereich: 0, 1
3–16
( ) ( )i
i
1P y 01 exp ' x
⇔ = =+ β
Wertebereich: 0, 1
• Die Likelihoodfunktion für den Logitschätzer:
( )
N
i i ii 1
L f y ,x=
= θ∏
( ) ( )N
y 1 yi ii i
i 1
P y 1 P y 0 −
=
= = =∏
( )( ) ( )
y 1 yi iN
i
i 1 i i
exp ' x 11 exp ' x 1 exp ' x
−
=
⎛ ⎞ ⎛ ⎞β= ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟+ β + β⎝ ⎠ ⎝ ⎠∏
• Vorzeichen und Signifikanz der Koeffizienten können interpretiert werden.
Die Koeffizienten selbst entsprechen nicht den marginalen Effekten.
• Allgemein gilt: ( ) ( ) ( )i i i
i kk i k
E y dF ' x ' x f ' xx d ' x x
∂ β ⎛ ⎞∂β= ⋅ = β ⋅β⎜ ⎟∂ β ∂⎝ ⎠
3–17
• Im Fall des Logit Modells können wir einsetzen:
( ) ( ) ( )( )
ii i
i
exp ' xE y P y 1
1 exp ' xβ
= = =+ β
( ) ( )
( ) ( )i i
kk i i
E y exp ' x 1x 1 exp 'x 1 exp 'x
∂ β= ⋅ ⋅β
∂ + β + β
( ) ( )i i kF ' x 1 F ' x⎡ ⎤= β ⋅ − β ⋅β⎣ ⎦
Die Stärke des marginalen Effektes hängt von den Werten der erklärenden
Variablen x ab. Zur Interpretation kann man den Stichprobenmittelwert aller
N marginalen Effekte von xk bestimmen, den mittleren marginalen Effekt:
( )N
1i k
i 1
N f ' x .−
=
β β∑
• Alternativ berechnen manche Programme den marginalen Effekt am Mittel-
wert der Regressoren: 3–18
( ) kf ' xβ β .
• Die Berechnung eines „marginalen“ Effektes von dichotomen (also 0/1) er-
klärenden Variablen ″d″ ist nicht sinnvoll. Daher wird in diesen Fällen E(y)
mit der dichotomen Variable d = 0 bzw. mit d = 1 vorhergesagt. Alle anderen
erklärenden Variablen werden auf ihre Mittelwerte gesetzt. Man berechnet
den Einfluss von d: ( ) ( )E y d 1,x E y d 0,x= − = .
• Interpretiert werden insgesamt: (i) Vorzeichen, (ii) statistische Signifikanz
und (iii) marginale Effekte.
• Die Ergebnisse von Logitschätzungen finden gelegentlich eine andere Dar-stellungs- und Interpretationsform: da ( ) ( ) ( )( )iP y 1 exp ' x 1 exp ' x= = β + β ,
3–19
ergibt sich für ( ) ( ) ( )i iP y 1 P y 0 exp ' x= = = β was als odds ratio bezeichnet
wird.
• Das odds-ratio beschreibt die relative Wahrscheinlichkeit von y = 1 zu y = 0.
Ändert sich xk um eine Einheit, so ist das neue odds-ratio ( )( ) ( ) ( )kexp ' x 1 exp ' x expβ + = β ⋅ β . Das odds ratio ist um den Faktor
( )kexp β gestiegen. Wenn k 0,1β = folgt ( )exp 0,1 1,105= , d.h. die relative
Wahrscheinlichkeit von y = 1 gegenüber y = 0 steigt um 10,5 Prozent. Viel-
fach werden statt der Koeffizienten die odds-ratios ausgewiesen, wobei o.r.
> 1, wenn β > 0 und o.r. < 1, wenn β < 0.
3–20
3.4 Probit
• Ausgangspunkt: Normalverteilungsannahme für Fehlerterme, beispielsweise
im Modell latenter Variablen: *
i i iy ' x= β + ε mit ( )i ~ IN 0, 1ε
• IN steht für independently normally distributed; IID steht für identically and
independently distributed. • Bei einem Schwellenwert von 0, ist die beobachtbare Variable yi dem *
iy wie
folgt zugeordnet:
iy 0= wenn *iy 0≤
iy 1= wenn *iy 0>
3–21
Dann
( ) ( ) ( )' xi
i iF ' x ' x t dtβ
−∞
= β = Φ β = φ∫
• Die kumulierte Wahrscheinlichkeitsfunktion F und die Wahrscheinlichkeits-
dichtefunktion f der Standardnormalverteilung werden standardmäßig mit Φ
und φ abgekürzt. • Die Likelihoodfunktion für den Probitschätzer mit ( )2
i ~ IN 0,ε σ nutzt:
( ) ( ) ( )* i iii i i
' xP y 0 P y 0 P ' x P
ε −β⎛ ⎞= = ≤ = ε ≤ −β = ≤⎜ ⎟σ σ⎝ ⎠
i i' x ' x1
−β β⎛ ⎞ ⎛ ⎞= Φ = − Φ⎜ ⎟ ⎜ ⎟σ σ⎝ ⎠ ⎝ ⎠
( ) i ii
' x ' xP y 1 1
β −β⎛ ⎞ ⎛ ⎞= = Φ = −Φ⎜ ⎟ ⎜ ⎟σ σ⎝ ⎠ ⎝ ⎠
( ) ( ) ( ) ( )*i i i i iE y P y 1 P y 0 P ' x= = = > = −ε < β
3–22
wobei:
( ) ( )
Ny 1 yi i
i ii 1
L P y 1 P y 0 −
=
= = =∏
y 1 yi iNi i
i 1
' x ' x1−
=
⎡ ⎤ ⎡ ⎤−β −β⎛ ⎞ ⎛ ⎞= − Φ Φ⎢ ⎥ ⎢ ⎥⎜ ⎟ ⎜ ⎟σ σ⎝ ⎠ ⎝ ⎠⎣ ⎦ ⎣ ⎦∏
was hinsichtlich β und σ bzw. β / σ maximiert wird.
• Da der β-Vektor in der Likelihoodfunktion nur gemeinsam mit σ vorkommt,
sind die beiden Parameter nicht separat identifizier- und schätzbar. Daher
ix′β⎛ ⎞Φ⎜ ⎟σ⎝ ⎠
0
ix′−β⎛ ⎞Φ⎜ ⎟σ⎝ ⎠
0
3–23
normiert man und setzt σ = 1, um anschließend nur über den Vektor β zu
maximieren. Letztlich lässt sich der genaue Wert für β also nie bestimmen,
da man den wahren Wert von σ nicht kennt und nicht kennen kann.
• Dies ist unproblematisch hinsichtlich der Interpretation von Vorzeichen und
statistischer Signifikanz von β, da die Multiplikation mit einer Konstanten
(σ-1) Varianz und Standardfehler des geschätzten β ebenso modifiziert wie
den Schätzwert selbst. Dies kürzt sich also bei der t-Statistik weg. Wenn 2 1σ ≠ , beschreibt der ausgewiesene Parameterschätzer nicht β , sondern
( )β σ . Der marginale Effekt ist nach wie vor korrekt:
( )i i
k
P y 1 ' x.
x∂ = β β⎛ ⎞= φ ⋅⎜ ⎟∂ σ σ⎝ ⎠
3–24
• Falls die Normalverteilungsannahme für ε korrekt ist, ist der Maximum
Likelihood Schätzer für β konsistent und asymptotisch effizient.
• Interpretiert werden Vorzeichen und Signifikanz der geschätzten Koeffizien-
ten. Da es sich um ein nichtlineares Modell handelt, sind die geschätzten
Koeffizienten von den marginalen Effekten verschieden.
• Der Einfluss einer Variable x auf die Ereigniswahrscheinlichkeit hängt von
den Ausprägungen der anderen Variablen ab. Daher werden marginale Ef-
fekte berechnet und Simulationen durchgeführt, um die Effektstärke zu be-
stimmen.
• Für die Berechnung der marginalen Effekte gilt bei σ = 1: ( ) ( )i
i kk
' x' x
x∂Φ β
= φ β ⋅β∂
3–25
Dies sollte an verschiedenen Werten von xi berechnet werden, um die Ro-
bustheit des marginalen Effektes abzuschätzen (siehe Beispiel unten).
• Simulation der Wahrscheinlichkeit eines Ereignisses unter alternativen Sze-
narien:
Methode 1:
– Alle erklärenden Variablen werden auf den Stichprobenmittelwert gesetzt
und die Ereigniswahrscheinlichkeit wird für diese künstliche „Mittelwertbe-
obachtung“ berechnet.
– Einzelne Variablen werden modifiziert und bei veränderten Werten wird
die Ereigniswahrscheinlichkeit erneut vorhergesagt.
3–26
Methode 2:
– Der Datensatz wird unverändert gelassen, für jedes Individuum i wird die
Ereigniswahrscheinlichkeit bestimmt und dann der Stichprobendurch-
schnitt berechnet.
– Einzelne Variablen werden für alle Beobachtungen gleich modifiziert. Bei
veränderten Werten wird die Ereigniswahrscheinlichkeit für alle i und dann
im Durchschnitt bestimmt.
• Durch einen Vergleich der vorhergesagten Wahrscheinlichkeiten ergibt sich
in beiden Fällen ein Maß für den Einfluss der modifizierten Variablen. Die
Standardfehler der berechneten Effekte lassen sich per Bootstrap erzeugen.
• Beispiel: (Quelle: Greene, 6.A., S. 782) Es soll geprüft werden, ob die
Lehrmethode PSI (personalized system of instruction) die Noten (GPA) ver-
3–27
bessert: Grade = 1 wenn verbessert, Grade = 0 wenn nicht verbessert. Kont-
rollvariablen sind
GPA = vorheriger Notendurchschnitt
TUCE = Testergebnis vor dem Kurs
PSI = neue Lehrmethode angewendet (1 = ja, 0 = nein).
Die Tabelle gibt die Schätzergebnisse an: Linear Logistic Probit
Variable Coefficient Slope Coefficient Slope Coefficient Slope
Constant -1,498 - -13,021 - -7,452 - GPA 0,464 0,464 2,826 0,534 1,626 0,533 TUCE 0,010 0,010 0,095 0,018 0,052 0,017 PSI 0,379 0,379 2,379 0,450 1,426 0,468
( )ˆf x 'β 1,000 0,189 0,328
3–28
Slope bezeichnet für alle Variablen die erste Ableitung der Verteilungsfunk-
tion nach xk, auch für PSI. Während sich die Koeffizientenschätzer deutlich
unterscheiden, sind die marginalen Effekte sehr ähnlich.
Den Effekt von PSI könnte man im Probit-Modell am Mittelwert von TUCE
von 21,938 aus der Differenz folgender Größen berechnen:
PSI = 0: P(Grade = 1) = Φ (-7,452 + 1,626 GPA + 0,052 ⋅ 21,938)
PSI = 1: P(Grade = 1) = Φ (-7,452 + 1,626 GPA + 0,052 ⋅ 21,938 + 1,426).
Dabei variiert der Effekt von PSI hier z.B. mit den Ausprägungen von GPA,
sichtbar als Differenz der beiden Kurven:
3–29
3–30
3.5 Allgemeine Bemerkungen
3.5.1 Vergleich von Logit und Probit Modell
• Im Allgemeinen ähnliche Ergebnisse
• Kumulative Verteilungsfunktionen der Ereigniswahrscheinlichkeit unterschei-
den sich an den Rändern, im mittleren Bereich sind die Ergebnisse vergleich-
bar:
x'β x'β
Probit
Logit Probit
Logit
∞− ∞
)'( xF β )'( xf β
∞− ∞
3–31
• Für kleine und große i' xβ : ( ) ( )LOGIT PROBIT
i if ' x f ' xβ > β , Ergebnisse im mittleren
Bereich ähnlich.
• Alle Modelle für bivariate abhängige Variablen haben grundsätzlich die gleiche
Likelihoodfunktion
( ) ( )i iy 1 y 0i i
L F ' x 1 F ' x= =
⎡ ⎤= β ⋅ − β⎣ ⎦∏ ∏ ,
die sich nur durch die jeweiligen Verteilungsannahmen für F unterscheiden:
( ) ( )i iP y 1 F ' x= = β
Lineares Wahrscheinlichkeitsmodell: i' x= β
Logit Modell: ( )( )
i
i
exp ' x1 exp ' x
β=
+ β
3–32
Probit Modell: ( )i' x= Φ β
• Die Parameterschätzungen sind wegen der verschiedenen Nichtlinearitäten
der Modelle nicht direkt vergleichbar. Amemiya (1981) leitete folgende appro-ximative Beziehungen ab für den Fall, dass 0,1 E(y) 0,9≤ ≤ .
Konstante: LW LO PRˆ ˆ ˆ0,25 0,5 0,4 0,5α = α + ≅ α +
Steigungsparameter: LW LO PRˆ ˆ ˆ0,25 0,4β = β ≅ β ⇔ LO PR
ˆ ˆ1,6β ≅ β
• Logitschätzer sind rechnerisch einfacher zu bestimmen als Probitschätzer.
• Modelltheoretisch gibt es keine Rechtfertigung für die Wahl zwischen Logit
und Probit. Allerdings stellt die dem Probit unterliegende Normalverteilungs-
annahme die allgemeinere Annahme dar.
3–33
• Statistische Signifikanz der Parameter sind im Allgemeinen für Logit und
Probit sehr ähnlich.
• Beispiel: Heij et al. Example 6.2
3–34
3.5.2 Schätzung von nichtlinearen Modellen mit binären abhängigen Vari-
ablen
• Maximum Likelihoodansatz, allgemein:
( ) ( )N y 1 yi i
i ii 1
L F 'x 1 F 'x−
=
⎡ ⎤ ⎡ ⎤= β − β⎣ ⎦ ⎣ ⎦∏
( ) ( ) ( )( )N
i i i ii 1
lnL y lnF 'x 1 y ln 1 F 'x=
= ⋅ β + − ⋅ − β∑
• Allgemeine Bedingung erster Ordnung:
( )N
i i ii i
i 1 i i
y f flnL 1 y x 0F 1 F=
⎡ ⎤⎛ ⎞ ⎛ ⎞⋅ −∂= + − ⋅ ⋅ =⎢ ⎥⎜ ⎟ ⎜ ⎟∂β −⎝ ⎠ ⎝ ⎠⎣ ⎦∑
• Für den Logitschätzer
3–35
( )( )
Ni
i iji 1j i
exp ' xlnL y x 01 exp ' x=
⎛ ⎞β∂= − ⋅ =⎜ ⎟⎜ ⎟∂β + β⎝ ⎠∑
• Für den Probitschätzer
( )i iy 0 y 1i i
lnL ln 1 ln= =
= − Φ + Φ∑ ∑
i iij ij
y 0 y 1i ij i i
lnL x x 01= =
⎛ ⎞−φ φ∂= ⋅ + ⋅ =⎜ ⎟∂β − Φ Φ⎝ ⎠∑ ∑
( )
Ni i
i iji 1 i i
y x 01=
⎛ ⎞−Φ= ⋅ φ ⋅ =⎜ ⎟⎜ ⎟Φ −Φ⎝ ⎠∑
• Für beide Schätzverfahren gilt, dass die Hessematrix überall negativ definit ist.
3–36
Daher ist die Loglikelihoodfunktion global konkav, und die Schätzverfahren
konvergieren zum globalen Maximum. Es können alle iterativen Methoden an-
gewendet werden.
• Hypothesentests hinsichtlich der Koeffizienten β:
– t-Test für einfache Hypothesen
– Wald-Test für lineare Restriktionen (R, q) . Nachdem das Mo-
dell ohne Restriktionen geschätzt wurde, werden die Restriktionen anhand
der geschätzten Parameter getestet.
– Likelihood Ratio Test: Das Modell wird in restringierter
und unrestringierter Form geschätzt.
0H : R qβ =
( )R ULR 2 lnL lnL= − −
3–37
– Lagrange Multiplier Test:
( ) ( ) ( ) 2k
lnL lnLLM cov ~
′⎛ ⎞ ⎛ ⎞∂ θ ∂ θ⎜ ⎟ ⎜ ⎟= θ χ⎜ ⎟ ⎜ ⎟∂θ ∂θ⎝ ⎠ ⎝ ⎠
.
θ = Parametervektor aus restringierter Schätzung
ln L = unrestringierte log-Likelihoodfunktion
Das Modell wird mit k Restriktionen geschätzt, anschließend werden die
Restriktionen getestet.
– W, LR, LM sind 2χ -verteilt; die Freiheitsgrade entsprechen der Anzahl der
Restriktionen k.
3–38
• Es ist nicht möglich zu testen, ob das Logit- oder das Probit-Verfahren ange-
messen ist, da die Modelle nicht "genestet" sind (man kann nicht ein Modell
durch Restriktionen aus dem anderen gewinnen).
3–39
3.5.3 Eigenschaften binärer Modelle unter nicht-idealen Bedingungen
(a) Auslassen exogener Variablen
• KQ: systematische Verzerrung der geschätzten Parameter, wenn ausgelasse-
ne Variable mit den berücksichtigten Variablen korreliert ist.
• ML: Selbst wenn ausgelassene Variable mit den berücksichtigten Variablen
nicht korreliert ist, werden die geschätzten Parameter durch das Auslassen ei-
ner wichtigen Variablen inkonsistent.
• Test mittels Wald, LR oder LM:
*
0 1 1 2H : y ' x , 0= β + + ε β = versus
*1 1 1 2 2 2H : y ' x ' x , 0= β + β + ε β ≠
3–40
(b) Heteroskedastie
• KQ: bei heteroskedastischen Fehlertermen bleibt der KQ Schätzer unverzerrt
und konsistent, büßt aber Effizienz ein. Ebenso erhält man falsche Schätzer
für die Varianz-Kovarianz-Matrix und fehlerhafte t-Statistiken für einzelne Pa-
rameter.
• ML: Bei Heteroskedastie werden Maximum Likelihood Schätzer inkonsistent
und die Varianz-Kovarianz-Matrix ist nicht korrekt. Letztlich ist die Verteilungs-
annahme für die abhängige Variable falsch, und damit gelten die günstigen
Eigenschaften des ML Schätzers nicht mehr.
3–41
(c) Bemerkungen
• Die Bedeutung inkonsistenter Koeffizientenschätzer unterscheidet sich bei
bivariaten Modellen vom KQ Schätzer. Der Unterschied liegt darin, dass selbst
bei inkonsistenten Parameterschätzungen im nichtlinearen Modell (z.B. beim
Probit) die mittleren marginalen Effekte noch konsistent sein können.
• Wenn also statt eines Parameters kβ nun wie im Fall von ausgelassenen nicht
korrelierten erklärenden Variablen ein kβ geschätzt wird, so können unter be-
stimmten Annahmen beim Probit-Schätzer Vorzeichen, relative Effektstärke (im Vergleich zu kβ ) und der mittlere marginale Effekt korrekt sein, obwohl kβ
inkonsistent ist.
3–42
• Auch die Auswirkung einer fehlspezifizierten Likelihoodfunktion muss relati-
viert werden. Wenn eine Normalverteilung vorliegt und wir schätzen ein
Logitmodell, so sind die Parameterschätzer klar verzerrt und inkonsistent. In
3.5.1 haben wir die Zusammenhänge klar gemacht, die belegen, dass die Pa-
rameterschätzer der beiden Modelle hauptsächlich unterschiedlich skaliert
sind. Das PSI-Beispiel zeigt, dass die marginalen Effekte von Logit und Pro-
bitschätzern nahezu identisch sein können, obwohl sich die Koeffizienten un-
terscheiden.
• Wie im linearen Modell auch, können bei binären Modellen keine konsistenten
Ergebnisse erzielt werden, wenn die ausgelassene Variable mit den berück-
sichtigten Variablen korreliert ist.
3–43
3.5.4 Maße für die Schätzgüte in binären Regressionen
(a) Vergleich der Log Likelihood im Modell mit und ohne Steigungsparameter
über (Modell-Signifikanz).
(b) McFadden R2 („Likelihood Ratio Index“) in Anlehnung an Standardregressi-
onsmodell: McFadden
Wobei UlnL = log Likelihood Wert ohne Restriktion
RlnL = log Likelihood Wert mit Restriktion (alle Steigungsparameter
sind = 0)
R UlnL lnL 0≤ ≤
2LRT ~ χ
( )2U RR 1 lnL lnL= −
3–44
Der Wertebereich von lnL ist ( ), 0 .−∞ Das McFadden R2 hat den Wert 0,
wenn U RlnL lnL= und den Wert 1, wenn UlnL 0= .
(c) Anteil korrekter Vorhersagen
Berechne für jede Beobachtung ( )i iˆZ F ' x= β . Wenn iZ s> , dann ,
wenn iZ s≤ dann iy 0= , wobei s ein Schwellenwert ist, typischerweise wird
s = 0,5 gewählt. Ein Vergleich von iy mit yi ergibt den Anteil korrekter Vor-
hersagen. Probleme:
(i) eine feste Vorhersage am Durchschnittswert von yi gibt unter Umständen
eine bessere Anpassung als das Modell.
(ii) die Vorhersagequalität ist von der Wahl des s abhängig, wofür keine ge-
eignete Regel existiert.
iy 1=
3–45
• Beispiel: Tunali (1986) schätzt ein Modell zur Rückkehrwahrscheinlichkeit von
Migranten. Ein LR-Test ergibt hohe Signifikanz der Parameter, der Likelihood-
Ratio-Index beträgt 0,083. Bei einem Schwellenwert von s = 0,5 ergibt sich:
Vorhersage D = 0 D = 1 Gesamt Beobachtet D = 0 471 16 487 D = 1 183 20 203 Gesamt 654 36 690
491 von 690, d.h. 71,2 Prozent der Vorhersagen treffen zu. Ein naives Modell,
das für alle Beobachtungen D = 0 vorhersagt, trifft in 70,6 Prozent der Fälle
zu. Obwohl signifikante Zusammenhänge aufgezeigt werden, erzeugt die
Schätzung kaum eine bessere Vorhersage.
3–46
(d) Man findet auch 2N
2 R
U
Lpseudo R 1L⎡ ⎤
= − ⎢ ⎥⎣ ⎦
LR und LU sind die nicht logarithmierten Likelihoodwerte mit und ohne Rest-
riktion, dass alle Steigungsparameter = 0. N ist die Beobachtungszahl.
… viele alternative Pseudo R2 Maße auch auf Basis der Residualvarianz
( )2
i iˆy F−∑ . Der Begriff des Pseudo R2 hat keine eindeutige Definition.
(e) Das Akaike Informationskriterium minimiert
AIC 2k 2lnL= −
k= Anzahl der Parameter, keine Berücksichtigung der Beobachtungszahl.
3–47
(f) Schwarz Kriterium minimiert mit stärkerem Gewicht auf k als AIC:
( )SC 2lnL k ln N= − +
N = Anzahl der Beobachtungen. Ziel bei AIC und SC: Optimierung des Ver-
hältnisses Anpassung / Parameterzahl.
• Insgesamt: – kein etabliertes Kriterium vergleichbar zum R2
– nicht alle Kriterien liegen im Intervall (0,1)
– nicht alle Kriterien repräsentieren Varianzaufteilung in erklärten und nicht er-
klärten Teil.
– nicht in allen Gütemaßen ist die Zahl der Freiheitsgrade repräsentiert.
3.6 Logit- und Probitmodelle für Paneldaten 3–48
3.6.1 Die KQ Situation
• Stetige abhängige Variable mit nicht IID (unabhängig und identisch) verteiltem
Fehlerterm, beispielsweise wegen ausgelassener unbeobachtbarer Variablen:
it it ity ' x= β + ε mit [ ]it i t ituε = α + + η (ηit ist der Zufallsfehler)
(i) wenn αi oder ut mit xit korreliert => Verzerrung
(ii) sonst: ineffiziente Schätzung (nicht sphärische Varianz-Kovarianz-Matrix)
• Korrekturansätze:
(a) Fixed Effects – Annahme: αi hat fixen konstanten Wert für jedes i, Schät-
zung über Dummies oder Differenzen
3–49
(b) Random Effects-Annahme: αi ist als Zufallsvariable durch ihre Verteilung
beschrieben, nicht mit xit korreliert, Schätzung mit FGLS, korrigierte Varianz-
Kovarianz-Matrix.
• Bewertung:
– Wenn mit αi korrelierte xit => Random Effects Schätzung inkonsistent
– FE per Dummyvariablenansatz (LSDV) kann bei kleinem T zu verzerrten
Schätzern für αi führen ("incidental parameter problem")
– FE erlaubt keine Parameterschätzung für zeitkonstante Variablen.
3–50
3.6.2 Unterschiede im Fall diskreter abhängiger Variablen
• Im linearen Wahrscheinlichkeitsmodell gilt die gleiche Ausgangslage, wie bei
KQ.
• Wird das wahre Modell
auf Basis von per Maximum Likelihood ge-
schätzt, dann
(i) ist die Likelihoodfunktion falsch spezifiziert.
(ii) wird keine Korrektur für unbeobachtete Heterogenität αi vorgenommen, was
zu Inkonsistenz führt.
it it i ity ' x∗ = β + α + ε
it it ity ' x∗ = β + ε
3–51
(iii) wird die Fehlertermvarianz nicht korrekt abgebildet, was im nichtlinearen
Modell - auch ohne Korrelation mit xit - zu ineffizienten und inkonsistenten
Schätzern für alle Parameter führt.
(iv) besteht die Möglichkeit des "incidental parameter“ Problems (s.u.).
3–52
3.6.3 Fixed Effects Schätzer bei binären abhängigen Variablen
• Problem des LSDV Schätzers: Bei großem N und kleinem T wenig Beobach-
tungen pro Einheit, z.B. 3000 Haushalte über 3 Perioden, 9000 Beobachtun-
gen, aber nur 3 pro Haushalt. Zu wenig, um αi konsistent zu schätzen
(incidental parameter problem). Dies ist unproblematisch bei KQ, da β unab-
hängig von αi konsistent geschätzt werden kann. Bei nichtlinearen Modellen
überträgt sich die Inkonsistenz auf andere Parameter.
• Lösbar bei Logitmodellen mit Chamberlain's "conditional maximum
likelihood" Modell.
• Hier ( )α β'xi it
i α β'xi it
eP y 11 e
+
+= =
+ und ( )i ' xi it
1P y 01 eα +β
= =+ .
3–53
• Die unbedingte Likelihoodfunktion wäre
( ) ( )N T
y 1 yit itit it
i 1 t 1
L F 1 F −
= =
= −∏∏
• Chamberlain’s bedingte (conditional) Likelihoodfunktion ist
N TC
i1 i1 i2 i2 iT iT itt 1i 1
L P Y y , Y y ,...,Y y y==
⎛ ⎞= = = =⎜ ⎟
⎝ ⎠∑∏
Der Beitrag einer Beobachtung i zur Likelihoodfunktion hängt von der Summe
der Ausprägungen z.B. mit Wert „1“ ab.
• Beispiel: T=2, es gibt 3 mögliche Ausprägungssummen:
Fall 1: i1 i2y 0, y 0= = Summe: 0 ( )P 0, 0 Summe 0 1= =
3–54
d.h. wenn bei zwei Ausprägungen die Summe 0 ist, muss mit 100% Wahr-
scheinlichkeit in beiden Fällen eine 0 vorliegen. Der Beitrag zur bedingten
Log-Likelihoodfunktion bei Konditionierung auf Ausprägungssumme 0 ist Null.
Fall 2: i1 i2y 1, y 1= = Summe: 2 ( )P 1, 1 Summe 2 1= =
genauso, Beitrag zur bedingten Log-Likelihoodfunktion ist null.
Fall 3: i1y 1= , i2y 0= oder i1y 0= , i2y 1= Summe: 1
( )P 0, 1 Summe 1= ( )
( ) ( )P 0,1
1P 0,1 P 1, 0
= <+
Nur Beobachtungen mit Ausprägungswechsel (0,1) oder (1,0) tragen zur Log-
Likelihoodfunktion bei.
3–55
Da ( )' xi i1
i1 i2 ' x ' xi i1 i i2
e 1P y 1,y 01 e 1 e
α +β
α +β α +β= = = ⋅
+ +
und ( )' xi i2
i1 i2 ' x ' xi i1 i i2
1 eP y 0,y 11 e 1 e
α +β
α +β α +β= = = ⋅
+ +,
ist der Beitrag zur Likelihood, bedingt auf Summe = 1, (also auf einen Ausprä-
gungswechsel) für ' xi i2
' xi2' x ' xi i1 i i2
it ' x ' x ' x ' xi i2 i i1 i1 i2t
' x ' x ' x ' xi i1 i i2 i i1 i i2
1 ee1 e 1 eP 0,1 y 1
1 e e 1 e e1 e 1 e 1 e 1 e
α +β
βα +β α +β
α +β α +β β β
α +β α +β α +β α +β
⋅⎛ ⎞ + += = =⎜ ⎟ +⎝ ⎠ ⋅ + ⋅+ + + +
∑
sowie entsprechend für
( )
( ) ( )itt
P 1,0P 1,0 Wechsel, d.h. y 1 .
P 1,0 P 0,1⎛ ⎞
= =⎜ ⎟ +⎝ ⎠∑
3–56
Es ergibt sich
( ) ( )
' xi2
' x ' x ' x xi1 i2 i1 i2
e 1P 0,1 Wechsele e e 1
β
β β β −= =
+ +
( )( )
( )
' x xi1 i2
' x xi1 i2
eP 1,0 Wechsel .e 1
β −
β −=
+
• Durch Konditionieren können die unbeobachtbaren Effekte aus den Elemen-
ten der Likelihoodfunktion heraus gekürzt werden. Die Koeffizienten für β wer-
den konsistent und asymptotisch effizient geschätzt, wenn nur Beobachtungen
mit einem Ereigniswechsel betrachtet werden und auf die ersten Differenzen
in xit regressiert wird.
• Nachteile:
- viele Beobachtungen werden nicht genutzt
3–57
- Verfahren bei Probit wegen funktionaler Form nicht anwendbar
- wenn Heterogenität nicht existiert, ist der fixed effects logit nicht effizient.
• Entscheidend: Gibt es Heterogenität in den Daten? - Hausman Test:
H0: Homogenität αi = 0
H1: Heterogenität αi ≠ 0
• Schätzer 1 (hier Logit)
– konsistent und asymptotisch effizient unter H0
– nicht konsistent unter H1
• Schätzer 2 (hier Chamberlains conditional logit)
3–58
– konsistent aber nicht effizient unter H0
– konsistent unter H1
Test auf Gleichheit der beiden Parametervektoren. Wenn Logit cond.Logitβ ≠ β H0
verwerfen. Teststatistik
( ) ( ) ( ) ( )1
CL L CL L CL L 2k
ˆ ˆ ˆ ˆ ˆ ˆW Var Var ~−′
⎡ ⎤= β − β β − β β − β χ⎣ ⎦
Anzahl der Parameter
3–59
3.6.4 Random Effects Schätzer bei binären abhängigen Variablen
• Annahme: unbeobachtete Heterogenität ist Zufallsvariable und unabhängig
von xit
• Modell: it it i ity * ' x= β + α + ε it i itη = α + ε
( ) ( ) 2 2 2it i itVar Var α ε ηη = α + ε = σ + σ = σ
( )2
is it 2 2Corr ,
( )α
α ε
ση η = ρ =
σ + σ
itη besteht aus der Summe zweier Zufallsvariablen. Die möglichen Korrelatio-
nen von itη über die Zeit (ρ) variieren mit den zugrunde gelegten Verteilungs-
annahmen: Bei einer multivariaten logistischen Verteilung (von αi und εit) ist
1 2ρ = . Bei Annahme von multivariaten Normalverteilungen ist ρ nicht vorher 3–60
bestimmt. Daher wird für die Random Effects Schätzung das Probitmodell be-
vorzugt.
• Hierzu existieren mehrere Ansätze:
(a) Der Butler-Moffitt (1982) Ansatz (siehe Exkurs)
Kritik daran: Äquikorrelationsannahme ist restriktiv, dennoch der gebräuch-
lichste Ansatz und in gängigen Programmpaketen vorprogrammiert.
(b) Avery-Hansen-Hotz Ansatz (1983) keine Äquikorrelationsannahme.
(c) Chamberlain Modell (1984) völlig anders, hebt Restriktion der Unkorreliert-
heit von x mit unbeobachtetem Effekt auf.
3–61
• Beispiel: Greene, Handout.
• Exkurs: Ansatz von Butler und Moffitt (1982) für Random Effects Probit
Modell it it ity ' x∗ = β + η
it i itη = α + ε ( )2i ~ N 0, αα σ ( )2
it ~ N 0, εε σ
Probitschätzung ergibt standardisierte Koeffizienten wegen:
N(0,1)
it it itiy ' x∗
ε ε ε ε
β εα= + +
σ σ σ σ
Problem: i
ε
ασ ist nicht standardnormalverteilt
Trick: 2
2 2
1αε α
α ε
σ − ρρ = ⇔ σ = σ
σ + σ ρ
3–62
Jetzt:
N(0,1)N(0,1)
it it itiy ' x1ε ε α ε
β εαρ= + ⋅ +
σ σ − ρ σ σ
i iit it it
'P y 0 x1α ε α
⎛ ⎞ ⎛ ⎞α αβ ρ= = Φ − ⋅ − ⋅ = Φ⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟σ σ − ρ σ⎝ ⎠⎝ ⎠
iit itP y 1 1
α
⎛ ⎞α= = − Φ⎜ ⎟⎜ ⎟σ⎝ ⎠
• Likelihoodfunktionsbeitrag von Beobachtung i:
( )Ti y1 yi itit
i it itt 1i
L , 1−
=α
⎛ ⎞αβ ρ = Φ ⋅ − Φ⎜ ⎟⎜ ⎟σ⎝ ⎠
∏ .
3–63
• Da i
α
ασ
nicht beobachtet ist, Übergang von Lii, α
⎛ ⎞αβ ρ⎜ ⎟⎜ ⎟σ⎝ ⎠
zu Li( ),β ρ bei konti-
nuierlicher Verteilung von αi durch Ausintegrieren:
( ) i i ii iL , L , f d
∞
−∞ α α α
⎛ ⎞ ⎛ ⎞ ⎛ ⎞α α αβ ρ = β ρ ⋅ ⋅⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎜ ⎟σ σ σ⎝ ⎠ ⎝ ⎠⎝ ⎠
∫
mit ( )2
i i i1 1~ N 0, 1 : f exp22α α α
⎧ ⎫⎛ ⎞ ⎛ ⎞α α α⎪ ⎪= − ⋅⎨ ⎬⎜ ⎟ ⎜ ⎟σ σ σπ⎝ ⎠ ⎝ ⎠⎪ ⎪⎩ ⎭
• Komplizierte Integralberechnung wird durch Approximation über diskrete Ver-
teilung von αi vermieden.
( )K
ii i k
k 1 k
L , L , P= α
⎛ ⎞⎛ ⎞αβ ρ = β ρ ⋅⎜ ⎟⎜ ⎟⎜ ⎟σ⎝ ⎠⎝ ⎠
∑
3–64
Idee: Fläche unter der Verteilung wird durch K Rechtecke approximiert:
„Gauss-Hermite Quadratur“ Verfahren
Letztlich: ( )N
i,i 1
max L L ,β ρ
=
= β ρ∏
• Kritik am Butler-Moffitt Ansatz: Annahme, dass ρ über alle Perioden t und alle i
gleich ist, ist restriktiv („Äquikorrelation“).
3–65
• Zum Schluß: Praxisrelevanz von Schätzverfahren für bivariate abhängige
Variablen
− erlauben die Modellierung von ja/nein Fragen
− in allen wissenschaftlichen Themengebieten und interdisziplinär relevant
− für alle Praxisfelder bedeutsam, bspw. automatisierte Berechnung der Aus-
fallwahrscheinlichkeit (ja/nein) von Konsumentenkrediten bei der Teambank,
bspw. Sterberisiko von Krebspatienten nach Behandlung etc.
− interessante Erweiterungen auf dynamische Verfahren, die zeitlich verzöger-
te abhängige Variable (yt-1) als Kontrollvariable nutzen
3–66
• Literatur: Cameron Colin A. und P.K. Trivedi, 2005, Microceconometrics. Methods and
Applications, Cambridge: Cambridge University Press. Kapitel 14 Cameron Colin A. und P.K. Trivedi, 2009, Microceconometrics Using Stata,
Stata Press. Kapitel 14, 18 Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice
Hall, 6. Auflage. Kapitel 23.1 – 23.5. Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley &
Sons, 3. Auflage. Kapitel 7.1. Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer
Verlag, Heidelberg, Kapitel 4. Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel
Data, Cambridge: The MIT Press. Kapitel 15.1 - 15.8.
4. Schätzverfahren für multivariate und ordinale abhängige Variablen
4.1 Einführung
4.2 Multinomiales Logit Modell
4.3 Multinomiales Probit Modell
4.4 Modelle für geordnete abhängige Variablen
4–2
4.1 Einführung
• Betrachtet werden "qualitative", kategoriale abhängige Variablen, z.B.
– Transportmittelwahl: Bus / Auto / Bahn
– Mensaessen: gut / mittel / schlecht / sehr schlecht
• Man unterscheidet geordnete und ungeordnete Variablen. Da im geordne-
ten Fall mehr Information über die Beziehung unter den Ausprägungen vor-
liegt als im ungeordneten Fall, werden für die beiden Situationen unter-
schiedliche Schätzverfahren angewendet.
• Die Anzahl der Alternativen spielt für die Auswahl der Verfahren keine Rolle.
4–3
• Die Modellierung der zugrunde liegenden Entscheidungsprozesse erfolgt
über stochastische Nutzenfunktionen (random utility hypothesis):
ij ij ijU 'x= β + ε
wobei: i=1,2,...,N Beobachtungseinheiten
j=1,2,...,J Entscheidungsalternativen
Entscheidungsregel: i wählt j, wenn, Uij > Uik, für alle k ≠ j
Dann für J = 3, und j, k, m = 1, 2, 3:
P(Alternative j wird gewählt) = ( )ij ik ij imP U U , U U> >
= ( ) ( )( ij ik ik ijP x x ,− β > ε − ε ( ) ( ))ij im im ijx x− β > ε − ε
4–4
• Aus der Annahme über die Verteilung der Fehlertermdifferenz ergibt sich die
Modellwahl. Meist unterstellt man entweder eine Normalverteilung, aus der
sich das multinomiale Probitmodell ableitet, oder eine Typ I Extremwertver-
teilung, die zum multinomialen Logit Modell führt.
• Allgemeine Spezifizierung multinomialer Modelle:
ij j i j ijU ' x 'z= β + α + ε
d.h. wenn x die Beobachtung i beschreibt, variiert β über die Alternativen,
wenn z die Alternative j beschreibt, ist der Koeffizientenvektor α konstant.
• Dabei findet man folgende Bezeichnungen:
ij j i ijU ' x= β + ε multinomial logit (MNL)
4–5
ij j ijU 'z= α + ε conditional logit (CL)
ij j i j ijU ' x 'z= β + α + ε mixed logit
4–6
4.2 Multinomiales Logit Modell
4.2.1 Allgemeines
• Typischerweise wird unterstellt: ij j iU ' x= β + ε ij
• Das multinomiale Logit Modell verallgemeinert das binomiale Logit Modell.
Binomial: ( ) ( ) ( )( )i i iP y 1 exp ' x 1 exp ' x= = β + β
( ) ( )( )i iP y 0 1 1 exp ' x= = + β
daher ( )( )
ii
i
P y 1ln ' x "log odds"
P y 0⎡ ⎤=
= β −⎢ ⎥=⎢ ⎥⎣ ⎦
• Bei J > 2 Alternativen:
4–7
( )( )
i2 i
i
P y 2ln ' x
P y 1⎡ ⎤=
= β⎢ ⎥=⎢ ⎥⎣ ⎦
( )( )
i3 i
i
P y 3ln ' x , ,
P y 1⎡ ⎤=
= β⎢ ⎥=⎢ ⎥⎣ ⎦
… ( )( )
iJ i
i
P y Jln ' x
P y 1⎡ ⎤=
= β⎢ ⎥=⎢ ⎥⎣ ⎦
• Dies zeigt, dass der geschätzte Koeffizientenvektor relativ zu einer Basiska-
tegorie zu interpretieren ist.
• Welche der J Alternativen zur Basiskategorie wird, ist unerheblich und kann
willkürlich bestimmt werden. Nach einer Schätzung können die Ergebnisse
auf eine andere Basiskategorie hin umgerechnet werden:
• Beispiel:
( )( )
( )( )
( )( )
i i i
i i i
P y 3 P y 3 P y 2ln ln ln
P y 2 P y 1 P y 1⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = =
= −⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦
4–8
( ) ( ) ( ) ( )i i i ilnP y 3 lnP y 1 lnP y 2 lnP y 1= = − = − = + =
( )3 2 i' x= β −β
• Berechnung der dazugehörenden Standardfehler:
( ) ( ) ( ) ( )12
3 2 3 2 3 2SE V V 2 Cov ,⎡ ⎤β − β = β + β − ⋅ β β⎣ ⎦
• Wie implizit beim binomialen Logitmodell auch, ist vor der Schätzung der
Koeffizienten eine Normalisierung durchzuführen:
In der Berechnung von: ( ) ( ) ( )i j i k ikP y j exp ' x exp ' x= = β β∑ für alle j
wird für eine Basiskategorie j der Vektor β gleich 0 gesetzt. Es ergibt sich,
wenn dies z.B. für j=1 geschieht:
4–9
( ) ( )J
i j ij 2
P y 1 1 1 exp ' x=
⎡ ⎤= = + β⎢ ⎥
⎣ ⎦∑
( ) ( ) ( )J
i 2 i j ij 2
P y 2 exp ' x 1 exp ' x=
⎡ ⎤= = β + β⎢ ⎥
⎣ ⎦∑
…
( ) ( ) ( )J
i J i j ij 2
P y J exp ' x 1 exp ' x=
⎡ ⎤= = β + β⎢ ⎥
⎣ ⎦∑
4–10
4.2.2 Schätzung
• Für J=3 ergibt sich als Likelihoodfunktion
( ) ( ) ( )i i iy 1 y 2 3yi i i
L P y 1 P y 2 P y 3= = =
= = ⋅ = ⋅ =∏ ∏ ∏ ,
• Alternative Schreibweisen:
( ) ( ) ( )N
d d di1 i2 i3i i i
i 1
L P y 1 P y 2 P y 3=
= = ⋅ = ⋅ =∏
( )N 3
diji
i 1 j 1
P y j= =
= =∏ ∏
( )N 3
ij ii 1 j 1
lnL d lnP y j= =
= ⋅ =∑ ∑ , wobei iij
1 wenn y jd
0 sonst=⎧
= ⎨⎩
4–11
• Da die Likelihoodfunktion für den multinomialen Logitschätzer global konkav
ist, gibt es immer ein globales Maximum und keine Probleme mit der Opti-
mierung.
• Beim MNL gilt ebenso wie beim bivariaten Logitmodell, dass – solange Kon-
stanten im Modell sind – die durchschnittliche vorhergesagte Wahrschein-
lichkeit jeder Alternative der tatsächlich beobachteten Wahrscheinlichkeit
entspricht.
4–12
4.2.3 Interpretation der Schätzergebnisse
• Gesamtmodell: Wie im binomialen Fall ist die Bewertung der Schätzgüte
insgesamt problematisch; typisch sind LR-Tests auf gemeinsame Signifi-
kanz der Steigungsparameter.
• Einzelne Koeffizienten: Bezüglich des Effektes einer Variablen x auf die
Wahrscheinlichkeit einer der Ausprägungen kann nur die statistische Signifi-
kanz verlässlich interpretiert werden, nicht aber Vorzeichen (!) und Größe
der Koeffizienten!
Statt dessen berechnet man marginale Effekte der k=2,…,K Charakteristika
( )' xj
i ' x' x 32
eP y j j 1,2,3.1 e e
β
ββ= = =
+ +
4–13
Bei Alternativen j = 2 oder 3 mit Alternative 1 als Basis:
( ) ( )
( )
' x ' x' x ' x' x ' xj j3 32 2jk 2k 3ki
2' x' x 32k
e 1 e e e e eP y jx 1 e e
β ββ ββ β
ββ
⎡ ⎤β ⋅ ⋅ + + − β ⋅ + β ⋅∂ = ⎣ ⎦=∂ + +
( ) ( ) ( ) ( )( )jk i i 2k 3k iP y j P y j P y 2 P y 3= β ⋅ = − = ⋅ β ⋅ = + β ⋅ =
( ) [ ( ) ( ) ]i jk 2k i 3k iP y j P y 2 P y 3= = ⋅ β −β ⋅ = −β ⋅ =
• Das Vorzeichen der Koeffizienten kann sich also vom Vorzeichen des mar-
ginalen Effektes unterscheiden. Daher Interpretation entweder über margi-
nale Effekte, oder Simulation der interessierenden Zusammenhänge.
• Als mittleren marginalen Effekt einer Variable xk auf die Wahrscheinlichkeit
P(yi = j) über alle Beobachtungen i bestimmt man:
4–14
( )Ni1
i 1 ik
P y jN
x−
=
∂ =
∂∑ .
• Einzelne Koeffizienten können in Signifikanz und Vorzeichen hinsichtlich des
Effektes einer Variablen x auf Wahrscheinlichkeitsverhältnisse interpretiert
werden.
Da ( )( )
ij i
i
P y jln ' x
P y 1⎡ ⎤=
= β⎢ ⎥=⎢ ⎥⎣ ⎦
, gilt
( )( )
i
i
jkk
P y jln P y 1x
⎛ ⎞=∂ ⎜ ⎟=⎝ ⎠ = β∂
.
• Elastizitäten der Auswahlwahrscheinlichkeiten hinsichtlich einzelner Variab-
len lassen sich berechnen, indem der marginale Effekt eines Regressors mit
dem Regressor multipliziert und durch die entsprechende Wahrscheinlich-
keit dividiert wird. Anschließend wird über alle Beobachtungen gemittelt:
4–15
( )( )
( )N
i ikP y j ,xk
i 1 ik i
P y j x1N x P y j=
=
∂ =ε = ⋅
∂ =∑
• Beispiel: Berufsgruppen von Bankangestellten
Frage: Wie sind Eigenschaften von Individuen mit ihrer Stelle korreliert?
Daten: 258 Angestellte in Verwaltung (1), Haus und Technik (2) und Mana-
gement (3). Erklärende Variablen: Bildung (in Jahren), Minderheit (0/1).
Schätzergebnisse:
4–16
Cat Variable Coefficient Std.Error z-Statistic Prob. Cat 2: CONSTANT 4.760 1.268 3.75 0.00 EDUC -0.553 0.114 -4.84 0.00 MINORITY 0.426 0.488 0.87 0.38 Cat 3: CONSTANT -26.01 2.717 -9.57 0.00 EDUC 1.633 0.168 9.68 0.00 MINORITY -2.109 0.636 -3.31 0.00 Log likelihood -118.7360 Akaike info criterion 0.966
Signifikante Koeffizienten besonders für Bildung, sonst nur Zusammenhang
mit Wahrscheinlichkeitsverhältnissen interpretierbar: Minderheiten sind im
Vergleich zur Verwaltung signifikant seltener im Management.
Test auf Signifikanz des Gesamtmodells: Ohne erklärende Variablen ist
log likelihood = -231,34 mit erklärenden Variablen: -118,74.
4–17
LR = -2 (-231,34 + 118,74) = 225,2 2df 4, 5% 9,49= α=χ = ⇒ Modell ist am 5% Niveau signifikant, da 225,2 > 9,49.
Marginaler Effekt der Bildung wurde für alle i berechnet und nach Teilgrup-
pen gemittelt:
MARGINAL EFFECTS OF EDUCATION ON PROBABILITIES JOBCAT JOBCAT = 1 JOBCAT = 2 JOBCAT = 3 NON-MINORITIES -0.127 -0.030 0.157 MINORITIES 0.012 -0.062 0.049
Ein weiteres Jahr Bildung ist für Nicht-Minderheiten mit einer um 15,7 Pro-
zentpunkte höheren Wahrscheinlichkeit korreliert, im Management zu arbei-
ten. (Quelle: Heij et al. 2004, 6.4, S. 470 ff)
4–18
4.2.4 Das IIA (Independence of Irrelevant Alternatives) Problem
• Eigenschaft des MNL Schätzers: Das Wahrscheinlichkeitsverhältnis zweier
Ausprägungen ist unabhängig von der Einführung weiterer Alternativen:
Für J = 3 mit j=1 als Referenz:
( )( )
( ) ( )( ) ( ) ( )
2 i 3 ii
i 2 i 2 i 3 i
1 1 exp ' x exp ' xP y 1P y 2 exp ' x 1 exp ' x exp ' x
⎡ ⎤+ β + β= ⎣ ⎦== ⎡ ⎤β + β + β⎣ ⎦
( )2 i
1exp ' x
=β
Das Verhältnis ist von den Parametern β3 (bzw. bei J>3 auch von allen an-
deren) unabhängig und bleibt konstant, unabhängig von der Formulierung
der abhängigen Variable.
4–19
• Diese Invarianz kann problematisch sein, wenn das Verhältnis auf die be-
trachteten Alternativen reagieren sollte.
• Beispiel: red bus - blue bus Problem
Ausgangssituation (P0): mit 2/3 Wahrscheinlichkeit zu Fuß, mit 1/3 Wahr-
scheinlichkeit roter Bus. Wahrscheinlichkeitsverhältnis: 2:1
Änderung: Es werden blaue Busse eingeführt (P1).
Wir erwarten, dass sich die Wahrscheinlichkeit zu Fuß zu gehen nicht än-
dert, wenn gleich viele rote wie blaue Busse, also: zu Fuß 4/6, roter Bus 1/6,
blauer Bus 1/6. Neues Wahrscheinlichkeitsverhältnis 4:1 für zu Fuß versus
roter Bus.
4–20
• Änderung ist im MNL Schätzer nicht möglich, da Wahrscheinlichkeitsver-
hältnis a priori von der Anzahl der betrachteten Alternativen unabhängig ist.
Wegen IIA: zu Fuß 2/4, roter Bus 1/4, blauer Bus 1/4 – vorheriges Wahr-
scheinlichkeitsverhältnis 2:1 bleibt und es wird unterstellt, dass die Wahr-
scheinlichkeit für "zu Fuß" gehen von 2/3 auf 2/4 gesunken ist.
• Damit kann die IIA Annahme zu inkonsistenten Schätzern führen. Die statis-
tische Ursache dieses Problems ist die Annahme, dass die Fehler über die
Alternativen hinweg unabhängig verteilt sind. Wenn manche Alternativen ei-
nander mehr ähneln als andere, ist diese Annahme nicht zutreffend.
• Hier: Die Wahrscheinlichkeit, den roten Bus zu nehmen, ist hoch mit der
Wahrscheinlichkeit, den blauen Bus zu nehmen, korreliert.
4–21
• Würde statt dem blauen Bus ein individueller Taxi-Service eingeführt, könn-
ten sich die Wahrscheinlichkeitsverhältnisse wie folgt ändern (P2):
P0 P1 P2
1: zu Fuß
2: roter Bus
3: blauer Bus
4: Taxiservice
0,67
0,33
-
-
0,67
0,165
0,165
-
0,335
0,165
-
0,500
Summe
zu Fuß : roter Bus
IIA problematisch?
1,00
2:1
-
1,00
4:1
ja
1,00
2:1
nein
4–22
• Hausman Test der IIA Annahme:
H0 : IIA unproblematisch, kein Einfluss auf Schätzung
H1 : IIA führt zu inkonsistenten Schätzern
Schätzer 1 (alle Alternativen, J = 3)
– konsistent und effizient unter H0
– nicht konsistent unter H1
hier: J = 3 => (J – 1 = 2) ⋅ k Parameter, geschätzt für N = N1 + N2 + N3 Be-
obachtungen aller drei Alternativen.
Schätzer 2 (reduzierte Zahl von Alternativen und Beobachtungen, J=2, nur
roter Bus und zu Fuß)
4–23
– konsistent aber nicht effizient unter H0
– konsistent unter H1
hier: J = 2 => (J –1 = 1) ⋅ k Parameter, geschätzt für N = N1 + N2 Beobach-
tungen von zwei Alternativen.
• Im Test werden nur die k Koeffizienten für das Wahrscheinlichkeitsverhältnis
( )( )
P y 2ln ' x
P y 1⎛ ⎞=
= β⎜ ⎟⎜ ⎟=⎝ ⎠ verglichen.
• Wald Test: ( ) ( ) ( ) ( )1
2 3 2 3 2 3 Kˆ ˆ ˆ ˆ ˆ ˆW ' Var Var ~
−⎡ ⎤= β − β β − β β − β χ⎣ ⎦
4–24
wobei 2β den Schätzer mit 2 und 3β den Schätzer mit 3 Alternativen reprä-
sentiert. K entspricht der Anzahl der Steigungsparameter plus 1 für die Kon-
stante.
• Wenn H0 verworfen:
– "irrelevante" Kategorien zusammenfassen
– andere Schätzverfahren lassen Korrelation der Ausprägungen zu
(MNProbit, Nested Logit).
4–25
4.2.5 Modifikationen des MNL Modells
4.2.5.1 Conditional Logit
• Unterstellte Nutzenfunktion: statt ij j i ijU ' x= β + ε jetzt
ij j ijU 'z= α + ε .
• Beispiel: Transportmittelwahl, z = (Preis, Komfort, Zeit statt Merkmale des
Individuums). Koeffizienten nicht separat für jede Alternative, sondern kon-
stante einheitliche Gewichtungsfaktoren für Merkmale in der Nutzenfunktion
(könnte auch zij berücksichtigen).
• Jetzt z.B. j = 1, 2, 3
( )iP y 1= = ( )i1 i2 i1 i3P U U ,U U> >
( 1 i1 2 i2P 'z 'z ,= α + ε > α + ε )1 i1 3 i3' z ' zα + ε > α + ε
4–26
( )( i1 i2 2 1P ' z z ,= ε − ε > α − ( ))i1 i3 3 1' z zε − ε > α −
• Ähnlich zum multinomialen Logit gilt:
( ) ( ) ( )i 1 jjP y 1 exp 'z exp 'z= = α α∑
( ) ( ) ( )i 2 jjP y 2 exp 'z exp 'z= = α α∑
( ) ( ) ( )i 3 jjP y 3 exp 'z exp 'z= = α α∑
• Likelihoodfunktion wird über den Parametervektor α maximiert:
( )diji
i j
L P y j= =∏ ∏
wobei iij
i
1 für i wenn y jd
0 für i wenn y j=⎧
= ⎨ ≠⎩
4–27
• Die IIA Restriktion gilt auch hier, das Wahrscheinlichkeitsverhältnis wird nur
von den jeweils zutreffenden Faktoren zj bestimmt.
• Unterschiede zum MNL
– erklärende Variablen variieren über j statt i
– Koeffizientenvektor für alle Alternativen j gleich ("gleiches Gewicht für ge-
gebene Charakteristika")
– keine Normalisierung über einen Koeffizientenvektor
– Grundidee nicht, Verhalten von i vorherzusagen, sondern "impliziten
Preis" von Charakteristikum k für die Gruppe der Alternativen zu bewer-
ten.
– Vorzeichen ist interpretierbar:
4–28
a) Marginaler Effekt von Charakteristikum m aus Alternative k auf Wahr-scheinlichkeit von Alternative j ( j k)≠
( ) ( ) ( )i
i m iikm
P y jP y j P y k
z∂ =
= − = ⋅α ⋅ =∂
b) Marginaler Effekt von Charakteristikum m aus Alternative k auf Wahr-
scheinlichkeit von Alternative k:
( ) ( ) ( )i
i m iikm
P y kP y k 1 P y k
z∂ =
⎡ ⎤= = ⋅α ⋅ − =⎣ ⎦∂
4–29
4.2.5.2 Mixed Logit
• Kombiniert multinomialen und conditional Logit
ij j j i ijU 'z ' x= α +β + ε
• Entscheidung wird von Charakteristika der Beobachtung i und der Alternati-
ve j beeinflusst.
Jetzt ( ) ( )( )
'k k i
i J'
j j ij 1
exp 'z xP y k
exp 'z x=
α + β= =
α + β∑ mit β1 = 0.
• Das Mixed Logit Modell wird meist als conditional logit Modell programmiert,
so dass:
4–30
( )( )( )
( )
J
k j ijk ij 1
i M J J
m j ijm im 1 j 1
exp 'z D xP y k
exp 'z D x
=
=
= =
⎛ ⎞α + β ⋅⎜ ⎟⎝ ⎠= =⎛ ⎞α + β ⋅⎜ ⎟⎝ ⎠
∑
∑ ∑
wobei Dijk als Dummy für i beschreibt, ob k = j (1 ja, 0 nein) und mit den indi-viduellen Charakteristika xi interagiert wird. ijk iD x⋅ ist für alle Beobachtungen
0, für die k ≠ j. Die Koeffizienten β1 werden auf 0 normalisiert. Ohne Berück-
sichtigung der Parameter α ergibt sich ein multinomiales Logitmodell.
• Beispiel: Wie geht man angeln und wie lässt sich diese Wahl modellieren?
Erklärende Variablen: individuelles Einkommen, Preise und Fangraten der
Kategorien
4–31
Fishing Mode Multinomial Choice: Data Summary
Sub sample Averages y = 1 y = 2 y = 3 y = 4 All y Explanatory Variable Beach Pier Private Charter Overall Income ($ 1.000s per month) 4.052 3.387 4.654 3.881 4.099 Price beach ($) 36 31 138 121 103 Price pier ($) 36 31 138 121 103 Price private ($) 98 82 42 45 55 Price charter ($) 125 110 71 75 84 Catch rate beach 0.28 0.26 0.21 0.25 0.24 Catch rate pier 0.22 0.20 0.13 0.16 0.16 Catch rate private 0.16 0.15 0.18 0.18 0.17 Catch rate charter 0.52 0.50 0.65 0.69 0.63 Sample probability 0.113 0.151 0.354 0.382 1.000 Observations 134 178 418 452 1182
4–32
Es lassen sich alternativen-spezifische, individuen-spezifische und gemisch-
te Modelle schätzen:
4–33
Fishing Mode Multinomial Choice: Logit Estimates
Model type Regressor Type Coefficient CL MNL MixedPrice (P) Specific αP -0.021 - -0.025Catch rate (C) Specific αCR 0.953 - 0.358Intercept Invariant β01:Beach (Ref.) - 0.0 0.0 β02: Pier - 0.814 0.778 β03: Private - 0.739 0.527 β04: Charter - 1.341 1.694Income (I) Invariant β11: Beach(Ref.) - 0.0 0.0 β12: Pier - -0.143 -0.128 β13: Private - 0.092 0.089 β14: Charter - -0.032 -0.033ln L -1311 -1477 -1215Pseudo-R2 0.162 0.099 0.258
4–34
MLE estimates are for conditional logit (CL), multinomial logit (MNL), and mixed logit (Mixed) models. MNL and Mixed models are normalized to base category beach.
Im CL-Modell lassen sich die Vorzeichen interpretieren, αP < 0 bedeutet,
dass eine Alternative seltener gewählt wird wenn ihr Preis steigt. Umgekehr-
tes gilt für die Fangrate mit αCR > 0. Die anderen Koeffizienten können nur
hinsichtlich der Zusammenhänge von Wahrscheinlichkeitsverhältnissen in-
terpretiert werden.
(Quelle: Cameron & Trivedi 2005 15.2)
4–35
4.3 Multinomiales Probit Modell
• Modell
Annahmen des MNL und Conditional Logit: εij ist unabhängig und identisch
extremwertverteilt. Dies lässt keine Korrelation der Fehlerterme zu und führt
zum IIA Problem.
Das multinomiale Probit Modell modelliert die möglichen Korrelationen der
Fehlerterme über die Alternativen j hinweg explizit.
• Bei k = 3 Alternativen mit bspw. latentem Nutzen ky *, der modelliert werden
kann mit k kV X'= β :
*1 1 1Y V= + ε
ij ij ijU ' x= β + ε
4–36
*2 2 2Y V= + ε
*3 3 3Y V= + ε
Ann.:
21 1 12 13
22 12 2 23
23 13 23 3
0~ N 0 , mit
0
⎛ ⎞ε σ σ σ⎡ ⎤⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎢ ⎥⎜ ⎟ ⎜ ⎟ε = σ σ σ⎜ ⎟ ⎢ ⎥⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎢ ⎥ε σ σ σ⎝ ⎠ ⎝ ⎠ ⎣ ⎦⎝ ⎠
∑ ∑
• Man betrachtet wieder:
( ) ( )* * * *i 1 2 1 3P y 1 P Y Y ,Y Y= = > >
( )1 2 2 1 1 3 3 1P V V ,V V= − > ε − ε − > ε − ε
( )12 21 13 31P V , V= > η > η
4–37
wobei
12 1 2 13 1 3V V V , V V V= − = −
21 2 1 31 3 1,η = ε − ε η = ε − ε 21
31
0~ N ,
0η ⎛ ⎞⎛ ⎞ ⎛ ⎞
Ω⎜ ⎟⎜ ⎟ ⎜ ⎟η ⎝ ⎠⎝ ⎠ ⎝ ⎠
2 2 21 2 12 1 13 12 23
2 2 21 13 12 23 1 3 13
22
⎡ σ + σ − ⋅σ σ − σ − σ + σ ⎤Ω = ⎢ ⎥σ − σ − σ + σ σ + σ − ⋅σ⎣ ⎦
• Dies bedeutet, dass wir in diesem Modell wie auch im Fall des
multinomialen Logit Modells nur Vergleiche betrachten und eine Alternative j
zur Referenzgröße machen, mit βj = 0.
• Der Beitrag jeder Beobachtung i zur Likelihoodfunktion ist:
4–38
( ) ( )VV 1312
i 21 31 21 31P y 1 f , d d−∞ −∞
= = η η η η∫ ∫
( )diji
i j
L P y j= =∏ ∏ ( )ij ii j
lnL d lnP y j⇔ = ⋅ =∑ ∑
• Die Schätzung des multinomialen Probits ist rechnerisch aufwendig (Greene
gibt als Vergleichsgröße an: 1 Sek. für MNL, 10 Min. für MNP). Je mehr Al-
ternativen, umso rechenaufwendiger ist das Verfahren.
• Die Interpretation erfolgt typischerweise über die Berechnung marginaler Ef-
fekte.
4–39
4.4 Modelle für geordnete abhängige Variablen
4.4.1 Allgemeines
• Beispiele: Abhängige Variablen mit geordneten Kategorien:
Wochenarbeitszeit: < 20 Std, 20-30, 30-40, > 40
Schulbildung: keine, Pflicht, Sekundär, Tertiär
• Durch die Ordnung der abhängigen Variable in Kategorien steht Information
zur Verfügung, die bei einer Schätzung mit MNL oder MNP nicht genutzt
wird. Diese Verfahren sind hier anwendbar. Auch ein KQ Schätzer wäre an-
wendbar, würde aber kardinale Interpretation unterstellen und wie im linea-
ren Wahrscheinlichkeitsmodell zu heteroskedastischen Fehlern führen.
4–40
• Grundsätzlich gehen wir bei ordinalen (= geordneten) abhängigen Variablen
von einer unbeobachteten (= latenten) Variable (y*) aus, von der nur eine begrenzte Zahl (J + 1) von Ausprägungen beobachtet wird: *y ' x= β + ε .
• Wir definieren
y = 0 wenn *y 0≤ (Schwellenwert von y*, hier normalisiert auf 0)
y = 1 wenn *10 y< ≤ μ
y = 2 wenn *1 2yμ < ≤ μ
…
y = J wenn *J 1 y−μ <
bzw. allgemein
4–41
y = j für *j 1 jy−μ < ≤ μ
• Die Schwellenwert-Parameter jμ werden gemeinsam mit β geschätzt.
• Es finden sich zwei äquivalente Darstellungen: Entweder es gibt J-1 Schwel-
lenwerte, der erste ist auf 0 normalisiert und eine Konstante wird mit ge-
schätzt oder man schätzt J Schwellenwerte und berücksichtigt keine Reg-
ressionskonstante (beachte: Wir betrachten J + 1 Alternativen, da wir mit y =
0 anfangen).
• Beispiel: Bei 4 Alternativen (J+1 = 4) sind 3 Parameter identifizierbar. Ent-
weder man schätzt 3 Schwellenwerte ohne Konstante, oder 2 Schwellen-
werte mit Konstante. im letzteren Fall wird ein Schwellenwert auf 0 gesetzt.
• Als Elemente der Likelihoodfunktion erhalten wir: 4–42
( ) ( )i iP y 0 F 'x= = −β
( ) ( ) ( )i 1 i iP y 1 F 'x F ' x= = μ −β − −β
( ) ( ) ( )i 2 i 1 iP y 2 F ' x F ' x= = μ −β − μ −β
...
( ) ( )i J 1 iP y J 1 F 'x−= = − μ −β
Hier enthält xi eine Konstante. Um sicherzugehen, dass wir nur positive Wahrscheinlichkeiten erhalten, wird unterstellt: 1 2 J 10 ... −< μ < μ < < μ .
4–43
yi=0 yi=1 yi=2 yi=3
• Je nach angenommener Verteilung für ε erhalten wir das geordnete Probit
oder das geordnete Logit Schätzverfahren.
• Dabei werden ohne Konstante J - 1 Schwellenwerte und K - 1 Steigungspa-
rameter geschätzt, also deutlich weniger Parameter als im Fall des multinomialen Logitschätzers: ( )K J 1⋅ − .
ε
'x−β 1 ' xμ − β 2 ' xμ − β
f (εi | xi)
4–44
4.4.2 Geordnetes Probit Modell
• Wenn wir für ε eine Normalverteilung unterstellen, erhalten wir das geordne-
te Probit-Modell. Wir ersetzen F durch Ф und definieren:
ijZ 1= wenn Yi in der Kategorie j ist
ijZ 0= wenn Yi nicht in der Kategorie j ist
i = 1, 2,..., N individuelle Beobachtungen,
j = 1, 2,..., J Kategorien der abhängigen Variable (jetzt Zählung ab 1).
• Es gilt: ( ) ( ) ( )ij j i j 1 iP Z 1 ' x ' x−= = Φ μ −β −Φ μ −β
und für die Likelihoodfunktion:
4–45
( ) ( )ZijN J
j i j 1 ii 1 j 1
L ' x ' x−= =
⎡ ⎤= Φ μ −β −Φ μ −β⎣ ⎦∏ ∏
( ) ( )N J
ij j i j 1 ii 1 j 1
lnL Z ln ' x ' x−= =
⎡ ⎤= Φ μ − β − Φ μ − β⎣ ⎦∑ ∑
• Da die Hessematrix negativ definit ist, konvergiert das Newton-Raphson
Verfahren für den geordneten Probit Schätzer rasch zum globalen Maximum
der Likelihood Funktion.
• Beim geordneten Probitschätzer stellen die geschätzten Koeffizienten nicht
die marginalen Effekte dar. Diese werden wie folgt abgeleitet (z.B. J = 3):
( ) ( ) ( )i i iP y 1 ' x 1 ' x= = Φ −β = −Φ β
( ) ( ) ( )i i iP y 2 ' x ' x= = Φ μ −β −Φ −β
4–46
( ) ( )i iP y 3 1 ' x= = −Φ μ −β
dann ( ) ( ) ( )k k
k
P y 1' x ' x
x∂ =
= −φ β ⋅β = −φ −β ⋅β∂
( ) ( ) ( )k
k
P y 2' x ' x
x∂ =
⎡ ⎤= β ⋅ φ −β − φ μ −β⎣ ⎦∂
( ) ( ) k
k
P y 3' x
x∂ =
= φ μ −β ⋅β∂
• An den Gleichungen für den marginalen Effekt kann man ablesen, dass im
Fall eines positiven Koeffizienten βk bei einem Anstieg von xk die Wahr-
scheinlichkeit von:
4–47
( )iP y 1= fällt, da das Vorzeichen des marginalen Effekts umgekehrt zum
Vorzeichen von βk ist,
( )iP y 3= steigt, da das Vorzeichen des marg. Effektes mit dem von βk
übereinstimmt,
( )iP y 2= sich in unbestimmte Richtung ändert.
• Allgemein lässt sich die Richtung der marginalen Effekte (auch bei J > 3) nur
für die Randkategorien direkt aus den Schätzwerten ablesen.
4–48
• Wenn β > 0 und x 0Δ > Rechtsverschiebung der Kurve: Wahrscheinlichkeit
für Ausprägung 0 sinkt, für Ausprägung 2 steigt, für Ausprägung 1 abhängig
vom Einzelfall.
μ
f(εi | xi)
εi
4–49
• Über das Konzept der kompensierenden Variation lässt sich der relative
Einfluss verschiedener erklärender Variablen deutlich machen. Man betrach-
tet die Änderung einer Variablen x2, die erforderlich ist, um eine Änderung in
x1 auszugleichen, so dass Δ y* = 0. Dies erfordert
1 21 1 2 2
2 1
xx xxΔ β
β Δ = β Δ ⇔ =Δ β
• Beispiel: Wenn y* die unbeobachtete Lebenszufriedenheit darstellt, x1 das
Einkommen und x2 das Alter messen und sowohl Alter wie Einkommen posi-
tiv mit der Lebenszufriedenheit korrelieren, dann gibt β2 / β1 an, wie stark
das Einkommen steigen müsste, um den Zufriedenheitseffekt eines weiteren
Altersjahres zu erreichen.
4–50
4.4.3 Geordnetes Logit Modell
• Wenn wir für ε eine logistische Verteilungsfunktion unterstellen, erhalten wir
das geordnete Logit Modell.
• Hier gilt:
( ) ( )( )i 1P y 1 1/ 1 exp x'⎡ ⎤= = + − μ − β⎣ ⎦
( ) [ ( )( ) ]}{ [ ( )( ) ]}{i j j 1P y j 1/ 1 exp x ' 1/ 1 exp x '−= = + − μ − β − + − μ − β
( ) ( )( ){ }i J 1P y J 1 1 / 1 exp x '−⎡ ⎤= = − + − μ − β⎣ ⎦
• Damit keine negativen Wahrscheinlichkeiten resultieren, müssen die Schwellenwerte wieder die Bedingung 1 2 J 1... −μ < μ < < μ erfüllen.
4–51
• Die Likelihoodfunktion wird bestimmt wie im Fall des geordneten Probitmo-
dells.
• Beispiel: Jobkategorien von Bankangestellten (Textsammlung)
Die abhängige Variable kann nach Einkommen geordnet werden: Haus &
Technik < Verwaltung < Management. Wir betrachten die Schätzergebnisse
eines geordneten Logit-Modells:
4–52
Variable Coefficient Std. Error z-Statistic Prob. EDUC 0.870 0.089 9.764 0.000 MINORITY -1.056 0.375 -2.814 0.004 LIMIT_2:C(3) 7.852 1.004 7.914 0.000 LIMIT_3:C(4) 14.17 1.429 9.913 0.000 Log likelihood -130.31 Akaike info criterion 1.0412 Restr. log likelihood -231.34 Schwarz criterion 1.0963 LR statistic (2df) 202.04 Probability (LR stat) 0.0000
Wie erwartet, ist das Vorzeichen von Bildung positiv, das für Minderheiten
negativ; beide sind signifikant von Null verschieden. Der LR-Test weist auf
Gesamtsignifikanz des Modells hin.
Bei Schätzung eines geordneten Probitmodells sind die Ergebnisse ähnlich:
4–53
Variable Coefficient Std. Error z-Statistic Prob.EDUC 0.479 0.046 10.27 0.000MINORITY -0.509 0.213 -2.379 0.017LIMIT_2:C(3) 4.443 0.556 7.982 0.000LIMIT_3:C(4) 7.843 0.744 10.53 0.000Log likelihood -131.20 Akaike info criterion 1.048Restr. log likelihood -231.34 Schwarz criterion 1.103LR statistic (2df) 200.27 Probability (LR stat) 0.0000
Es lässt sich zeigen, wie stark eine Erhöhung der Bildung um 4 Jahre die
Verteilung der abhängig'en Variable verändert: y* = β' xi + εi, unterstellt, σ2 =
1, verschiebt sich y* um 4 × 0,479 nach rechts.
4–54
Eine kompensierende Variation der Bildung, die ausreicht, den Nachteil aus
dem Minderheitenstatus auszugleichen, beträgt mindestens ein Jahr, bzw.
genau 0,5090,479
= 1,063 Jahre.
Verteilung für Non-Minorities mit 12 und 16 Jahren Schulbildung:
(Quelle: Heij et al., 2004, 6.5 S.477ff)
4–55
4.4.4 Allgemeine Anmerkungen
• Die Likelihoodfunktion für das geordnete Logit- und das geordnete Probit-
modell ist global konkav. Die Schätzergebnisse beider Verfahren sind typi-
scherweise sehr ähnlich.
• Beim geordneten Probit wird eine Standardnormalverteilung für den Fehler-
term unterstellt. Wäre die Fehlervarianz in Wahrheit 4 statt 1, so wären die
wahren Parameter doppelt so groß wie die geschätzten, da von einer Stan-dardabweichung für ε von 1 ausgegangen wird; nur β σ ist identifiziert.
• Eine Normierung für Logit und Probit Modelle besteht darin, dass entweder
eine Regressionskonstante geschätzt und µ1 = 0 gesetzt wird, oder keine
4–56
Regressionskonstante berücksichtigt wird und µ1 frei geschätzt wird (STATA
schätzt ohne Konstante).
• Voraussetzung sinnvoller Anwendung der Verfahren ist, dass die Ausprä-
gungen der abhängigen Variablen eine natürliche Ordnung besitzen. Wen-
det man das Modell für nicht geordnete Zusammenhänge an, so sind die
Parameter verzerrt und inkonsistent.
• Man kann ungeordnete Schätzverfahren für geordnete abhängige Variablen
anwenden. Dies ist ineffizient, aber konsistent, und im Zweifelsfall die kon-
servativere Vorgehensweise.
• Die marginalen Effekte in geordneten Modellen lassen sich allgemein dar-
stellen als:
4–57
( ) ( ) ( ) ( )ijk i k j i j 1 i
ik
P y jME x f x f x
x +
∂ =⎡ ⎤′ ′= = β μ − β − μ − β⎣ ⎦∂
Daraus folgt, dass in diesen Modellen die relativen Größen der marginalen
Effekte verschiedener erklärender Variablen über alle Ausprägungskatego-
rien gleich groß sind:
( )( )
jk i k
jm i m
ME xME x
β=β
• Damit ist ausgeschlossen, dass die relative Bedeutung einer erklärenden
Variablen für unterschiedliche Ordungskategorien unterschiedlich ausfällt.
• Eine weitere Restriktion der Modelle liegt darin, dass beim Übergang von
den unteren zu den oberen Ordnungskategorien die marginalen Effekte
4–58
entweder erst negativ dann positiv sind oder umgekehrt. Ein weiterer Vor-
zeichenwechsel ist nicht möglich.
• Diese Restriktionen können durch flexiblere Modelle umgangen werden.
Hierzu zählen MNL und MNP Modelle, sowie Verallgemeinerte Schwellen-
wert Modelle (Generalized Threshold Models), die die Schwellenwerte μ als lineare Funktionen der erklärenden Variablen modellieren: ij j ix′μ = μ + γ und
den Vektor γ mit schätzen.
4–59
• Zum Schluß: Praxisrelevanz von Verfahren für multivariate und ordinale
abhängige Variablen
− große Bedeutung im Bereich der Produktnachfrageforschung, z.B. Jog-
hurt-Sorten-Nachfrage mit Konsumentendaten erforscht
− sehr flexible Modellierung der abhängigen kategorischen Variablen
− Neuentwicklungen bei Verwendung von verzögerten abhängigen Variab-
len auf der rechten Seite.
− Neue Interpretationsdimension "state dependence" im Sinne von bspw.
"macht Transferbezug abhängig?"
4–60
− Modelle auch wichtig bei Simulationsrechnungen für Arbeitsangebots-
wirkungen von Reformen, z.B. "erhöht Abschaffung des Ehegattensplit-
tings die Erwerbsneigung verheirateter Frauen?"
4–61
Literatur: Cameron Colin A. und P.K. Trivedi, 2005, Microceconometrics. Methods and
Applications, Cambridge: Cambridge University Press. Kapitel 15 Cameron Colin A. und P.K. Trivedi, 2009, Microceconometrics Using Stata,
Stata Press. Kapitel 15 Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice
Hall, 6. Auflage. Kapitel 23.10 – 23.11. Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley &
Sons, 3. Auflage. Kapitel 7.2. Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer
Verlag, Heidelberg, Kapitel 5, 6. Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel
Data, Cambridge: The MIT Press. Kapitel 15.9 - 15.10.
5. Tobitmodelle
5.1 Einführung
5.2 Gestutzte Daten
5.3 Zensierte Daten
5-2
5.1 Einführung
• Gestutzte Verteilung ("truncated distribution"): Der Teil einer nicht ge-
stutzten Verteilung, der oberhalb eines unteren (US) oder unterhalb eines
oberen Schwellenwertes (OS) liegt.
• Beispiele:
- Verteilung der Klausurnoten derjenigen, die bestanden haben
- Einkommensverteilung derjenigen, die weniger verdienen als der Me-
dian
- Arbeitsangebot am Fabriktor erfragt - keine 0 Werte.
5-3
• Grafisch:
• Zensierte Verteilung ("censored distribution"): Beobachtungen jenseits
des Schwellenwertes werden dem Schwellenwert zugewiesen.
• Beispiele:
- Nachfrage nach Eintrittskarten wenn Veranstaltung ausverkauft
- Ausgaben für langlebige Konsumgüter: unterhalb eines Mindestpreises
beträgt der Wert 0.
OS US
5-4
- "Top coding" in Umfragen, z.B. obere Grenze des ausgewiesenen Ver-
mögens 5 Mio € für alle mit ≥ 5 Mio €.
• Grafisch:
• Zensierte Beobachtungen stehen für die Analyse zur Verfügung, "gestutzte"
nicht.
OS US
5-5
5.2 Gestutzte Daten
5.2.1 Allgemeines zur gestutzten Verteilung
• Die Dichtefunktion der am Schwellenwert A von unten gestutzten Zufallsva-
riable y lautet
( ) ( ) ( )f y y A f y Pr y A> = > .
• Bei normalverteilter Zufallsvariable y, ( )2y ~ N ,μ σ mit
( ) ( )( ) ( )Pr y A 1 A 1> = − Φ − μ σ = − Φ α und A − μα =
σ folgt:
( ) ( ) ( )f y y A f y 1⎡ ⎤> = − Φ α⎣ ⎦ ( ) ( )
1 y
f y1
− μ⎛ ⎞⋅ φ⎜ ⎟σ σ⎝ ⎠= >− Φ α
wobei 5-6
( ) 21 1y exp y22
⎛ ⎞φ = ⋅ −⎜ ⎟π ⎝ ⎠ wenn ( )y ~ N 0,1
( )y
21 1y exp t dt22−∞
⎛ ⎞Φ = ⋅ −⎜ ⎟π ⎝ ⎠∫ wenn ( )y ~ N 0,1
• Die Dichtefunktion für gestutzte Zufallsvariable unterscheidet sich von der
für ungestutzte Zufallsvariable durch den Korrekturfaktor im Nenner.
• φ und Φ sind Dichte- und kumulative Verteilungsfunktion der Standardnor-
malverteilung.
• Der Erwartungswert von y steigt, wenn y von unten gestutzt wird und fällt,
wenn y von oben gestutzt wird. Stutzen reduziert die Varianz von y.
5-7
• Theorem: Für ( )2y ~ N ,μ σ und bei konstantem Schwellenwert A gilt:
( ) ( )E y gestutzt = μ + σ ⋅ λ α
( ) ( )( )2Var y gestutzt 1= σ − δ α
wobei: ( )Aα = − μ σ
und ( ) ( ) ( )1⎡ ⎤λ α = φ α − Φ α⎣ ⎦ , wenn von unten gestutzt und y A> ,
( ) ( ) ( )⎡ ⎤λ α = −φ α Φ α⎣ ⎦ , wenn von oben gestutzt und y A< .
( ) ( ) ( )⎡ ⎤δ α = λ α ⋅ λ α − α⎣ ⎦ , für alle α mit ( )0 1< δ α < .
5-8
5.2.2 Regression auf gestutzte abhängige Variablen
• Modell:
( ) ( )2 2i i i i i iy ' x , ~ N 0, y ~ N ' x ,= β + ε ε σ => β σ
• Bei Stutzung von unten beobachten wir nur iy A>
( ) ( )i iPr y beobachtet Pr y A= >
( )i iPr ' x A= β + ε > ( )i iPr A ' x= ε > − β
( )( )i i1 Pr A ' x= − ε σ ≤ − β σ
( )( ) ( ) ( )i i i1 A ' x 1= − Φ −β σ = − Φ α = Φ −α
mit ii
A ' x− βα =
σ
5-9
( )
( )
i
i i ii
i i
A ' x
E y y A ' xA ' x1
' x
− β⎛ ⎞φ ⎜ ⎟σ⎝ ⎠> = β + σ ⋅− β⎛ ⎞− Φ ⎜ ⎟σ⎝ ⎠
= β + σ ⋅ λ α
( ) ( )( )2i i iVar y y A 1> = σ − δ α < ( )iVar y
• Im Vergleich zum ungestutzten Modell verschieben sich Erwartungswert und
Varianz (s. Theorem).
• Marginale Effekte auf die ungestutzte (latente) abhängige Variable:
( )i ij jE y x∂ ∂ = β
• Marginale Effekte auf die gestutzte (beobachtete) abhängige Variable:
5-10
( ) ( ){ }i i ij i i ijE y y A x ' x x∂ > ∂ = ∂ β + σ ⋅ λ α ∂
i ij
i ijx∂ λ ∂ α
= β + σ ⋅ ⋅∂ α ∂
( )( )i
i jj
i
1⎛ ⎞φ α
∂ ⎜ ⎟− Φ α −β⎛ ⎞⎝ ⎠= β + σ ⋅ ⋅ ⎜ ⎟∂ α σ⎝ ⎠
( ) j2j i
−β⎛ ⎞⎡ ⎤= β + σ ⋅ λ ⋅ −α + λ ⋅ ⎜ ⎟⎣ ⎦ σ⎝ ⎠
( )2j i i i1= β ⋅ − λ + α ⋅ λ
( )( )j i i i1= β ⋅ − λ λ − α
5-11
( )( )j i1= β ⋅ − δ α
Hinweis: ( ) ( ) ( ) ( ) ( ) ( )i
i i ii
; / 1∂φ α
⎡ ⎤= φ α ⋅ −α λ α = φ α −Φ α⎣ ⎦∂α.
Da für alle α gilt ( )0 1< δ α < , ist der marginale Effekt bei Stutzung kleiner als
ohne Stutzung.
• Der marginale Effekt wird für die Stichprobe berechnet, muss daher um den
Effekt der Stutzung korrigiert werden. Der Koeffizient β wird für die Bevölke-
rung geschätzt, eine Korrektur ist nicht erforderlich.
5-12
5.2.3 KQ-Schätzung gestutzter abhängiger Variablen
• Grafisch (Stutzung von oben):
• Formal :
Ungestutzt ( )2i i i iy ' x , ~ N 0,= β + ε ε σ
( )iE y ' x= β
Gestutzt ( ) ( )i i iE y ' x= β + σ ⋅ λ α
Verzerrte Schätzung
wahr
x
y
5-13
... erforderliche Schätzgleichung bei Schätzung mit KQ::
( )i i i iy ' x= β + σ ⋅ λ α + ε mit ii
A ' x− βα =
σ
• Wenn nur auf β′xi regressiert:
(a) Verzerrung wegen ausgelassener Variablen
( ) ( )
( )i i i i i
i i i
E |y A E | ' x A
E | A ' x 0
ε < = ε β + ε <
= ε ε < − β ≠
da E(εi) = g(xi) folgt E(εi xi) ≠ 0
(b) heteroskedastische Fehler.
5-14
5.2.4 Schätzung mit Maximum Likelihood
• Modell: * *i i i i
i
y ' x wenn y Ay
unbeobachtet sonst= β + ε >⎧
= ⎨⎩
mit iy * als unbeobachteter, latenter Variable
( )N
i ii 1
L f y y * A=
= >∏
mit
( )i i
i ii
y ' x1
f y y * AA ' x1
− β⎛ ⎞⋅ φ⎜ ⎟σ σ⎝ ⎠> =− β⎛ ⎞− Φ⎜ ⎟σ⎝ ⎠
5-15
folgt:
( )
2
i i
N
A ' xii 1
y ' x1 1 1exp22
L
1 z dz
−β= σ
−∞
⎧ ⎫− β⎛ ⎞⎪ ⎪⋅ ⋅ −⎨ ⎬⎜ ⎟σ σπ ⎝ ⎠⎪ ⎪⎩ ⎭=
− φ
∏∫
( ) ( )N N
22 ii i2
i 1 i 1
A ' xN 1lnL ln2 ln y ' x ln 12 2 = =
⎡ ⎤− β⎛ ⎞= − ⋅ π + σ − ⋅ − β − −Φ⎢ ⎥⎜ ⎟σ σ⎝ ⎠⎣ ⎦∑ ∑
Der letzte Term korrigiert für die Stutzung.
• Ergibt konsistente und asymptotisch effiziente Schätzer, solange ( )2
i ~ N 0,ε σ .
5-16
• Beispiel 1: Hausman & Wise, 1977, Econometrica 45(4), 919-938.
Daten aus "negative income tax experiment" für Personen mit Einkommen
von bis zum 1,5-fachen der Armutsgrenze. Gesucht sind konsistente Schät-
zer der Effekte von Ausbildung und Intelligenz auf das logarithmierte
Burttoeinkommen des Vorjahres
Stichprobe: Männliche Haushaltsvorstände (N=684).
Schätzergebnisse:
5-17
Least Squares Maximum Likelihood Ratio Variable Estimate (S.E.) Estimate (S.E.) ML ÷ LS Constant 8.203 9.102 1.11 (0.091) (0.026)Education 0.010 0.015 1.54 (0.006) (0.007)IQ 0.002 0.006 3.81 (0.002) (0.005)Training 0.002 0.007 2.95 (0.002) (0.003)Union 0.090 0.246 2.74 (0.031) (0.089)Illness -0.076 -0.226 2.97 (0.038) (0.107)Age Linear -0.003 -0.016 5.40 (0.002) (0.005) R2 = 0.095 x2(676) = 706.5
5-18
• Beispiel 2 (Textsammlung, Handout):
Heij et al., Beispiel 6.6, S. 488-490
5-19
5.3 Zensierte Daten
5.3.1 Zur zensierten Verteilung
• Nutzt das Konzept latenter Variablen:
*iy = Betrag, den i für Gut y ausgeben möchte.
• Beobachtet wird yi:
iy A= falls *iy A≤ (A = untere Schwelle z.B. niedrigster Preis, typisch A=0)
*i iy y= falls *
iy A>
• Theorem: Wenn ( )* 2y ~ N ,μ σ
und A wenn y* A und
yy * sonst
≤⎧= ⎨⎩
5-20
dann: ( ) ( ) ( ) ( )E y A 1⎡ ⎤= Φ α ⋅ + − Φ α ⋅ μ + σλ⎣ ⎦
und: ( ) ( ) ( ) ( ) ( ){ }22Var y 1 1⎡ ⎤= σ −Φ α ⋅ − δ + α − λ ⋅Φ α⎣ ⎦
wobei: ( ) ( ) ( )*A P y Aα = − μ σ Φ α = ≤
( ) ( ) 21⎡ ⎤λ = φ α − Φ α δ = λ − λ ⋅α⎣ ⎦
5-21
5.3.2 Regression auf zensierte Daten "Tobit Modell"
• Modell: *i i iy ' x ,= β + ε ( )2
i ~ N 0,ε σ
iy 0= für *iy 0≤
*
i iy y= für *iy 0>
• Alternativen:
– Konstante A nimmt Schwellenwert statt 0 an. Hat keinen Einfluss auf die
Schätzung, wird in der Regressionskonstanten aufgefangen.
– Individuelle Schwellenwerte Ai. Wenn die Werte bekannt sind, ist dies
modellierbar, z.B. als Ai = α‘xi.
– Zensierung von oben. 5-22
• 3 mögliche Formulierungen für Erwartungswerte:
i. Erwartungswert der unzensierten latenten Variable: ( )*i iE y ' x= β .
Wenig interessant, da *iy nur zensiert beobachtbar.
ii. Erwartungswert der gestutzten Verteilung
( ) ( )*i i i i i iE y y 0 ' x E 0 ' x> = β + ε ε > − β
( )( )
ii
i
' x' x
1 ' x⎡ ⎤φ −β σ
= β + σ ⋅ ⎢ ⎥− Φ −β σ⎢ ⎥⎣ ⎦
( )( )
ii
i
' x /' x
' x /⎡ ⎤φ −β σ
= β + σ ⋅ ⎢ ⎥Φ β σ⎢ ⎥⎣ ⎦
(∗)
i' x= β + σ ⋅ λ
5-23
iii. Erwartungswert der gesamten Bevölkerung, d.h. Erwartungswert der zen-
sierten Verteilung:
Bei Schwellenwert A = 0 gilt ( ) ( ) ( )* *i i i iE y E y y 0 P y 0 0= > ⋅ > +
• Der Erwartungswert der gesamten Bevölkerung ist das Produkt der Wahr-
scheinlichkeit, unzensiert zu sein und des Erwartungswertes der gestutzten
Verteilung (solange A = 0).
• Daher lässt sich aus (∗) durch Multiplikation für unseren Fall ableiten:
( ) i ii i
' x ' xE y ' x β −β⎛ ⎞ ⎛ ⎞= β ⋅Φ + σ ⋅ φ⎜ ⎟ ⎜ ⎟σ σ⎝ ⎠ ⎝ ⎠
bzw. genauer:
5-24
( ) ( ) ( ) ( ) ( )* * *i i i i i i iE y P y 0 E y y 0 P y 0 E y y 0= > ⋅ > + = ⋅ ≤
( )i i
i
' x ' x' x 1 0⎡ ⎤β β⎛ ⎞ ⎛ ⎞= Φ ⋅ β + σ ⋅ λ + −Φ ⋅⎢ ⎥⎜ ⎟ ⎜ ⎟σ σ⎝ ⎠ ⎝ ⎠⎣ ⎦
• Welcher Erwartungswert relevant ist, variiert mit der Fragestellung.
• Beispiel: Nachfrage nach Eintrittskarten wegen Platzbegrenzung nur von oben zensiert messbar. Für den Veranstalter ausreichend: ( )*
i iE y y A< , für
Stadionplaner von Interesse: ( )iE y * .
• Beispiel: Wenn die bei 0 zensierte Variable „gearbeitete Stunden“ betrach-
tet wird, dann ist Erwartungswert (i) die gewünschte Anzahl Arbeitsstunden,
(ii) die Arbeitszeit der erwerbstätigen Bevölkerung und (iii) die Arbeitszeit für
erwerbstätige und nichterwerbstätige Personen.
5-25
• 3 mögliche marginale Effekte:
(i) Marginaler Effekt auf die latente Variable:
( )*i ij jE y x∂ ∂ = β
(ii) Marginaler Effekt auf die gestutzte Verteilung von y:
( ) ( ) ( )( )* 2i i ij j i i i jE y y 0 x 1 1∂ > ∂ = β ⋅ − λ + α ⋅ λ = β − δ α
(iii) Marginaler Effekt auf eine Zufallsziehung aus der gesamten Bevölkerung,
beziehungsweise auf die zensierte Variable:
Da ( ) ( ) ( )* *i i i iE y P y 0 E y y 0= > ⋅ > (bei Schwellenwert von 0):
5-26
( ) ( ) ( ) ( ) ( )* * * *i ij i i i ij i i i ijE y x Pr y 0 E y y 0 x E y y 0 Pr y 0 x∂ ∂ = > ⋅ ∂ > ∂ + > ⋅ ∂ > ∂
Zweiteilig, da eine Änderung in xij sowohl einen Effekt auf den Erwar-
tungswert als auch auf die Wahrscheinlichkeit der Beobachtung hat.
Es lässt sich zeigen, dass ( ) ( )i ij j iE y / x ' x /∂ ∂ = β ⋅Φ β σ , so dass der mar-
ginale Effekt von xj sowohl vom Koeffizienten βj abhängt als auch von der
Wahrscheinlichkeit, nicht zensiert zu sein (Theorem 24.4, Greene 6.A., S.
873).
5-27
5.3.3 Schätzung zensierter abhängiger Variablen mittels KQ
• Graphisch (Zensiert von unten bei 0)
y*
y
x
wahr
KQ mit 0 Werten
zensiert
5-28
• 2 Möglichkeiten für KQ-Schätzer, mit und ohne zensierte Beobachtungen:
(i) Berücksichtigung nur von Beobachtungen oberhalb des Schwellenwer-tes: ergibt verzerrte und inkonsistente Schätzer, da ( )E 0ε ≠ , Daten sind
gestutzt.
(ii) Berücksichtigung auch der zensierten Beobachtungen. Graphik macht
Verzerrung deutlich. Für A = 0:
( ) ( ) [ ]i i iE y ' x= Φ α ⋅ β + σ ⋅ λ ( ) ( )i i' x= Φ α ⋅β + Φ α ⋅ σ ⋅ λ
• Da Φ(α) in der KQ Schätzung nicht berücksichtigt wird, ist KQ inkonsistent.
Je größer der Anteil der zensierten Beobachtungen, umso verzerrter ist der
Schätzer.
5-29
5.3.4 Schätzung mittels Maximum Likelihood
• Index:
*i 1
i *i 0
1 für y 0 N nicht zensierte BeobachtungenD
0 für y 0 N zensierte Beobachtungen⎧ >
= ⎨≤⎩
• Likelihoodfunktion beschreibt exakt was wir beobachten:
1 D Di iN
i i i
i 1
0 ' x y ' x1L−
=
⎛ ⎞ ⎛ ⎞− β −β⎛ ⎞ ⎛ ⎞= Φ ⋅ ⋅ φ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟σ σ σ⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎝ ⎠∏
Einfluss zensierter Einfluss nicht zensierter
Beobachtungen Beobachtungen
5-30
da ( )2i ii i
22
y ' xy ' x1 1 exp22
⎧ ⎫− −β−β⎛ ⎞ ⎪ ⎪⋅ φ = ⋅ ⎨ ⎬⎜ ⎟σ σ σ⎝ ⎠ πσ ⎪ ⎪⎩ ⎭ ergibt sich:
( ) ( )2N N0 1i i2
i 2i 1 i 1
y ' x1lnL ln ln 2 ln2= =
⎛ ⎞− β= Φ − ⋅ π + σ +⎜ ⎟
⎜ ⎟σ⎝ ⎠∑ ∑
• Der ML Schätzer ist konsistent, asymptotisch normal verteilt, und asympto-
tisch effizient wenn ~ Nε .
5-31
5.3.5 Eigenschaften des ML Tobit unter nicht-idealen Bedingungen
• Bei Heteroskedastie wird der Schätzer inkonsistent.
– LM Test: Schätzen unter der Annahme von Homoskedastie (H0), kompli-
zierte Schätzung bei möglicher Heteroskedastie nicht erforderlich.
– LR Test, erfordert Schätzung unter Annahme von Homo- wie
Heteroskedastie. Eine typische Modellierung von Heteroskedastie ist z.B. ( )2 2
i iexp ' xσ = σ ⋅ α . Dann wird getestet: 0H : 0α = .
• Nicht normalverteilte ε führen zu inkonsistenten Schätzern.
• Beispiel 1: Greene, 5.A., Beispiel 22.4 (Handout, Textsammlung)
5-32
Fragestellung: Sichern sich Frauen gegen das Risiko der Ehescheidung
durch höheres Arbeitsangebot ab?
Abhängige Variable: Pro Jahr gearbeitete Stundenzahl, bei 0 zensiert für 71
Prozent der weißen und 54 Prozent der schwarzen Frauen. Für jede Frau
wurde die Scheidungswahrscheinlichkeit vorhergesagt und in 3 Indikatorva-
riablen (low, mean, high) kodiert. Ergebnisse der Tobitschätzung:
5-33
White Wives Black Wives Least Coeff. M.E. Coeff. M.E. SquaresConstant -1803.13 -2753.87 (-8.64) (-9.68) Small kids -1324.84 -385.89 -824.19 -376.53 -352.63 (-19.78) (-10.14) Education difference -48.08 -14.00 22.59 10.32 11.47 (-4.77) (1.96) Relative wage 312.07 90.90 286.39 130.93 123.95 (5.71) (3.32) Second marriage 175.85 51.51 25.33 11.57 13.14 (3.47) (0.41) Mean divorce probability 417.39 121.58 481.02 219.75 219.22 (6.52) (5.28) High divorce probability 670.22 195.22 578.66 264.36 244.17 (8.40) (5.33) σ 1559 618 1511 826 Sample size 7459 2798 Proportion working 0.29 0.46
5-34
Hohes Scheidungsrisiko scheint mit hohem Arbeitsangebot assoziiert zu
sein. Hier ergibt sich Korrelation aber keine Kausalität, die Wirkungsrichtung
könnte auch umgekehrt sein. Interpretierbar sind Vorzeichen und Signifikanz
der Koeffizienten sowie die Stärke der marginalen Effekte.
• Beispiel 2: Heij et al., Beispiel 6.7 (Handout, Textsammlung)
5-35
5.3.6 Schlussbemerkungen: Tobit Modell
5.3.6.1 Viele besondere Verwendungen:
• Zweifach zensierter Tobit
Modell: *i iy ' x= β + ε ( )2
i ~ N 0,ε σ
U * Ui i i* U * O
i i i i iO * Oi i i
y für y yy y für y y y
y für y y
<⎧⎪= ≤ ≤⎨⎪ >⎩
iy
*iy
Uiy O
iy
5-36
U Oi i i i i i
* U U * O * Oy y y y y y yi i i i i i i
y ' x y ' x y ' x1L 1< ≤ ≤ >
⎡ ⎤− β −β −β⎛ ⎞ ⎛ ⎞⎛ ⎞= Φ ⋅ ⋅ φ ⋅ − Φ⎢ ⎥⎜ ⎟ ⎜ ⎟⎜ ⎟σ σ σ σ⎝ ⎠⎝ ⎠ ⎝ ⎠⎣ ⎦∏ ∏ ∏
• Multivariates Tobit Modell
Modell:
( ) ( )*1i 1 i i1 1i 2iy ' x u u ,u ~ N 0,= β + Σ
*
2i 2 i i2y ' x u= β + 2
1 122
12 2
σ σ⎡ ⎤Σ = ⎢ ⎥σ σ⎣ ⎦
*
1i1i *
1i
1 falls y 0y
0 falls y 0>⎧
= ⎨≤⎩
z.B. Erwerbsbeteiligung
*
2i 1i2i *
1i
y falls y 0y
falls y 0>⎧
= ⎨− ≤⎩
z.B. Lohn wenn beschäftigt
5-37
( ) ( ) ( )y1 y 1i1i* * *
i1 2i 1i i1L P y 0 f y y 0 P y 0− ⎡ ⎤⎡ ⎤= ≤ ⋅ > ⋅ >⎣ ⎦ ⎣ ⎦∏ ∏
• Panel Tobit (Random Effect)
Durch das ″incidental parameter problem″ würde ein standard fixed effects
Tobit Modell inkonsistent. Daher findet man typischerweise random effects
Ansätze:
Modell: *it it i ity ' x= β + α + ε
*it ity y= falls *
ity 0>
ity 0= falls *ity 0≤
Wenn αi und εit i.i.d. normalverteilt sind mit ( )2i ~ N 0, αα σ und ( )2
it ~ N 0, εε σ
lautet der Beitrag von i zur Likelihoodfunktion: 5-38
( ) ( ) ( )i i1 iT i1 iT it it i i it
L y ,...,y x ,...,x , f y x , , f d∞
−∞
β = α β α α∏∫
wobei
( )
( )2it it iit22
it it i
it iit
y ' x1 1exp falls y 022
f y x , ,' x
1 falls y 0
εε
ε
⎧ ⎧ ⎫− β − α⎪ ⎪⎪ ⋅ − ⋅ >⎨ ⎬σ⎪ πσ ⎪ ⎪⎩ ⎭α β = ⎨
⎛ ⎞⎪ β + α−Φ =⎜ ⎟⎪ σ⎝ ⎠⎩
und
( )
2i
i 22
1 1f exp22 αα
⎧ ⎫αα = ⋅ − ⋅⎨ ⎬
σπσ ⎩ ⎭
5-39
5.3.6.2 Grundsätzliche Bemerkungen
• Eine zensierte abhängige Variable ist nicht vollständig beobachtbar.
• Im Gegensatz zum gestutzten Modell liegen erklärende Variablen für alle
Beobachtungen vor.
• Wichtig, alle vorliegenden Informationen zu nutzen, 0/1 ebenso wie stetige
Ausprägungen. Entsprechend hat die Likelihoodfunktion zwei Teile, einen
Probitteil und einen KQ-Teil.
• Restriktion: Beide Teile werden von den gleichen 'xβ bestimmt. Dies ist
nicht immer plausibel, da die 0/1 Entscheidung andere Determinanten (mit
anderen Koeffizienten) haben kann als die zahlenmäßige Ausprägung (Bei-
spiel: Arbeitsstunden, Löhne, Ausgaben). 5-40
• Solche Zusammenhänge zwischen einer diskreten 0/1 Variablen und einer
stetigen Variablen lassen sich auch allgemeiner schätzen (s. Kapitel 6).
• Darüber hinaus ist die Hypothese identischer Parameter grundsätzlich
testbar.
z.B.: ( ) ( )i 2 i21 i2 2
y 0 y 0i i1 2
y ' x' x 1lnL ln 1 ln 2 ln2= >
⎡ ⎤ ⎡ ⎤− β⎛ ⎞β= − Φ + − π + σ +⎢ ⎥ ⎢ ⎥⎜ ⎟σ σ⎝ ⎠ ⎣ ⎦⎣ ⎦∑ ∑
0 1 2 1 2H : ;β = β σ = σ
1 1 2H : β ≠ β und/oder 1 2σ ≠ σ
(Vgl. Greene 2003, 22.3.4.b)
5-41
• Zum Schluß: Praxisrelevanz von Tobitmodellen
- zensiert verteilte abhängige Variablen kommen häufig vor, bspw. fragen
viele Erhebungen Beträge nur bis zu einer Obergrenze ab, auch administ-
rative Datensätze sammeln Information nur bis zu willkürlichen Bemes-
sungsgrenzen.
- Anwendungen häufig für abhängige Variablen in Form von Anteilen, bspw.
im Bereich der Innovationsökonomie
- Verständnis hilfreich in Bezug auf Stichprobenselektionsverfahren, die in
der Arbeitsmarktökonomie entwickelt wurden, aber in allen Themenberei-
chen Anwendung finden
5-42
Literatur: Cameron Colin A. und P.K. Trivedi, 2005, Microeconometrics. Methods and Ap-
plications, Cambridge: Cambridge University Press. Kapitel 16 Cameron Colin A. und P.K. Trivedi, 2009, Microeconometrics Using Stata, Stata
Press. Kapitel 16 Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice
Hall, 6. Auflage. Kapitel 24.1 – 24.4. Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley &
Sons, 3. Auflage. Kapitel 7.4 – 7.5. Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer
Verlag, Heidelberg, Kapitel 7.1, 7.2. Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel
Data, Cambridge: The MIT Press. Kapitel 16.
6. Selektionsmodelle
6.1 Einführung
6.2 Formales Gesamtmodell
6.3 Schätzansätze
6-2
6.1 Einführung
• 3 Fälle von Stichprobenselektion
Fall 1: Zufällige Auswahl aus der Grundgesamtheit - ist problemlos
Fall 2: Auswahl auf Basis eines exogenen Kriteriums
Fall 3: Auswahl auf Basis eines endogenen Kriteriums
• Beispiele für Fall 3:
(a) Y = Verdienst, Auswahl: Nur Arbeitnehmer
(b) Y = Anzahl von Arztbesuchen, Auswahl: Personen in Wartezimmern.
(c) Y = Bewertung einer Lehrveranstaltung, Auswahl: Teilnehmer am Ende
des Semesters.
6-3
• Konsequenz: Stichprobe unterscheidet sich von Bevölkerung, Auswahlkrite-
rium potentiell korreliert mit der Fragestellung.
• "At the general level, we can say that selection bias arises if the probability
of a particular observation to be included in the sample depends upon the
phenomenon we are explaining." (Verbeek, 3.A., S. 249)
• Man spricht von ignorierbarer Selektion (ignorable selection), wenn die auf
die Selektion bedingte Verteilung sich von der unbedingten Verteilung der
abhängigen Variable nicht unterscheidet:
( ) ( )i i i i if y |x , Auswahl 1 f y |x= = bzw. wenn
( ) ( )i i i i iE y |x , Auswahl 1 E y |x .= =
6-4
Dies zeigt, dass Selektion auf Basis von in xi enthaltenen Merkmalen un-
problematisch ist.
• Beispiel:
Marktlohn mi i 1 1iW X= β + ε
Reservationslohn ri i 2 2iW X= β + ε
Beobachteter Lohn iW
iW 0= wenn ri miW W> (Lohn unbeobachtet)
i miW W= wenn ri miW W≤ (Lohn beobachtet)
Wahrscheinlichkeit, Lohn zu beobachten:
( ) ( )i ri miP W 0 P W W> = ≤
6-5
( )i 2 2i i 1 1iP X X= β + ε ≤ β + ε
( )( )i 2 1 1i 2iP X= β −β ≤ ε − ε , Ann.: ( ) ( )21i 2i 1i 2 iVar , E 0ε − ε = σ ε − ε =
[ ( ) ] [ ( ) ]( )i 2 1 1i 2iP X / /= β −β σ ≤ ε − ε σ
( )i1 Z= −Φ
Ann.: ( )i i 2 1Z X⎡ ⎤= β − β σ⎣ ⎦ und mi = ( ) ( )1i 2i ~ N 0,1ε − ε σ
Werden nur Erwerbstätige beobachtet, so gilt:
( ) ( )mi i i 1 1i iE W W 0 X E W 0> = β + ε >
6-6
EXKURS: Eigenschaften der gestutzten Verteilung
Allgemeinster Fall: ( )2ix ~ N , :μ σ
( ) ( ) ( )( ) ( )
A B
i i B AE x A x B
−μ −μσ σ
−μ −μσ σ
⎡ ⎤φ − φ< < = μ + σ ⋅ ⎢ ⎥
Φ − Φ⎢ ⎥⎣ ⎦
Wenn B = ∞ , d.h. keine obere Stutzung:
( ) ( )( )
A
i i AE x x A
1
−μσ
−μσ
⎡ ⎤φ> = μ + σ ⋅ ⎢ ⎥
− Φ⎢ ⎥⎣ ⎦
EXKURSENDE
Rechtsverschiebung des Erwartungswertes:
( ) ( )( )mi i i 1 1i 1i 2i iE W W 0 X E Z⎡ ⎤> = β + ε ε − ε σ ≥⎣ ⎦
6-7
( )i 1 1i i iX E |m Z= β + ε ≥
( ) ( )( )i 1 1m i iX Z 1 Z⎡ ⎤= β + σ ⋅ φ −Φ⎣ ⎦
( )i 1 1m iX Z= β + σ ⋅ λ
wobei 1mσ = Kovarianz von 1iε und mi, 2m 1σ = und ( )1iE 0ε = .
Bei Stutzung von unten ( ) ( ) ( )( )i i iZ Z 1 Z⎡ ⎤λ = φ −Φ⎣ ⎦
Bei Stutzung von oben ( ) ( ) ( )i i iZ Z Z⎡ ⎤λ = −φ Φ⎣ ⎦
• Im Unterschied zur gestutzten Regression hat die Stutzungsbedingung im Beispiel mit 2iε ein zweites stochastisches Element. Sie ist auch wegen iZ
nicht konstant, sondern variiert über i.
• Schätzgleichung für iW 0≥ : ( )mi i 1 1m i iW X Z v= β + σ ⋅ λ + 6-8
vi ist ein normalverteilter Zufallsstörterm
• Problem 1: ( )iZλ nicht beobachtet, Schätzung ohne Korrektur verzerrt.
• Problem 2: Durch die Auswirkung des Selektionsmechanismus ist ( )iVar v
heteroskedastisch, die Schätzung ist ineffizient.
• Unterschied zu gestutzten / zensierten Modellen:
– Schwellenwert Wri variiert über i
– Wri ist nicht beobachtbar
– Beobachtbarkeit von Wmi ist abhängig vom Verhältnis zwischen Wmi und
Wri.
– Unterschiedliche Prozesse bestimmen Beobachtbarkeit und Ausprägung.
6-9
6.2 Formales Gesamtmodell
• Selektionsmechanismus:
*i i iZ W u= γ + Ann. ( )iu ~ N 0,1
mit iZ 1= für *iZ 0> (Beobachtung in Stichprobe)
Zi = 0 für *iZ 0≤ (Beobachtung nicht in Stichprobe)
( ) ( )*i iP Z 1 P Z 0⇒ = = >
( )i iP u W= > − γ
( ) ( )i iW 1 W= Φ γ = − Φ − γ
( ) ( ) ( )i i iP Z 0 1 W W= = −Φ γ = Φ − γ
6-10
• Regressionsmodell:
( )2i i i i iY X , ~ N 0, , Y stetigε= β + ε ε σ
Für Individuen mit iZ 0= : Yi unbeobachtet
Für Individuen mit iZ 1= : Yi beobachtet
( )i icov u,ε = σ
i2
i
1u~ N 0,
ε
⎛ ⎞σ⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟ σ σε⎝ ⎠ ⎝ ⎠⎝ ⎠
( ) ( ) ( )( )i i i i iE Y Z 1 X W 1 W⎡ ⎤= = β + σ φ − γ −Φ − γ⎣ ⎦
i iX= β + σ ⋅ λ
λi = "inverse Mill's Ratio"
6-11
Hinweis: ( ) ( )i iW Wφ − γ = φ γ und ( ) ( )i i1 W W− Φ − γ = Φ γ
• Die Selektionsverzerrung ergibt sich durch die Kovarianz σ zwischen ui und
εi, d.h. zwischen den unbeobachteten Determinanten von Zi und Yi. Wenn ( )i icov u, 0ε = σ = , ist die Selektion unproblematisch und führt nicht zu Ver-
zerrung. Der Selektionsmechanismus hat dann keine Auswirkung auf das
geschätzte Modell.
• Da allgemein gilt: ( ) ( )x y
x y
cov x,ycorr x,yρ = =
σ σ , finden sich als äquivalente
Darstellungen:
( )i i i i
i u, i
E Y |Z 1 xx ε ε
= = β + σ ⋅ λ
= β + ρ ⋅ σ ⋅ λ
6-12
6.3 Schätzansätze
• Regressionsmodell: i i i iY X= β + σ ⋅ λ + μ
Problem 1: ( )iZλ nicht beobachtet
Problem 2: ( )iVar μ ist heteroskedastisch. Es kann gezeigt werden, dass
( ) [ ( ) ]2 2i i i iVar 1 Wεμ = σ ⋅ − γ ⋅ λ + λ
6-13
6.3.1 Heckman's zweistufiger Schätzer
• Schritt 1: Probitschätzung von Zi ergibt γ
– damit lässt sich für jedes i iλ berechnen: ( )( )
( )( )
i ii
i i
ˆ ˆW Wˆˆ ˆW 1 W
φ ⋅ γ φ − ⋅ γλ = =
Φ ⋅ γ − Φ − ⋅ γ
– auf dieser Basis lässt sich ein FGLS Faktor zur Korrektur des
Heteroskedastieproblems bestimmen:
( )( )2 2i i i i
ˆ ˆˆ ˆ1 WΩ = − γ ⋅ λ + λ
– Vor der KQ Schätzung von Yi werden die Daten mit Hilfe dieses Faktors
korrigiert
• Schritt 2: KQ Schätzung von
6-14
*i i ii
2 2 2i i i
ˆY Xˆ ˆ ˆ
λ= ⋅β + σ ⋅ + μ
Ω Ω Ω
Indikator für Selektivität
• Da jetzt für die ausgelassene Variable kontrolliert wird, ist der Schätzer kon-sistent. Obwohl ( )i icov u, 0ε = σ ≠ , gilt jetzt ( )*
i iE u, 0μ = . Die Störterme der
Probit und KQ-Gleichung sind nicht mehr korreliert.
• Falls σ signifikant von 0 verschieden ist, war die Selektionskorrektur erfor-derlich. Ohne die Kontrolle für
iσλ wären die Ergebnisse dann verzerrt ge-
wesen.
6-15
• Es bleiben verschiedene Probleme bei diesem Verfahren:
(1) Konsistente KQ-Schätzer ergeben sich nur, wenn die Störterme tatsäch-
lich normalverteilt sind. Die Verteilungsannahmen haben einen großen
Einfluss auf das Schätzergebnis.
(2) Identifikationsproblem: Die Ergebnisse sind umso verlässlicher, je mehr
Variablen im Vektor Wi das Zi bestimmen, ohne einen Einfluss auf Yi zu
haben ("exclusion restrictions"): β = 0 für Elemente von Wi.
Theoretisch ist das Modell durch die Nichtlinearität von λ identifiziert. Es
hat sich jedoch gezeigt, dass Modelle mit großer Überlappung der Vari-
ablen in Xi und Wi schwerer zu schätzen sind und dass die Ergebnisse in
diesen Fällen stark mit der Spezifizierung der Vektoren Xi und Wi 6-16
schwanken. Da λ eine nichtlineare Funktion von X ist, ergibt sich bei Be-
rücksichtigung von λ ggf. Multikollinearität.
Dieses Problem existiert immer, wenn Zweigleichungsmodelle geschätzt
werden.
(3) Ein weiteres Problem besteht häufig darin, dass die erklärenden Variab-
len Wi des Probit auch für diejenigen Beobachtungen vorliegen müssen,
für die Y nicht beobachtet ist.
6-17
6.3.2 Der einstufige Maximum Likelihood Schätzer
• Modell
Selektion: *i i iZ W u= γ +
mit iZ 1= für *iZ 0> (Beobachtung in Stichprobe)
iZ 0= für *iZ 0≤ (Beobachtung nicht in Stichprobe)
Regression: i i iY X= β + ε für *iZ 0>
iY = unbeobachtet für *iZ 0≤
Ann.:
i2
i
1u~ N 0,
ε
⎛ ⎞σ⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟ σ σε⎝ ⎠ ⎝ ⎠⎝ ⎠
6-18
• Likelihoodfunktion:
( ) ( ) ( )i i i iZ 0 Z 1i i
L P Z * 0 P Z * 0 f Y Z * 0= =
⎡ ⎤= ≤ ⋅ > ⋅ >⎣ ⎦∏ ∏
• Es lässt sich zeigen, dass
( ) ( ) ( ) ( )i i i i i iP Z * 0 f Y Z * 0 P Z * 0 Y f Y> ⋅ > = > ⋅ , daher
( )( )( )i i i2
i ii 2
Z 0 Z 1i i
2
W Y XY X1L 1 W
1
ε
= = ε ε
ε
⎡ ⎤⎛ ⎞σ⎢ ⎥γ + ⋅ − β⎜ ⎟⎛ ⎞σ − β⎢ ⎥⎜ ⎟= − Φ γ ⋅ Φ ⋅ ⋅ φ⎜ ⎟⎢ ⎥⎜ ⎟ σ σσ ⎝ ⎠⎢ ⎥⎜ ⎟−⎜ ⎟σ⎢ ⎥⎝ ⎠⎣ ⎦
∏ ∏
L wird maximiert über , , , εβ γ σ σ .
( )if Y
6-19
• Die Likelihoodfunktion besteht aus drei Teilen:
(1) für i mit iZ 1= der Wahrscheinlichkeit, dass genau dieses yi beobachtet
wurde
(2) für i mit iZ 1= der bedingten Wahrscheinlichkeit, dass iZ 1= beobachtet
wird
(3) für i mit iZ 0= der Wahrscheinlichkeit, dass iZ 0= beobachtet wird.
• Der Maximum Likelihood Schätzer ist asymptotisch effizient (kein Hetero-
skedastieproblem) und konsistent, wenn die Annahmen erfüllt sind, dass die
Störterme der beiden Prozesse einer bivariaten Normalverteilung folgen.
6-20
• Eine Schwäche des häufig verwendeten 2-stufigen Heckman Verfahrens
liegt in der Abhängigkeit der Ergebnisse von der konkreten Spezifikation des
Modells. Oft findet man keine überzeugenden Ausschlussrestriktionen (W
enthält Variablen, die nicht in X vorkommen), um die Identifikation der bei-
den Gleichungen zu verbessern. Selbst wenn das Modell über Ausschluss-
restriktionen identifiziert ist, sind die Ergebnisse oft extrem schwankend. Je
besser die von Y unabhängige Identifikation der Probitgleichung, umso ro-
buster sollten die Schätzergebnisse auf der zweiten Stufe sein.
• Manche Autoren empfehlen daher, das 2-stufige Verfahren nur als Test auf
die Existenz von Selektionsverzerrung zu verwenden. Wenn das inverse
Mill's Ratio einen statistisch signifikanten Koeffizienten hat, dann liegt Selek-
6-21
tionsverzerrung vor und es sollte möglichst das einstufige ML Verfahren ge-
nutzt werden.
• Die Heteroskedastiekorrektur im 2-stufigen Verfahren wird nicht standard-
mäßig angewendet. Wird sie nicht verwendet, so sind die Ergebnisse ineffi-
zient.
• Beide Verfahren sind nur dann konsistent, wenn die Fehler bivariat normal-
verteilt sind.
• Beispiel: Der Klassiker: Löhne verheirateter Frauen (Handout)
Gesucht sind die Determinanten der Löhne von verheirateten Frauen, aber
nur eine nicht-zufällige Auswahl von Frauen ist erwerbstätig. Hier: Daten der
Panel Study of Income Dynamics: 6-22
Variable LFP-Probit Wage-OLS Constant 0.813** 1.969 (0.070) (0.036) Education < high school -0.566** -0.087** (0.053) (0.032) Some college 0.056 0.066** (0.041) (0.020) College graduate 0.423** 0.375** (0.046) (0.021) Northeast 0.021 0.140** (0.051) (0.025) South 0.198** -0.022 (0.042) (0.021) West 0.229** 0.076** (0.052) (0.025) Year, 1968 - 74 -0.334** 0.021 (0.046) (0.024) Year, 1979 - 83 0.165** -0.093** (0.038) (0.018) Age < 25 -0.189** -0.148** (0.041) (0.018) Age 30 - 35 0.062 0.125** (0.046) (0.020) Age > 35 -0.242** 0.097**
6-23
(0.077) (0.035) Black 0.401** -0.092** (0.041) (0.019) Child < age 3 -0.658** - (0.045) Child age 3 – 6 -0.321** - (0.049) Family size -0.163** - (0.018) Husband's income -0.010** - (0.001) Lambda - -0.057* (0.032) Sample size 7,164 3,947 Log L/R2 (adj) -4,296** 0.250 Mean ln (wage) - 1.926
Standard errors in parentheses; **, * statistically significant at 5, 10 percent level
• Beispiel: Heij et al., Bsp. 6.7 (Textsammlung)
6-24
• Zum Schluß: Praxisrelevanz und Verwendbarkeit von Selektionsmodellen
- Zentral: Sensibilisierung für Problematik endogener Selektion
- Gedankliche Überprüfung dieser Zusammenhänge sollte jeder empirischen
Untersuchung vorausgehen. Wichtiger Aspekt im kritischen Umgang mit
empirischen Studien, ob sie nun aus der Managementforschung, aus der
Marktforschung, aus der Sozial- oder ökonomischen Wirtschaftsforschung
stammen
- Schon Lehrevaluationen können durch Selektionsmechanismen zu grotesk
verzerrten Ergebnissen führen.
6-25
Literatur: Cameron Colin A. und P.K. Trivedi, 2005, Microeconometrics. Methods and Ap-
plications, Cambridge: Cambridge University Press. Kapitel 16, 24.3, 24.4 Cameron Colin A. und P.K. Trivedi, 2009, Microeconometrics Using Stata, Stata
Press. Kapitel 16 Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice
Hall, 6. Auflage. Kapitel 24.5. Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley &
Sons, 3. Auflage. Kapitel 7.6, 7.7. Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer
Verlag, Heidelberg, Kapitel 7.3. Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel
Data, Cambridge: The MIT Press. Kapitel 17.
7-1
7. Verweildauermodelle
7.1 Einführung
7.2 Verweildauermodelle in diskreter Zeit
7.3 Verweildauermodelle in stetiger Zeit
7.4 Alternative Verfahren
7-2
7.1 Einführung
• Verweildauermodelle untersuchen, wie lange ein Zustand andauert, bis es
zum Übergang in einen anderen Zustand kommt (Dauer), bzw. wie hoch die
Übergangswahrscheinlichkeit in einen anderen Zustand ist (Übergangsrate).
• Beispielfragen:
– Überlebensdauer Kranker nach Behandlung
– Verweildauer in Arbeitslosigkeit bis beschäftigt
– Dauer von der Geburt des ersten bis zur Geburt des zweiten Kindes
7-3
• Diese Art der Analyse hat viele Namen: Hazardratenmodelle, Ereignismo-
delle, event studies, event history Modelle, duration Modelle, survival Model-
le.
• Wichtige Konzepte und Begriffe
(1) Spell und Episode: Ein Spell bzw. eine Episode beschreibt die Periode,
die in Zustand x verbracht wird.
(2) Diskrete vs. stetige Zeit: Modelle in diskreter Zeit modellieren die Ein-
trittswahrscheinlichkeit (0 / 1) des Ereignisses y in diskreten Zeitperio-
den. Modelle in stetiger Zeit modellieren die Dauer T eines Zustandes.
Wooldridge (2003) nennt diskrete Maße ″grouped duration data.″
7-4
(3) Links- und rechtszensierte Daten: Bei linkszensierten Daten ist der
Beginn einer Episode nicht beobachtet, bei rechtszensierten Daten ist
das Ende einer Episode nicht beobachtet.
Beispiel: Monatliche Daten zum Erwerbsstatus
(4) Competing Risks: Eine Episode kann durch alternative Zustände abge-
löst werden. Standard: Von Arbeitslosigkeit in Beschäftigung. Competing
Risk: Von Arbeitslosigkeit in Beschäftigung oder Rente.
t0
1 2 3
t1 t
nicht zensiert links zensiert rechts zensiert
7-5
(5) Duration Dependence: Die weitere Dauer eines Zustandes hängt von
der im Zustand verbrachten Zeit ab. Je länger man bereits im Zustand
ist, umso höher ist die Wahrscheinlichkeit, ihn zu verlassen (positive du-
ration dependence). Bei negativer duration dependence sinkt die Wahr-
scheinlichkeit, einen Zustand zu verlassen, je länger er bereits dauert.
Beispiel:
a) Nach 3 Jahren unfallfreien Fahrens ist die Wahrscheinlichkeit für ein
weiteres Jahr höher als nach einem Jahr (= negative duration
dependence).
b) Nach 3 Wochen Streik steigt die Wahrscheinlichkeit, dass er beendet
wird (= positive duration dependence).
7-6
(6) Single vs. Multiple Spell Daten: Bei Single Spell Daten wird jede Beo-
bachtungseinheit mit genau einer Episode beobachtet. Die Beobachtung
endet entweder mit einem Übergang in einen alternativen Zustand, oder
durch Zensierung (Rechtszensierung). Bei Multiple Spell Daten ist es
möglich, die gleiche Beobachtungseinheit in verschiedenen Episoden
hintereinander zu beobachten und diese zu analysieren.
Beispiel: Beobachtung des Erwerbsstatus über 30 Monate erbringt für
manche Personen mehr als eine Episode in Arbeitslosigkeit.
(7) Flow vs. Stock Sample (Stichprobenwahl): Bei Flow Samples verfolgen
wir Individuen, die in einem bestimmten Zeitraum den uns interessieren-
den Zustand beginnen (können). 2 Möglichkeiten: (i) Kontemporäre
7-7
Stichprobe: Wir beobachten eine Grundgesamtheit und interessieren
uns für die Dauer der Arbeitslosigkeit aller der Personen, die nach ei-
nem Stichtag (z.B. 1.1.98) arbeitslos werden. (ii) Retrospektive Stich-
probe: Wir haben eine Grundgesamtheit heute und interessieren uns für
alle, die seit dem letzten Stichtag (z.B. 1.1.98) arbeitslos geworden
sind. In beiden Fällen besteht die Möglichkeit von Rechtszensierung, da
die Dauer der Episode den Beobachtungszeitraum übersteigen kann.
Bei Stock Samples enthält die Grundgesamtheit ausschließlich Beo-
bachtungseinheiten, die sich zum Stichtag bereits im interessierenden
Zustand befinden (z.B. alle am 1.1.98 arbeitslos Gemeldeten). Aus die-
ser Gruppe wird eine Zufallsstichprobe gezogen. In diesem Fall besteht
7-8
nicht nur die Möglichkeit von Rechts-, sondern auch von Linkszensie-
rung, da nicht in jedem Fall beobachtbar sein muss, seit wann sich die
Person bereits im gegebenen Zustand befindet. Bei Stock Samples
kann es zudem zu Selektionsproblemen kommen, da nicht alle Mitglie-
der der Grundgesamtheit des Flow Samples (z.B. irgendwann 1998 ar-
beitslos) die Stichtagsbedingung erfüllen, und die Selektion systema-
tisch diejenigen übersieht, die im Jahr 1998 nur kurz im Zustand waren
("Linksstutzung", length biased sample, stock sampling bias).
(8) Time varying covariates: Bei der Modellierung der Dauer von Prozes-
sen bzw. von Abgangswahrscheinlichkeiten wird unterschieden, ob er-
klärende Variablen (Kovariaten) mit einem zeitlich konstanten Wert (time
7-9
invariant) berücksichtigt werden, oder ob sich ihre Werte im Zeitverlauf
ändern können (time varying). Wenn sich erklärende Variablen im Zeit-
verlauf ändern können, muss auf die Exogenität dieser Änderungen ge-
achtet werden. Endogene Änderungen erfolgen bspw., wenn die Dauer
des Zustandes die erklärenden Variablen beeinflusst (z.B. Familienstand
und Gefängnisaufenthalt, Gesundheit und Arbeitslosigkeit).
7-10
7.2 Verweildauermodelle in diskreter Zeit
• Abhängige Variable:
P (Ereignis tritt im Intervall (x, x + h) ein, gegeben, dass es nicht vor x einge-treten ist) = ( )P x T x h T x≤ ≤ + ≥ , (T = Eintrittszeitpunkt des Ereignisses).
7-11
• Beispiel: Austritt aus der Arbeitslosigkeit
Zeit: 0 1 2 3 jetzt Person 1 Person 2 Person 3 Ereignis: Person 1: 1 - - Person 2: 0 1 - Person 3: 0 0 0
t
7-12
• Schätzverfahren: Probit oder Logit. Die abhängige Variable beschreibt, ob
das Ereignis bis Periode t eingetreten ist (0/1).
• Beiträge der 3 Personen zur Likelihoodfunktion:
tiE 1= , wenn Ereignis für Person i bis Zeitpunkt t eingetreten ist.
tiE 0= sonst
Person 1: 11E 1=
( )x11 1
11 x11 1
eP E 11 e
β
β= =
+
dies ist der Beitrag von Person 1 zur Likelihoodfunktion, mit x11 = Merkmale
von Person 1 in Periode 1. Nach Periode 1 fällt Person 1 aus der Stichpro-
be.
7-13
Person 2: 12 22E 0, E 1= =
( )12 22P E 0, E 1= = = ( ) ( )22 12 12P E 1 E 0 P E 0= = ⋅ =
x22 2
x x22 2 12 1
e 11 e 1 e
β
β β= ⋅
+ +
Person 3: 13 23 33E 0, E 0, E 0= = =
( )13 23 33P E 0, E 0, E 0= = =
( ) ( ) ( )33 23 23 13 13P E 0 E 0 P E 0 E 0 P E 0= = = ⋅ = = ⋅ =
x x x33 3 23 2 13 1
1 1 11 e 1 e 1 eβ β β
= ⋅ ⋅+ + +
7-14
• Die Likelihoodfunktion entspricht dem Produkt aller individuellen Beiträge.
Somit ist Rechtszensierung im diskreten Fall problemlos, jede Beobachtung
geht mit ihrem gesamten Informationsgehalt ein.
• Schätzverfahren Alternative 1:
Für jeden Beobachtungszeitpunkt ein separates Modell, um über die Zeit po-
tentiell unterschiedliche Parametervektoren βj zu bestimmen.
Problem (i): über die Zeit schrumpfende Stichprobengröße bei konstanter
Parameterzahl. (ii) Unterstellt unkorrelierte Fehler über die Zeit.
• Schätzverfahren Alternative 2:
7-15
Daten poolen, so dass Person 1 mit einer Beobachtung vertreten ist, Person
2 mit 2 und Person 3 mit 3:
• Es lässt sich folgendes zeitlich vollständig interagierte Modell schätzen:
( )( ) ( ) ( )ti
1 1 ti 2 2i 2 ti 2i 3 3i 3 ti 3iti
P E 1log x T x T T x T
P E 0⎛ ⎞=
= α + β + α ⋅ + δ ⋅ ⋅ + α ⋅ + δ ⋅ ⋅⎜ ⎟⎜ ⎟=⎝ ⎠
wobei 2i
1 für t 2T
0 sonst=⎧
= ⎨⎩
3i
1 für t 3T
0 sonst=⎧
= ⎨⎩
dann für t = 1 t = 2 t = 3
Konstante α1 α1 + α2 α1 + α3
Steigung β1 β1 + δ2 β1 + δ3
7-16
⇒ erlaubt Test auf Parameterkonstanz über die Zeit.
H0: 2 3 2 3 0α = α = δ = δ =
H1: mindestens ein Koeffizient ≠ 0
• Die Alternativen 1 und 2 ergeben numerisch identische Ergebnisse. Alterna-
tive 2 erlaubt einfache Tests, ob die Achsenabschnitts- und Steigungspara-
meter für die drei Teilperioden konstant sind.
• Erweiterung zum competing risks Modell in diskreter Zeit: liegen statt einer
Übergangsmöglichkeit zwei Alternativen vor, kann statt eines Probit oder
Logit Modells problemlos ein multinomiales Logit Modell geschätzt werden.
7-17
• Beispiel: Anreizwirkung von Invaliditätsrentenbeträge auf den Übergang
von Erwerbstätigkeit in 1 = Erwerbstätigkeit, 2 = Invaliditätsrente, 3 = Nicht-
Erwerbstätigkeit (z.B. arbeitslos)
Die Interpretation bezieht sich nun auf Übergangswahrscheinlichkeiten statt
auf Zustände per se. Sonst bleibt alles wie im multinomial logit Modell.
7-18
into: Disability retirementt Nonemploymentt Coeff. t-ratio Coeff. t-ratio Age /10 -17.81 -3.05 -11.27 -4.47 Age squared / 1000 19.21 3.63 11.21 4.73 Health statisf. -0.29 -6.31 -0.11 -4.59 Wage / 10 -1.09 -3.16 -0.74 -4.48 Retirement benefit / 100 0.04 0.72 0.04 1.49 Foreigner (0/1) -0.66 -1.72 0.46 2.62 Experience / 10 0.0005 0.003 0.01 0.08 Prior unemployment 0.65 2.12 0.85 6.42 Education years / 10 -0.54 -1.11 0.21 0.89 Wage observed (0/1) 1.58 2.00 0.96 2.45 Constant 34.71 2.13 22.74 3.31
Quelle: Riphahn, 1999.
7-19
7.3 Verweildauermodelle in stetiger Zeit
7.3.1 Grundsätzliches
• Beschrieben wird die Verweildauer T in einem Zustand. Die abhängige Vari-
able ist immer positiv und daher nicht normalverteilt. Wenn T mit der Dichte ( )f t verteilt ist, gilt:
( ) ( ) ( )t
0
Pr T t f s ds F t≤ = =∫
und für die Wahrscheinlichkeit einer Dauer von mindestens t:
( ) ( ) ( )Pr T t 1 F t S t> = − = Survivalfunktion
7-20
• Wahrscheinlichkeit, dass der Spell im nächsten Intervall mit der Dauer Δ endet, gegeben, dass er bis t gedauert hat: ( ) ( )t, Pr t T t T tΔ = ≤ ≤ + Δ ≥
T
) ( tf
)( t F )( t S
0 t
Δ + t ) , ( Δ tl
7-21
• Hieraus lässt sich im Limit die Hazardrate als Übergangswahrscheinlichkeit
ableiten:
( ) ( )0
t limPr t T t T tΔ→
λ = ≤ ≤ + Δ ≥ Δ
( ) ( ) ( ) ( ) ( )0
lim F t F t S t f t S tΔ→
⎡ ⎤ ⎡ ⎤= + Δ − Δ ⋅ =⎣ ⎦ ⎣ ⎦
( )d lnS t d t= −
( ) ( ) ( )f t S t t⇒ = ⋅λ
• Kennt man die Hazardrate und ihre Entwicklung über die Zeit, so kann der
Prozess beschrieben werden.
7-22
7.3.2 Konstante Hazardrate (Exponential verteilte Dauer)
• Modelliert wird: ( )tλ = λ
da ( )d lnS t d t− = λ ⇔ ( )lnS t k t= − λ ⋅
⇔ ( ) ( )S t K exp t= ⋅ −λ ⋅ , ( )K exp k=
k ist die Integrationskonstante. Da S(0) = 1, folgt K = 1.
⇔ ( ) ( ) ( )S t exp t Pr T t ,= −λ ⋅ = ≥
( ) ( )F t 1 exp t= − −λ ⋅
• F(t) ist somit die kumulative Häufigkeitsfunktion der exponentialverteilten Zu-
fallsvariable t. Die Hazardrate ist konstant:
7-23
• Es gibt keine Verweildauerabhängigkeit (duration dependence), man sagt
der Prozess hat kein Gedächtnis; die Wahrscheinlichkeit eines Übergangs
im nächsten Zeitintervall ist unabhängig von der vorherigen Dauer des Zu-
standes: ( )t
0t
∂λ=
∂.
• Das Modell wird auch genutzt, um die Lebensdauer elektrischer Geräte zu
modellieren.
( )tλ
t
7-24
7.3.3 Weibull-Modell
• Modelliert ( )ln tλ als nicht-lineare Funktion der Zeit:
( ) ( )p 1 p p 1t p t p t− −λ = α ⋅ ⋅ α = ⋅ α ⋅
mit 0α > , p 0> . Der Verlauf ist abhängig von den Parametern α und p.
Für p = 1: ( )tλ = α , entspricht dem exponentiellen Modell (konstanter
Hazard).
( )tλ
p > 2
1 < p < 2
p = 1
p < 1
t
7-25
• Jetzt: ( ) [ ( ) ]pS t exp t= − α , wobei die Parameter α und p über Maximum
Likelihood zu schätzen sind. Neben dem Weibull-Modell existieren zahlrei-
che weitere Ansätze zur parametrischen Modellierung stetiger
Hazardfunktionen.
7-26
7.3.4 Schätzverfahren und Parametrisierung
• Die Likelihoodfunktion berücksichtigt sowohl abgeschlossene als auch
rechtszensierte Spells und kann auf zwei Weisen beschrieben werden.
• Annahmen:
– Single Spell Daten, keine Linkszensierung (z.B. flow sample)
– Dichte der Dauer unzensierter Spells: ( )if t
– Wahrscheinlichkeit, dass Spell rechtszensiert ist: ( ) ( )i iS t 1 F t= −
( ) ( ) ( )N
i i i ii 1
lnL c lnf t 1 c lnS t=
= ⋅ + − ⋅∑
7-27
wobei: ic 1= wenn Spell abgeschlossen und ic 0= wenn Spell rechtszen-
siert.
• Da f lnS lnf lnS
λ = ⇔ = − λ und
( ) ( )i i i i1 c lnS t lnS c ln f c ln− = − ⋅ + λ , so dass
( ) ( )N
i i ii 1
lnL c ln t lnS t=
= ⋅ λ +∑
• Beide Likelihoodfunktionen betrachten die Hazardrate als Ergebnis einer un-
terliegenden Verteilung. Erklärende Variablen wurden noch nicht berück-
sichtigt.
7-28
• Wenn die Hazardrate als Funktion von erklärenden Variablen dargestellt
wird, spricht die Literatur von accelerated failure time Modellen, da die
Kovariaten die Zeitachse in gewisser Weise umskalieren.
• Dazu ersetzen wir im Rahmen des Weibull Modells ( )i iexp xα = −β , so dass
( ) ( ) ( )( )p 1
i i it exp x p exp x t−
λ = −β ⋅ ⋅ −β ⋅
• Es lässt sich zeigen, dass bei zeitkonstanten erklärenden Variablen das
Verhältnis der Hazardraten zweier Personen i und j über die Zeit konstant
bleibt:
( )( )
( )( )
p
i ip
j j
t exp xt exp x
λ −β=
λ −β
7-29
• Alternativ könnte auch p durch Kovariate ersetzt werden: ( )i ip exp x= γ .
• (Beispiele und Stata-Anwendungen, s. Blossfeld / Golsch / Rohwer, Kap. 7)
• Neben der Weibullverteilung für die Verweildauerverteilung existieren zahl-
reiche alternative stetige Modelle. In Stata werden u.a. Exponential-,
Weibull-, Gompertz-, Lognormal- und Log-logistische Verteilung angeboten.
Sie unterscheiden sich durch die Formulierung des Hazards sowie der
Survivalfunktion. Dabei ergeben sich konsistente Parameterschätzer nur,
wenn die zutreffende Verteilungsannahme gewählt wurde.
7-30
• Parametrische Modelle und ihre Hazard- und Survivalfunktionen
Modell Hazardfunktion Survivalfunktion
Exponential γ ( )exp t−γ
Weibull ( )p 1p t −α⋅ ⋅ α ⋅ ( )( )pexp t− α
Generalized Weibull 1t S(t)α− −μγα 1/a1 tμ
− μ γ⎡ ⎤⎣ ⎦
Gompertz ( )exp tγ α ( ) ( )( )texp / e 1α− γ α −
Log-normal ( )( )
( )( )
2 2exp ln t / 2
t 2 1 ln t /
− − μ σ
⎡ ⎤σ π −Φ − μ σ⎣ ⎦ ( )( )1 ln t /−Φ − μ σ
Log-logistic 1t / [(1 ( t) )]α α− ααγ + γ ( )1/ [1 t ]α+ γ
Gamma ( ) ( )( ) ( )
1t exp t
1 I , t
α−⎡ ⎤γ γ − γ⎣ ⎦
⎡ ⎤Γ α − α γ⎣ ⎦ ( )1 I , t− α γ
7-31
7.3.5 Unbeobachtbare Heterogenität bei Verweildauermodellen in stetiger
Zeit
• Bei Verweildauermodellen kann unkontrollierte unbeobachtete Heterogenität
zu verzerrten Schätzern der duration dependence führen.
• Beispiel: Unsere Stichprobe bestehe aus 2 Gruppen, mit hoher (λH) und
niedriger (λN) konstanter Abgangsrate aus dem Zustand Arbeitslosigkeit.
Nλ
λ
Hλ
Aλ
t
7-32
• Der im Aggregat beobachtete Verlauf (λA) der Verweildauerabhängigkeit
entspricht weder dem der einen noch dem der anderen Gruppe und würde
zur Schlussfolgerung negativer duration dependence führen, obwohl keine
der Gruppen duration dependence aufweist. Der sonst nicht kontrollierte Un-
terschied zwischen den Gruppen ist auf unbeobachtete Heterogenität zurück
zu führen.
• Das Problem lässt sich in der gleichen Weise lösen, wie wir zuvor random
effects behandelt haben: Bei Annahme einer Verteilung der unbeobachteten
Heterogenität über die Stichprobe hinweg, lässt sich die Heterogenität aus-
integrieren, um die unbedingte Survivalfunktion zu erhalten.
7-33
• Wenn iυ der unbeobachtete individuelle Effekt ist und ( )f υ dessen Dichte,
dann gilt:
( ) ( ) ( )S t S t f d= υ υ υ∫ .
• Häufig wird eine Gammaverteilung für die unbeobachtete Heterogenität ge-
wählt. Alternativ kann man die Verteilung der unbeobachteten Heterogenität
nicht-parametrisch schätzen.
• Anstatt eine konkrete Verteilungsfunktion für die unbeobachtete Heterogeni-
tät zu unterstellen, wird in diesen Fällen die Verteilung von υ, z.B. als Trep-
penfunktion mit anderen Parametern gleichzeitig geschätzt (Heckman Sin-
ger Verfahren):
7-34
Geschätzt wird die Höhe und Position der Stufen.
υ
F( )υ1
Unterstellte Normalvertei-lung
Approximierte kumulative Normalverteilung
7-35
7.4 Alternative Verfahren
7.4.1 Kaplan Meier Schätzer
• Der Kaplan-Meier Schätzer ist ein zur Datenbeschreibung geeignetes In-
strument, welches die Survivalfunktion wie folgt abbildet:
t 0
1
0.5
s
7-36
• Die Zeitachse sei in m = 1, 2, …, M Perioden aufgeteilt. Zu jedem Zeitpunkt r
befinden sich Nr Beobachtungseinheiten in der Risikomenge derjenigen
Personen, die bislang weder zensiert wurden noch den Zustand gewechselt
haben. N1 ist die Ursprungsstichprobe, N2 die Anzahl der Einheiten nach der
ersten Periode, Er ist die Anzahl der Einheiten die in Periode r den "Zustand"
gewechselt haben, so dass N2 = N1 – E1. Wenn ar den Zeitpunkt des Endes der Periode r beschreibt, kann ( )r r 1Pr T a T a −> ≥ konsistent geschätzt
werden durch: ( )r r rN E N− für r = 1, 2, ..., M.
• Da sich die Survivalfunktion formulieren lässt als:
( ) ( ) ( )m
m m r r 1r 1
S a Pr T a Pr T a T a −=
= > = > ≥∏
7-37
lautet ein konsistenter Schätzer der Survivalfunktion:
( )m
r rm
r 1 r
N ES a
N=
−= ∏
• Dies ist der Kaplan-Meier Schätzer. Es gehen weder parametrische Vertei-
lungsannahmen noch erklärende Variablen oder unbeobachtete Heterogeni-
tät ein.
7-38
7.4.2 Cox' (piecewise constant) Proportional Hazard Modell
• Grundidee des beliebten Modells:
( ) ( ) ( )scale factor baseline hazard
i i 0 it exp x tλ = β ⋅ λ
( ) ( )i i 0 iln t x ln tλ = β + λ
• Der Effekt der Zeit auf die Entwicklung der Hazardrate wird vom Einfluss der
erklärenden Variablen getrennt betrachtet. Der baseline hazard λ0(ti) ist für
alle i gleich. Der Parametervektor β kann konsistent geschätzt werden, ohne
eine funktionale Form für λ0 vorzugeben.
• Das exponentielle, Weibull und Gompertz-Modell sind jeweils proportional
hazard Modelle.
7-39
• βj misst die Semielastizität des Hazards hinsichtlich xj. Wenn ( )j jx ln z= , ist
βj die Elastizität des Hazards hinsichtlich z.
• Man spricht vom piecewise constant hazard modell, wenn λ0(t) als Treppen-
funktion mit k Stufen geschätzt wird: λ0(t) = exp(αj), cj-1 ≤ t <cj, j = 1, ..., k, mit
c0 = 0 und ck = ∞.
• Der Hazard kann in jeder Periode anders aussehen und doch kann der Vek-
tor β unabhängig davon geschätzt werden.
• Das hier verwendete Verfahren der "partial likelihood" funktioniert vergleich-
bar zu Chamberlain's conditional logit, indem auf die Mitgliedschaft der Be-
obachtung in der Risikogruppe zu jedem Zeitpunkt konditioniert wird. Dabei
7-40
kürzt sich der baseline hazard heraus. Allerdings wird hierbei der oft interes-sierende Verlauf von ( )0 itλ nicht mitgeschätzt.
• Beispiel: Cameron & Trivedi 17.11
Determinanten der Arbeitslosigkeitsdauer, CPS (Current Population Survey)
Daten von 1986, 1988, 1990 und 1992. Variablenbeschreibung:
7-41
Die Analyse betrachtet "CENSOR1", d.h. ob eine Vollzeitbeschäftigung wie-
der aufgenommen wurde. Die Erhebung erfolgt in 14-tägigen Intervallen. Die
Überlebenswahrscheinlichkeit in der Arbeitslosigkeit fällt erst schnell, dann
7-42
langsamer. Es zeigen sich Unterschiede, je nachdem ob Arbeitslosengeld
gezahlt wurde:
7-43
Es wurden verschiedene Modelle mit unterschiedlichen Ergebnissen ge-
schätzt:
Interpretiert werden Vorzeichen und Signifikanz der Koeffizientenschätzer.
• Beispiel: Heij et al., Example 6.9 (Textsammlung) 7-44
• Zum Schluß: Praxisrelevanz und Verwendbarkeit von Verweildauermodel-
len
- Breite, interdisziplinäre Verwendung wie KQ.
- Auf alle Phänomene zeitlichen Verlaufs anwendbar, in allen inhaltlichen
Bereichen (Kurswerte an Börsen, medizinische Krankheitsverläufe, Ge-
sundheit partnerschaftlicher Beziehungen, Arbeitslosigkeitsdauer)
- Intensive Nutzung im Bereich der Maßnahmenevaluation
7-45
Literatur: Blossfeld, Hans-Peter, Katrin Golsch, Götz Rohwer, 2007, Event History Analysis with
Stata, Lawrence Erlbaum Assoc., Taylor & Francis Group, New York et al.
Cameron Colin A. und P.K. Trivedi, 2005, Microeconometrics. Methods and Applications, Cambridge: Cambridge University Press. Kapitel 17, 18
Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice Hall, 6. Auflage. Kapitel 25.6.
Kiefer, Nicholas M., 1988, Economic Duration Data and Hazard Functions, Journal of Economic Literature 26(2), 646-679.
Riphahn, Regina T., 1999, Disability Retirement among German Men in the 1980s, Indus-trial and Labor Relations Review 52(4), 628-647.
Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley & Sons, 3. Auflage. Kapitel 7.8.
Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer Verlag, Hei-delberg, Kapitel 8.2.
7-46
Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel Data, Cambridge: The MIT Press. Kapitel 20.
8. Zähldatenmodelle
8.1 Einführung
8.2 Das Poissonmodell
8.3 Das Negbinmodell
8–2
8.1 Einführung
• Zähldaten sind diskrete und geordnete Ergebnisse von Prozessen, die in na-
türlichen positiven Zahlen beschrieben werden können, und die sich in ei-
nem klar abgegrenzten Zeitraum ereignen.
• Beispiele: Anzahl Geburten einer Frau, Anzahl Betriebsunfälle pro Monat,
Anzahl von Patentanmeldungen pro Jahr, Anzahl Insolvenzen pro Jahr.
• Typisch: Konzentration der Ereignisse bei 0, dann geringe Häufigkeiten
• Inhaltlich sind Zähldatenprozesse mit der Ereignisanalyse / Verweildauer-
analyse (Hazardraten- / Survivalanalyse) verwandt. Die Verweildaueranaly-se betrachtet die Zeitdauer
kτ bis das k-te Ereignis eintritt, Zähldaten be-
schreiben die Anzahl von Ereignissen bis zum Zeitpunkt T.
8–3
• Im Unterschied zu geordneten multivariaten abhängigen Variablen können
Zähldaten kardinal interpretiert werden (2 ist das Doppelte von 1). Außer-
dem sind Zähldaten grundsätzlich nach oben unbegrenzt.
• Warum nicht Kleinstquadrateschätzung?
Problem 1: u.U. Vorhersagen < 0, lösbar durch Schätzung auf ln(y)?
Problem a: viele 0 Werte, lösbar durch Schätzung auf ( )ln 1 y+ .
Besser, ( )E y x direkt zu modellieren als es aus ( )E ln(1 y) x+ zu
berechnen.
Problem 2: KQ ist bei kleinen Stichproben verzerrt (Inkonsistenz ist nicht
bewiesen)
8–4
8.2 Das Poissonmodell
8.2.1 Allgemeines
• Die Poissonverteilung ergibt für Zufallsvariablen Wi mit ganzzahligen Werten
y = 0, 1, 2, 3, ... folgende Wahrscheinlichkeitsdichtefunktion:
( ) ( ) ( ) yii i
i i ii
expPr W y f y
y !−λ ⋅ λ
= = =
• Auftreten und Häufigkeit von Ereignissen sind proportional zur Länge des
betrachteten Zeitintervalls.
• Die Anzahl der Ereignisse in nicht überlappenden Zeitintervallen ist stochas-
tisch unabhängig von einander.
8–5
• Die Poissonverteilung ist eine einparametrige Verteilung, die einzig vom Pa-
rameter λ abhängt. Für λi = 2 ergibt sich beispielsweise P(yi = 0) = 0,135;
P(yi = 1) = 0,271; P(yi = 2) = 0,271 und P(yi = 3) = 0,180. Es gilt immer:
( ) ( )i iE y Var y= = λ
• Um eine poissonverteilte abhängige Variable als Funktion erklärender Vari-
ablen zu beschreiben, formulieren wir:
( )i if ' xλ = β bzw. konkret: i iln ' xλ = β
( )i iexp ' xλ = β , so dass λi ≥ 0.
• Erwartete Anzahl von Ereignissen pro Periode:
( ) ( ) ( )i i i i i iE y x V y x exp ' x= = β = λ
8–6
• Dies zeigt, dass
(a) der Poissonschätzer heteroskedastisch ist
(b) die Poissonverteilung mit E = V eine restriktive Annahme impliziert
(c) der marginale Effekt ( ) ( )i i ik i k i kE y x x exp ' x∂ ∂ = λ β = β β ist.
• Im Unterschied zum linearen Modell:
– gibt es keine Annahme hinsichtlich eines linearen Fehlers. Man könnte de-
finieren: ui = yi – E(yi | xi) aber die Interpretation ist nicht klar. ui ist nicht
poissonverteilt.
– ist die abhängige Variable diskret und nicht-negativ
– hat das Modell bessere Vorhersageeigenschaften
8–7
10.2.2 Schätzung des Poissonmodells
( )( ) ( )N yi
i i ii 1
L exp exp ' x exp ' x y !=
⎡ ⎤= − β ⋅ β⎣ ⎦∏
( ) yii i iexp y !−λ ⋅ λ
( ) ( ) ( )N
i i i ii 1
lnL exp ' x y ' x ln y !=
= − β + ⋅ β −∑
• Anwendung des Maximum Likelihood Verfahrens. Da die Hesse Matrix H
negativ definit ist, ist Konvergenz unproblematisch.
• Wenn das Modell korrekt spezifiziert ist, ist der Maximum Likelihoodschätzer
asymptotisch normalverteilt, konsistent und asymptotisch effizient.
• Die Bedingung erster Ordnung lässt sich umschreiben:
8–8
( )= =
∂⎡ ⎤= − β ⋅ = ε =⎣ ⎦∂ β ∑ ∑
N N
i i i i ii 1 i 1
lnL y exp ' x x x 0
• Da ( ) ( )i i iE y |x exp ' x= β folgt ( )ε =i iE x 0. Gemeinsam mit dieser Restriktion
kann die Bedingung erster Ordnung des Poissonmodells als Momentenbedingung analog zu den Orthogonalitätsbedingungen { }ε =i iE x 0
interpretiert werden, die sich auch ohne die Annahme einer
Poissonverteilung für yi ableiten lassen.
• In diesem Fall spricht man von einem Quasi-Maximum-Likelihood-
Schätzer. Er ist konsistent, wenn der Erwartungswert von yi korrekt spezifi-
ziert ist und benötigt keine Verteilungsannahme.
8–9
• Die Varianz-Kovarianz-Matrix des Quasi-Maximum-Likelihood-Schätzers ist
anders zu bestimmen als die des Maximum-Likelihood-Schätzers, nämlich:
( ) ( ) ( ) ( )1 1QMLˆV I J I− −β = β β β
mit ( ) ( ){ } { }2 2i i i i i i iJ E y exp ' x x ' x E x ' x⎡ ⎤β = − β = ε⎣ ⎦
• Auf diese Weise können die Koeffizienten robust geschätzt werden. Aller-
dings hat man ohne die Verteilungsannahme keine Möglichkeit, die Wahr-
scheinlichkeit etwa von P(yi = y | xi) zu beschreiben.
8–10
8.2.3 Probleme im Poissonmodell
• 2 kritische Annahmen:
(1) deterministische Beziehung: ( )i iexp ' xλ = β , daher keine unbeobachte-
te Heterogenität möglich.
(2) Unabhängigkeit der Ereignisse über t, keine Autokorrelation in y mög-
lich.
• Wenn Annahmen nicht zutreffen: ( ) ( )i iE y V y≠ Man spricht von:
Überstreuung (Overdispersion), wenn ( ) ( )i iV y E y> .
Unterstreuung (Underdispersion), wenn ( ) ( )i iV y E y< .
8–11
• Bei Überstreuung generiert das Poissonmodell zu niedrige Varianzschätzer
der Parameter und damit zu hohe t-Werte. Bei Unterstreuung generiert das
Poissonmodell zu hohe Varianzschätzer der Parameter und damit zu niedri-
ge t-Werte.
• Lösung z.B. durch alternativen Schätzer.
8–12
8.2.4 Test auf Überstreuung
• Version 1, 5 Schritte:
(1) Schätze Poisson und bestimme β
(2) Berechne ( )i iˆ ˆexp ' xλ = β
(3) Berechne i iˆyε = − λ
(4) Unter der plausiblen Annahme, dass ( ) ( )2i iVar y ≈ ε prüfe, ob
( ) ( )i iˆVar y E y= = λ . Berechne: ( )2i i
ˆε λ
(5) KQ Schätzung: ( )ε λ = β + β ⋅ λ + η2
i i 1 2 i iˆ ˆ
wenn Poisson-Annahme zutrifft: β = β =1 21, 0 .
8–13
• Version 2, ersetze die Schritte (4) und (5):
(4) Berechne ( )2iε
(5) KQ Schätzung: ( )2i i iˆε = α ⋅ λ + η
wenn Poisson-Annahme zutrifft: α = 1,
bei Überstreuung: α > 1,
bei Unterstreuung: α < 1.
• Es gibt zahlreiche alternative Formulierungen und Verallgemeinerungen der
Tests.
8–14
8.3 Das Negbinmodell
8.3.1 Allgemeines
• Das Negbinmodell baut auf der Negativ-Binomialverteilung auf und verall-
gemeinert den Poissonansatz durch Berücksichtigung einer stochastischen
Zufallskomponente γi (fängt unbeobachtete Einflüsse sowie Spezifikations-
fehler auf).
• Statt wie im Poissonmodell: ( )i iexp ' xλ = β wird ein unbeobachteter Effekt
(εi) zugelassen:
( )i i iexp ' xλ = β + ε i i= λ ⋅ γ mit ( )i iexpγ = ε
i iln ' xλ = β + ε i iln ln= λ + γ
8–15
wobei jetzt ( ) ( )γ = γ = λi i i i i i iE y x , Var y x , , aber ( ) ( )i i iVar y x exp ' x≠ β , da In-
dividuen sich auch in unbeobachteten Merkmalen unterscheiden können.
• Jetzt ist ( ) ( ) ( )yiyi ii iii i
i i ii i
eef y x ,
y ! y !
−λ−λ γ λλ γγ = = .
Um die unbedingte Verteilung von ( )i if y x zu erhalten, muss über die Ver-
teilung von γi ausintegriert werden:
( ) ( ) ( )= γ ⋅ γ ⋅ γ∫i i i i i i if y x f y x , g d
• Unterstellt man nun für γi die Gammaverteilung, mit
( ) ( )1i
i ig eθ
−θ γ θ−θγ = ⋅ ⋅ γ
Γ θ (θ ist der Parameter der Gammaverteilung),
8–16
so ergibt sich aus der Mischung von Poisson- und Gammaverteilung, dass yi
nun der Negativ-Binomialverteilung folgt:
( ) ( )( )
−λ γ −θ∞ θ θ−λ γ θ γ= ⋅
Γ θ∫yi u1i i i
i i ii i i
0 i
e ef y x du
y !
wobei ( )∞
θ− −Γ θ = ⋅∫ 1 y
0
y e dy. Schließlich kann gezeigt werden, dass
( ) ( )( ) ( )
θΓ + θ ⎛ ⎞ ⎛ ⎞λθ
= ⋅ ⋅⎜ ⎟ ⎜ ⎟Γ + Γ θ θ + λ θ + λ⎝ ⎠ ⎝ ⎠
yii i
i ii i i
yf y x
y 1.
• Unterstellt wird dabei
Ann. 1: γi und xi sind nicht miteinander korreliert
Ann. 2: E(γi) = 1 und ( ) γγ = σ 2iVar
8–17
8.3.2 Schätzung des Negbin Modells
• Wie immer ( )=
= ∑N
i ii 1
lnL ln f y x
• Jetzt gilt: ( ) ( )= λ = λ ⋅i i i iE y x E 1 ( )λ = βi iexp ' x
( ) = λ + ρ ⋅ λ2i i i iVar y x ρ = >
θ1 0
( )( )
⇒ = + ρ ⋅ λ > ρ >i ii
i i
Var y x1 1, da 0
E y x
damit erlaubt das Negbin Modell Überstreuung. Dies ist der relevantere Fall,
da sich bei Existenz von unbeobachteter Heterogenität die Gesamtvarianz
erhöhen sollte.
8–18
• Wenn ρ gegen Null geht, nähert sich das Negbin Modell dem Poissonfall.
Das kann explizit getestet werden (siehe 10.2.5).
• Die Literatur unterscheidet zwei Varianten des Negbin-Modells. Im Negbin I Modell ergibt sich, ( ) ( )= + ρ ⋅ λi i iVar y x 1 , während bei Negbin II: (s.o.)
( ) ( )= + ρλ ⋅ λi i i iVar y x 1 .
• Die beiden Modelle unterscheiden sich in ihrer Modellierung der Überstreu-
ung. Bei Negbin I ist die Varianz für alle Beobachtungen das gleiche Vielfa-
che des Erwartungswerts von yi. Bei Negbin II weicht die Varianz umso stär-
ker vom Erwartungswert ab, je höher dieser ist.
8–19
8.3.3 Interpretation von Poisson / Negbin Koeffizienten
• Grundsätzlich ( )= β ⇔ = βi i i iy exp ' x ln y ' x
Da ( ) ( )i j
j
E y xexp ' x
x∂
= β ⋅β∂
( )( )
( )( )
( )jj
i j j
E y x x E y x lnE y x1exp ' x x xE y x
∂ ∂ ∂ ∂⇔ β = = ⋅ =
β ∂ ∂
• ⋅β =j100 Semielastizität von E(y | x) bezüglich xj, bei kleinen Änderungen
Δxj ändert sich E(y | x) um ( )⋅β ⋅ Δj j100 x Prozent.
• Wäre xj eine logarithmierte Variable, z.B. =x ln w , dann wäre βj die Elastizi-
tät von E(y | x) hinsichtlich w.
8–20
• Gelegentlich findet man die Darstellung des über die Stichprobe gemittelten
marginalen Effektes: ( ) ( )
N Ni i1 1
j ii 1 i 1ij
E y x ˆ ˆN N exp ' xx
− −
= =
∂= β ⋅ β
∂∑ ∑ .
• Wenn das Poissonmodell eine Konstante enthält, lässt sich dieser Effekt vereinfacht berechnen als βj
ˆ y .
• Für kleine β gilt ( )β ≈ + βˆ ˆexp 1 , damit kann man die Prozentänderung in y
bei einer Änderung der erklärenden Variablen um eine Einheit direkt an β
ablesen.
• Beispiel: β = ⇒ˆ 0,04 y steigt um 4 Prozent, wenn xi den Wert 1 statt 0
oder 12 statt 11 annimmt.
8–21
• Für größere β berechnet sich dieser prozentuale Effekt einer Änderung von x um eine Einheit gemäß ( )( )β − ⋅ˆexp 1 100%.
• Beispiel: kleines β: ββ = =ˆˆ 0,02 e 1,02 ⇒ +y 2%, bei Änderung von xi um
eine Einheit; großes β: ββ = =ˆˆ 1,4 e 4,055
⇒ +y 305,5% bei Änderung von xi um eine Einheit
• Der Effekt einer diskreten Variable xDi lässt sich wie folgt illustrieren:
( )( )
β +β ⋅ +β ⋅β
β +β ⋅ +β ⋅
== =
=
1 x1 2 3D 2
0 x1 2 3D
E y x 1, x e eeE y x 0, x
• IRR Darstellung: Incidence rate ratio, Darstellung von exp(β). IRR nimmt
Werte von 0-1 an für β<0 und Werte > 1 für β>0 ("odds ratio", OR).
8–22
Literatur: Cameron Colin A. und P.K. Trivedi, 2005, Microeconometrics. Methods and Ap-
plications, Cambridge: Cambridge University Press. Kapitel 20 Cameron Colin A. und P.K. Trivedi, 2009, Microeconometrics Using Stata, Stata
Press. Kapitel 17, 18 Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice
Hall, 6. Auflage. Kapitel 25.2. Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley &
Sons, 3. Auflage. Kapitel 7.3. Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer
Verlag, Heidelberg, Kapitel 8.3. Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel
Data, Cambridge: The MIT Press. Kapitel 19.