View
4
Download
0
Category
Preview:
Citation preview
Kapitel 6
Fehlspezifikation, Quasi-Likelihoodund Schatzgleichungen
Bisher haben wir volle (genuine) Likelihood-Inferenz betrieben: Gegeben war ein parametri-sches statistisches Modell, das heißt eine Familie von Verteilungen oder Dichten mit Parame-ter θ ∈ Θ.
Bisherige Grundannahme: Es existiert ein”wahres” θ0 ∈ Θ derart, dass Pθ0 die Verteilung
des datengenerierenden Prozesses P0 ist, das heißt Pθ0 = P0 gilt.'
&
$
%Pθ
•Pθ0 •P0
Fragen:
• Was passiert, wenn wir Likelihood-Inferenz innerhalb von Pθ betreiben, aber der da-tengenerierende Prozess P0 6∈ Pθ ist (Fehlspezifikation)?
• Was passiert, wenn zwar der Verteilungstyp fehlspezifiziert, jedoch der Erwartungswertkorrekt spezifiziert ist (Quasi-Likelihood)?
• Kann man auf die Likelihood verzichten und direkt von den Quasi-ML-Schatzgleichun-gen
E s(θ)!
= 0
starten?
Beispiel 6.1 (Lineares Modell). Wir betrachten wieder die Standard-Annahme
yi = x>i β + εi, εii.i.d.∼ N(0, σ2)
bzw.
y|X ∼ N(Xβ, σ2I) ≡ Pθ, θ = (β, σ2).
31
Mogliche Fehlspezifikationen:
(a) Die N(0, σ2)-Annahme fur die εi ist falsch, zum Beispiel konnte die wahre Verteilungdie Doppel-Exponential-Verteilung (Laplace-Verteilung) sein:
f(εi) ∝ exp(− |εi/σ|
).
0
Doppel-Exponential-Verteilung
φ(0, σ2)
���
���
Die Doppel-Exponential-Verteilung (oder auch die Cauchy-/t(1)-Verteilung) ist spitzerim Zentrum und hat breitere Enden (heavy-tails).
⇒ Sie ist ausreißerunempfindlicher.
(b) Die Kovarianzstruktur ist falsch, d.h. Cov(y) 6= σ2I.
Wahre Kovarianzstruktur: Cov(y) = σ2W , zum Beispiel
– W = diag(W1, . . . ,Wn) (heteroskedastische Fehler) oder
– W nichtdiagonal (korrelierte Fehler).
(c) Die Erwartungswertstruktur ist falsch: Ey 6= Xβ, zum Beispiel wegen
– Fehlspezifikation nichtlinearer Effekte, zum Beispiel xβ1 + x2β2 oder β log x,
– fehlender Regressoren.
6.1 ML-Schatzung bei Fehlspezifikation
Wir beschranken uns auf den i.i.d. Fall: Seien X1, . . . , Xn i.i.d. wie X ∼ g(x) und g(x) diewahre Dichte. Als statistisches Modell betrachten wir die Familie von Dichten
Pθ ={f(x|θ), θ ∈ Θ
}.
Falls ein θ0 ∈ Θ existiert mit g(x) ≡ f(x|θ0), so ist das Modell korrekt spezifiziert. Falls keinθ0 ∈ Θ existiert mit g(x) ≡ f(x|θ0), ist das Modell fehlspezifiziert.'
&
$
%f(x|θ)
θ ∈ Θ•g(x) ∼ P0
32
Definition 6.1 (Kullback-Leibler-Distanz). Die Kullback-Leibler-Distanz von g und fθ istdefiniert durch
D(g, fθ) = Eg
(log
g(X)
f(X|θ)
),
d.h.
D(g, fθ) =
∫log
g(x)
f(x|θ)g(x) dx
fur X stetig. Dabei wird der Erwartungswert bzgl. der”
wahren” Dichte bzw. Wahrscheinlich-keitsfunktion g(x) gebildet.
Es gilt:
D(g, fθ) ≥ 0
mit
D(g, fθ0) = 0 ⇔ g ≡ fθ0 .
Also:
D(g, fθ0) = 0 ⇔ Modell korrekt spezifiziert.
Der Beweis erfolgt mit Ungleichung von Jensen.
Bemerkung. Der (negative) Erwartungswert
−Eg log g(X) = −∫g(x) log(g(x)) dx
heißt Entropie von g.
Sei θ0 ”der” Minimierer der Kullback-Leibler-Distanz:
θ0 = argminθ∈Θ
[Eg
{log g(X)
}− Eg
{log f(X|θ)
} ].
Da Eg
{log g(X)
}nicht von θ abhangt, gilt auch
θ0 = argmaxθ∈Θ
Eg
{log f(X|θ)
}.
Die Dichte f(x|θ0) liegt dann im Sinne der Kullback-Leibler-Distanz am”nachsten” bei g.'
&
$
%f(x|θ0)
• g•
33
Der ML-Schatzer ist
θn = argmaxθ∈Θ
1
n
n∑i=1
log f(xi|θ).
Da 1n
n∑i=1
log f(xi|θ)P−→ Eg log f(X|θ) (Gesetz der großen Zahlen), gilt vermutlich
θnP−→ θ0,
das heißt der (Quasi-) ML-Schatzer konvergiert gegen jenes θ0, dessen Dichte f(x|θ0) amnachsten bei g (bezuglich der Kullback-Leibler-Distanz) liegt.
Genauer gilt:
Satz 6.2 (Asymptotische Eigenschaften des ML-Schatzers bei Missspezifikation).
1. Konsistenz: Sei θ0 ein (lokaler) Maximierer von
λ(θ) ≡ Eg log f(X|θ)
(bzw. ein Minimierer von D(g, fθ)). Unter Regularitatsannahmen (ahnlich wie bei Fisher-Regularitat) existiert eine Folge θn von (
”Quasi-”) ML-Schatzern, das heißt lokalen
Maximierern von
1
n
n∑i=1
log f(xi|θ)
mit
θnP−→ θ0.
2. Asymptotische Normalitat: Es gilt
√n(θn − θ0)
d−→ N(
0,J−11 (θ0) I1(θ0)J−1
1 (θ0))
mit
I1(θ) ≡ Eg(∂ log f(X|θ)
∂θ
)︸ ︷︷ ︸
s1(θ)
(∂ log f(X|θ)
∂θ
)>︸ ︷︷ ︸
s1(θ)>
und der (Quasi-) Fisher-Information
J1(θ) = Eg
(−∂
2 log f(X|θ)∂θ ∂θ>
).
34
Bemerkung.
• Falls g(x) ≡ f(x|θ), also das Modell korrekt spezifiziert ist, gilt
I1(θ) = J1(θ)
(vergleiche Satz 2.16 aus Schatzen und Testen I), und man erhalt die ubliche asympto-tische Normalverteilung des ML-Schatzers bei korrekter Modellspezifikation.
• Informell gilt
θna∼ N
θ0,1
nJ−1
1 (θ0) I1(θ0)J−11 (θ0)︸ ︷︷ ︸
V (θ0)
,
und V (θ0) wird geschatzt durch
V (θn) = J−1(θn) I(θn)J−1(θn) (”
Sandwich”-Matrix)
mit
I(θn) =
n∑i=1
si(θn) s>i (θn) empirische Fisher-Matrix der Stichprobe,
J(θn) = −n∑i=1
∂2log f(xi|θ)∂θ ∂θ>︸ ︷︷ ︸∂2 l(θ)
∂θ ∂θ>
∣∣∣∣∣θ=θn
empirische beobachtete Informations-Matrix.
• Formal gilt:√n(θn − θ0)
d→ N(0,J−11 (θ0)I1(θ0)J−1
1 (θ0)).
Bemerkung.
1. Im i.n.i.d. Fall gilt (informell):
Sei l(θ, x) = logf(x|θ) und
θ0 := argmaxθ
Eg l(θ,X) = argmaxθ
Eg
{n∑i=1
li(θ,Xi)
},
bzw. sei θ0 die Nullstelle von Eg s(θ), das heißt Eg(s(θ0)) = 0. Außerdem
θn = argmaxθ
l(θ, x) bzw. s(θn) = 0.
Dann gilt
θna∼ N
(θ0, V (θn)
)wie oben, nur mit fi(xi|θ) an Stelle von f(xi|θ).
35
2. Angenommen, der Modellparameter θ = (θ, α)> setze sich zusammen aus einem eigent-lich interessierenden Parameter θ und einem Nuisance-Parameter α. Die Scorefunktionlautet dann
s(θ, α) =
(sθ(θ, α)sα(θ, α)
)=
(sθ(θ)
sα(θ)
).
Falls trotz fehlspezifizierter Likelihood der eigentlich interessierende Parameter die ML-Gleichung Eg(sθ(θ0)) = 0 erfullt, so gilt weiterhin
θna∼ N
(θ0, V (θn)
)⇒ Quasi-Likelihood.
6.2 Quasi-Likelihood und Schatzgleichungen
Frage: Lassen sich Parameter von Interesse wie der Mittelwert µ im i.i.d. Fall oder der Kova-riablenvektor β im Regressionsfall noch konsistent und asymptotisch normalverteilt schatzen,wenn das statistische Modell nur teilweise fehlspezifiziert bzw. unvollstandig spezifiziert ist?
Beispiel 6.2. Seien Y1, . . . , Yn i.i.d. wie Y ∼ f(Y |µ, σ2), f symmetrisch um µ, aber nichtnormal, etwa
P0 =
{f(y|µ0) =
1
2σe−|y−µ0|/σ
}(Laplace- oder Doppel-Exponential-Verteilung).
Trotzdem wahlt man die (Log-) Likelihood
ql(µ) = − 1
2σ2
n∑i=1
(yi − µ)2 + const
der Normalverteilung als Quasi-(Log-)Likelihood und maximiert diese. So kommt man aufdie Quasi-Scorefunktion
qs(µ) =1
σ2
n∑i=1
(yi − µ).
Es gilt
E0 qs(µ0) =1
σ2
n∑i=1
(E0(Yi)︸ ︷︷ ︸=µ0
−µ0) = 0,
also µQML = y wie ublich und wegen E0Y = µ0 erwartungstreu.
Allerdings ist y kein (asymptotisch) effizienter Schatzer mehr (die Rao-Cramer-Schranke wirdnicht erreicht).
Beispiel 6.3. Seien Y1, . . . , Yn unabhangig, Yi ∼ N(µ0, σ2i ) und
P0 =
{n∏i=1
φ(yi|µ0, σ2i ) =
1
(2π)n/2 ·∏ni=1 σi
exp
(−
n∑i=1
1
2
(yi − µ0)2
σ2i
)}.
36
Dann wahlt man als Quasi-Log-Likelihood:
ql(µ) = −1
2
n∑i=1
(yi − µσ
)2
,
das heißt man ignoriert die Abhangigkeit der Varianz von i und berechnet
qs(µ) =1
σ2
n∑i=1
(yi − µ),
E0 qs(µ) =1
σ2
n∑i=1
(µ0 − µ) = 0 ⇔ µ0 = µ,
µQML = y, E(µQML) = µ0 erwartungstreu,
aber
Var0(µQML) = Var0(Y ) =1
n2
n∑i=1
Var(Yi) =1
n2
n∑i=1
σ2i ,
das heißt µQML = y ist ineffizient, aber (falls zum Beispiel σ2i ≤ c) konsistent und normal-
verteilt.
Beispiel 6.4 (Lineares Modell). Standard–Annahme:
yi|xi ∼ N(x>i β, σ2)
bzw.y|X ∼ N(Xβ, σ2I) .
Mogliche Fehlspezifikationen:
(a) Normalverteilungsannahme falsch,
(b) Kovarianzstruktur Cov y = σ2I falsch,
(c) Erwartungswertstruktur Ey = Xβ falsch.
zu (a): Dies ist der Fall, wenn y nicht normalverteilt ist, aber die Kovarianzstruktur und dasErwartungswertmodell korrekt sind.
Es gilt: E0y = Xβ0 ist das wahre Modell.
s(β) =1
σ2X>(y −Xβ)
E0s(β0) = 0
Dabei ist E0s(β0) der Erwartungswert im wahren Modell vom wahren Parameter. Esergibt sich
βQML = βKQ = (X>X)−1X>y
37
mit
E0(βQML) = (X>X)−1X>Ey = β0 (erwartungstreu),
Cov0(βQML) = σ2(X>X)−1,
alsoβQML
a∼ N(β0, σ2(X>X)−1).
Damit ist βQML effizient.
zu (b): Die wahre Kovarianzmatrix ist σ2W statt σ2I:
P0 : y ∼ N(Xβ0, σ2W )
E0s(β0) = 0
βQML = (X>X)−1X>y
E0(βQML) = (X>X)−1X>Xβ0 = β0
Cov0(βQML) = (X>X)−1X>Cov0(Y )X(X>X)−1
= σ2(X>X)−1X>WX(X>X)−1
( 6= σ2(X>X)−1 )
βQML ist konsistent, aber nicht effizient.
(Ein effizienter Schatzer ware der gewichtete KQ– bzw. Aitken–SchatzerβAITKEN = (X>W−1X)−1X>W−1y.)
zu (c): Der wahre Erwartungswert ist ungleich Xβ:
wahrer Erwartungswert: E0y = µ0 = X0β0
⇒ wahres Modell: y ∼ N(X0β0, σ2I)
(falls N und σ2I = Cov0(y) richtig). Dann ist
βQML = (X>X)−1X>y
E0(βQML) = (X>X)−1X>X0β0 6= β0 .
Somit ist βQML verzerrter Schatzer, aber liefert das best–approximierende lineareModell mit Designmatrix X. Die Kovarianzmatrix ist dann gegeben durch:
Cov0(βQML) = (X>X)−1X>Cov0(y)︸ ︷︷ ︸σ2I
X(X>X)−1 = σ2(X>X)−1.
Fazit aus den Beispielen:
• Falls die Likelihood oder die Varianzstruktur fehlspezifiziert sind, jedoch die Erwar-tungswertstruktur
Eyi = µi = x>i β
korrekt spezifiziert ist, erhalt man konsistente Schatzer fur µ bzw. β.
38
• Es genugt sogar, die Nullstelle der Quasi–Scorefunktion
qs(µ)!
= 0 bzw. qs(β)!
= 0
zu bestimmen. Falls fur das”wahre“ µ0 bzw. β0
E0 qs(µ0) = 0 , E0 qs(β0) = 0
gilt, dann ist die Nullstelle µ bzw. β konsistent und asymptotisch normalverteilt fur µbzw. β.
⇒ Idee der”
Schatzgleichungen“ (estimating equations):
Definiere eine Schatzfunktion oder Quasi–Scorefunktion
qs(θ) =
n∑i=1
ψi(yi, θ)
so, dass fur den”wahren“ Parameter θ0
E0 qs(θ0) =
n∑i=1
E0[ψi(yi, θ0)] = 0
erfullt ist. Dann ist der Quasi–ML–Schatzer oder”
M–Schatzer“ definiert als Nullstelle
qs(θQML)!
= 0 (Schatzgleichung)
der Schatzfunktion qs(θ).
Beispiel 6.5 (Generalisierte Regression). Sei
E0 yi = µi(β) korrekt spezifiziert ,
Var0 yi = φ vi(β) (eventuell) fehlspezifiziert .
Es gilt: E0s(β) = 0.
Es wird nur eine Annahme hinsichtlich der Schatzgleichung getroffen, jedoch nicht fur dieVerteilung:
s(β) =1
φ
n∑i=1
(∂µi(β)
∂β
)vi(β)−1 (yi − µi(β))︸ ︷︷ ︸
E(yi)−µi(β)=0
∝n∑i=1
(∂µi(β)
∂β
)vi(β)−1(yi − µi(β))
hat Erwartungswert 0 und
s(β)!
= 0 .
⇒ β ist konsistent und asymptotisch normalverteilt.
Speziell:”generalized estimating equation“ (wie in GLM: µi(β) = x>i β).
39
Beispiel 6.6 ((Binare) Longitudinaldaten (repeated measures) oder Clusterdaten). Die Da-tenpaare (yij ,xij) , i = 1, . . . , n , j = 1, . . . , ni, seien je ni wiederholte Beobachtungen anIndividuen oder in
”Clustern“, wie zum Beispiel Familien oder Klassen i = 1, . . . , n.
ni: Anzahl der (zeitlich) wiederholten Beobachtungen pro Individuum oder Cluster
yij: Zielvariable
xij: Kovariablenvektor
yij |xij sei aus einer Exponentialfamilie (normal, binomial, Poisson, . . . ) mit Erwartungswert
E(yij |xij) = h(x>ijβ) = µij .
Die Schatzgleichungen bei Vernachlassigung von (zeitlichen) Korrelationen zwischen den Messwie-derholungen lauten
qs(β) =n∑i=1
ni∑j=1
xijwij(β)(yij − h(x>ijβ))!
= 0
mitEβ0 qs(β0) = 0,
wobei die wij(β) geeignete Gewichte sind. Somit ist βQML konsistent und asymptotisch nor-mal, jedoch unter Effizienzverlust.
6.3 M–Schatzer in der robusten Statistik
Ein weiteres Anwendungsgebiet von M–Schatzern ist die robuste (ausreißerresistente) Schatzungvon Lokalisationsparametern (wie E(X) = µ) und Regressionsparametern.
(a) Schatzung von µ:
Die Losung der KQ–Schatzgleichung
n∑i=1
(yi − µ)!
= 0 ⇒ µ = y
reagiert sensitiv auf Ausreißer. Als Schatzgleichung wurde hier
ψ(y, µ) = y − µ
verwendet. Eine allgemeinere Schatzgleichung wird so formuliert:
n∑i=1
ψ(yi, µ)!
= 0 .
Dabei ist ψ eine geeignete Funktion, zum Beispiel ψ(y, µ) = y − µ fur Lokalistionspara-meter mit Losung µψ.
40
"""""""""""""""""
ψ(y, µ) = y − µ
µ
Huber´s ψ
µµ− k µ+ k
getrimmtes ψ
µµ− k µ+ k
Extreme Version von Hubers ψ:
ψ(y, µ) = sgn(y − µ) =
1 y > µ0 y = µ−1 y < µ .
Daraus erhalt man den Median.
Quantilschatzung:
ψ(y, µ) =
p
1−p y > µ
0 y = µ−1 y < µ.
(b) Robuste Regression: Die KQ-Gleichung fur yi = x>i β + εi lautet
n∑i=1
xi(yi − x>i β)!
= 0.
Allgemein:n∑i=1
xiψ(yi,x>i β)
!= 0 .
Die Losung dieser Schatzgleichung βψ ist ein robuster Schatzer.
41
Asymptotische Eigenschaften von M–Schatzern θM
Unter Regularitatsvoraussetzungen, insbesondere
E0 qs(θ0) = 0,
giltθM
a∼ N(θ0,V (θM )) .
Dabei ist V (θM ) definiert als
V (θM ) = J−1(θM )I(θM )J−1(θM )
mit der empirischen (Quasi–) Fisher–Matrix
I(θM ) =
n∑i=1
qsi(θM )qs>i (θM )
und der (empirischen) beobachteten (Quasi–) Informationsmatrix
J(θM ) = −∂ qs(θ)
∂θ>
∣∣∣∣θ=θM
.
Der Beweis dafur verlauft analog wie fur ML–Schatzer.
Bemerkung. Nachteil von Quasi–Likelihood: Im Allgemeinen sind keine Likelihood–Ratio–Tests und darauf basierende Modellwahlkriterien moglich.
Aus
Eqs(θ) = 0
⇒ Cov(qs(θ)) = E(qs(θ)>qs(θ)) =: I(θ)
⇒ qs(θ)a∼ N(0, I(θ))
und Taylorentwicklung von qs(θM ) = 0 um θ,
0 = qs(θM )a∼ qs(θ) +
∂ qs(θ)
∂θ>︸ ︷︷ ︸−J(θ)
(θM − θ) ,
folgt
(θM − θ)a∼ N(0,J−1(θM )I(θM )J−1(θM ))
⇒ θMa∼ N(θ,J−1(θM )I(θM )J−1(θM )) .
6.4 Verallgemeinerte Schatzgleichungen (Generalized Estima-ting Equations)
Siehe Folien zur Vorlesung.
42
6.5 Quantilregression
Die Grafiken in diesem Abschnitt stammen großtenteils aus der Diplomarbeit von Nora Fens-ke (2008) zum Thema “Flexible Longitudinaldaten-Regression mit Anwendungen auf Adipo-sitas”.
Literatur: Roger Koenker (2005): Quantile Regression, Cambridge University Press.
Zur Person: Roger Koenker ist McKinley Professor of Economics and Statistics an der Uni-versity of Illinois (1976-1983 Bell-Labs) und wendete 25 Jahre Forschung fur dieses Themaauf.
6.5.1 Einleitung
Idee der Quantilregression:
Analog zur (linearen) Regression, welche den bedingten Erwartungswert E(Y |x) als Funktionvon Kovariablen x modelliert, sollen Ansatze fur die Modellierung der bedingten Quantils-funktion entwickelt werden.
Wir nehmen im Folgenden stetigen Response Y an. Eine Anwendung der Quantilregressionliefert folgendes Beispiel aus der Diplomarbeit von Nora Fenske (2008).
Beispiel 6.7 (Einflussfaktoren fur Adipositas (Fettleibigkeit, Fettsucht) bei Kindern). ZurErkennung von Ubergewicht wird haufig der sogenannte Body Mass Index
BMI =Korpergewicht [kg]
(Korpergroße)2 [m2]
verwendet. Fur Erwachsene gelten folgende von der Weltgesundheitsorganisation festgelegteGrenzen:
BMI Einstufung
< 19 Untergewicht19− 25 Normalgewicht
25− 30 Ubergewicht> 30 Adipositas
Dieses Schema lasst sich jedoch nicht auf Kinder ubertragen, da diese im Allgemeinen einenviel kleineren BMI besitzen als Erwachsene. Daher benotigt man fur Kinder anderes Vorgehen,zum Beispiel durch folgende zwei Schritte:
1. Bilden einer Referenzpopulation; hier sind mehrere Methoden moglich, zum Beispielunterschiedliche Referenzpopulationen fur verschiedene Lander und getrennt nach Al-tersstufen.
2. Ein Kind wird als ubergewichtig bzw. adipos eingestuft, wenn der BMI großer ist alsbestimmte Quantile der Referenzpopulation, zum Beispiel konnte ein Kind als uberge-wichtig gelten, wenn der BMI großer ist als das 90%-Quantil der Referenzpopulation,und als adipos, wenn der BMI großer ist als das 97%-Quantil.
43
Q 0.97
Anmerkung: In diesem Beispiel liegen zusatzlich Langsschnittdaten vor, dies wird hier jedochnicht weiter betrachtet.
In diesem Beispiel wurde ein Standardmodell wie das lineare Modell zunachst nicht die Fragebeantworten, welche Einflussfaktoren fur Adipositas verantwortlich sein konnten, da es nurden mittleren BMI als Funktion der Kovariablen modelliert.
Warum”
zunachst”? — Unter Umstanden liefert auch das lineare Modell den gewunschtenZusammenhang (folgt spater).
Definition 6.3. Eine reellwertige Zufallsvariable Y wird durch ihre (rechtsstetige) Vertei-lungsfunktion charakterisiert:
FY (y) = P(Y ≤ y) .
Fur jedes τ , 0 < τ < 1, ist
yτ = Qτ (y) = F−1Y (τ) = inf {y : F (y) ≥ τ}
das τ · 100%-Quantil von Y .
Definition 6.4. Bei Vorliegen von Kovariableninformation lassen sich entsprechend Defini-tion 6.3 die bedingte Verteilung
FY |X=x(y) = P(Y ≤ y|X = x)
und die bedingte Quantilsfunktion Qτ als
Qτ (y|X = x) = F−1Y |X=x(τ |X = x) = yτ (x)
definieren.
Bemerkung.
1. Die bedingte Quantilsfunktion stellt die τ -Quantile von Y in Abhangigkeit von Kova-riablen X = x dar (zunachst nur formal!).
44
2. Angenommen, es gilt das lineare Modell
Yi = β0 + β1xi + εi , εii.i.d.∼ N(0, σ2) .
Dann folgt:
FYi|X=xi(y) = P(Yi ≤ y|X = xi)
= P
(Yi − β0 − β1xi
σ≤ y − β0 − β1xi
σ
)= Φ
(y − β0 − β1xi
σ
)(Φ = Verteilungsfkt. der Standard-NV)
= τ
⇐⇒ yτ (xi)− β0 − β1xiσ
= Φ−1(τ)
mityτ (xi) = Qτ (y|X = xi) = β0 + β1xi + σ · Φ−1(τ)
bzw.
Qτ (y|X = x) = β0 + β1x+ σ · Φ−1(τ)
= (β0 + σ · Φ−1(τ))︸ ︷︷ ︸β0τ
+ β1x .
Das heißt, im klassischen linearen Regressionsmodell mit Normalverteilungsannahmeentspricht β1 sowohl dem Einfluss der Kovariablen auf den bedingten Erwartungswertals auch dem Einfluss der Kovariablen auf die bedingte Quantilsfunktion. Die bedingteQuantilsfunktion geht durch Parallelverschiebung (um σ · Φ−1(τ)) aus der bedingtenErwartungswertfunktion hervor.
Speziell: Fur τ = 0.5 (bedingte Medianfunktion) ergibt sich wegen der Symmetrie derDichte der Standardnormalverteilung:
Φ−1(τ) = 0 ⇒ Q0.5(y|X = x) = β0 + β1x.
3. BetrachteYi = β0 + β1xi + εi mit εi
i.i.d.∼ Fε .
Analoge Berechnungen wie in 2. fuhren auf
Qτ (y|X = x) = β0 + F−1ε (τ) + β1x .
Fε ist nicht notwendigerweise symmetrisch, das heißt F−1ε (0.5) ist im Allgemeinen un-
gleich 0 und die bedingte Medianfunktion ist ungleich der bedingten Erwartungswert-funktion.
Ansonsten: Wiederum Parallelverschiebung im i.i.d.-Fall.
45
Die folgende Grafik zeigt theoretische Quantilsfunktionen fur 2. und 3.
Symmetrischer Fall (2) (c gleich c')
x
Qττ(
y|X
=x)
ττ = 0.9
ττ = 0.1
ττ = 0.5
Unsymmetrischer Fall (3) (c ungleich c')
xQ
ττ(y|
X=
x)
ττ = 0.9
ττ = 0.1
ττ = 0.5
Idee fur die Praxis:
Schatze fur eine Folge von Werten von τ , zum Beispiel τ = 0.05, 0.1, . . . , 0.95, jeweils einebedingte Quantilsfunktion
Qτ (y|X = x) = x>βτ .
Damit lasst sich die gesamte bedingte Verteilung charakterisieren/modellieren, im Gegensatzzur klassischen linearen Regression, wo wir nur den bedingten Erwartungswert erhalten (vgl.Mittelwert/Boxplot im univariaten Fall).
6.5.2 Spezialfall: Zweistichproben-Problem
Betrachte eine Zielvariable yi, die durch eine Kovariable xi mit genau zwei moglichen Aus-pragungen spezifiziert wird; zum Beispiel konnte yi ein Blutwert sein und
xi =
{0 Placebo,1 Medikament.
Wir nehmen fur yi|xi eine Normalverteilung an:
yi|{xi = 0} ∼ N(µ0, σ20),
yi|{xi = 1} ∼ N(µ1, σ21).
Es ergeben sich drei mogliche Situationen:
1. Location-Shift: µ1 = µ0 + ∆ (µ0 6= µ1), aber σ20 = σ2
1.
2. Scale-Shift: σ20 6= σ2
1, aber µ0 = µ1.
3. Location-Scale-Shift: µ0 6= µ1, σ20 6= σ2
1.
46
Skizze:
●●●
●●
0 = Placebo 1 = Med.
468
1012141618
Location−Shift
y =
Blut
wer
t
µµ0 =10 µµ1 =11 σσ0 = σσ1 =1
4 6 8 10 12 14 16 18
0.0
0.1
0.2
0.3
0.4
y = Blutwert
f Y(y
|x)
4 6 8 10 12 14 16 18
0.0
0.2
0.4
0.6
0.8
1.0
y = Blutwert
F Y(y
|x) =
ττ
ββ0.2
ββ0.8
0.0 0.2 0.4 0.6 0.8 1.0
−3
−2
−1
0
1
2
3
4
ττ
ββ ττ1
●●
●●●
●
●
●
0 = Placebo 1 = Med.
468
1012141618
Scale−Shift
y =
Blut
wer
t
µµ0 = µµ1 =10 σσ0 =1 σσ1 =2
4 6 8 10 12 14 16 18
0.0
0.1
0.2
0.3
0.4
y = Blutwert
f Y(y
|x)
4 6 8 10 12 14 16 18
0.0
0.2
0.4
0.6
0.8
1.0
y = Blutwert
F Y(y
|x) =
ττ
0.0 0.2 0.4 0.6 0.8 1.0
−3
−2
−1
0
1
2
3
4
ττ
ββ ττ1
●
●●
●●
●
●
●●
0 = Placebo 1 = Med.
468
1012141618
Location−Scale−Shift
y =
Blut
wer
t
µµ0 =10 µµ1 =11 σσ0 =1 σσ1 =2
4 6 8 10 12 14 16 18
0.0
0.1
0.2
0.3
0.4
y = Blutwert
f Y(y
|x)
4 6 8 10 12 14 16 18
0.0
0.2
0.4
0.6
0.8
1.0
y = Blutwert
F Y(y
|x) =
ττyττc
ττc
0.0 0.2 0.4 0.6 0.8 1.0
−3
−2
−1
0
1
2
3
4
ττ
ββ ττ1
Interpretation (unter der Annahme, dass ein hoherer Blutwert einem besseren Gesundheits-zustand entspricht):
1. Konstanter Behandlungseffekt.
2. Positiver Behandlungseffekt rechts vom Median, negativer Behandlungseffekt links vomMedian.
3. Positiver Behandlungseffekt rechts vom Quantil yτ , negativer Behandlungseffekt linksvom Quantil yτ .
Also allgemein:F: Placebo (X = 0)G: Medikament (X = 1)
}Verteilungsfunktionen
47
Behandlungseffekt βτ im Quantil τ :
F
G
Der Behandlungseffekt lasst sich theoretisch berechnen durch
βτ = G−1(τ)− F−1(τ) .
Empirisch:βτ = G−1
n (τ)− F−1m (τ) ,
wobei Gn und Fm die empirischen Verteilungsfunktionen auf Basis von n bzw. m Beobach-tungen sind.
Zusammenhang mit dem Erwartungswert:
µ = E(Y ) =
∫ +∞
−∞y dF (y) =
∫ 1
0F−1(t) dt .
Damit gilt: ∫ 1
0G−1(τ)− F−1(τ) dτ = E(Y |X = 1)− E(Y |X = 0) .
6.5.3 Quantile als Losung eines Optimierungsproblems, Schatzung der Pa-rameter der Quantilregression
Es soll nun ein Schatzer βτ fur βτ auf Grundlage eines entscheidungstheoretischen Konzeptshergeleitet werden. Betrachte als Verlustfunktion die sogenannte Check-Funktion
ρτ (u) = u · (τ −I(u < 0)︸ ︷︷ ︸Indikatorfunktion
) , τ ∈ (0, 1) .
Die Check-Funktion ist im Folgenden grafisch dargestellt. Fur ein gegebenes τ bildet sie denasymmetrischen Verlust ab. Fur τ = 0.5 ergibt sich ρ0.5(u) = 0.5|u|.
48
−4 −2 0 2 4
0
1
2
3
4
5
u
Che
ck−
Fun
ktio
n ρρ ττ
(u)
ττ == 0.1ττ == 0.5ττ == 0.8
Sei Y eine stetige Zufallsvariable mit der Verteilungsfunktion FY . Um einen Schatzer y fur yτzu erhalten, minimiere den erwarteten Verlust, das heißt
EFY [ρτ (y − y)]→ miny
. (6.1)
Satz 6.5. Der Minimierer von (6.1) ist y = F−1Y (τ).
Beweis. Nach Definition der Indikatorfunktion ergibt sich
ρτ (y − y) =
{(y − y) · (τ − 1) falls y − y < 0⇔ y < y,(y − y) · τ falls y − y ≥ 0⇔ y ≥ y.
Der erwartete Verlust ist somit
EFY [ρτ (y − y)] = (τ − 1) ·∫ y
−∞(y − y) dFY (y) + τ ·
∫ ∞y
(y − y) dFY (y) .
Ableiten nach y ergibt
∂
∂yEFY [ρτ (y − y)] = −(τ − 1) ·
∫ y
−∞dFY (y)− τ ·
∫ ∞y
dFY (y)
= −τ · 1 +
∫ y
−∞dFY (y)
= FY (y)− τ != 0
und damitFY (y) = τ ⇒ y = yτ = F−1
Y (τ) .
49
Damit ergeben sich die Quantile als Losung eines entscheidungstheoretischen Optimierungs-problems mit der Check-Funktion als spezieller Verlustfunktion.
Auf diese Weise gelangt man zum Schatzprinzip in der Quantilregression (”analog” zu KQ,
nur mit anderer Verlustfunktion):
1. Der Minimierer
argminα∈R
n∑i=1
ρτ (yi − α)
liefert α(τ), das τ ·100%-Stichprobenquantil.
2. Ubertrage die Idee auf die bedingte Quantilsfunktion Qτ (yi|X = xi) = x>i βτ :
argminβτ∈Rp
n∑i=1
ρτ (yi − x>i βτ ) .
Die Zielfunktion ist stuckweise linear und stetig. → Lineare Programmierung (Simplex-Verfahren).
Alternativ:
Herleitung eines Schatzers βτ durch Quasi-ML-Ansatz (Vorteil: asymptotische Verteilung,Standardfehler etc.).
Dazu eignet sich die asymmetrische Laplace-Verteilung (ALD)
Y ∼ ALD(µ, σ, τ)
mit −∞ < y <∞, µ ∈ R, σ > 0 und τ ∈ (0, 1). Die Dichtefunktion der ALD lautet
fY (y) =τ(1− τ)
σ· exp
{−ρτ
(y − µσ
)},
Erwartungswert und Varianz sind
E(Y ) = µ+σ(1− 2τ)
τ(1− τ)
Var(Y ) =σ2(1− 2τ + 2τ2)
(1− τ)2τ2.
Die folgende Abbildung zeigt die Dichte der ALD-Verteilung in Abhangigkeit von den Para-metern τ und σ. Links von µ betragt die Wahrscheinlichkeitsmasse genau τ und rechts vonµ dementsprechend genau 1− τ . Das τ · 100%-Quantil der Verteilung liegt also genau bei µ.Außerdem ist die Dichte linksschief, falls τ > 0.5, und rechtsschief, falls τ < 0.5.
50
−15 −10 −5 0 5 10 15
0.00
0.05
0.10
0.15
0.20
0.25
0.30
y
ALD
−D
icht
e f Y
(y)
µµ=0, σσ=1
ττ == 0.1ττ == 0.5ττ == 0.8
−15 −10 −5 0 5 10 15
0.00
0.05
0.10
0.15
0.20
0.25
0.30
yA
LD−
Dic
hte
f Y(y
)
µµ=0, ττ=0.3
σσ == 0.7σσ == 1σσ == 3
Als Quasi-Likelihood ergibt sich
1
σexp
{−
n∑i=1
ρτ
(yi − x>i βτ
σ
)}→ max
βτ.
Dies ist aquivalent zun∑i=1
ρτ (yi − x>i βτ )→ minβτ
,
also dem ursprunglichen Ansatz.
6.5.4 Zusammenfassung
Die Modellformel fur die lineare Quantilregression lautet
yi = x>i βτ + ετi
mit unabhangigen, aber moglicherweise heteroskedastischen ετi. Die einzige Forderung andie ετi ist
Fετi(0) =
∫ 0
−∞f(ετi) dετi = τ ,
das heißtF−1ετi (τ) = 0
und damitQτ (yi|X = xi) = x>i βτ + F−1
ετi (τ) = x>i βτ .
51
Eigenschaften der Quantilregression:
– Aquivarianz, d.h. Unempfindlichkeit von Schatzern gegenuber Transformationen oderReparametrisierungen der Zielvariablen, zum Beispiel
βτ (ay,X) = aβτ (y,X),
βτ (y,XA) = A−1βτ (y,X)
mit einem Skalar a und regularer Matrix A. Fur monoton wachsende Funktionen h gilt:
Qτ (h(y)|X = x) = h(Qτ (y|X = x)).
– Robustheit, d.h. Unempfindlichkeit von Schatzern gegenuber Ausreißern. Die Robustheitkann zum Beispiel durch den sogenannten Breakdown Point gemessen werden, das istder Anteil an willkurlich ins Extreme gezogene Beobachtungen, die ein Schatzer aushalt,bevor er sich in eine extreme Richtung verandert.
– Asymptotische Verteilung (nicht i.i.d.-Fall, sondern nur Unabhangigkeit gegeben): Esgilt √
n(βτ − βτ )→ N(0, τ(1− τ) H−1(τ)J(τ)H−1(τ)︸ ︷︷ ︸”Huber Sandwich”
)
mit
J(τ) = limn→∞
1
n
n∑i=1
xix>i ,
H(τ) = limn→∞
1
n
n∑i=1
xix>i · fi(yiτ ) .
Dabei ist fi(yiτ ) die bedingte Dichte von yi an der Stelle yiτ .
Die Schatzung fur fi(yiτ ) bzw. H(τ) ist allerdings problematisch (→ Differenzenquoti-ent, . . . ).
Praxis-Version:
βτa∼ N
βτ , τ(1− τ)
(n∑i=1
xix>i · fi(yiτ )
)−1( n∑i=1
xix>i
)(n∑i=1
xix>i · fi(yiτ )
)−1 .
– Quantiluberschneidung (Quantile Crossing): Dieses Problem tritt auf, wenn sich zweiunabhangig voneinander ermittelte Quantilregressionskurven uberschneiden. Zum Bei-spiel konnte fur eine bestimmte Kombination von Kovariablen das (geschatzte) 90%-Quantil (falschlicherweise) großer sein als das 97%-Quantil.
– Unabhangige Schatzungen der Koeffizienten: Die Schatzungen βτ und βτ ′ fur τ 6= τ ′
werden unabhangig voneinander durchgefuhrt; tatsachlich sind βτ und βτ ′ aber korre-liert.
52
Recommended