26
1 Analyse zeitabhängiger Daten Schätzverfahren für Regressionsmodelle

Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

  • Upload
    vannhu

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

1

Analysezeitabhängiger Daten

Schätzverfahren für Regressionsmodelle

Page 2: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

2

Warum geht es in den folgenden Sitzungen?

Wiederholung

Pfingstferien06.06.07

Kumulierte Querschnittsdaten I18.04.07

Zusammenfassung, Klausurvorbereitung11.07.07

noch offen04.07.07

Ereignisdaten II27.06.07

Ereignisdaten I20.06.07

Paneldaten kategorialer Zielvariablen I13.06.07

Paneldaten kategorialer Zielvariablen I30.05.07

Paneldaten kontinuierlicher Zielvariablen II23.05.07

Paneldaten kontinuierlicher Zielvariablen I16.05.07

Zeitreihenanalyse II09.05.07

Zeitreihenanalyse I02.05.07

Kumulierte Querschnittsdaten II25.04.07

Schätzverfahren für Regressionsmodelle11.04.07

Einführung04.04.07

VorlesungDatum

Page 3: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

3

Gliederung

1. Lineare und logistische Regressionsmodelle am Beispiel

2. Schätzergebnisse selber nachrechnen3. OLS und ML: Gemeinsamkeiten und

Unterschiede

Page 4: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

4

Beispiel: Wahlberechtigte• Befragung von Wahlberechtigten zur Bundes-

tagswahl (n=750, anhang4.dta)– Wahlbeteiligung

• ja / nein– Alter

• in Jahren– ...

• für folgendes Rechenbeispiel kleine Substichprobe– FDP-Anhänger mit Konfession (n=31)– Stata: … if (praefer==1 & konfess==1)

Page 5: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

5

Wahlbeteiligung im Beispiel

• 27 von 31 Befragten haben gewählt.• Wahlbeteiligung: 87,1%• Größenverhältnis (Odds) Wähler zu Nicht-

Wähler: 27 / 4 = 6,75 / 1• Log Odds (Logit): ln(6,75) = 1,9095

Page 6: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

6

Lineares und logistisches Regressionsmodell

0.2

.4.6

.81

Wah

lbet

eilig

ung

(1=j

a)

20 30 40 50 60 70Alter in Jahren

Wähler nicht-lineares Modell lineares Modell

Wahlbeteiligung nach Alter

Page 7: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

7

Lineares Regressionsmodell

• Modell: y = µ + u• systematische Komponente µ• stochastische Komponente u (unobserved)• „wahrer“ Effekt βj, muss geschätzt werden

• Beispiel: spezielle Daten (y Dummy)– Prognosen als Wahrscheinlichkeiten interpretierbar

(lineares Wahrscheinlichkeitsmodell)

uxy ++= 110 ββ

Page 8: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

8

)exp(1)exp(:lichkeitWahrschein

)exp(1

:Odds

1ln:Logit

)|1Pr(:Definition

10

101

10101

1

101

1

1

1010

xx

eeex

x

xy

xxx

ββββπ

ααββπ

π

ββπ

π

π

ββββ

+++

=

⋅=⋅==+=−

+=⎟⎟⎠

⎞⎜⎜⎝

⎛−

==

+

Logistisches Regressionsmodell

Page 9: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

9

Tabelle der Schätzergebnisserestringiert nicht restr. restringiert nicht restr.

Konstante 0.8710 0.4681 Konstante 1.9095 -1.6478Std. Err. 0.0612 0.1940 Std. Err. 0.5358 1.7897t 14.23 2.41 z 3.56 -0.92P>|t| 0.000 0.022 P>|z| 0.000 0.357Alter 0.0000 0.0085 Alter 0.0000 0.0874Std. Err. 0.0039 Std. Err. 0.0483t 2.17 z 1.81P>|t| 0.038 P>|z| 0.071SSR 3.4839 2.9954 Log Likelih. -11.9208 -9.6461R² 0.1402 Pseudo-R² 0.1908F(1, 29) 4.73 LR Chi²(1) 4.55Prob > F 0.0379 Prob > chi² 0.0329

Lineare Regression Logistische RegressionEffekt Effekt

Page 10: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

10

Hierarchische Modelle und Test linearer Restriktionen• Zwei Modelle A und a sind hierarchisch (nested),

wenn die Parameter des Modells a eine Teilmenge der Parameter des Modells A sind.

• Das (restringierte) Modell a ergibt sich aus dem (nicht restringierten) Modell A, indem man für die Parameter in A lineare Restriktionen formuliert.

uxya

uxxxyA

++===

++++=

110

32

3322110

: Modell ertes)(restringiergibt 0 und 0 :nenRestriktio zwei

: Modell rtes)restringie(nicht

ββββ

ββββ

Page 11: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

11

Tabelle der Schätzergebnisserestringiert nicht restr. restringiert nicht restr.

Konstante 0.8710 0.4681 Konstante 1.9095 -1.6478Std. Err. 0.0612 0.1940 Std. Err. 0.5358 1.7897t 14.23 2.41 z 3.56 -0.92P>|t| 0.000 0.022 P>|z| 0.000 0.357Alter 0.0000 0.0085 Alter 0.0000 0.0874Std. Err. 0.0039 Std. Err. 0.0483t 2.17 z 1.81P>|t| 0.038 P>|z| 0.071SSR 3.4839 2.9954 Log Likelih. -11.9208 -9.6461R² 0.1402 Pseudo-R² 0.1908F(1, 29) 4.73 LR Chi²(1) 4.55Prob > F 0.0379 Prob > chi² 0.0329

Lineare Regression Logistische RegressionEffekt Effekt

Page 12: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

12

Deskriptive Ergebnisse

• Wie gut beschreibt das Modell insgesamt die Daten?• Welchen Effekt hat x auf die abhängige Variable y?

restringiert nicht restr. restringiert nicht restr.Konstante 0.8710 0.4681 Konstante 1.9095 -1.6478Std. Err. 0.0612 0.1940 Std. Err. 0.5358 1.7897t 14.23 2.41 z 3.56 -0.92P>|t| 0.000 0.022 P>|z| 0.000 0.357Alter 0.0000 0.0085 Alter 0.0000 0.0874Std. Err. 0.0039 Std. Err. 0.0483t 2.17 z 1.81P>|t| 0.038 P>|z| 0.071SSR 3.4839 2.9954 Log Likelih. -11.9208 -9.6461R² 0.1402 Pseudo-R² 0.1908F(1, 29) 4.73 LR Chi²(1) 4.55Prob > F 0.0379 Prob > chi² 0.0329

Effekt Lineare Regression Effekt Logistische Regression

Page 13: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

13

Inferenzstatistische Ergebnisse

• Ist das Modell signifikant besser als ein Vergleichsmodell?• Ist der Effekt von x signifikant von Null verschieden?

restringiert nicht restr. restringiert nicht restr.Konstante 0.8710 0.4681 Konstante 1.9095 -1.6478Std. Err. 0.0612 0.1940 Std. Err. 0.5358 1.7897t 14.23 2.41 z 3.56 -0.92P>|t| 0.000 0.022 P>|z| 0.000 0.357Alter 0.0000 0.0085 Alter 0.0000 0.0874Std. Err. 0.0039 Std. Err. 0.0483t 2.17 z 1.81P>|t| 0.038 P>|z| 0.071SSR 3.4839 2.9954 Log Likelih. -11.9208 -9.6461R² 0.1402 Pseudo-R² 0.1908F(1, 29) 4.73 LR Chi²(1) 4.55Prob > F 0.0379 Prob > chi² 0.0329

Effekt Lineare Regression Effekt Logistische Regression

Page 14: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

14

Gliederung

1. Lineare und logistische Regressionsmodelle am Beispiel

2. Schätzergebnisse selber nachrechnen3. OLS und ML: Gemeinsamkeiten und

Unterschiede

Page 15: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

15

Kleinste Quadrate Schätzung

Definition• Wähle aus der Menge der möglichen

Parameter der Grundgesamtheit diejenigen aus, bei denen die Summe der quadrierten Abweichungen der Modellprognosen von den beobachteten Werten der Zielvariablen minimal ist.

Page 16: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

16

Kleinste Quadrate Schätzung

0)ˆ1ˆ(

0)ˆ1ˆ(1

:nAbleitunge partielle Bilde

)ˆ1ˆ( :ein Setze

)ˆ( minimiere :Allgemein

11101

1110

1

2110

1

2

=−⋅−⋅

=−⋅−⋅

−⋅−=

−=

=

=

=

=

n

iiii

n

iii

n

iii

n

iii

xyx

xy

xySSR

yySSR

ββ

ββ

ββ

Die sogenannten Normalgleichungen bilden ein Gleichungssystem mit (k+1) Unbekannten: 10

ˆ,ˆ ββ

Page 17: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

17

Maximum Likelihood Schätzung

Definition• Wähle aus der Menge der möglichen

Parameter der Grundgesamtheit diejenigen aus, bei denen es am wahrscheinlichsten ist, dass man die vorliegende Stichprobe beobachtet.

• genauer: ... die vorliegende Stichprobe von y-Werten (und x-Werten) beobachtet.

Page 18: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

18

Maximum Likelihood Schätzung

)70ˆˆexp(1)70ˆˆexp(

)23ˆˆexp(1)23ˆˆexp(1

)20ˆˆexp(1)20ˆˆexp(

)ˆˆexp(1)ˆˆexp(ˆ:lichkeitWahrschein Beispiel das auf Anwendung

ˆˆ

)]|1r(P̂1[)|1r(P̂ maximiere :Allgemein

10

10

10

10

10

10

10

101

)1(0

11

)1(

1

⋅++⋅+

⋅⋅⎟⎟⎠

⎞⎜⎜⎝

⋅++⋅+

−⋅⋅++

⋅+=

+++

=→

⋅=

=−⋅==

=

=

ββββ

ββββ

ββββ

ββββπ

ππ

KL

xx

yyL

i

ii

yi

n

i

yi

yii

n

i

yii

ii

ii xx

Page 19: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

19

Vergleich OLS - ML

• In beiden Fällen– Als Schätzer werden die Werte ausgewählt, die eine

Funktion der Daten und der Parameter optimieren.• OLS

– analytische Lösung– numerische Optimierung („probieren“) wäre auch

möglich• ML

– keine analytische Lösung– numerische Optimierung („probieren“) notwendig

Page 20: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

20

Gliederung

1. Lineare und logistische Regressionsmodelle am Beispiel

2. Schätzergebnisse selber nachrechnen3. OLS und ML: Gemeinsamkeiten und

Unterschiede

Page 21: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

21

Vergleich OLS-ML

Numerische LösungAnalytische Lösung

Inferenz nur für große Stichproben (assymptotisch)

Inferenz auch für kleine Stichproben

Breite AnwendungspaletteLineare Modelle

Optimierungsfunktion „Wahrscheinlichkeit“ von

Beobachtungen

Optimierungsfunktion lineare Funktion der

Regressionskoeffizienten

Maximiere LikelihoodMinimiere quadrierte Residuen

MLOLS

Page 22: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

22

Gegenüberstellung OLS-ML (1)

LLikelihood

SSRSumme quadrierter

Abweichungen

Optimierungs-funktion

Z-TestT-TestSignifikanz

EffektNormalverteilungT-VerteilungTestverteilung

berechenbarFormelStandardfehler

logistischer Regressionskoeffizient

Odds Ratio

Regressions-koeffizient

Effekt einer Variablen

MLOLS

Page 23: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

23

Gegenüberstellung OLS-ML (2)

( )

[ ] [ ]( )

[ ] [ ]

numfangStichprobe Modellrten restringienicht imVariablen der Anzahl

nenRestriktioder Anzahl

)ln()ln()ln( PseudoModellfit

,Verteilung-1,

Verteilung-lungTestvertei

)ln()ln(2)1(

)(tikTeststatis

Test-Verhältnis-LikelihoodTest-Modellfits

desTest

)|Pr(1)|Pr(ˆˆ,)ˆ(funktion

-gsOptimierun

MLOLS

22

2

21

1

)1(

1

2

nkq

LLLR

SSRSSRSSR

SSTSSRSSTR

qdfkndfqdf

F

LLLRknSSR

qSSRSSRf

F

yyLyyySSR

r

urr

r

urr

urrur

urr

n

i

yii

yii

n

iiiii

ii

−−−−

=−

=−

=

=−−==

−−−⋅=−−

−=

−⋅=′=−= ∏∑=

=

χ

xxβx

Page 24: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

24

Zum Schluss

Page 25: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

25

Zusammenfassung

• deskriptiv: Regressionskoeffizient• inferenzstatistisch: Standardfehler, T- bzw. Z-Werte

Effekte einzelner Variablen

• deskriptiv: Anteil erklärter Varianz (Anteil richtiger Klassifikationen)• inferenzstatistisch: signifikant besser als Nullmodell (F-Test, Likelihood-Verhältnis-Test)?

Wie gut ist das Modell insgesamt?

• Test linearer Restriktionen (F-Test, Likelihood-Verhältnis-Test)

Vergleich hierarchischer Modelle

• standardisierter Regressionskoeffizient• Modellverschlechterung bei Weglassen der jeweiligen Variablen

Vergleich einzelner Variablen

Page 26: Analyse zeitabhängiger Daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_02.pdf · Analyse zeitabhängiger Daten Schätzverfahren für ... • deskriptiv: Regressionskoeffizient

26

Weiterführende Literatur• Für diejenigen, die neu in die Veranstaltung einsteigen:

– alle Folien des letzten Semesters sind über die Homepage abrufbar:

– eswf.uni-koeln.de– Sie sollten sich auch mit dem Grundlagentext dieser

Veranstaltung vertraut machen (Wooldridge 2003):• Lesen Sie den Appendix C (WO 731-775), in dem noch einmal die

Grundlagen von Schätzen und Testen zusammengefasst werden.

• Anwendung von ML auf unterschiedliche Datentypen– King, G. (1989): Unifying political methodology: The likelihood

theory of statistical inference. New York: Cambridge Univ. Press