View
118
Download
2
Category
Preview:
Citation preview
Prof. Dr. Ulrich van Suntum
Empirische Methoden der Regionalökonomik
SS 2010
2. Einfache Regressionsanalyse
2
y(x)
x
α
2. Einfache Regressionsanalyse(Vgl. K. Backhaus u.a., Multivariate Analysemethoden. Eine anwendungsorientierte Einführung, Berlin, 10. Aufl. 2003, S. 45 ff.;
sowie Stock/ Watson, Introduction to Econometrics, Boston u.a., 1st ed. 2003, S. 89 ff))
• Ziel: Empirische Bestimmung einfacher funktionaler Zusammenhänge
• Linearer Ansatz: • Kleinste-Quadrate-Verfahren => Minimierung von Schätzfehlern
)(xyy uxy
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
3
• Die Residuen ui geben Differenz zwischen Schätzwerten ŷi und empirisch beobachteten Werten y an• Minimiert wird die Summe der quadrierten Residuen ui (Kleinste-Quadrate- Schätzung bzw. ordinary least square = OLS-Ansatz)• Die yi bzw ui müssen voneinander unabhängig sein (d.h. keine Autokorrelation => Durbin-Watson-Test) • die ui müssen normalverteilt sein• es muss ein linearer Zusammenhang vorliegen
iii yyu ˆ
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
y(x)
x
4
Bestimmtheitsmaß R2 (in Einfachregressionen):
• Quadrat des Pearson´schen Korrelationskoeffizienten R• gibt an, inwieweit die Varianz von y durch die Varianz von x erklärbar• liegt zwischen 0 und 1 (=100%) • Definition:
Kritik an R2:
• sagt nichts über Signifikanz (Zusammenhang kann zufällig sein)• ist problematisch bei zeitabhängigen Variablen (Trends)• steigt tendenziell mit Anzahl der Stichprobenwerte
Wertegeschätzte y Werte,empirischeymit )(
)ˆ(ii2
22
yy
yyR
i
i
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
5
Tests der Zuverlässigkeit I: F-Test (Fisher-Test):
• prüft, ob R2 zufällig ist• Nullhypothese: es besteht kein linearer Zusammenhang y(x) in der Grundgesamtheit• Definition:
)1/()1(
/2
2
JnR
JRWertF emp
n = Zahl der ProbandenJ = Zahl der Regressoren (hier nur x => J = 1)n-J-1 = „Zahl der Freiheitsgrade“
• kritischer F-Wert ergibt sich aus verlangtem Signifikanzniveau • Femp. > Fkrit. => Ablehnung der Nullhypothese => R2 signifikant
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
6
Tests der Zuverlässigkeit II: t-Test:• prüft, ob Regressoren signifikant sind• Nullhypothese: es besteht kein linearer Zusammenhang y(x) in der Grundgesamtheit• Definition:
j
jemp s
bWertt
b = Koeffizient von Regressor j (hier Koeffizient von x)sj = Standardabweichung von Regressor j
• kritischer t-Wert ergibt sich aus verlangtem Signifikanzniveau • temp > tkrit => Ablehnung der Nullhypothese => bj (hier: x) signifikant• Faustregel: t-Wert > 3 => Regressor ist hinreichend signifikant• exakter: p-Wert = (1-Signifikanzniveau des betreffenden Koeffizienten)
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
7
(ymax)
„Wenn x der Rang einer Stadt innerhalb einer Region nach der Größe ist, dann entspricht ihre Einwohnerzahl y (etwa) dem X-ten Teil der Einwohnerzahl der größten Stadt ymax.“
Im Idealfall:
Beispiel: Überprüfung der sogen. „Rank Size Rule“:
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Rang (x) Stadt Einwohner (y)1 Metropolis 60.0002 Gerngroß 30.0003 Provinzia 20.0004 Biederhausen 15.0005 Unterkirch 12.0006 Kuhdorf 10.000
8
Strenge Form der Rank-Size-Rule (F. Auerbach 1913):
x
yy max
d.h. für jede Stadt eines Landes gilt
Bevölkerung (y) · Rang (x) = Bevölkerung der größten Stadt (ymax)
Empirische Evidenz damals für USA, Deutschland, Österreich, z.B.:
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
(Quelle: Matznetter, http://geoskript.heim.at/Downloads/Stadtgeographie.pdf)
Stadt Mio. EinwohnerWien 1,7
Budapest 0,85
Prag 0,57
Lemberg 0,425
9
Allgemeinere Form der Rank-Size-Rule (Lotka 1925):
bx
yy max
Vergleich mit strenger Rank-Size-Rule:
• Bei b > 1 nimmt die EW-Zahl stärker ab
• Bei b < 1 nimmt die EW-Zahl schwächer ab
• Bei b = 0 sind alle Städte gleich groß
• Bei b => oo sind alle EW des Landes in einer Stadt
Für die USA wird b mit 0,93 angegeben
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
10
Linearer Schätzansatz erfordert Logarithmierung
)ln()ln()ln( maxmax xbyyx
yy
b
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
x y ln(x) ln(y)1 60.000 0.000 11.002 30.000 0.693 10.313 20.000 1.099 9.904 15.000 1.386 9.625 12.000 1.609 9.396 10.000 1.792 9.21
Logarithmierte Darstellung des Idealfalls:
Ergebnis: ln(ymax) = 11b = -1R² = 1
)ln(11 xy
11
Anmerkung:Dies ist ein so genanntes:• log-log-Modell:=> Eine 1% Veränderung in x, ist verbunden mit einer b% Veränderung in y, so dass b die Elastizität von y zu x ist
Es gibt aber noch zwei Alternativen:• log-lin-Modell: => eine Veränderung in x um 1 Einheit (∆x = 1), ist verbunden mit einer 100b% Veränderung in y
• lin-log-Modell:=> eine 1% Veränderung in x, ist verbunden mit einer Veränderung in y von 0,01b
(vgl. Stock/Watson (2003), S. 215)
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
)ln()ln( xbay
bxay )ln(
)ln(xbay
12
Empirische Prüfung für den Regierungsbezirk Düsseldorf
Ergebnis: b = -0,72, R2 = 0,88
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Stadt Rang (x) EW in 1.000 (y)Essen 1 627,3
Düsseldorf 2 578,1Dusiburg 3 539,1Wuppertal 4 388,1
Mönchengladbach 5 265,1Krefeld 6 248,4
Oberhausen 7 226,0Mülheim 8 177,0Solingen 9 167,1
Remscheid 10 124,1
13
Empirische Prüfung für den Kreis Neuss
Ergebnis: b = -1,01; R2 = 0,87
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Stadt Rang (x) EW in 1.000 (y)Neuss 1 149,0
Grevenbroich 2 62,9Dormagen 3 59,6Meerbusch 4 53,3
Kaarst 5 40,9Korschenbroich 6 30,7
Juechen 7 21,9Rommerskirchen 8 11,9
14 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Rank Size Rule in NRW?
Essen
Düsseldorf
Duisburg
Wuppertal
MönchengladbachKrefeld Oberhausen
MülheimSolingen
Remscheid
Neuss
GrevenbroichDormagen Meerbusch
Kaarst KorschenbroichJuechen
Rommerskirchen
RB Düsseldorf (b=0,72; R² = 0,88), Kreis Neuss (b= 1,01; R² = 0,87)
15
Ergebnis der empirischen Prüfung
• Im Regierungsbezirk Düsseldorf (b = -0,72) sind Stadtgrößen homogener als im Kreis Neuss (b = -1,01)
• Im Kreis Neuss ist die Rank Size Rule insgesamt annähernd erfüllt, aber Zusammenhang nicht perfekt (b nahe –1, mit einer geringeren erklärten Streuung => R2 = 0,87 )
• Kritik: Verwaltungsgrenzen willkürlich, Fallzahlen gering, gleich große Städte stören Zusammenhang
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Einwohnerzahlen im Kreis Coesfeld 2004
47.479
36.729
24.053
20.358
20.267
15.153
12.168
11.961
11.553
10.977
10.286
0 10.000 20.000 30.000 40.000 50.000
Dülmen
Coesfeld
Lüdinghausen
Nottuln
Senden
Ascheberg
Olfen
Havixbeck
Billerbeck
Rosendahl
Nordkirchen
2. Anwendungsversuch: Kreis Coesfeld
16 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
17
Idee: Bildung von Gemeindegrößenklassen:
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Stadt Rang (x) Einwohner (y)Dülmen 1 47.479Coesfeld 2 36.729
Lüdinghausen 3 24.053Nottuln/Senden 4 20.313
Ascheberg 5 15.153Olfen/Havixbeck/Billerbeck 6 11.894
Nordkirchen/Rosendahl 7 10.632
18
Test auf Gültigkeit der Rank-Size-Rule für die 7 Größenklassen:
a) Regression mit Originalwerten:
ubxay
Ergebnis:a = 47.909b = - 6040=> ymax = a + b = 41.869
R2 = 0,90(Achtung: a steht hier nicht für Ymax,sondern für x = 0, d.h. Ymax = a + b·1)
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Stadt Einwohner (y) Schätzwert (ŷ)Dülmen 47.479 41.869Coesfeld 36.729 35.829
Lüdinghausen 24.053 29.789Nottuln/Senden 20.313 23.749
Ascheberg 15.153 17.709Olfen/Havixbeck/Billerbeck 11.894 11.669
Nordkirchen/Rosendahl 10.632 5.629
19
Grafik/Bewertung:
• Ergebnis schon nicht schlecht• aber offensichtlich keine lineare Beziehung (Residuen systematisch verzerrt)• vielleicht geht es mit Logarithmierung ja noch besser...
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Rank Size Rule: lineare Schätzung
Einwohner (y)
Schätzwert (ŷ)
20
b) 2. Versuch: Regression mit logarithmierten Werten
uxbyy )ln()ln()ln( maxErgebnis:ln(Ymax) = 10,92b = - 0,80R2 = 0,96
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Stadt ln(x) ln(y) ln(ŷ) ŷDülmen 0.00 10.77 10.92 55.271Coesfeld 0.69 10.51 10.37 31.745
Lüdinghausen 1.10 10.09 10.04 22.951Nottuln/Senden 1.39 9.92 9.81 18.233
Ascheberg 1.61 9.63 9.63 15.252Olfen/Havixbeck/Billerbeck 1.79 9.38 9.49 13.182
Nordkirchen/Rosendahl 1.95 9.27 9.36 11.652
21
• Bestimmtheitsmaß höher als bei Schätzung mit Originalwerten• Residuen sind gleichmäßiger verteilt
Grafik/Bewertung:
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Rank Size Rule: logarithmierte Darstellung
Einwohner (lny)
Schätzwert (lnŷ)
22
3. Versuch: Logarithmierung mit quadratischem Regressor
uxbyy 2max ))(ln()ln()ln( Ergebnis:
ln(Ymax) = 10,68b = - 0,40R2 = 0,98
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Stadt ln(x)² ln(y) ln(ŷ) ŷDülmen 0.00 10.77 10.68 43.478Coesfeld 0.48 10.51 10.49 35.876
Lüdinghausen 1.21 10.09 10.20 26.829Nottuln/Senden 1.92 9.92 9.91 20.156
Ascheberg 2.59 9.63 9.64 15.427Olfen/Havixbeck/Billerbeck 3.21 9.38 9.40 12.038
Nordkirchen/Rosendahl 3.79 9.27 9.17 9.560
23
Grafik/Bewertung:
• Ergebnis nochmals verbessert• man kann auch andere Exponenten als Quadrat versuchen• der Phantasie sind keine Grenzen gesetzt, aber besser wäre eine Theorie...
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Logarithmierung Darstellung mit quadratischem Regressor
Schätzwert (lnŷ)
Einwohner (lny)
24
Eheschließungen in Deutschland
y = -5216,36x + 10847598,48
R2 = 0,83
0
100 000
200 000
300 000
400 000
500 000
600 000
700 000
800 000
1940 1950 1960 1970 1980 1990 2000 2010Jahr
Eh
es
ch
ließ
un
ge
n
Beispiel aus der Demografie: zeitliche Trendschätzung
E = 10.847.598 – 5216 t R2 = 0,83
• Pro Jahr ca. 5.216 Ehen weniger als im Vorjahr• aber: andere Faktoren mit einbeziehen (z.B. Bevölkerung im heiratsfähigen Alter, „wilde“ Ehen, Konfessionen, Wirtschaftslage)
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
25
Geburtenzahl in Deutschland
y = -8873,76x + 18494540,61
R2 = 0,57
0
200 000
400 000
600 000
800 000
1 000 000
1 200 000
1 400 000
1 600 000
1940 1950 1960 1970 1980 1990 2000 2010Jahr
Ge
bu
rte
nBeispiel aus der Demografie II: Geburtenzahl
G = 18.494.540 – 8874 t R2 = 0,57
• Zusammenhang insgesamt schwächer als bei Ehen• Seit den 80er Jahren aber ähnlich eng• Andere Einflußfaktoren: Zahl der potentiellen Mütter, Konfession und wirtschaftliche Lage, politische Anreize, wirtschaftliche Lage
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
26
Eheschließungen und Geburtenzahl in Deutschland 1946 - 1993
y = 1,76x + 10659,71
R2 = 0,74
0
200 000
400 000
600 000
800 000
1 000 000
1 200 000
1 400 000
1 600 000
400 000 450 000 500 000 550 000 600 000 650 000 700 000 750 000 800 000
Eheschließungen
Geb
urt
en
Zusammenhang Eheschließungen und Geburten
G = 10.660 + 1,76 ER2 = 0,74
• pro zusätzlicher Eheschließung knapp 2 Kinder mehr• zu prüfen: gilt das auch für nicht-eheliche Gemeinschaften?• evntl. reverse causality: Erst das Kind, dann die Ehe
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
27
Bevölkerungszahl über 60 Jahre und Beschäftigte in Altersheimen 1999
R2 = 0,943
0
5000
10000
15000
20000
0 5000 10000 15000 20000
Bevölkerung über 60
Bes
chäf
tig
te i
n
Alt
ersh
eim
en
Beispiel regionale Immobilienprognose I(InSiWo 2006, auf Basis von 97 ROR)
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
28
Beispiel regionale Immobilienprognose II(InSiWo 2006, auf Basis von 97 ROR)
Bevölkerungszahl insgesamt und Beschäftigte im ortsgebundenen
Einzelhandel 1999
R2 = 0,9728
0
1000000
2000000
3000000
4000000
0 20000 40000 60000 80000 100000 120000
Bevölkerung insgesamt
Bes
chäf
tig
te im
E
inze
lhan
del
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
29
Bevölkerungszahl unter 20 Jahre und Beschäftigte in Schulen/Hochschulen 1999
R2 = 0,4177
0
10000
20000
30000
40000
50000
60000
0 200000 400000 600000 800000
Bevölkerung unter 20
Bes
chäf
tigte
in
Sch
ule
n/H
osc
hsc
hu
len
Beispiel regionale Immobilienprognose III(InSiWo 2006, auf Basis von 97 ROR)
Schlechte Korrelationen evtl. durch Eliminierung von Ausreißern verbessern
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
30
Beispiel regionale Immobilienprognose IV(InSiWo 2006, auf Basis von 97 ROR)
Prüfen, ob Bevölkerungszahl insgesamt genauso gut (oder sogar besser!) funktioniert
Bevölkerungszahl unter 20 Jahre und Beschäftigte in Bildungsstätten/Sport 1999
R2 = 0,8657
0
5000
10000
15000
20000
25000
30000
0 200000 400000 600000 800000
Bevölkerung unter 20
Be
sc
hä
ftig
te in
Bild
un
g/S
po
rt
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
31
W = 0,0054 +0,29 * B
R2 = 0,36
Empirischer ZusammenhangBeschäftigungszuwachs und Wanderungssaldo
(97 ROR, Durchschnittsdaten 1993-99)
Beispiel für zirkuläre Kausalität:Bevölkerungs- und Arbeitsmarktentwicklung
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
32
Empirie ohne Theorie? Problem Scheinkorrelationen:
• Geburtenrate ist mit Zahl der Störche korreliert (beide sinken)• Weltbevölkerung korreliert mit Alter der englischen Königin (beide steigen)• Welttemperatur steigt mit abnehmender Zahl der Piraten (siehe Abb.)
cum hoc non est propter hoc
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
33
Vorsicht vor Scheinkorrelationen!
X Y
Z
• Beispiel A: Zahl der Kinder (Y) sinkt regional mit der Zahl der Störche (X) • Mögliche Erklärung: Mit steigendem Urbanisierungsgrad (Z) sinkt sowohl Kinder- wie auch Storchenzahl
• Beispiel B: In CDU-regierten Kommunen (X) gibt es weniger Kriminalität (Y) • Mögliche Erklärung: CDU regiert vor allem im ländlichen Raum (Z), dort ist die Kriminalität geringer (auch bei SPD-Regierung)
Evtl. Z als Kontrollvariablein die Regression aufnehmen
© U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Recommended