Prof. Dr. Ulrich van Suntum Empirische Methoden der Regionalökonomik SS 2010 2. Einfache...

Prof. Dr. Ulrich van Suntum

Empirische Methoden der Regionalökonomik

SS 2010

2. Einfache Regressionsanalyse

2. Einfache Regressionsanalyse(Vgl. K. Backhaus u.a., Multivariate Analysemethoden. Eine anwendungsorientierte Einführung, Berlin, 10. Aufl. 2003, S. 45 ff.;

sowie Stock/ Watson, Introduction to Econometrics, Boston u.a., 1st ed. 2003, S. 89 ff))

• Ziel: Empirische Bestimmung einfacher funktionaler Zusammenhänge

• Linearer Ansatz: • Kleinste-Quadrate-Verfahren => Minimierung von Schätzfehlern

)(xyy uxy

• Die Residuen ui geben Differenz zwischen Schätzwerten ŷi und empirisch beobachteten Werten y an• Minimiert wird die Summe der quadrierten Residuen ui (Kleinste-Quadrate- Schätzung bzw. ordinary least square = OLS-Ansatz)• Die yi bzw ui müssen voneinander unabhängig sein (d.h. keine Autokorrelation => Durbin-Watson-Test) • die ui müssen normalverteilt sein• es muss ein linearer Zusammenhang vorliegen

iii yyu ˆ

Bestimmtheitsmaß R2 (in Einfachregressionen):

• Quadrat des Pearson´schen Korrelationskoeffizienten R• gibt an, inwieweit die Varianz von y durch die Varianz von x erklärbar• liegt zwischen 0 und 1 (=100%) • Definition:

Kritik an R2:

• sagt nichts über Signifikanz (Zusammenhang kann zufällig sein)• ist problematisch bei zeitabhängigen Variablen (Trends)• steigt tendenziell mit Anzahl der Stichprobenwerte

Wertegeschätzte y Werte,empirischeymit )(

)ˆ(ii2

Tests der Zuverlässigkeit I: F-Test (Fisher-Test):

• prüft, ob R2 zufällig ist• Nullhypothese: es besteht kein linearer Zusammenhang y(x) in der Grundgesamtheit• Definition:

)1/()1(

JRWertF emp

n = Zahl der ProbandenJ = Zahl der Regressoren (hier nur x => J = 1)n-J-1 = „Zahl der Freiheitsgrade“

• kritischer F-Wert ergibt sich aus verlangtem Signifikanzniveau • Femp. > Fkrit. => Ablehnung der Nullhypothese => R2 signifikant

Tests der Zuverlässigkeit II: t-Test:• prüft, ob Regressoren signifikant sind• Nullhypothese: es besteht kein linearer Zusammenhang y(x) in der Grundgesamtheit• Definition:

jemp s

bWertt

b = Koeffizient von Regressor j (hier Koeffizient von x)sj = Standardabweichung von Regressor j

• kritischer t-Wert ergibt sich aus verlangtem Signifikanzniveau • temp > tkrit => Ablehnung der Nullhypothese => bj (hier: x) signifikant• Faustregel: t-Wert > 3 => Regressor ist hinreichend signifikant• exakter: p-Wert = (1-Signifikanzniveau des betreffenden Koeffizienten)

(ymax)

„Wenn x der Rang einer Stadt innerhalb einer Region nach der Größe ist, dann entspricht ihre Einwohnerzahl y (etwa) dem X-ten Teil der Einwohnerzahl der größten Stadt ymax.“

Im Idealfall:

Beispiel: Überprüfung der sogen. „Rank Size Rule“:

Rang (x) Stadt Einwohner (y)1 Metropolis 60.0002 Gerngroß 30.0003 Provinzia 20.0004 Biederhausen 15.0005 Unterkirch 12.0006 Kuhdorf 10.000

Strenge Form der Rank-Size-Rule (F. Auerbach 1913):

yy max

d.h. für jede Stadt eines Landes gilt

Bevölkerung (y) · Rang (x) = Bevölkerung der größten Stadt (ymax)

Empirische Evidenz damals für USA, Deutschland, Österreich, z.B.:

(Quelle: Matznetter, http://geoskript.heim.at/Downloads/Stadtgeographie.pdf)

Stadt Mio. EinwohnerWien 1,7

Budapest 0,85

Prag 0,57

Lemberg 0,425

Allgemeinere Form der Rank-Size-Rule (Lotka 1925):

yy max

Vergleich mit strenger Rank-Size-Rule:

• Bei b > 1 nimmt die EW-Zahl stärker ab

• Bei b < 1 nimmt die EW-Zahl schwächer ab

• Bei b = 0 sind alle Städte gleich groß

• Bei b => oo sind alle EW des Landes in einer Stadt

Für die USA wird b mit 0,93 angegeben

Linearer Schätzansatz erfordert Logarithmierung

)ln()ln()ln( maxmax xbyyx

x y ln(x) ln(y)1 60.000 0.000 11.002 30.000 0.693 10.313 20.000 1.099 9.904 15.000 1.386 9.625 12.000 1.609 9.396 10.000 1.792 9.21

Logarithmierte Darstellung des Idealfalls:

Ergebnis: ln(ymax) = 11b = -1R² = 1

)ln(11 xy

Anmerkung:Dies ist ein so genanntes:• log-log-Modell:=> Eine 1% Veränderung in x, ist verbunden mit einer b% Veränderung in y, so dass b die Elastizität von y zu x ist

Es gibt aber noch zwei Alternativen:• log-lin-Modell: => eine Veränderung in x um 1 Einheit (∆x = 1), ist verbunden mit einer 100b% Veränderung in y

• lin-log-Modell:=> eine 1% Veränderung in x, ist verbunden mit einer Veränderung in y von 0,01b

(vgl. Stock/Watson (2003), S. 215)

)ln()ln( xbay

bxay )ln(

)ln(xbay

Empirische Prüfung für den Regierungsbezirk Düsseldorf

Ergebnis: b = -0,72, R2 = 0,88

Stadt Rang (x) EW in 1.000 (y)Essen 1 627,3

Düsseldorf 2 578,1Dusiburg 3 539,1Wuppertal 4 388,1

Mönchengladbach 5 265,1Krefeld 6 248,4

Oberhausen 7 226,0Mülheim 8 177,0Solingen 9 167,1

Remscheid 10 124,1

Empirische Prüfung für den Kreis Neuss

Ergebnis: b = -1,01; R2 = 0,87

Stadt Rang (x) EW in 1.000 (y)Neuss 1 149,0

Grevenbroich 2 62,9Dormagen 3 59,6Meerbusch 4 53,3

Kaarst 5 40,9Korschenbroich 6 30,7

Juechen 7 21,9Rommerskirchen 8 11,9

14 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Rank Size Rule in NRW?

Düsseldorf

Duisburg

Wuppertal

MönchengladbachKrefeld Oberhausen

MülheimSolingen

Remscheid

GrevenbroichDormagen Meerbusch

Kaarst KorschenbroichJuechen

Rommerskirchen

RB Düsseldorf (b=0,72; R² = 0,88), Kreis Neuss (b= 1,01; R² = 0,87)

Ergebnis der empirischen Prüfung

• Im Regierungsbezirk Düsseldorf (b = -0,72) sind Stadtgrößen homogener als im Kreis Neuss (b = -1,01)

• Im Kreis Neuss ist die Rank Size Rule insgesamt annähernd erfüllt, aber Zusammenhang nicht perfekt (b nahe –1, mit einer geringeren erklärten Streuung => R2 = 0,87 )

• Kritik: Verwaltungsgrenzen willkürlich, Fallzahlen gering, gleich große Städte stören Zusammenhang

Einwohnerzahlen im Kreis Coesfeld 2004

47.479

36.729

24.053

20.358

20.267

15.153

12.168

11.961

11.553

10.977

10.286

0 10.000 20.000 30.000 40.000 50.000

Dülmen

Coesfeld

Lüdinghausen

Nottuln

Senden

Ascheberg

Havixbeck

Billerbeck

Rosendahl

Nordkirchen

2. Anwendungsversuch: Kreis Coesfeld

16 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Idee: Bildung von Gemeindegrößenklassen:

Stadt Rang (x) Einwohner (y)Dülmen 1 47.479Coesfeld 2 36.729

Lüdinghausen 3 24.053Nottuln/Senden 4 20.313

Ascheberg 5 15.153Olfen/Havixbeck/Billerbeck 6 11.894

Nordkirchen/Rosendahl 7 10.632

Test auf Gültigkeit der Rank-Size-Rule für die 7 Größenklassen:

a) Regression mit Originalwerten:

Ergebnis:a = 47.909b = - 6040=> ymax = a + b = 41.869

R2 = 0,90(Achtung: a steht hier nicht für Ymax,sondern für x = 0, d.h. Ymax = a + b·1)

Stadt Einwohner (y) Schätzwert (ŷ)Dülmen 47.479 41.869Coesfeld 36.729 35.829

Lüdinghausen 24.053 29.789Nottuln/Senden 20.313 23.749

Ascheberg 15.153 17.709Olfen/Havixbeck/Billerbeck 11.894 11.669

Nordkirchen/Rosendahl 10.632 5.629

Grafik/Bewertung:

• Ergebnis schon nicht schlecht• aber offensichtlich keine lineare Beziehung (Residuen systematisch verzerrt)• vielleicht geht es mit Logarithmierung ja noch besser...

Rank Size Rule: lineare Schätzung

Einwohner (y)

Schätzwert (ŷ)

b) 2. Versuch: Regression mit logarithmierten Werten

uxbyy )ln()ln()ln( maxErgebnis:ln(Ymax) = 10,92b = - 0,80R2 = 0,96

Stadt ln(x) ln(y) ln(ŷ) ŷDülmen 0.00 10.77 10.92 55.271Coesfeld 0.69 10.51 10.37 31.745

Lüdinghausen 1.10 10.09 10.04 22.951Nottuln/Senden 1.39 9.92 9.81 18.233

Ascheberg 1.61 9.63 9.63 15.252Olfen/Havixbeck/Billerbeck 1.79 9.38 9.49 13.182

Nordkirchen/Rosendahl 1.95 9.27 9.36 11.652

• Bestimmtheitsmaß höher als bei Schätzung mit Originalwerten• Residuen sind gleichmäßiger verteilt

Grafik/Bewertung:

Rank Size Rule: logarithmierte Darstellung

Einwohner (lny)

Schätzwert (lnŷ)

3. Versuch: Logarithmierung mit quadratischem Regressor

uxbyy 2max ))(ln()ln()ln( Ergebnis:

ln(Ymax) = 10,68b = - 0,40R2 = 0,98

Stadt ln(x)² ln(y) ln(ŷ) ŷDülmen 0.00 10.77 10.68 43.478Coesfeld 0.48 10.51 10.49 35.876

Lüdinghausen 1.21 10.09 10.20 26.829Nottuln/Senden 1.92 9.92 9.91 20.156

Ascheberg 2.59 9.63 9.64 15.427Olfen/Havixbeck/Billerbeck 3.21 9.38 9.40 12.038

Nordkirchen/Rosendahl 3.79 9.27 9.17 9.560

Grafik/Bewertung:

• Ergebnis nochmals verbessert• man kann auch andere Exponenten als Quadrat versuchen• der Phantasie sind keine Grenzen gesetzt, aber besser wäre eine Theorie...

Logarithmierung Darstellung mit quadratischem Regressor

Schätzwert (lnŷ)

Einwohner (lny)

Eheschließungen in Deutschland

y = -5216,36x + 10847598,48

R2 = 0,83

100 000

200 000

300 000

400 000

500 000

600 000

700 000

800 000

1940 1950 1960 1970 1980 1990 2000 2010Jahr

Beispiel aus der Demografie: zeitliche Trendschätzung

E = 10.847.598 – 5216 t R2 = 0,83

• Pro Jahr ca. 5.216 Ehen weniger als im Vorjahr• aber: andere Faktoren mit einbeziehen (z.B. Bevölkerung im heiratsfähigen Alter, „wilde“ Ehen, Konfessionen, Wirtschaftslage)

Geburtenzahl in Deutschland

y = -8873,76x + 18494540,61

R2 = 0,57

200 000

400 000

600 000

800 000

1 000 000

1 200 000

1 400 000

1 600 000

1940 1950 1960 1970 1980 1990 2000 2010Jahr

nBeispiel aus der Demografie II: Geburtenzahl

G = 18.494.540 – 8874 t R2 = 0,57

• Zusammenhang insgesamt schwächer als bei Ehen• Seit den 80er Jahren aber ähnlich eng• Andere Einflußfaktoren: Zahl der potentiellen Mütter, Konfession und wirtschaftliche Lage, politische Anreize, wirtschaftliche Lage

Eheschließungen und Geburtenzahl in Deutschland 1946 - 1993

y = 1,76x + 10659,71

R2 = 0,74

200 000

400 000

600 000

800 000

1 000 000

1 200 000

1 400 000

1 600 000

400 000 450 000 500 000 550 000 600 000 650 000 700 000 750 000 800 000

Eheschließungen

Zusammenhang Eheschließungen und Geburten

G = 10.660 + 1,76 ER2 = 0,74

• pro zusätzlicher Eheschließung knapp 2 Kinder mehr• zu prüfen: gilt das auch für nicht-eheliche Gemeinschaften?• evntl. reverse causality: Erst das Kind, dann die Ehe

Bevölkerungszahl über 60 Jahre und Beschäftigte in Altersheimen 1999

R2 = 0,943

0 5000 10000 15000 20000

Bevölkerung über 60

Beispiel regionale Immobilienprognose I(InSiWo 2006, auf Basis von 97 ROR)

Beispiel regionale Immobilienprognose II(InSiWo 2006, auf Basis von 97 ROR)

Bevölkerungszahl insgesamt und Beschäftigte im ortsgebundenen

Einzelhandel 1999

R2 = 0,9728

1000000

2000000

3000000

4000000

0 20000 40000 60000 80000 100000 120000

Bevölkerung insgesamt

Bevölkerungszahl unter 20 Jahre und Beschäftigte in Schulen/Hochschulen 1999

R2 = 0,4177

0 200000 400000 600000 800000

Bevölkerung unter 20

Beispiel regionale Immobilienprognose III(InSiWo 2006, auf Basis von 97 ROR)

Schlechte Korrelationen evtl. durch Eliminierung von Ausreißern verbessern

Beispiel regionale Immobilienprognose IV(InSiWo 2006, auf Basis von 97 ROR)

Prüfen, ob Bevölkerungszahl insgesamt genauso gut (oder sogar besser!) funktioniert

Bevölkerungszahl unter 20 Jahre und Beschäftigte in Bildungsstätten/Sport 1999

R2 = 0,8657

0 200000 400000 600000 800000

Bevölkerung unter 20

W = 0,0054 +0,29 * B

R2 = 0,36

Empirischer ZusammenhangBeschäftigungszuwachs und Wanderungssaldo

(97 ROR, Durchschnittsdaten 1993-99)

Beispiel für zirkuläre Kausalität:Bevölkerungs- und Arbeitsmarktentwicklung

Empirie ohne Theorie? Problem Scheinkorrelationen:

• Geburtenrate ist mit Zahl der Störche korreliert (beide sinken)• Weltbevölkerung korreliert mit Alter der englischen Königin (beide steigen)• Welttemperatur steigt mit abnehmender Zahl der Piraten (siehe Abb.)

cum hoc non est propter hoc

Vorsicht vor Scheinkorrelationen!

• Beispiel A: Zahl der Kinder (Y) sinkt regional mit der Zahl der Störche (X) • Mögliche Erklärung: Mit steigendem Urbanisierungsgrad (Z) sinkt sowohl Kinder- wie auch Storchenzahl

• Beispiel B: In CDU-regierten Kommunen (X) gibt es weniger Kriminalität (Y) • Mögliche Erklärung: CDU regiert vor allem im ländlichen Raum (Z), dort ist die Kriminalität geringer (auch bei SPD-Regierung)

Evtl. Z als Kontrollvariablein die Regression aufnehmen

Prof. Dr. Ulrich van Suntum Empirische Methoden der Regionalökonomik SS 2010 2. Einfache...

Documents

Thünen Modell U. van Suntum, Regionalökonomik, Thünenmodell 1 Zentrum Freie Wirtschaft Forstwirtschaft Fruchtwechselwirtschaft (Getreide u. Blattfrucht

Ökonomie des Mittelalters (500 – 1500) 2.2. Vorläufer der Ökonomie in Antike und Mittelalter Geschichte der ökonomischen Theorie, Prof. Dr. van Suntum

Vorlesung Geschichte der Volkswirtschaftslehre Münster, WS 2002/03 Ulrich van Suntum t w

Kommentierter SPSS-Output für die multiple ... · PDF fileR.Niketta Multiple Regressionsanalyse Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) Daten:

Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit

Vortrag van Suntum BDI workshop Berlin · 1. Dezember 2004 © Prof. Dr. Ulrich van Suntum Less resource consuming goods (Education, environment, leisure, health…) Less resource

Hc-Programm Feb-Sep16pdf · Statistische Maßzahlen; Häufigkeit und Klassenbildung; Quantile berechnen; Streuungsparameter; Spannweiten; Zeitreihenanalyse und Trend; Regressionsanalyse;

1 Lineare Regressionsanalyse mit SPSS von Susanne Konrath Inhaltsverzeichnis Bestehenden Datensatz importieren Neue Daten eingeben Start der linearen Regression

Gliederung Kapitel 2 Geschichte der ökonomischen Theorie, Prof. Dr. van Suntum 1 1. Übersicht über dogmengeschichtliche Zusammenhänge 2. Vorläufer der

IDENTIFIKATION VON PRÄDIKTOREN DES TRAININGSERFOLGS … · Tabelle 13: Regressionanalyse der Interaktionen: abhängige Variable Differenz Alerting (ANT)56 Tabelle 14: Regressionsanalyse

Einführung in die Induktive Statistik: Regressionsanalysegroll.userweb.mwn.de/StatistikII_SS_2011/InduktStatRegression.pdf · Einführung in die Induktive Statistik: Regressionsanalyse

icd.eu...13082013 Die Grafikdaten warden zusammengestellt - haben Sie bitte etwas Geduld! Regressionsanalyse für "GEHALTIR" Ausführen Residualanalyse Kurvenverlauf auswShIe inearer

Gliederung Kapitel 4.2 Geschichte der ökonomischen Theorie, Prof. Dr. van Suntum, Kap. 4.2 1 1. Übersicht über dogmengeschichtliche Zusammenhänge 2. Vorläufer

Ulrich van SuntumRegionalökonomik und AHT1 Regionalökonomik und Außenhandelstheorie *) AHT: auf Länder bezogen, Grenzen zu Regionen verschwimmen aber zunehmend

Intervall Ordinal Nominal Mindestskalenniveau des x-Merkmals IntervallOrdinalNominal Mindestskalenniveau des y-Merkmals Pearson-Korrelation, Regressionsanalyse

Logistische Regressionsanalyse mit SPSS - uni-trier.de · PDF fileLogistische Regressionsanalyse mit SPSS 2 Inhaltsübersicht VORWORT 5 1 EINLEITUNG 6 2 DIE BINÄRE LOGISTISCHE REGRESSION

Kommentierter SPSS-Output für die multiple ... · R.Niketta Multiple Regressionsanalyse Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) Daten: Selbstdarstellung

U. van Suntum VWL III Foliensatz 9.1 1 9.1 Monetarismus (auch: Neoquantitätstheorie) Theoretischer Ansatz/Unterschiede zu Keynes andere Konsumfunktion

Lineær regressionsanaLyse - Systime · PDF fileder passer bedst til punkterne, forstået sådan, at e i i n 2 =1 ... Så vi konkluderer følgende uden bevis: 344 8. Lineær regressionsanalyse

Lineare Theorie und Kleinste Quadrate - math.uni-frankfurt.destoch/kleinstequadrate.pdf · Methode der kleinsten Quadrate, Regressionsanalyse, lineare Zeitreihenanalyse. Es wird hier