22
Multipel regressionsanalys av variabler som p˚ averkar BNP Kanditatexamensarbete Stockholm, 26 Maj Carl Cronsioe Marcus Ribbenstedt Handledare: Jimmy Olsson Kungliga Tekniska H¨ogskolan 2014

Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

Embed Size (px)

Citation preview

Page 1: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

Multipel regressionsanalys

av variabler som paverkar BNP

Kanditatexamensarbete

Stockholm, 26 Maj

Carl Cronsioe

Marcus Ribbenstedt

Handledare: Jimmy OlssonKungliga Tekniska Hogskolan

2014

Page 2: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

Sammanfattning

I denna rapport har en modell tagits fram som beskriver hur bruttonationalpro-dukten, BNP, påverkas av ett antal kovariater, t.ex. befolkningens utbildningoch livslängd. Data för BNP samt för samtliga kovariater har inhämtats frånVärldsbanken. Modellen för att beskriva BNP har tagits fram med hjälp av mul-tipel linjär regression. För att nå en slutgiltig modell med god tillförlitlighet harantalet kovariater successivt minskats för att utesluta insignifikanta kovariater.För att minimera feltermen och hitta en tillförlitlig modell har Baysian Informa-tion Criterion använts i kombination med hypotestest. Den slutgiltiga modellenkunde med ett konfidensintervall på 95% prediktera 111 av 139 länders BNP.Den slutgiltiga modellen stämmer väl med den förväntade bilden av kovariater-nas inverkan på BNP. Exempelvis syns en positiv relation mellan utbildning ochett lands BNP.

Abstract

In this report a model was constructed in order to determine how a numberof covariates influence the gross domestic product, GDP. The covariates werechosen depending on their expected influence on GDP, for example educationand life expectancy. The data used in this report are collected from the WorldBank. The model to describe GDP has been calculated using multiple linearregression. In order to reach a reliable final model the number of covariateshas been gradually decreased to eliminate insignificant covariates. In order tominimize the error term and find a reliable model the Baysian InformationCriterion has been used together with hypothesis testing. At a 95% confidenceinterval the final model could predict 111 of 139 countries GDP. The influencesof the covariates in the final model is well in line with the expectations. Forinstance a positive relationship between GDP and education is observed.

1

Page 3: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

Innehåll

1 Inledning 3

2 Generellt om regressionsanalys 32.1 Linjär regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 Ordinary Least Squares . . . . . . . . . . . . . . . . . . . . . . . 42.3 Antaganden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.4 Överträdelse av antaganden . . . . . . . . . . . . . . . . . . . . . 62.5 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.6 Intervallskattning . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.7 Hypotestest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.8 Dummys . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.9 Transformation av variabler . . . . . . . . . . . . . . . . . . . . . 92.10 R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.11 Bayesian information criterion . . . . . . . . . . . . . . . . . . . . 10

3 Metod 113.1 Beroende variabel . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.2 Kovariater . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.3 Insamling av data . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4 Resultat 124.1 Inledande regressioner . . . . . . . . . . . . . . . . . . . . . . . . 124.2 BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.3 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.4 Slutlig modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.5 Prediktion av slumpvis utvalda länder . . . . . . . . . . . . . . . 18

5 Diskussion 19

6 Referenser 20

A Appendix 21A.1 Länder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2

Page 4: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

1 Inledning

Syftet med detta kandidatexamensarbete är att studera hur ett antal faktorerpåverkar BNP samt att kunna prediktera ett lands BNP med hjälp av modellen.Detta ska genomföras med hjälp av multipel linjär regression. Ett lands BNPanvänds ofta som ett mått på hur rikt ett land är, men är inget perfekt mått.Men då det används frekvent är det av intresse att se hur det påverkas av olikakovariater i dagens samhälle. Med dagens tekniska utveckling är det speciellt in-tressant att studera hur internet påverkar ett lands BNP. Ytterligare en faktorsom är särskilt intressant är CO2-utsläpp per person då det ger en uppfattningom kostnaden för ett högt BNP. All data är hämtad från Världsbanken och om-fattar 139 av världens länder. Övriga kovariater samt en beskrivning av metodenges i kapitel 3. I kapitel 2 presenteras en teoridel för att fördjupa förståelsen avmultipel linjär regression och närliggande statistiska verktyg som t.ex. hypo-testest. Kunskapen om vad som påverkar ett lands BNP kan förhoppningsvisutvidga kunskapen om hur länder utvecklas och vad som är viktigt för att hö-ja ett lands BNP. Resultaten presenteras i kapitel 4 och diskuteras närmare ikapitel 5.

2 Generellt om regressionsanalys

2.1 Linjär regressionDen modell som vanligen används vid multipel linjär regression är

yi

=kX

j=0

xij

�j

+ ei

i = 1, ..., n, (1)

där y är den beroende variabeln och x är de oberoende variablerna ofta kalladekovariater. Antalet observationer av den beroende variabeln är n och antalet ko-variater är k. Parametrarna � är okända och skattas med hjälp av minstakvadrat-metoden som beskrivs i avsnitt 2.2. Termen e är en felterm som även kallasresidual. För feltermen antas följande två samband gälla,

E(e | X) = 0, (2)

där X är en stokastisk variabel och

E(e2 | X) = �2, (3)

där �2 är variansen. Dessutom krävs det att residualerna är oberoende. Summanav alla residualernas kvadrater är ofta av intresse när modellens noggrannhetska analyseras. Denna summa definieras som

sse =

nX

i=1

ei

2 =

nX

i

(yi

� y)2 �nX

i

(yi

� y)2. (4)

3

Page 5: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

där det predikterade y-värdena betecknas y samt att y är medelvärdet av allay.

Ett annat begrepp som används är modellens frihetsgrader

df = n� k � 1, (5)

där det är synligt att fler observationer ökar frihetsgraderna. För att underlättanotationen skrivs (1) på matrisform

Y = X� + e, (6)

där

Y = [y1...yn]t , (7)

X =

2

6664

1 x11 · · · x1k

1 x21 · · · x2k...

.... . .

...1 x

n1 · · · xnk

3

7775, (8)

och� = [�0, ...,�k

]t. (9)

Med ettor i första kolumnen i X blir �0 intercept. Intercept används eftersomregressionen kan ha ett affint samband.

Ett sätt att beräkna standardavvikelserna för skattningarna av � då model-len är skriven på matrisform är att utnyttja kovariansmatrisen,

Cov(� | X) = (XtX)�1�2. (10)

Standardavvikelsen SE(�j

) erhålls genom att ta roten ur diagonalelementen ur(10) .

2.2 Ordinary Least SquaresDen bästa linjära skattningen för regressionsanalysen är Ordinary Least Squa-res (OLS) och fungerar genom att minimera felet. Notera att residualerna kanskrivas som

e = Y �X�, (11)

efter omskrivning av (6). De � som minimerar summan av residualerna (4),betecknas �. Dessa � bestäms genom minstakvadratmetoden. Mer precist ge-nomförs detta genom att finna ett � som löser normalekvationerna

Xte = 0. (12)

Denna bästa skattning av � kan skrivas på matrisform med hjälp av norma-lekvationerna enligt

4

Page 6: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

� = (XtX)�1XtY. (13)

En viktig egenskap hos � är att den är en väntevärdesriktig skattning av �. Medtidigare notation skrivs detta

E(� | X) = �. (14)

2.3 AntagandenFör att göra en regressionsanalys kräver metoden att ett antal antaganden äruppfyllda. Om det sker överträdelser av antaganden fungerar inte metoden ochsvaren blir inte tillförlitliga. Först beskrivs alla antaganden som krävs och iavsnitt 2.4 beskrivs vad som sker vid överträdelse av dem och vad man kan göraför att lösa problemet.

Antagande ett

Den beroende variabeln kan skrivas som en linjär funktion av de oberoendevariablerna och en felterm.

Antagande två

Väntevärdet på feltermen är noll,

E(e | X) = 0. (15)

Antagande tre

Alla feltermer har samma varians och är okorrelerade.

E(e2 | X) = �2. (16)

Antagande fyra

Värdet på kovariaterna är konstanta oavsett om man gör flera mätningar. Dettaantagande uppfylls t.ex. inte om det finns fel i mätningen av kovariaterna ellerom det finns simultanitet, som förklaras i avsnitt 2.4

Antagande fem

Antalet observationer är mycket större än antalet kovariater, d.v.s. antal frihets-grader är “stort”, och kovariaterna är linjärt oberoende.

5

Page 7: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

2.4 Överträdelse av antagandenAntagande ett

Överträdelse av detta antagande kan ske på två vis. Dels kan relevanta kovariateruteslutas ur ekvationen, dels kan det finnas irrelevanta kovariater i ekvationen.Att utesluta en relevant kovariat kan höja eller sänka medelkvadratfelet (MSE)av �.

Endogenitet betyder att en eller flera kovariater är korrelerade med felter-men. Detta sker när en utesluten kovariat är korrelerad med en annan. I dethär fallet kan endogeniteten åtgärdas genom att hitta den relevanta uteslutnakovariaten och föra in den i modellen

Om ekvationen innehåller en irrelevant kovariat blir � inte lika effektiv ochMSE av � höjs. Att ha väldigt många kovariater kan verka bra eftersom man interiskerar att utesluta en viktig kovariat och på så vis förhindra endogenitet, mende irrelevanta kovariaterna kan höja variansen och sänka frihetsgraderna (5).Ett bra sätt att undvika detta problem är att börja med för många kovariateroch senare rensa ekvationen från kovariater som bedöms vara irrelevanta medhjälp av olika metoder, t.ex. Baysian information criterion.

Antagande två

Om det finns en relevant kovariat som inte är med i modellen kommer denfinnas i feltermen och då kommer feltermen inte ha medelvärdet noll. Lösningentill det är att föra in den uteslutna kovariaten i ekvationen Om väntevärdetför felen är nollskilda skapar det inga större problem då detta kan skrivas in iintercept. Problemet med det är att incercept inte blir väntevärdesriktig, dockär detta inte alltid negativt eftersom man inkluderar väntevärdet av residualeni prediktionen, vilket är önskvärt.

Antagande tre

Om detta antagande inte är uppfyllt uppstår heteroskedasticitet. Direktöversattbetyder heteroskedasticitet “olika varians” och innebär att alla feltermer intekommer från samma fördelning. Om modellen behandlas som om den varit ho-moskedastisk men inte är det blir standardavvikelsen på � inte konsekvent ochdet går inte att använda F-test. Ett sätt att behandla heteroskadisitet är attanvända White’s consistent Variance Estimator. Man kan också omformuleramodellen genom att t.ex. logaritmera variabler.

Antagande fyra

Ett av de stora problemen när man gör en regressionsanalys är att data somanvänds inte är korrekt. Anledningen till mätfelen kan bero på dålig mätut-rustning men också på att insamlingen av data inte utförts på rätt sätt. Datasom ska samlas in kan ha olika definition beroende på var den samlas in. Tillexempel kan arbetslöshet mätas på olika sätt i olika länder. Finns det mätfel i

6

Page 8: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

den beroende variabeln skapar detta inte så mycket problem då detta hamnar ifeltermen. Det blir dock större problem när de oberoende variablerna inte mätskorrekt. Detta skapar endogenitet vilket enkelt kan visas. Antag att modellenär definierad som:

y = �x+ e. (17)

Om det finns ett mätfel u i mätningen av x blir den nya variabeln

x = x+ u. (18)

Detta ger den nya modellen

y = �x+ e (19)

där

e = e� �u. (20)

Ekvationen visar att x och e är korrelerade vilket ger upphov till endogenitet.Denna korrelation kan visas genom

Cov(x, e) = Cov(e, x) + Cov(e, u)� � · Cov(u, x)� � · Cov(u, u)

= �� · V ar(u) 6=0. (21)

Om den beroende variabeln är korrelerad med en eller flera kovariater skeräven en överträdelse av antagande fyra. Detta kallas simultanitet och ett van-ligt fall när detta sker är om man ska beräkna tillgång och efterfrågan. Bådavariablerna påverkar varandra och även här uppstår endogenietet. För att rådabot på endogenitet kan man införa en instrumentvariabel. Instrumentvariabelnska vara korrelerad med den endogena variabeln men inte med feltermen. Detkrävs minst en instrumentvariabel för varje endogen variabel i modellen.

Antagande fem

Är kovariaterna linjärt beroende med varandra uppstår multikolinjäritet. Linjärtberoende kan ske i varierande utsträckning. Är kovariaterna direkt beroende ärdet typiskt så att modellen är uppsatt fel. Det kan t.ex. vara att det finns endummy för både kvinna och man. Dessa kovariater kommer vara helt linjärt be-roende och lösningen för det problemet är att ta bort en av dummy-kovariaterna.Relativt andra problem som kan uppstå vid regressionsanalys är multikolinjä-ritet inte så skadligt. Regressionen fortsätter att vara väntevärdesriktig och R2

förändras ej. Den negativa påverkan är att variansen på � ökar eftersom det intefinns tillräckligt med variation i kovariaten för att veta vad den har för påverkanpå den beroende variabeln.

7

Page 9: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

2.5 KorrelationEn metod för att analysera korrelationen mellan två olika stokastiska variablerX1och X2 är att studera korrelationsmatrisen. Matrisen beskriver korrelationenmellan de stokastiska variablerna och definieras

corr(X1, X2) =Cov(X1, X2)

�X1�X2

, (22)

detta ger en symmetrisk matris med ettor i diagonalen. De anti-diagonala ele-menten beskriver korrelationen mellan X1 och X2 och antar ett värde mellan�1 och 1. Ett värde nära 1 tyder på en stark positiv korrelation och ett värdenära -1 tyder på en stark negativ korrelation. Två stokastiska variabler som ärokorrelerade har korrelationen 0.

2.6 IntervallskattningEtt konfidensintervall för �

j

beräknas genom

�j

±p

F↵

(1, df)SE(�j

) (23)

där F↵

är kvantilen för F-fördelningen på den valda signifikansnivån ↵. Ettkonfidensintervall är användbart för att få en uppfattning om vilka värden �kan anta då en given signifikansnivå valts.

En viktig distinktion mellan en strukturtolkning och en prediktion bör göras.Prediktion innebär att man vill prediktera ett värde på den beroende variabelnutifrån värden på kovariaterna. Vid en strukturtolkning antas den beroendevariabeln påverkas av kovariaterna men inte det omvända. Denna diskrepansär avgörande då modellen ska analyseras. Vid en prediktion kan istället ettkonfidensintervall för det predikterade y

p

vara av intresse. Då predikteras y som

y = yp

±q1 + x0(XtX)�1xt

0s2p

F↵

(1, df), (24)

där x0 är kovariaterna för den observation som ska predikteras

x0 = (1 x0,1...x0,k), (25)

s2 är en väntevärdesriktig skattning av �2 som beräknas

s2 = sse/df, (26)

och yp

är det värde som fås från

yp

= X�. (27)

8

Page 10: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

2.7 HypotestestVid statistisk analys är det ofta intressant att testa vissa hypoteser, kalladenollhypoteser,

H0 : � = �0j

, (28)

där �0j

kan väljas fritt. Ofta används F-fördelningen för att genomföra testet,F-statistikan definieras som

F =

�j

� �0j

SE(�j

)

!2

, (29)

och kan användas för att beräkna p-värdet. Om residualerna är normalfördeladeger F-statistikan ett exakt svar, om de inte är det är F-statstiken ändå giltigvid stort antal observationer. I en regressionsmodell med hypotesen

H0 : � = �0j

= 0 (30)

är p-värdet sannolikheten att �j

påverkar den beroende variabeln y trots attvi accepterat nollhypotesen. Med hjälp av (29) kan p-värdet bestämmas genomsannolikheten att F-statistikan antar ett mer extremt värde än det som obser-verats,

p = P (X > F ), (31)

där X har en F↵

(1, df) fördelning och ↵ kan väljas valfritt, ofta 5%. Detta ledertill att nollhypotesen kan förkastas om p-värdet understiger 5%.

2.8 DummysI vissa fall kan en kovariat bäst beskrivas som sann eller falsk. Detta kan dåinkluderas i modellen genom att införa en kovariat x som har värdet 1 omden är sann och 0 om falsk. Exempel på situationer där dummy-variabler kananvändas är vid situationer där man skiljer mellan man och kvinna. I dessa fallanvänds då en dummy-variabel för t.ex. man. Denna dummy är 1 om det är enman och 0 om det är en kvinna.

2.9 Transformation av variablerDå den beroende variabeln antas vara större än noll kan den naturliga logaritmenanvändas så att modellen skrivs

ln(Y ) = X� + e. (32)

Antagandet är att det finns ett exponentiellt samband mellan x och y. Dettagör att en förändring 4x ger en relativ förändring i y. Detta skiljer sig motY = X�+ e där det ger en absolut förändring. Användandet av logaritmen kanäven minska problem med heteroskedasticitet.

9

Page 11: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

Om en kovariat misstänkas ha avtagande marginalnytta kan det vara lämp-ligt att införa en kvadrering av den kovariaten. Då t.ex. en regression på lönanvänds enligt

ylon

= �0 + (utbildning)�1 + e, (33)

kan utbildning misstänkas ha avtagande marginalnytta. En kvadratisk terminkluderas enligt

ylon

= �0 + (utbildning)�1 + (utbildning)2�2 + e. (34)

Om avtagande marginalnytta gäller förväntas �1 > 0 och �2 < 0.

2.10 R2

Ett sätt att avgöra hur väl modellen beskriver verkligheten är att använda R2.Den är definierad som

R2 = 1� sse

tss(35)

där sse är sum of squares of residuals och tss är total sum of squares ochdefinieras

tss =

nX

i=1

(yi

� y)2. (36)

Eftersom minsta kvadratmetoden minimerar sse kommer metoden att maximeraR2. Enkelt beskrivet kan man säga att R2 är ett mått på hur väl modellenbeskriver verkligheten. Ett högt värde på R2 är oftast positivt men behöverinte betyda att modellen är korrekt. Eftersom R2 beror på felet kan den intebli mindre om man inför nya kovariater. Detta betyder att om man fortsätteratt införa fler kovariater, även fast de är statistiskt insignifikanta, kan de verkasom att de ska tillhöra modellen eftersom R2 ökar. För att lösa detta problemanvänds istället R2

adj

som är en justerad version av R2 och definieras

R2adj

= 1� n� 1

n� k � 1(1�R2), (37)

där n är antal observationer och k är antalet kovariater. Detta tar hänsyn tillantalet kovariater i modellen och ger ett rättvisare mått på hur korrekt modellenär.

2.11 Bayesian information criterionBayesian information criterion (BIC) är ett kriterium för att avgöra om enkovariater ska uteslutas ur modellen. Enligt kriteriet utelämnas en kovariat omBIC med den kovariaten utelämnad blir lägre än BIC för den fulla modellen. Omfler kovariater ger ett lägre BIC än den fulla modellen, utesluts den kovariat somger lägst värde och så utförs nya BIC-beräkningar. Genom att använda denna

10

Page 12: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

metod kan en reducerad modell tas fram som enbart har signifikanta kovariater.Uttrycket för BIC som ska minimeras är

BIC = n · ln(sse) + (k + 1) · ln(n), (38)

där BIC beror på antalet observationer, antalet kovariater samt sum of squaresof residuals. Det finns även andra liknande metoder för att välja rätt kovariaterexempelvis Akaike information criterion (AIC), se s.101 i A Guide to Econo-metrics.

3 Metod

3.1 Beroende variabelDen beroende variabeln är BNP per person i amerikanska dollar och är hämtadfrån Världsbanken. Denna data är från 2011. Eftersom befolkningsmängden iolika länder varierar kraftigt är det fördelaktigt att välja BNP per person föratt undvika heteroskedasticitet.

3.2 KovariaterLivslängd

Beräknad livslängd kan även tolkas som ett tecken på bra hälsa hos en befolk-ning. Den beräknade livslängden i år vid födelsen har använts som data. Dennainformation är från 2011. Denna kovariat misstänks påverka BNP positivt.

CO2-utsläpp

För att mäta hur ett lands BNP påverkas av CO2-utsläpp per person har datafrån 2010 inkluderats. Denna kovariat antas påverka BNP positivt.

Bredband

Antalet abonnemang för fast bredband per 100 personer. Denna information ärfrån 2012. Denna kovariat antas påverka BNP positivt.

Utbildning

Antalet år med eftergymnasial utbildning per capita. Data som används är från2010. Den förväntas påverka BNP positivt. Denna kovariat antas ha avtagandemarginalnytta, därför inkluderas den även i kvadrat.

Barn per kvinna

För antalet barn per kvinna inhämtades data från 2011. Denna kovariat antaspåverka BNP negativt.

11

Page 13: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

Befolkning under 14

Hur stor andel av befolkningen som är 14 år eller yngre. Data är från 2012.Antas påverka BNP negativt.

Europa

En dummy för om landet ligger i Europa. Det är intressant att veta om ettlands geografiska placering har en inverkan på dess BNP. Data hämtades 2014.Denna kovariat förväntas ej ha någon påverkan.

3.3 Insamling av dataI detta arbete har Världsbankens länder valts som utgångspunkt. Ingen hänsynhar tagits till olika politiska situationer. Vid enstaka fall har data saknats förett land vid det angivna året, då har närmast föregående år med data tagits,max tre år. Då många av kovariaterna förändras minimalt mellan tre år ansesmetoden acceptabel. Det är värt att notera att BNP inte är ett perfekt måttpå hur välmående ett land är, BNP exkluderar många viktiga faktorer somt.ex. inkomstklyftor och mänskliga rättigheter. Efter rensning av länder medotillräcklig data fanns 139 länder kvar. Namnen på alla länder som användsfinns i Appendix.

4 Resultat

4.1 Inledande regressionerDen första regressionen som gjordes inkluderade kovariaterna

• Livslängd

• CO2-utsläpp

• Bredband

• Utbildning

• Utbildning i kvadrat

• Befolkning under 14

• Europa

Resultatet för denna regression ses i Tabell 1 där p-värdet är beräknat för noll-hypotesen

H0 : �j

= 0, (39)

och där konfidensintervallet för � är presenterat med övre och undre gräns.Konfidensintervallet är beräknat enligt (23) med 95% signifikansnivå.

12

Page 14: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

Namn � SE(�) p-värde undre gräns övre gränsIntercept 4.177 0.585 < 0.01 3.020 5.335Livslängd 0.047 0.010 < 0.01 0.0274 0.06652

CO2-utsläpp 0.070 0.00841 < 0.01 0.05377 0.08704Bredband 0.05558 0.00790 < 0.01 0.03995 0.07121Utbildning 1.67712 0.56411 < 0.01 0.56117 2.79307

Utbildning i kvadrat -1.00585 0.35758 < 0.01 -1.71323 -0.29847Befolkning under 14 -0.00343 0.00498 0.49 -0.01328 0.00641

Europa -0.20972 0.16023 0.19 -0.52670 0.10727

Tabell 1: Första regressionen.

För att bedöma regressionens tillförlitlighet beräknades R2adj

= 0.848, vilket ärett förhållandevis högt värde men som syns i tabellen är p-värdena inteacceptabla. Även feltermen beräknas till sse = 45.3 för att senare kunnajämföras med ytterligare regressioner. På grund av det höga p-värdet hosBefolkning under 14 bedöms det att den inte har någon påverkan på denberoende variabeln. Även kovariaten för Europa har ett högt p-värde men intetillräckligt högt för att direkt kunna uteslutas ur ekvationen. Om Befolkningunder 14 försvinner finns det ingen kovariat som förklarar hur befolkningensser ut. Därför introduceras en ny kovariat, Barn per kvinna. En ny regressionutförs där Befolkning under 14 är utesluten och Barn per kvinna införs.

Namn � SE(�) p-värde undre gräns övre gränsIntercept 6.42359 0.83698 < 0.01 4.76785 8.07932Livslängd 0.02338 0.01103 0.036 0.00156 0.04521

CO2-utsläpp 0.06727 0.00804 < 0.01 0.05137 0.08317Bredband 0.05567 0.00752 < 0.01 0.04079 0.07054Utbildning 1.55385 0.53509 < 0.01 0.49531 2.61239

Utbildning i kvadrat -0.92810 0.34032 < 0.01 -1.60133 -0.25487Barn per kvinna -0.21816 0.06048 < 0.01 -0.33781 -0.09852

Europa -0.29165 0.15369 0.060 -0.59569 0.01239

Tabell 2: Andra regressionen.

Den nya kovariaten, Barn per kvinna, bedöms vara signifikant eftersom dessp-värde är väldigt lågt. Det är något överraskande att p-värdet skiljer kraftigtmellan Befolkning under 14 och Barn per kvinna då de till viss del mäterliknande faktorer. Men en viktigt skillnad är att Barn per kvinna antaspåverkas mindre av landets generella sjukvårdskvalité. Ett land med ungbefolkning kan t.ex. ha många barn per kvinna under en kort tid till skillnadfrån en befolkning med medelhög ålder. En befolkning kan ha medelhög ålderoch fortfarande ha många barn per kvinna eftersom att barn per kvinna kan

13

Page 15: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

ha varit konstant under lång tid. Kovariaten för Europa har fått ett lägrep-värde och behålls tills vidare. Det noteras att R2

adj

är nästintill oförändratmed ett värde på R2

adj

= 0.861. En skillnad mot föregående regression är attsse = 41.4 vilket är en minskning jämfört med tidigare regression. För att tareda på om modellen kan reduceras ytterligare tillämpas BIC.

4.2 BIC

Namn n k sse BICFull modell 139 7 41.4010 557,02Livslängd 139 6 42.8205 556,77

CO2-utsläpp 139 6 63.5373 611,62Bredband 139 6 58.7205 600,66Utbildning 139 6 44.0661 560,75

Utbildning i kvadrat 139 6 43.7516 559,76Barn per kvinna 139 6 45.5133 565,244

Europa 139 6 42.5391 555,85

Tabell 3: Första BIC.

Analysen säger att BIC för både Livslängd och Europa är lägre än för den fullamodellen, men kovariaten som indikerar om landet är i Europa har lägst BICvilket betyder att den inte ska vara kvar i modellen. Kovariaten Livslängd ärkvar och ännu en BIC analyseras med den nya modellen utan Europa. För dennya modellen blir BIC följande.

Namn n k sse BICFull modell 139 6 42.5391 555.8501Livslängd 139 5 44.6571 557.6696

CO2-utsläpp 139 5 66.0555 612.0856Bredband 139 5 60,9603 600.9278Utbildning 139 5 44.6460 557.6351

Utbildning i kvadrat 139 5 44.2871 556.5132Barn per kvinna 139 5 46.0249 561.8632

Tabell 4: Andra BIC.

I den nya analysen beräknas BIC för den fulla modellen till att vara lägst.Detta föreslår att denna modell ej ska reduceras ytterligare. En slutlig modellär bestämd.

14

Page 16: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

4.3 KorrelationFör att studera modellens multikolinjäritet används en korrelationsmatris. Ma-trisen presenteras i Tabell 5

Livslängd CO2-utsläpp Bredband Utbildning Utbildning i kvadrat Barn per kvinna1 0.424 0.721 0.603 0.417 -0.801

0.425 1 0.404 0.388 0.333 -0.4110.721 0.4039 1 0.644 0.526 -0.6310.603 0.388 0.644 1 0.936 -0.5220.417 0.333 0.526 0.936 1 -0.353-0.801 -0.411 -0.631 -0.522 -0.353 1

Tabell 5: Korrelationsmatris.

Korrelationsmatrisen visar att det finns en stark positivt korrelation mellanUtbildning och Utbildning i kvadrat vilket var väntat. Det syns också en tydlignegativ korrelation mellan Livslängd och Barn per kvinna. Detta kan tolkassom att länder där det föds många barn per kvinna har lägre medellivslängd.Detta kan bero på exempelvis sjukvårdskvalité och social oro. Det finns enpositiv korrelation mellan samtliga kovariater förutom Barn per kvinna.

4.4 Slutlig modellEn regression utförs på den slutliga modellen

ln(BNP ) = �0 + �1(Livslangd) + �2(CO2) + �3(Bredband) (40)+�4(Utbildning) + �5(Utbildning)2

+�6(Barn Per Kvinna) + e,

och resultatet visas i tabellen nedan.

Namn � SE(�) p-värde undre gräns övre gränsIntercept 6.085 0.83 < 0.01 4.45 7.72Livslängd 0.028 0.011 0.011 0.006 0.049

CO2-utsläpp 0.069 0.008 < 0.01 0.053 0.085Bredband 0.048 0.0063 < 0.01 0.035 0.06Utbildning 1.35 0.53 0.011 0.31 2.40

Utbildning i kvadrat -0.78 0.33 0.021 -1.44 -0.11Barn per kvinna -0.20 0.06 < 0.01 -0.32 -0.079

Tabell 6: Slutlig modell.

15

Page 17: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

För att bekräfta resultaten och kontrollera feltermens fördelning plottas felter-men i ett histogram, se Figur 1.

Figur 1: Histogram över residualerna.

Här syns att feltermens fördelning liknar en normalfördelning vilket är ett an-tagande som gjordes i teoriavsnittet. Linjen representerar en perfekt normalför-delning.

16

Page 18: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

För att få en tydligare bild och jämföra feltermens fördelning med en normal-fördelning används en “normplot”, se Figur 2.

Figur 2: Normalplott över feltermen.

Om feltermen hade följt en exakt normalfördelning hade punkterna i figurenlegat på den streckade linjen. Nu syns det tydligt att vissa länder inte följerlinjen och har avvikande feltermer. Men överlag följer residualerna en normal-fördelning.

17

Page 19: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

Figur 3: Residualen som funktion av BNP.

För att avgöra om det finns endogenitet i modellen ställs residualen som funktionav BNP. Figur 3 visar att det finns en viss korrelation mellan BNP och feltermen.Detta beror troligtvis på att det finns en utesluten relevant kovariat eller attdet sker simultanitet.

4.5 Prediktion av slumpvis utvalda länderFör att testa den slutgiltiga modellens prediktionsförmåga plockas slumpmäs-sigt 10 av de 139 länderna ut. Därefter görs en regression med kovariaternafrån den slutgiltiga modellen (40) och de 129 länderna som är kvar. Detta gernya värden på �. Dessa används för att prediktera y för de 10 länderna enligt(24), där konfidensintervallet är beräknat på nivån 95% . Gränserna för dettaprediktionsintervall samt det verkliga värdet på BNP presenteras i Tabell 7.

18

Page 20: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

Land Undre gräns BNP Övre gräns Inom intervallHonduras 7.1843 7.7506 8.5477 JaCanada 10.3610 10.8632 11.7359 Ja

Mauritius 8.0057 9.0020 9.3746 JaEl Salvador 7.6345 8.2400 8.9960 Ja

Austria 9.6026 10.7503 10.9647 JaRwanda 6.2786 6.4296 7.6429 JaEcuador 7.9223 8.5987 9.2860 JaJordan 7.6472 8.4988 9.0119 Ja

Papa New Guinea 6.4655 7.6890 7.8278 JaHungary 9.1877 9.4359 10.5515 Ja

Tabell 7: Resultat för 10 slumpade länder.

5 Diskussion

De värden på � som presenteras i Tabell 6 visar att kovariaternas effekt påBNP stämmer med förväntningarna beskrivna i avsnitt 3.2. Antagandet omavtagande marginalnytta för utbildningen bekräftas av ekvation (40) där �4 ärpositiv och �5 är negativ. Då den beroende variabeln har logaritmerats är detsom relativa förändringar av BNP som en förändring av kovariaterna ska tolkas.Från resultatet syns även att samtliga p-värden är under 3% vilket pekar på attsamtliga kovariater i den slutgiltiga modellen är signifikanta. Dessutom ses frånTabell 6 att intervallet för � inte täcker noll för någon kovariat, vilket är positivtoch tyder på att � har korrekt tecken. Från graferna som beskriver felet syns attmodellen till stor del är homoskedastisk vilket säger att standardavvikelsernaär konsekventa och F-testet är giltigt.

En kontroll har gjorts för att se om det finns tydliga samband mellan ländermed störst felterm men inget tydligt mönster hittades. Att ett prediktionsinter-vall för BNP täcker in 111 av 139 länder vid en signifikansnivå på 95% tyder påen god skattning av BNP med modellen även om det fortfarande finns utrymmeför förbättring. Genom att försöka hitta data för fler länder och därefter äveninkludera fler kovariater skulle regressionen troligtvis kunna genomföras medhögre tillförlitlighet. För att minska risken för felmätningar rekommenderas attman spenderar mycket tid på att samla in data. En annan möjlig förbättring äratt data samlas in under samma år. Givetvis är ett så sent år som möjligt attföredra om man är intresserad av BNP idag.

En felkälla som är uppenbar i denna modell är att den beroende variabelnmed stor sannolikhet påverkar kovariaterna och tvärtom. Detta verkar stämmatill en viss grad enligt Figur 3. Denna effekt kan beskrivas som simultanitet ochär svår att undvika då BNP troligtvis påverkar de flesta kovariater. Ett land medhögt BNP har troligtvis större möjlighet att ge bra sjukvård och öka livslängden.Samtidigt kan en befolkning som är friskare och lever längre producera mer tillBNP. Detta gäller flera kovariater vilket gör att det är svårt att avgöra orsakoch verkan. Exempelvis har länder med högt BNP ofta möjlighet att spendera

19

Page 21: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

mer pengar på utbildning. Då utbildning antas positivt för landets utvecklingkan det vara svårt att avgöra om landet har högt BNP på grund av utbildningeneller har högt BNP och då kan betala för utbildningen. Liknande resonemangkan göras gällande BNP då bredband kräver att landet har finansiell styrka attunderhålla bredband och infrastrukturen. Men å andra sidan kan ett utbyggtbredbandsnät hjälpa ett land att höja BNP.

Regressionsanalysen kräver att ekvationen innehåller alla relevanta kovaria-ter för att ge exakta skattningar. I detta arbete är detta antagande inte uppnått.Det finns oändligt många kovariater som influerar BNP och det är omöjligt attinkludera alla i en ekvation. Kovariater som är uteslutna i analysen men somkan vara relevanta är t.ex. arbetslöshet, historia, statsskick och korruption.

Ytterligare en intressant aspekt är det faktum att länder ständigt genomgårolika utvecklingsstadier. Exempelvis genomgår Sverige en övergång från industritill tjänstesamhälle. Detta gör att det kan vara svårt att avgöra sambandetmellan CO2-utsläpp och BNP. Exempelvis kan ett industrisamhälle med högtillväxttakt uppleva att BNP ökar i takt med CO2-utsläpp . Men ett land medhög tillväxttakt kan även uppnås med lägre CO2-utsläpp i ett tjänstesamhälle.

Kovariaten Europa utesluts ur modellen vilket stämmer med tidigare an-tagande. Detta upplevs rimligt då Europa är en kontinent där BNP skiljer sigkraftigt mellan länder. En annan tänkbar geografisk indelning är att användaländerna i västvärlden eller länder som är medlemmar i OECD. Problemet meden sådan dummy är att det leder till självselektion. Därför utesluts geografiskplacering helt ur modellen vilket är synd då en korrekt formulerad dummy skul-le kunna ha en viss förklaringsgrad. Författarna överlåter konstruktion av ensådan dummy till vidare studier.

Eftersom data som används i denna rapport är insamlad över hela världenoch av olika länder är givetvis felmätningar en felkälla. Det kan också varieramellan länder hur man definierar olika kovariater. Exempelvis är detta en anled-ning till att arbetslösheten inte kunde användas som en kovariat. Definitionenav arbetslöshet skiljer sig alltför mycket mellan länderna så data är inte pålitli-ga. Det kan heller inte uteslutas att länder gör optimistiska antaganden när desamlar in data eller döljer vissa siffror. Vissa felmätningar kan också knytas tillsocial oro och extrema situationer som naturkatastrofer.

6 Referenser

Lang, Harald. 2013. Topics on Applied Mathematical Statistics. KTH

Världsbanken. 2014. www.worldbank.org

Kennedy, Peter. 2008. A Guide to Econometrics. 6. uppl. Oxford: BlackwellPublishing

20

Page 22: Multipel regressionsanalys av variabler som p averkar BNP ...760125/FULLTEXT01.pdf · Om ekvationen innehåller en irrelevant kovariat blir ˆ inte lika effektiv och MSE av ˆhöjs

A Appendix

A.1 LänderAfghanistan Egypt Liberia Rwanda

Albania El Salvador Libya Saudi ArabiaAlgeria Estonia Lithuania Senegal

Argentina Fiji Luxembourg SerbiaArmenia Finland Macao SingaporeAustralia France Malawi Slovak RepublicAustria Gabon Malaysia SloveniaBahrain Gambia Maldives South Africa

Bangladesh Germany Mali SpainBarbados Ghana Malta Sri LankaBelgium Greece Mauritania SudanBelize Guatemala Mauritius SwazilandBenin Haiti Mexico SwedenBolivia Honduras Moldova Switzerland

Botswana Hong Kong Mongolia SyriaBrazil Hungary Morocco TajikistanBrunei Iceland Mozambique Tanzania

Bulgaria India Namibia ThailandBurundi Indonesia Nepal Togo

Cambodia Iran Netherlands TongaCameroon Iraq New Zealand Trinidad and TobagoCanada Ireland Nicaragua TunisiaChile Israel Niger TurkeyChina Italy Norway Uganda

Colombia Jamaica Pakistan UkraineCongo Japan Panama United Arab Emirates

Costa Rica Jordan Papua New Guinea United KingdomCote d’Ivoire Kazakhstan Paraguay United States

Croatia Kenya Peru UruguayCuba South Korea Philippines Venezuela

Cyprus Kuwait Poland VietnamCzech Republic Kyrgyz Republic Portugal Yemen

Denmark Laos Qatar ZambiaDominican Republic Latvia Romania Zimbabwe

Ecuador Lesotho Russia

21