Upload
yoshe
View
29
Download
0
Embed Size (px)
DESCRIPTION
Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp Projekt 2: Tidserieanalys, 1.5 hp Tenta: 5.5 hp Lärare: Lotta Hallberg, [email protected]. Enkel linjär regression: hyran kan förklaras av lägenhetsstorlek. Kvadratisk regression. - PowerPoint PPT Presentation
Citation preview
1
Regressions- och tidserieanalys, 5 p
Projekt 1: Index och efterfrågeanalys, 0.5 hpProjekt 2: Tidserieanalys, 1.5 hpTenta: 5.5 hp
Lärare: Lotta Hallberg, [email protected]
2
12011010090807060504030
7000
6000
5000
4000
3000
2000
Kv-meter
Hyr
a
3
Enkel linjär regression: hyran kan förklaras av lägenhetsstorlek
4
Kvadratisk regression
5
Efterfrågeanalys: Efterfrågan förklaras av priset. Priselasticiteten kan skattas.
6
Tidserieanalys: en variabel som observeras över flera år kan förklaras av tiden, månaden, ...
7
Varför behövs regressionsanalys?
Värdet på responsvariabeln (t.ex. hyra) varierar med värdet på den förklarande variabeln (t.ex storlek på lägenheten):
Vi kan använda informationen om lägenhetsstorleken för att göra en bättre skattning/prediktion – av den förväntade hyran eller – av hyran för en lägenhet av en speciell typ
8
120110100 90 80 70 60 50 40 30
8000
7000
6000
5000
4000
3000
2000
Kv-meter
Hyr
a
S = 525.512 R-Sq = 85.5 % R-Sq(adj) = 84.8 %
Hyra = 720.923 + 60.5329 Kv-meter
Regression PlotHur mycket betalar man (i genomsnitt) i hyra om man har en lägenhet på 50 kvadratmeter?
ca 3747.6 SEK
9
Varför behövs regressionsanalys?
Värdet på responsvariabeln (t.ex. hyra) varierar med värdet på den förklarande variabeln (t.ex. storlek på lägenheten):
Vi kan använda informationen om lägenhetsstorleken för att göra en bättre skattning/prediktion – av den förväntade hyran eller – av hyran för en speciell lägenhet
Vi kan beskriva datamaterialet och beskriva och dra slutsatser om samband mellan variabler. Därmed kan vi (i vissa fall) öka förståelsen av hur världen omkring oss ser ut.
10
120110100 90 80 70 60 50 40 30
8000
7000
6000
5000
4000
3000
2000
Kv-meter
Hyr
a
S = 525.512 R-Sq = 85.5 % R-Sq(adj) = 84.8 %
Hyra = 720.923 + 60.5329 Kv-meter
Regression PlotFör varje ytterligare kvadratmeter i lägenhetsyta får man betala ca 60 kronor i månaden mer.
10 kvadratmeter mer = 605 SEK
11
Enkel linjär regression:
Till datamaterialet kan vi anpassa en rät linje:
som är en skattning av det verkliga sambandet (det som vi skulle kunna observera om vi visste hyran och ytan på alla lägenheter som finns):
E (y ) = μy|x = 0 + 1· x
eller y = μy|x + = 0 + 1· x +
xbby 10ˆ
12
E (y ) = μy|x = 0 + 1· x
eller y = μy|x + = 0 + 1· x + μy|x... det förväntade värdet på y om värdet på den
förklarande variabeln är givet.
0... interceptet (intercept). Det förväntade värdet på y om x=0.
1... lutningen (slope). Anger förändringen i y om x ökar med en enhet.
... felterm (error term). Den del av variationen i datamaterialet som inte går att beskriva med regressionslinjen.
13
120110100 90 80 70 60 50 40 30
8000
7000
6000
5000
4000
3000
2000
Kv-meter
Hyr
a
S = 525.512 R-Sq = 85.5 % R-Sq(adj) = 84.8 %
Hyra = 720.923 + 60.5329 Kv-meter
Regression PlotHur anpassar man en rät linje till ett datamaterial? Man väljer linjen som har det minsta avståndet till alla observationer.
14
120110100 90 80 70 60 50 40 30
8000
7000
6000
5000
4000
3000
2000
Kv-meter
Hyr
a
S = 525.512 R-Sq = 85.5 % R-Sq(adj) = 84.8 %
Hyra = 720.923 + 60.5329 Kv-meter
Regression PlotDetta görs genom ‘Minsta-kvadrat-metoden’: Summan av alla kvadrerade avstånd ska bli så liten som möjligt.
15
Minsta-kvadrat-skattningen för enkel linjär regression
xbyb
SSSS
xx
yyxxb
xx
xyn
ii
n
iii
10
1
21
1
n
ii
n
ii x
nxy
ny
11
1,1
16
Det går enklare att beräkna b0 och b1 om vi skriver om formlerna för SSxx och SSxy:
n
yxyxyxnyxyyxxSS
ny
yynyyySS
nx
xxnxxxSS
iiiiiiiixy
iiiiyy
iiiixx
)()(
)(
)(
22222
22222
17
Kv-meter Hyra xi*yi xi*xi
61 4490 61*4490= 273890 372150 3211 160550 250032 3265 104480 102474 4750 351500 547661 4063 247843 372170 5471 382870 490052 4120 214240 270464 5432 347648 409665 5020 326300 422538 3512 133456 144437 2456 90872 136937 2560 94720 136950 3179 158950 2500117 7110 831870 1368986 7019 603634 739650 3199 159950 250073 4953 361569 532977 5623 432971 592952 3919 203788 270456 3898 218288 313692 6219 572148 8464
Σ 1294 93469 6271637 88196
18
Då får vi:
9233.72021
12945329.6021
93469
5329.609524.8460
2381.512166
2381.512166219346912946271637
9524.846021
129488196
10
1
222
xbyb
SSSS
b
nyx
yxSS
nx
xSS
xx
xy
iiiixy
iixx
19
Alltså: Skattningen av regressionslinjen är
För varje ytterligare kvadratmeter i lägenhetsyta kommer man i genomsnitt betala 60.53 kronor mer i hyra.
För en lägenhet med 0 kvadratmeter kommer man att betala 720.92 kronor i hyra (??!?)
xbby 10ˆ
xy 5329.6092.720ˆ
20
Statistisk slutledning (Inference) i regressionsmodellen
Signifikanstest för parametrarna 0 och 1.
t.ex. ökar hyran verkligen med storleken på lägenheten, eller skulle man kunna sätta b1=0?
Konfidensintervall för parametrarna 0 och 1.
Konfidensintervall för ett medelvärde av y (givet x). Prediktionsintervall för en individuell prognos av y (givet x).
För att kunna göra signifikanstest och för att kunna beräkna konfidensintervall måste vi göra vissa antaganden.
21
Antagande i regressionsmodellen
y = 0 + 1· x +
Feltermen har medelvärde 0 och varians 2. (Variansen är konstant över hela datamaterialet)
Feltermen är normalfördelad.Feltermen är statistisk oberoende. Varje värde för är
oberoende av alla andra värden av .
Hur man undersöker om feltermen verkligen uppfyller de här kraven kommer vi att se senare (residualanalys).
Feltermens varians 2 måste skattas.
22
Hur bestämmer man , skattningen för , variansen av feltermen?
2s
n
ii yy
ns
1
222
11
I ett vanligt stickprov bestäms s som stickprovsvariansen:
2
I regressionssammanhang gör vi på ett liknande sätt, men vi måste ta hänsyn till den del av variationen i datamaterialet som kan förklaras av x.
n
iiie xbby
ns
1
210
222
1
iy‘Residual’
23
Kv-meter Hyra b0+b1*xi yi-(b0+b1xi)61 4490 720.92+60.53*61= 4413.25 76.7550 3211 3747.42 -536.4232 3265 2657.88 607.1274 4750 5200.14 -450.1461 4063 4413.25 -350.2570 5471 4958.02 512.9852 4120 3868.48 251.5264 5432 4594.84 837.1665 5020 4655.37 364.6338 3512 3021.06 490.9437 2456 2960.53 -504.5337 2560 2960.53 -400.5350 3179 3747.42 -568.42117 7110 7802.93 -692.4286 7019 5926.5 1092.550 3199 3747.42 -548.4273 4953 5139.61 -186.6177 5623 5381.73 241.2752 3919 3868.48 50.5256 3898 4110.6 -212.692 6219 6289.68 -70.68
Residualerna
24
Skattning av s
n
ii
n
ii
n
iiie
en
residualn
xbbyn
s
1
2
1
2
1
210
22
21
21
21
276162.55247087221
12
es
se betecknas ofta bara med s.
25
Signifikanstest för parametrarna 0 och 1
Nollhypotesen: H0:1=0
Alternativhypotesen: H1:1≠0
t-test:
1
01
bsbt
SkattningNollhypotes
Standardavvikelse för skattningen av b1 (standard error)
t-fördelad med n-2 frihetsgrader
26
Hur beräknar man , skattningen för ?1bs 1b
xxb SS
ss 1
I vårt fall:
5.71311291.98342525.5116
95.8460276162.5
1bs
27
Signifikanstest för b1 :
6.1071.553.600
1
1
bs
bt
Jämför med t-fördelningen med 19 frihetsgrader. → högt signifikant
Slutsats: Lutningen i regressionsmodellen är signifikant skild från noll. Ytan på en lägenhet har betydelse för hur hög hyran är. Ju större lägenhet desto högre hyra (positivt samband).
Signifikanstest för interceptet se sidan 107 i boken.
28
Konfidensintervall för lutningen 1:
Med hjälp av skattningarna vi har tagit fram, kan vi även beräkna ett konfidensintervall för 1.
1
221 bn stb
48.7258.4871.5093.253.6071.5093.253.60
Med 95% säkerhet ligger 1 i intervallet 48.58 – 72.48.
29
Ett datorprogram, som MINITAB, kan beräkna en regressionsanalys åt oss.
Där får vi ut t.ex.:– Regressionlinjen– Parameterskattningar b0 och b1
– Signifikanstest för 0 och 1
– Skattningen s (spridningen i residualerna)
30
Regression Analysis: Hyra versus Kv-meterThe regression equation isHyra = 721 + 60.5 Kv-meter
Predictor Coef SE Coef T PConstant 720.9 370.2 1.95 0.066Kv-meter 60.533 5.713 10.60 0.000
S = 525.5 R-Sq = 85.5% R-Sq(adj) = 84.8%
Analysis of Variance
Source DF SS MS F PRegression 1 31002923 31002923 112.26 0.000Residual Error 19 5247087 276162Total 20 36250010
Regressionslinjen
t-tester och deras p-värden
Parameterskattningar och deras standardavvikelser
Residualspridningen
Konfidensintervall för parametrarna 0 och 1 måste man dock beräkna själv.
31
Punktskattningar och punktprognoser
För ett givet värde på x (säg x0) kan man – skatta det genomsnittliga värdet på y
(Vad är hyran för en lägenhet på 60 kvadratmeter i genomsnitt?)
– prediktera värdet på y för en ny observation(Hur mycket kommer just den här lägenheten på 60 kvadratmeter att kosta i hyra?)
Både punktskattningen och punktprognosen beräknas som
010ˆ xbby
32
Punktskattningar och punktprognoser är naturligtvis osäkra. Därför ska man helst ange dem tillsammans med ett intervall:
Punktskattningen med ett konfidensintervall
och punktprognosen med ett prediktionsintervall
valueDistanceˆ 22 sty n
valueDistance1ˆ 22 sty n
‘Distance value’ anger hur ‘centralt’ x0-värdet är i datamaterialet.
33
2
201valueDistance
xx
xxn
i
För ett x0 som ligger nära får vi ett litet ‘distance value’ och därför även ett smalare konfidens- eller predikitonsintervall.
x
34
Vad är hyran för en lägenhet på 60 kvadratmeter i genomsnitt?
0479.0
9524.8460619.6160
2111valueDistance
2
2
20
xx
xxn
i
72.43526053.6092.720ˆ 010 xbby
35
Vad är hyran för en lägenhet på 60 kvadratmeter i genomsnitt?
valueDistanceˆ 22 sty n
5.459341120479.05.525093.272.43520479.05.525093.272.4352
Med 95% säkerhet kommer hyran att ligga mellan 4112 och 4593.3 kronor i månaden.
36
Hur mycket kommer jag att betala om jag hyr just den här lägenheten på 60 kvadratmeter?
valueDistance1ˆ 22 sty n
63.54788.32260479.015.525093.272.43520479.015.525093.272.4352
Med 95% säkerhet kommer hyran för just den här lägenheten ligga mellan 3226.8 och 5478.63 kronor i månaden.
72.43526053.6092.720ˆ 010 xbbyenda skillnaden
37
Även punktskattningar och punktprognoser kan beräknas med hjälp av MINITAB
The regression equation isHyra = 721 + 60.5 Kv-meter
Predictor Coef SE Coef T PConstant 720.9 370.2 1.95 0.066Kv-meter 60.533 5.713 10.60 0.000
S = 525.5 R-Sq = 85.5% R-Sq(adj) = 84.8%
....Predicted Values for New Observations
New Obs Fit SE Fit 95.0% CI 95.0% PI1 4353 115 ( 4112, 4594) ( 3227, 5479)
Values of Predictors for New Observations
New Obs Kv-meter1 60.0