43
1 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest för hela regressionsmodellen förklaringsgraden, R 2 p-värden för de individuella variablerna eller t-kvoter Residualanalys, för att avgöra om regressionsantagandena är uppfyllda

Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier:

Embed Size (px)

DESCRIPTION

Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest för hela regressionsmodellen förklaringsgraden, R 2 p-värden för de individuella variablerna eller t-kvoter - PowerPoint PPT Presentation

Citation preview

1

Hur bra är modellen som vi har anpassat?

Vi bedömer modellen med hjälp av ett antal kriterier:– visuell bedömning, om möjligt– F-test, signifikanstest för hela regressionsmodellen– förklaringsgraden, R2

– p-värden för de individuella variablerna eller t-kvoter– Residualanalys, för att avgöra om

regressionsantagandena är uppfyllda

2

120110100 90 80 70 60 50 40 30

8000

7000

6000

5000

4000

3000

2000

Kv-meter

Hyr

a

S = 525.512 R-Sq = 85.5 % R-Sq(adj) = 84.8 %

Hyra = 720.923 + 60.5329 Kv-meter

Regression PlotVisuell bedömning:

3

The regression equation isHyra = 721 + 60.5 Kv-meter

Predictor Coef SE Coef T PConstant 720.9 370.2 1.95 0.066Kv-meter 60.533 5.713 10.60 0.000

S = 525.5 R-Sq = 85.5% R-Sq(adj) = 84.8%

Analysis of Variance

Source DF SS MS F PRegression 1 31002923 31002923 112.26 0.000Residual Error 19 5247087 276162Total 20 36250010

Hur bra är modellen som vi har anpassat?

enskilda p-värden

R2 och justerad R2

F-test och dess p-värde

Residualanalys kan också göras i MINITAB

4

Varför behöver vi så många olika mått på hur bra modellen är?

Om vi bara har en förklarande variabel, så spelar det inte så stor roll vilket mått vi använder: p-värden, R2 och F-test är i princip utbytbara. Residualanalys måste dock alltid genomföras.

I de flesta fall kommer vi dock att ha modeller med mer än bara en förklarande variabel. Då är det viktigt att titta på de olika kriterierna var för sig, eftersom de ger olika information.

5

Vi har redan genomfört t-testet för de enskilda parametrarna (intercept och lutning) för att se om de är signifikant skilda från noll.

Hur beräknas då R2 och F-testet?

Båda är baserade på en jämförelse av – hur mycket av variationen i responsvariabeln som kan

förklaras genom modellen och – hur mycket av variationen som inte kan förklaras

6

Vi har redan räknat med ett mått för den oförklarade variationen: Residualkvadratsumman, som också ofta

betecknas med SSE (Sum of Squared Errors).

Ett mått på den totala variationen är också ganska enkelt att ta fram: variationen i responsvariabeln, SSyy, som i regressionssammanhang ofta kallas för SST (Totalkvadratsumman).

n

iii xbby

1

210SSE

n

ii yy

1

2SST

7

För att göra kvadratsummeuppdelningen komplett kan vi beräkna SSR (Sum of Squares Regression), den förklarade variationen.

SSR = SST - SSE

eller

SST = SSR + SSE

Den totala variationen är summan av den (av modellen) förklarade variationen och den återstående variationen.

SSR är den del av variationen som inte är slump, men kan förklaras av regressionssambandet.

8

Förklaringsgrad och korrelationskoefficient

Förklaringsgraden betecknas med R2

Ju högre förklaringsgrad, desto bättre lyckas vår skattade modell förklara variationen i data Modellen kan anses vara bra.

I vårt exempel blev R2 = 85.5%, dvs. att 85.5% av all variation i data kan förklaras med hjälp av modellen.

SST

SSRR 2

9

Utvikning:

Kom ihåg korrelationskoefficienten

yyxx

xy

22 SSSS

SS

yyxx

yyxxr

ii

ii

som mäter det linjära sambandet mellan x och y.

I motsats till regressionsmodellen finns det i korrelationskoefficienten ingen kausalitet:

• regressionsmodellen: x påverkar y, men inte tvärtom• korrelationskoefficienten: x och y hänger ihop

10

Korrelationskoefficienten ligger alltid mellan –1 och 1. Om den är = – 1 eller = 1 säger man att det råder ett perfekt

linjärt samband mellan y och x.

Om r = 0 finns inget linjärt samband mellan y och x. (Det kan dock finnas andra samband, t.ex. kvadratiska)

I vårt fall blir korrelationskoefficienten r=0.925

Observera att r2=(0.925)2=0.8556R2

Men detta gäller bara i fallet med en förklaringsvariabel, inte om vi inkluderar fler oberoende variabler i modellen.

11

F-test:

MSE

MSR

2nSSE

SSRF

MSE har vi träffat på förut, men då kallade vi den för .

På MINITAB-utskriften kan vi hitta både MSE och se.

Om vi bara har en förklarande variabel, så är SSR/1=MSR.

Värdet på F-testet ska jämföras med F-fördelningen med 1 och (n-2) frihetsgrader

I vårt fall:

2es

112.262215247087

31002923

F

38.419,1,05.0 FUr tabellen: signifikant

12

F är ett mått på hur stor den förklarade variationen är jämfört med den oförklarade.

Om F är stor då har vi en bra modell som kan förklara mycket och lämnar lite oförklarat.

Om vi bara har en förklarande variabel i modellen, så är

F = t2

där t kommer från t-testet, när man testar b1.

MSE

MSR

2nSSE

SSRF

13

The regression equation isHyra = 721 + 60.5 Kv-meter

Predictor Coef SE Coef T PConstant 720.9 370.2 1.95 0.066Kv-meter 60.533 5.713 10.60 0.000

S = 525.5 R-Sq = 85.5% R-Sq(adj) = 84.8%

Analysis of Variance

Source DF SS MS F PRegression 1 31002923 31002923 112.26 0.000Residual Error 19 5247087 276162Total 20 36250010

SSR

SSESST

MSR

MSEF-test

sMSE

ssMSEnSSE e

222

14

Multipel regressionsanalys

kk xxxy 22110

I stället för en förklarande variabel kan vi inkludera flera.

Vi får dock tänka på att inte inkludera sådana variabler som inte har någon eller som bara har marginell betydelse för responsvariabeln.

Återigen inkluderas en felterm i modellen, som står för den del i variationen av y som inte kan förklaras genom modellen. Feltermen har medelvärde 0 och varians 2 och är normalfördelad och varje är oberoende av de andra .

15

t-test och konfidensintervall för de enskilda parametrarna (1, 2, ..., k) i modellen beräknas i princip på samma sätt som förut. Men nu använder man en t-fördelning med n-k-1 frihetsgrader.

F-test korrigeras lite genom att inkludera k (antal förklarande variabler i modellen):

Observera att formeln är den samma som förut om man sätter k=1.

Förklaringsgrad beräknas fortfarande:

MSE

MSR

knSSE

kSSRF

1

SST

SSRR 2

16

Kvadratsummeuppdelningen gäller förstås också:

SST = SSR + SSE

SST, SSR beräknas som förut, och även SSE beräknas som förut:

n

ikikiii xbxbxbbySSE

1

222110

iy

kk xbxbxbby 22110ˆ

eftersom punktskattningen/punktprognosen nu är:

Observera att alla sådana beräkningar görs för varje observation,

även om index i inte alltid är med.

17

Konfidensintervall för punktskattningen och prognosintervall for punktprognosen beräknas i princip på samma sätt

value"Distance"ˆ )1(2/0 sty kn

value"Distance"1ˆ )1(2/0 sty kn

Konfidensintervall

Prognosintervall

Men “Distance value” kan inte beräknas lika enkelt som i fallet med en förklarande variabel. Däremot kan man ta den rätt enkelt från datorutskriften (senare).

18

Följande datamaterial innehåller uppgifter om 150 slumpmässigt valda fastigheter i USA

Column Name Count Description Modell ÖversättningC1 Price 150 Price y prisC2 Area 150 Area in square feet x1 bostadsytaC3 Acres 150 Acres x2 tomtytaC4 Rooms 150 Number of rooms x3 antal rumC5 Baths 150 Number of baths x4 antal badrum

Källa: ”MTBWIN”/Student12/HOMES.MTW

19

350025001500500

300000

200000

100000

Area

Pri

cePris mot bostadsyta

20

20100

300000

200000

100000

Acres

Pri

cePris mot tomtyta

21

1383

300000

200000

100000

Rooms

Pri

cePris mot antal rum

22

4321

300000

200000

100000

Baths

Pri

cePris mot antal badrum

23

Vi börjar med en modell som inte inkluderar alla förklarande variabler, men bara de som verkar viktigast: bostadsyta och antal rum.

24

Regression Analysis: Price versus Area, Rooms

The regression equation isPrice = 64221 + 49.7 Area - 141 Rooms

Predictor Coef SE Coef T PConstant 64221 12766 5.03 0.000Area 49.673 7.507 6.62 0.000Rooms -141 2934 -0.05 0.962

31 14174964221ˆ x x. y

Signifikanstest för t.ex. 1:

6169.6507.7

673.49

1

1 bs

bt

1bs är den skattade standardavvikelsen av b1

Vi jämför t med t-fördelningen med n-k-1=150-2-1 frihetsgrader.

25

50-5

0.4

0.3

0.2

0.1

0.0

C10

C1

1t-fördelning med 147 frihetsgrader

-6.62 t=6.62

för ett dubbelsidig test är p-värdet sannolikheten att få ett värde t eller ännu större eller ett värde –t eller ännu mindre.

26

Regression Analysis: Price versus Area, Rooms

The regression equation isPrice = 64221 + 49.7 Area - 141 Rooms

Predictor Coef SE Coef T PConstant 64221 12766 5.03 0.000Area 49.673 7.507 6.62 0.000Rooms -141 2934 -0.05 0.962

inte signifikant

27

S = 30047 R-Sq = 48.6% R-Sq(adj) = 47.9%

Analysis of Variance

Source DF SS MS F PRegression 2 1.25273E+11 62636682991 69.38 0.000Residual Error 147 1.32715E+11 902824574Total 149 2.57989E+11

SST

SSRR 2

MSE

MSR

knSSE

kSSRF

1

MSEs

F-testet är signifikant

28

Vad står F-testet för i detta fall?

F-testet testar om ‘den linjära regressionsmodellen’ är signifkant eller inte.

Om vi bara har en förklarande variabel då är det samma som att testa om denna variabel (parameter 1) är signifikant.

Om vi har flera förklarande variabler, då testar vi om

H0: alla parametrar 1, 2,..., k är lika med 0

H1: minst en av parametrarna 1, 2,..., k är inte 0

För att bestämmer vilka parametrar som är skilda från 0 använder vi t-testet.

29

Vad är R-sq(adj) då?

Justerad R2:

1

1

122

kn

n

n

kRR

30

När man anpassar en regressionsmodell har man oftast två mål:

• att hitta en modell som beskriver datamaterialet så bra som möjligt (de anpassade värdena ska ligga nära observationerna )

• att hitta en modell som kan göra prediktioner för nya observationer. Göra bra punktprediktioner.

Genom att inkludera stora mängder förklarande variabler kan man ofta få bättre och bättre anpassning till datamaterialet, men prognoserna för nya observationer kan bli sämre (överanpassning).

yy

31

Det vanliga R2-värdet ökar alltid när man lägger till fler förklarande variabler.

Det justerade R2-värdet ökar inte alltid om man lägger till fler förklarande variabler, eftersom det innehåller en korrektion för antalet förklarande variabler i modellen (k).

1

1

122

kn

n

n

kRR

Justering för att antalet förklarande variabler är k

Justering, så att föklaringsgraden fortfarande ligger mellan 0 och 100%.

32

Punktskattning och punktprognos

Nu vill vi göra en prognos för priset på en fastighet med – bostadsytan: 3000 ft2 och – antal rum: 6,

och ett 95% prediktionsintervall i MINITAB

33

Regression Analysis: Price versus Area, Rooms

Samma utskrift som tidgare

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI

1 212396 12307 ( 188076, 236717) ( 148229, 276564) XX

X denotes a row with X values away from the center

XX denotes a row with very extreme X values

Values of Predictors for New Observations

New Obs Area Rooms

1 3000 6.00 value"Distance"1ˆ )147(

025.00 sty

Prediktionsintervall

34

Regression Analysis: Price versus Area, Rooms

Samma utskrift som tidgare

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI

1 212396 12307 ( 188076, 236717) ( 148229, 276564) XX

X denotes a row with X values away from the center

XX denotes a row with very extreme X values

Values of Predictors for New Observations

New Obs Area Rooms

1 3000 6.00 value"Distance"ˆ )147(

025.00 sty

Konfidensintervall för det genomsnittliga priset på fastigheter med 3000 ft2 och 6 rum.

35

‘Distance value’ kan, som sagt, inte enkelt beräknas från datamaterialet om vi har fler än en förklarande variabel.

Men den kan beräknas ur

New Obs Fit SE Fit 95.0% CI 95.0% PI

1 212396 12307 ( 188076, 236717) ( 148229, 276564) XX

0y

value"Distance"SE0ˆ sy

SE Fit är standardavvikelsen för punktskattningen 0y

36

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI1 212396 12307 ( 188076, 236717) ( 148229, 276564) XX

X denotes a row with X values away from the centerXX denotes a row with very extreme X values

Får vi någon ytterligare information från prognosen?

Varning att fastigheten vi vill veta någonting om har extrema värden för x.

Vi kan göra tillförlitliga prognoser bara för fastigheter där vi har liknande fastigheter redan i ursprungliga datamaterialet.

37

350025001500 500

300000

200000

100000

Area

Pri

ce

S = 29945.6 R-Sq = 48.6 % R-Sq(adj) = 48.2 %

Price = 63745.2 + 49.3747 Area

95% CI

Regression

Regression Plot

Om vi t.ex bara har bostadsytan som förklarande variabel: Prediktioner utanför området där vi har observationer är inte tillförlitliga

38

350025001500500

300000

200000

100000

Area

Pri

cePris mot bostadsyta

Få observation med bostadsyta 3000 ft2 eller större, men ändå väl inom området där vi har observation

39

1383

300000

200000

100000

Rooms

Pri

cePris mot antal rum

40

Vad är då problemet?

Om vi tittar på datamaterialet så ser

vi att de fastigheter som ingår och har

exakt 6 rum har en bostadsyta mellan

1008 och 1900 ft2.

Det är alltså kombinationen 3000 ft2

och 6 rum som är extrem och vi

måste fundera över om det är rimligt

att anta att modellen är giltig även

för denna typ av fastighet.

117000 1008 6

108000 1036 6

126500 1092 6

133000 1100 6

116000 1100 6

98000 1165 6

129000 1200 6

126000 1232 6

117000 1248 6

110000 1289 6

117500 1300 6

121900 1300 6

100000 1338 6

128500 1344 6

135000 1400 6

140000 1403 6

152000 1450 6

110000 1450 6

142500 1552 6

150000 1564 6

120500 1600 6

141900 1632 6

145900 1680 6

144900 1900 6

pris area rooms

41

Residualanalys

För att överhuvudtaget kunna ta resultaten av regressionsanalysen på allvar, måste vi undersöka om regressionsantagandena är uppfyllda.

– Har residualerna en konstant varians?– Är residualerna normalfördelade?– Är residualerna oberoende?– Är alla samband linjära?

42

Har residualerna en konstant varians?

Plotta residualerna mot anpassade värden (residuals vs fits)

Är residualerna normalfördelade?

Histogram av residualerna

Normalfördelningsdiagram av residualerna (Normal plot...)

Är residualerna oberoende?

Plotta residualerna i observationsordning (residuals vs order).

Är alla samband linjära?

Plotta residualerna mot enskilda förklarande variabler (Residuals vs the variables)

43

-100000 0 100000

0

10

20

30

40

50

60

Residual

Fre

quen

cy

Histogram of Residuals

0 50 100 150

-100000

-50000

0

50000

100000

150000

Observ ation Number

Res

idua

l

I Chart of Residuals

1

1

1

1

777

1

11

6

6

Mean=-1,3E-10

UCL=80640

LCL=-80640

100000 150000 200000 250000

-100000

0

100000

Fit

Res

idua

l

Residuals vs. Fits

-3 -2 -1 0 1 2 3

-100000

0

100000

Normal Plot of Residuals

Normal Score

Res

idua

l

Residual Model Diagnostics