91
Regressionsanalys en introduktion

Regressionsanalys - En Introduktion

  • Upload
    hoho667

  • View
    502

  • Download
    9

Embed Size (px)

Citation preview

Page 1: Regressionsanalys - En Introduktion

Regressionsanalys–

en introduktion

Page 2: Regressionsanalys - En Introduktion

Innehåll

1 Korrelationsanalys 31.1 Samband mellan intervallskalevariabler . . . . . . . . . . . . . 4

1.1.1 Korrelationskoefficienten . . . . . . . . . . . . . . . . . 91.1.2 Hypotestest för korrelationskoefficienten . . . . . . . . 12

1.2 Övningsuppgifter . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 Enkel linjär regression 152.1 Från korrelation till regression . . . . . . . . . . . . . . . . . . 152.2 Varför linjära samband? . . . . . . . . . . . . . . . . . . . . . 172.3 Vad är en rät linje? . . . . . . . . . . . . . . . . . . . . . . . . 202.4 Minsta-Kvadrat-metoden (MK-metoden) . . . . . . . . . . . . 222.5 Regressionssambandets innebörd . . . . . . . . . . . . . . . . . 24

2.5.1 Hur skall regressionslinjen tolkas? . . . . . . . . . . . . 242.5.2 Tolkning av regressionskoefficienterna . . . . . . . . . . 262.5.3 Interpolation och extrapolation . . . . . . . . . . . . . 27

2.6 Hur starkt är regressionssambandet? . . . . . . . . . . . . . . 282.6.1 Övningsuppgifter . . . . . . . . . . . . . . . . . . . . . 31

2.7 Statistisk inferens vid linjär regression . . . . . . . . . . . . . 312.7.1 Residualspridningen . . . . . . . . . . . . . . . . . . . 312.7.2 Normalfördelningens roll . . . . . . . . . . . . . . . . . 332.7.3 Vad vill vi dra slutsatser om? . . . . . . . . . . . . . . 342.7.4 Inferens angående regressionskoefficienterna . . . . . . 352.7.5 Inferens angående en viss delpopulation . . . . . . . . . 38

2.8 Enkel linjär regression med statistikprogram . . . . . . . . . . 422.8.1 Enkel linjär regression med Minitab1 . . . . . . . . . . 42

2.9 Residualanalys . . . . . . . . . . . . . . . . . . . . . . . . . . 472.10 Övningsuppgifter . . . . . . . . . . . . . . . . . . . . . . . . . 49

3 Multipel linjär regression 503.1 Från enkel till multipel linjär regression . . . . . . . . . . . . . 503.2 Inferens angående regressionskoefficienterna . . . . . . . . . . 563.3 Hypotestester angående marginaleffekter . . . . . . . . . . . . 58

3.3.1 Sekventiella kvadratsummor . . . . . . . . . . . . . . . 583.3.2 F-fördelningen . . . . . . . . . . . . . . . . . . . . . . . 603.3.3 Är tillskottet signifikant? . . . . . . . . . . . . . . . . . 61

3.4 Inferens angående delpopulationerna . . . . . . . . . . . . . . 633.5 Dummyvariabler . . . . . . . . . . . . . . . . . . . . . . . . . 66

1Det finns en möjlighet att prova statistikprogrammet Minitab gratis under 30 dagar.Se www.minitab.com.

1

Page 3: Regressionsanalys - En Introduktion

3.6 Modellkonstruktion . . . . . . . . . . . . . . . . . . . . . . . . 673.6.1 Vilka förklaringsvariabler skall ingå i modellen? . . . . 673.6.2 Korrelationsanalys . . . . . . . . . . . . . . . . . . . . 69

3.7 Övningsuppgifter . . . . . . . . . . . . . . . . . . . . . . . . . 70

4 Icke-linjär regression 724.1 Kvadratiska samband . . . . . . . . . . . . . . . . . . . . . . . 724.2 Exponentiella samband . . . . . . . . . . . . . . . . . . . . . . 754.3 Elasticitetssamband (log-linjära samband) . . . . . . . . . . . 804.4 Likheter och olikheter mellan sambandstyperna . . . . . . . . 824.5 Övningsuppgifter . . . . . . . . . . . . . . . . . . . . . . . . . 82

A Att bestämma regressionskoefficienterna med MK-metoden 85A.1 Enkel linjär regression . . . . . . . . . . . . . . . . . . . . . . 85A.2 Multipel linjär regression (två förklarande variabler) . . . . . . 86

A.2.1 Normalekvationerna . . . . . . . . . . . . . . . . . . . 86A.2.2 Datamaterial och beräkningar för Exempel 22 . . . . . 87

B Logaritmer 89

C Svar till övningsuppgifterna 90

2

Page 4: Regressionsanalys - En Introduktion

I statistiska sammanhang är det vanligt att studera samband mellan vari-abler. Det är ofta av intresse att se om (och hur) olika egenskaper hos indi-viderna hänger ihop. Insikt om sådana samband kan leda till ökad förståelseför hur verkligheten fungerar i olika avseenden. En fastighetsmäklare vill säk-ert få ett mått på sambandet mellan en villas storlek och dess marknadsprisoch en forskare i medicin kan t.ex. vara intresserad av att mäta sambandetmellan kroppsmasseindex (bmi) och kolesterolvärde. En vanlig situation äratt den egenskap, eller variabel, man är intresserad av kan vara svår att mä-ta men har visat sig ha ett starkt samband med en annan mer lättillgängligvariabel. Då man undersöker en individ och mäter dess värde på denna an-dra variabel får man därmed också en bra uppfattning om dess värde på densökta variabeln.

1 Korrelationsanalys

Då man undersöker samband är det av naturliga skäl även av intresse attfå en uppfattning om hur starkt sambandet är. Det krävs givetvis ett starktsamband mellan variablerna i diskussionen ovan för att vi skall tro på vårhjälpvariabel. Styrkan hos sambandet mellan två variabler mäts med sk kor-relationanalys. Om man utifrån värdet på en variabel exakt vet vilket värdeindividen har på den andra variabeln har vi perfekt korrelation mellan debåda variablerna. Om å andra sidan vetskap om värdet på den ena variabelninte ger någon information om värdet på den andra variabeln sägs de bådavariablerna vara oberoende.

Exempel 1 Antag att vi spelar ett tärningsspel med två tärningar där vi vin-ner om summan av tärningarna blir 7. Antag vidare att vi har möjlighetenatt kasta en av tärningarna innan vi satsar några pengar. Frågan är huruvidadenna möjlighet förbättrar våra odds. Vi är intresserade av om det finns nå-got samband (korrelation) mellan de båda variablerna “Vinst” och “Utfalletav den första tärningen”. Variabeln vinst kan ses som en kvalitativ 0-1 vari-abel (eller kvantitativ ordinalvariabel). För att undersöka detta beräknar vivinstchansen både med och utan extrainformationen och ser om det är någonskillnad.

• Utan information: Det finns totalt 36 olika utfall då man kastar tvåtärningar, (1, 1) , (1, 2) , (1, 3) , . . . , (6, 5) , (6, 6). Utav dessa är det sexstycken som ger summan sju, (1, 6) , (2, 5) , (3, 4) , (4, 3) , (5, 2) , (6, 1).Detta innebär att vinstchansen är 6 chanser på 36 eller ekvivalent 1/6.

• Med information: Nu vet vi om värdet på den första tärningen. Antagatt det blev en trea. För att det skall bli vinst måste nu den andra

3

Page 5: Regressionsanalys - En Introduktion

tärningen vara en fyra. Eftersom det finns sex tänkbara utfall då vikastar en tärning måste denna sannolikhet vara 1/6. Samma kommeratt gälla oberoende av vilket värde vi fick på den första tärningen.

Vi har alltså inte fått någon ytterligare information om huruvida det blir vinst(summan av tärningarna är sju) av att känna till utfallet av den ena tärnin-gen. Man säger därför i det här fallet att variablerna “Vinst” och “Utfalletav den första tärningen” är oberoende. ¤

Vanligtvis hamnar vi någonstans mellan dessa ytterligheter vilket innebäratt vi söker ett mått på hur starkt ett samband är för att kunna jämförastyrkan hos olika samband. Det finns olika mått på korrelation och skillnadenär att de i olika utsträckning använder det “kvantitativa” hos variablerna.Vilket korrelationsmått man skall använda sig av beror alltså på vilken vari-abeltyp (mätnivå) variablerna tillhör. I den här framställningen fokuserarvi på kvantitativa variabler på intervallskala (eller högre) eftersom man fördessa kan gå ett steg längre vilket vi skall se i Kapitel 2 om regressionsanalys.

1.1 Samband mellan intervallskalevariabler

En stor fördel jämfört med lägre mätnivåer är att sambandet mellan två in-tervallskalevariabler kan åskådliggöras grafiskt med ett sk spridningsdiagram.Ett spridningsdiagram är ett tvådimensionellt diagram (eller eventuellt avhögre dimension) där variablerna utgör de båda axlarna. Vi skall senare iavsnittet om regressionsanalys avgöra vilken av variablerna som skall plac-eras på x-axeln och vilken som skall placeras på y-axeln. Eftersom vi studerartvå variabler associeras varje individ med två värden och därför blir varje in-divid nu en punkt i detta diagram.

Variabel 1

Var

iabe

l 2

Individens värde på variabel 1

Individens värde på variabel 2

Individens placering ispridningsdiagrammet

Om individer med relativt höga värden på den ena variabeln även har relativthöga värden på den andra variabeln och omvänt att individer med relativt

4

Page 6: Regressionsanalys - En Introduktion

låga värden på den ena variabeln tenderar att även ha relativt låga värdenpå den andra, har vi fått ett tecken på att det föreligger ett samband mel-lan de båda variablerna. Skulle vi hos en individ enbart få informationen attdet ena variabelvärdet är relativt högt har vi nämligen anledning att tro attäven värdet på den andra variabeln är relativt högt. Vi säger i dessa fallatt det föreligger positiv korrelation mellan variablerna. Samband kan ocksåföreligga om individer med höga värden på den ena variabeln tenderar att harelativt låga värden på den andra och omvänt för individer med låga värdenpå den första variabeln. Skulle vi hos en individ enbart få informationen omatt det ena variabelvärdet är relativt högt har vi nämligen anledning att troatt värdet på den andra variabeln är relativt lågt. I dessa situationer sägs detföreligga negativ korrelation mellan variablerna. Skulle det däremot vara såatt individer med höga (eller låga) värden på den ena variabeln i ungefär likastor utsträckning har höga som låga värden på den andra variabeln har viett mycket svagt samband mellan variablerna. Vetskap om värdet på den enavariabeln har då gett mycket lite information om värdet på den andra. Omdet varken föreligger positiv eller negativ korrelation sägs variablerna varaokorrelerade. Det kan tyckas att två okorrelerade variabler nödvändigtvisäven måste vara oberoende men så är faktiskt inte fallet. Det kan nämligenfinnas ett beroende mellan variablerna även om dom är okorrelerade vilketvi skall se längre fram.

För att utifrån diagrammet enklare kunna upptäcka ett eventuellt sam-band kan man dela in diagrammet i fyra rektangulära fält genom att användasig av variablernas medelvärden. Dessa medelvärden får utgöra gränsen förvad som skall menas med relativt stora respektive relativt små värden. Viåskådliggör detta med en figur

Variabel 1

Var

iabe

l 2

Låga värden påvariabel 1 ochhöga värden påvariabel 2

Låga värdenpå bådavariablerna

Höga värdenpå bådavariablerna

Höga värden påvariabel 1 ochlåga värden påvariabel 2

där indelningen är gjord efter variablernas medelvärden. Skulle de flesta in-dividerna hamna antingen i det undre vänstra fältet eller i det övre högra

5

Page 7: Regressionsanalys - En Introduktion

fältet är detta tecken på positiv korrelation, dvs

Variabel 1

Var

iabe

l 2

Om de flesta observationerna hamnat här ärdet ett tecken på positiv korrelation.

Om å andra sidan de flesta individerna hamnat antingen i det övre vänstrafältet eller i det undre högra fältet är detta tecken på negativ korrelation,dvs

Variabel 1

Var

iabe

l 2

Om de flesta observationerna hamnat här ärdet ett tecken på negativ korrelation.

Om det ungefär är lika många individer i de fyra fälten finns troligtvis ingatydliga tecken på korrelation.

Exempel 2 Antag att vi i en studie över 19-åriga män bl.a. undersökervariablerna längd, vikt och intelligenskvot (IQ). För ett urval om sex 19-årigamän ur denna undersökning var resultatet

Person Vikt Längd IQ1 68 176 892 75 183 973 67 179 1164 84 190 1065 72 184 1026 69 171 99

6

Page 8: Regressionsanalys - En Introduktion

Antag först att vi vill undersöka sambandet mellan längd och vikt. Åskådlig-gör vi detta datamaterial i ett spridningsdiagram får vi

170 180 190

70

75

80

85

Längd

Vik

tMedellängd

Medelvikt

Observation 4

och vi noterar att relativt långa personer även tenderar att väga relativt my-cket. Omvänt gäller att relativt korta personer även tenderar att väga relativtlite. Det föreligger således positiv korrelation mellan variablerna “Längd” och“Vikt” för 19-åriga män. Om vi undersöker motsvarande samband mellan“Vikt” och “IQ” får vi diagrammet

70 75 80 85

90

100

110

Vikt

IQ

Medelvikt

Medel IQ

och vi kan här inte se samma tendens som i föregående diagram. Bland per-soner med relativt låg vikt finns personer med både hög och låg IQ och sammagäller för personer som väger relativt mycket. Det är således inga tecken påatt variablerna “IQ” och “Vikt” är korrelerade för 19-åriga män. ¤

I exemplet ovan konstaterades att det föreligger ett positivt sambandmellan längd och vikt för 19-åriga män men inget om hur starkt detta sam-band är. Ju tydligare tecken spridningsdiagrammet uppvisar på positiv ellernegativ korrelation ju starkare är sambandet. Bara för att samtliga individer

7

Page 9: Regressionsanalys - En Introduktion

hamnar i fälten associerade med positiv korrelation betyder dock inte dettaatt vi har en perfekt positiv korrelation. Det kan föreligga en stor spridninginom fälten. För att få en uppfattning om detta kan vi göra en ännu finareuppdelning av spridningsdiagrammet.

Variabel 1

Var

iabe

l 2

Om de flesta observationerna hamnat här ärdet ett starkare tecken på positiv korrelation.

Även här gäller dock att det kan förekomma spridning inom de aktuella fäl-ten. Indelningen kan dock göras finare och finare och fortsätter resonemangetinses att perfekt korrelation uppstår först då samtliga punkter ligger på en rätlinje. Då kommer nämligen alla punkter att ligga i rätt fält oberoende av hurfin indelningen är. Då denna linje pekar uppåt (från vänster till höger) före-ligger perfekt positiv korrelation och då linjen pekar nedåt föreligger perfektnegativ korrelation.

Variabel 1

Var

iabe

l 2

Perfekt positiv korrelation

Variabel 1

Var

iabe

l 2

Perfekt negativ korrelation

Perfekt korrelation förekommer dock sällan (eller aldrig) i praktiken, dvspunkterna i ett spridningsdiagram kommer aldrig att ligga exakt på en rätlinje. Vi söker därför ett mått på hur stark linjär tendens materialet uppvisar,dvs hur väl punktsvärmen i spridningsdiagrammet beskrivs av en rät linje.Ett första mått på detta ges av den sk korrelationskoefficienten.

8

Page 10: Regressionsanalys - En Introduktion

1.1.1 Korrelationskoefficienten

Vi skall nu översätta tankegången ovan till matematiska termer. Vi börjarmed att beteckna de båda variablerna med x och y (efter axlarna i sprid-ningsdiagrammet), och på motsvarande sätt betecknas stickprovsmedelvär-dena med x och y. Vidare låter vi xi och yi vara variabelvärdena för individ i.För att avgöra hur individ i ligger till i spridningsdiagrammet mäter vi pos-itivt eller negativt avstånd till medelvärdena för de båda variablerna. Dessages av

(xi − x) respektive (yi − y)

som sedan multipliceras ihop till

(xi − x) (yi − y)

Sedan summerar vi dessa produkter för samtliga individer i stickprovet till

nXi=1

(xi − x) (yi − y)

Vad säger oss då denna summa? Om en individ är placerad i spridnings-diagrammets övre högra hörn kommer både (xi − x) och (yi − y) att varapositiva vilket ger att även produkten blir positiv. Om individen är placer-ad i spridningsdiagrammets nedre vänstra hörn kommer både (xi − x) och(yi − y) av vara negativa vilket ger att produkten även här blir positiv. Omdet föreligger positiv korrelation kommer de flesta individerna att vara placer-ade just i dessa fält vilket innebär att del flesta av (xi − x) (yi − y)-termernakommer att vara positiva och så även summan. Ju starkare positiv korrela-tion diagrammet uppvisar ju större blir dessa termer, och summan. Om detistället föreligger negativ korrelation kommer de flesta individerna att tillhörafält där en av (xi − x) och (yi − y) är positiv och en är negativ vilket geratt de flesta (xi − x) (yi − y)-termerna kommer att vara negativa och så ävensumman. Om korrelationen däremot är svag kommer det att finnas ungefärlika många positiva som negativa (xi − x) (yi − y)-termer vilka då i stor ut-sträckning tar ut varandra i summan som därmed kommer att hamna relativtnära noll. Sammanfattningsvis gäller att stora positiva värden på summanger att det föreligger hög positiv korrelation och stora negativa värden geratt det föreligger hög negativ korrelation. Om summan är nära noll betyderdetta att sambandet mellan variablerna är svagt.

Vad menas då med “stora värden” på summan? Eftersom avvikelsernamäts i absoluta värden kommer storleken på summan att bero på vilken skalavariablerna mäts. För att få ett mått på sambandets styrka som kan jämföras

9

Page 11: Regressionsanalys - En Introduktion

med styrkan hos andra samband måste därför summan först standardiseras,dvs göras oberoende av skalan den mäts på. Detta uppnås genom att dividerasumman med spridningen i respektive variabel. Resultatet

rxy =

Pni=1 (xi − x) (yi − y)qPn

i=1 (xi − x)2qPn

i=1 (yi − y)2

kallas för korrelationskoefficienten (för x och y) och man kan visa att

−1 ≤ rxy ≤ 1där rxy = −1 betyder perfekt negativ korrelation (dvs punkterna ligger påen rät linje som lutar nedåt) och rxy = 1 betyder perfekt positiv korrelation.rxy = 0 betyder att variablerna är okorrelerade. Observera att en negativkorrelationskoefficient inget har med sambandets styrka att göra utan enbartbetyder att den räta linje punktsvärmen antyder lutar nedåt. Ju närmare 1eller−1 vi hamnar ju starkare är sambandet, dvs ju mer liknar punktsvärmenen rät linje.

De flesta beräkningar i regressionsanalys (se Kapitel 2) bygger på sum-morna

Pni=1 (xi − x)2,

Pni=1 (yi − y)2 , och

Pni=1 (xi − x) (yi − y) och därför

är det fruktbart att börja den beräkningsmässiga delen av analysen med attberäkna dessa. Skall man beräkna summorna för hand bör man använda attsummorna kan skrivas på en “enklare” form. Man kan nämligen visa att

nXi=1

(xi − x)2 =nXi=1

x2i −(Pn

i=1 xi)2

n

nXi=1

(yi − y)2 =nXi=1

y2i −(Pn

i=1 yi)2

n(1)

nXi=1

(xi − x) (yi − y) =nXi=1

xiyi −Pn

i=1 xiPn

i=1 yin

Skall man beräkna korrelationskoefficienten för hand använder man därförmed fördel att rxy även kan skrivas som

rxy =

Pxy −

PxP

ynqP

x2 − (P

x)2

n

qPy2 − (

Py)2

n

där vi för utseendets skull slopat samtliga summationsindex. Formlerna serinte enklare ut men med rätt uppställning förenklas beräkningarna avsevärtvilket framgår av nästa exempel.

10

Page 12: Regressionsanalys - En Introduktion

Exempel 3 Vi fortsätter nu med Exempel 1. Beräkna korrelationskoefficien-ten för variablerna

x = Längd

y = Vikt

För att beräkna korrelationskoefficienten behövs ett antal summor. Vi be-höver

Px,P

y,P

x2,P

y2 samtP

xy. Genom att ställa upp variablernai kolumnform kan vi enkelt utöka tabellen med flera kolumner och då kolum-nerna summeras fås de sökta summorna som nedre raden i varje kolumn.

Person y x y2 x2 xy1 68 176 4 624 30 976 11 9682 75 183 5 625 33 489 13 7253 67 179 4 489 32 041 11 9934 84 190 7 056 36 100 15 9605 72 184 5 184 33 856 13 2486 69 171 4 761 29 241 11 799

Summor 435 1083 31739 195703 78693

Nu följer att

nXi=1

(xi − x)2 = 195 703− 1 0832

6= 221.5

nXi=1

(yi − y)2 = 31 739− 4352

6= 201.5

nXi=1

(xi − x) (yi − y) = 78 693− 1 083 · 4356

= 175.5

korrelationskoefficienten blir därmed

rxy =175.5√

221.5 ·√201.5 = 0.831

dvs en relativt hög positiv korrelation vilket vi konstaterade redan i sprid-ningsdiagrammet i Exempel 2. ¤

Vi återkommer i avsnittet om regressionsanalys hur man utifrån korrela-tionskoefficienten mer precist tolkar sambandets styrka.

11

Page 13: Regressionsanalys - En Introduktion

1.1.2 Hypotestest för korrelationskoefficienten

Troligtvis utgör vårt datamaterial enbart ett stickprov från en större bakom-liggande population vilket innebär att korrelationskoefficienten enbart beskriv-er sambandets styrka för dom individer som ingick i stickprovet. Därmeduppkommer den vanliga inferensfrågan: vilka slutsatser kan vi utifrån korre-lationskoefficienten i stickprovet dra om den verkliga korrelationskoefficien-ten i populationen? Populationskorrelationskoefficienten betecknas med dengrekiska bokstaven ρxy (rå) och representerar således den korrelationskoef-ficient vi skulle fått om det varit möjligt att undersöka alla populationensindivider med avseende på variablerna x och y. Vanligtvis är vi intresseradeav att ta reda på hur övertygade vi är om att det verkligen föreligger ettsamband mellan variablerna. Vi utför därför något av följande hypotestest

H0 : ρxy = 0

H1 : ρxy > 0, ρxy < 0, ρxy 6= 0där utseendet på mothypotesen väljs utifrån vår uppfattning om hur sam-bandet ser ut. Den verkliga sannolikhetsfördelningen för rxy är mycket kom-plicerad men i hypotesprövningen förutsätts nollhypotesen vara sann, dvsatt x och y är okorrelerade. Om dessutom populationen är (approximativt)normalfördelad med avseende på både x och y visar det sig att testfunktionen

t =r√n− 2√1− r2

(2)

är t-fördelad med n− 2 frihetsgrader. I och med detta är det nu bara att påvanligt hypotesprövningsmanér avgöra rimligheten i nollhypotesen.

Exempel 4 I Exempel 3 ovan är det av intresse att undersöka om det finnsett verkligt samband mellan variablerna “Längd” och “Vikt” för 19-årigamän. Vi tror dessutom att denna korrelation är positiv varför vi ställer upphypoteserna

H0 : ρxy = 0

H1 : ρxy > 0

Vårt stickprov gav att rxy = 0.831 och frågan vi ställer oss är: Är det rimligtatt tro att denna korrelation uppkommit pga slumpmässig variation? För attundersöka detta beräknar vi testfunktionen till

t =0.831 ·√6− 2√1− 0.8312 = 2.98

12

Page 14: Regressionsanalys - En Introduktion

(där vi använder samtliga miniräknarens decimaler, dvs r = 0.830716296 . . .)och studerar vi t-tabellen för 4 frihetsgrader ser vi att

2.776 < t < 3.747

varför vi drar slutsatsen att

1% < p-värde < 2.5%

och vi har således enstjärnig signifikans. Vi drar utifrån detta antagligenslutsatsen att det föreligger en verklig positiv korrelation mellan “Längd” och“Vikt” för 19-åriga män. ¤

Exempel 5 I Exempel 2 studerade vi även variablerna “IQ” och “Vikt” för19-åriga män och fann i diagrammet inga tecken på något samband. Beräknarman korrelationskoefficienten för dessa båda variabler får man värdet

rxy = 0.088

vilket bekräftar diagrammet eftersom värdet är nära noll. Skall vi här under-söka om det finns ett verkligt samband har vi nog ingen aning om huruvidadet är “lättviktare” eller “tungviktare” som har högre IQ varför hypotesernabör bli

H0 : ρxy = 0

H1 : ρxy 6= 0Testfunktionen blir

t =0.088 ·√6− 2√1− 0.0882 = 0.18

och detta är långt från att vara signifikant. Statistikprogrammet ger att

p-värde = 0.868

dvs det är riktigt stor risk för att den lilla korrelationen uppstått pga slump-mässig variation. Det finns således inga som helst tecken på att variablerna“IQ” och “Vikt” är korrelerade för 19-åriga män. ¤

Den testfunktion (2) som används vid hypotestest angående korrelation-skoefficienten anges oftast inte i tabell- och formelsamlingar. Istället ges entabell som för olika stickprovsstorlekar och signifikansnivåer anger kritiskavärden på korrelationskoefficienten r. I Körners “Tabeller och formler förstatistiska beräkningar” ges exempelvis sådana kritiska värden i Tabell 7.

13

Page 15: Regressionsanalys - En Introduktion

Tabellen anger alltså hur stor en stickprovskorrelation r minst måste varaför att vi på en viss given signifikansnivå skall vara övertygade om att denverkliga korrelationen ρ är större än noll. I tabellen förutsätts stickprovetbestå av parvisa observationer för åtminstone 8 individer vilket innebär attvåra beräkningar i Exempel 4 och 5 ovan var nödvändiga. Det är dock mycketsällan ett stickprov är så litet att tabellen inte kan användas.

Exempel 6 Vi återgår till datamaterialet i Exempel 2, men med den skill-naden att vi nu förutsätter att undersökningen bestod av 20 nittonåringar.Låt oss för enkelhetens skull anta att de två korrelationskoefficienter somberäknats på materialet är samma som innan. Låt oss börja med att undersö-ka om det finns ett verkligt samband mellan variablerna “Längd” och “Vikt”för 19-åriga män. Som i Exempel 4 formuleras hypoteserna som

H0 : ρxy = 0

H1 : ρxy > 0

Stickprovet gav rxy = 0.831. Tabell 7 med 18 frihetsgrader (n−2) ger att denberäknade korrelationskoefficienten är större än samtliga kritiska värden, dvs

rxy = 0.831 > r18,0.05% = 0.679

vilket innebär attp-värde < 0.05%

och vi har trestjärnig signifikans. Sambandet i stickprovet kan således knap-past ha uppkommit av en ren slump och vi är därmed ordentligt övertygadeom att det föreligger en verklig positiv korrelation mellan “Längd” och “Vikt”för 19-åriga män.

Hur blir det då med sambandet mellan variablerna “IQ” och “Vikt”? Som iExempel 5 formuleras hypoteserna som

H0 : ρxy = 0

H1 : ρxy 6= 0Stickprovet gav rxy = 0.088. Denna korrelationskoefficient är klart mindre änsamtliga kritiska värden, dvs

rxy = 0.088 << r18,5% = 0.378

vilket innebär attp-värde >> 10%

14

Page 16: Regressionsanalys - En Introduktion

I och med att mothypotesen är tvåsidig dubbleras tabellens p-värde. Resultatetär därmed långt från att vara signifikant. Vi ser således (fortfarande) ingasom helst tecken på att variablerna “IQ” och “Vikt” är korrelerade för 19-åriga män.¤

1.2 Övningsuppgifter

Uppgift 1 För en varuhuskedja har man samlat in data om försäljning ochantal arbetstimmar per vecka i olika avdelningar i varuhusen. För AvdelningA erhölls följande statistik i åtta av varuhusen.

Varuhus Försäljning (tkr) Arbetstimmar1 180 1702 210 1903 165 1704 300 2005 120 1606 240 2207 195 1908 150 160

a. Beräkna korrelationskoefficienten.

b. Konstruera ett hypotestest på 5%-nivån för den verkliga korrelationsko-efficienten. Hur skall mothypotesen formuleras?

c. Visar den här studien att man bör anställa fler expediter om man villöka försäljningen i Avdelning A?

2 Enkel linjär regression

2.1 Från korrelation till regression

Korrelationskoefficienten mäter graden av linjärt sambandmellan variablernax och y, dvs hur väl anpassad punktsvärmen i spridningsdiagrammet är tillen rät linje. Korrelationskoefficienten säger dock inget om orsak och verkan.Ofta är det så att sambandet har en riktning, dvs att en av variablernapåverkar den andra och inte omvänt

Exempel 7 I avsnittet om korrelationsanalys studerade vi i ett flertal exem-pel sambandet mellan variablerna “Längd” och “Vikt” och fann en påtagligkorrelation mellan dem. Finns det en riktning i detta samband? Ju längre

15

Page 17: Regressionsanalys - En Introduktion

man blir ju större skelett får man och därmed tenderar man även att öka ivikt. Vi drar därför slutsatsen att “Längd” påverkar “Vikt”. Antag nu iställetatt vi ökar i vikt. Vi kan nu inte räkna med att vi av denna anledning skallbli längre och drar därför slutsatsen att “Vikt” inte påverkar “Längd”. Dettaär alltså ett exempel på ett riktat samband. ¤

Exempel 8 Antag att vi som bilköpare vill studera sambandet mellan vari-ablerna “Pris” och “Körsträcka”. Bilar med relativt lågt pris tenderar att hagått långt och vill man ha en bil med liten körsträcka får man vara bereddpå att priset blir relativt högt. Således gäller att dessa variabler är negativtkorrelerade med varandra. Men hur är det med orsak och verkan? Om bilenrullar ytterligare 1 000 mil kommer priset med största sannolikhet att gå ner,dvs vi drar slutsatsen att “Körsträcka” påverkar “Pris”. Skulle däremot prisetsänkas betyder inte detta nödvändigtvis att bilen får en längre körsträcka ochäven här har vi ett exempel på ett riktat samband. ¤

Exempel 9 I Uppgift 1 fann varuhuskedjan ett positivt samband mellan försäljn-ing och antal arbetstimmar. En naturlig frågeställning blir därmed huruvidaman bör anställa fler expediter för att öka omsättningen. I det här fallet ärdock orsakssambandet något oklart. Innebär fler expediter att försäljningenökar? Troligtvis, i viss utsträckning. Dock gäller även att en hög försäljn-ing kräver fler expediter. Antal expediter och försäljning är exempel på tvåvariabler som är ömsesidigt beroende. ¤

I korrelationsanalys fokuseras inte på orsak och verkan utan man kon-staterar bara att det finns ett linjärt samband mellan de båda variablerna,dvs hur väl materialet beskrivs av en rät linje. Vidare säger korrelationsko-efficienten inget om vilken linje punktsvärmen beskriver, dvs vilken riktning(eller lutning) denna linje har. Det enda vi kan se är om denna riktning ärpositiv eller negativ, dvs om linjen lutar uppåt eller nedåt, men inget om hurmycket positiv eller negativ. I figuren nedan ser vi två exempel där i bådafallen rxy = 0.95.

x

y

x

y

16

Page 18: Regressionsanalys - En Introduktion

Uppgiften blir nu att för ett samband bestämma

• Orsak och verkan. Bestäm sambandets riktning, dvs avgör vilken vari-abel som påverkar och vilken som blir påverkad.

• Bestäm den räta linje som bäst beskriver punktsvärmen i spridnings-diagrammet.

Studiet av riktade samband mellan intervall- och kvotskalevariabler gårunder benämningen regressionsanalys och dess relation till korrelationsanalysbeskrivs via

Korrelationsanalys x←→ yRegressionsanalys x −→ y

2.2 Varför linjära samband?

Korrelationskoefficienten är som sagt ett mått på graden av linjärt sambandmellan variablerna x och y. Nu behöver dock inte ett samband mellan tvåvariabler vara linjärt.

Exempel 10 Ett företag som marknadsför en produkt är intresserade av attundersöka sambandet mellan “Reklamkostnad” och “Vinst”. Ett sådant sam-band skulle kunna se ut på följande sätt

Reklamkostnad

Vin

st

där således vinsten ökar med reklamkostnaden tills man når ett visst mät-tnadsvärde. Sedan kommer antagligen försäljningen att ligga ungefär på oförän-drad nivå oberoende av hur mycket reklam som görs för produkten. Ett så-dant samband kallas för ett kvadratiskt samband eftersom den matematiskabeskrivningen av detta samband blir en kvadratisk funktion. ¤

17

Page 19: Regressionsanalys - En Introduktion

Exempel 11 En forskare som studerar bakteriepopulationer är intresseradav förökningstakten. Forskaren studerar därför sambandet mellan variablerna“Populationsstorlek” och “Tid”. Ett sådant samband skulle kunna se ut påföljande sätt

Tid

Pop

ulat

ione

ns s

torle

k

där populationen ser ut att öka i allt högre takt ju längre tid det går. Dettaberor på att den relativa ökningstakten är konstant, dvs ökningen sker enligtränta-på-ränta principen. Detta innebär att denna modell även är vanlig iekonomiska sammanhang. Samband av den här typen kallas för exponentiellasamband på grund av dess matematiska formel. ¤

Sambanden som beskrivs i de båda exemplen ovan kallas med ett gemen-samt namn för icke-linjära samband och behandlas med icke-linjär regression(se Kapitel 4). De båda sambanden är i olika avseenden perfekta men korre-lationskoefficienten kommer att klassificera framförallt det kvadratiska sam-bandet som svagt. Detta beror på att korrelationskoefficienten enbart mätergraden av linjärt samband, och ingenting säger om andra typer av samband.Det nämndes tidigare att det är en skillnad på begreppen oberoende ochokorrelerade. För att två variabler skall vara oberoende skall det inte finnasnågot samband mellan dem medan de är okorrelerade om det inte föreliggernågot linjärt samband. Oberoende är således ett starkare krav som alltsåsamtidigt säger att variablerna är okorrelerade. Två okorrelerade variablerkan dock vara beroende eftersom sambandet t.ex. kan vara kvadratiskt.

I och med att korrelationskoefficienten enbart studerar linjära sambandförsöker den finna den räta linje som bäst beskriver materialet och angersedan hur bra denna anpassning blir. Vi kunde dock lika gärna ha konstrueratvår korrelationskoefficient till att fokusera på kvadratiska samband vilket dåskulle inneburit att den sökt efter den kvadratiska kurva som bäst beskriverpunktsvärmen i spridningsdiagrammet. Figuren nedan beskriver båda dessa

18

Page 20: Regressionsanalys - En Introduktion

angreppssätt på Exempel 10.

Reklamkostnad

Vin

st

Reklamkostnad

Vin

st

Vi ser att den räta linjen inte är speciellt väl anpassad till punktsvärmenvilket innebär att korrelationen blir relativt låg (rxy = 0.45) medan denkvadratiska linjen går igenom samtliga punkter (vilket beror på att detta ärett fingerat exempel), dvs korrelationen är perfekt.

Då man studerar ett spridningsdiagram kan man alltid finna ett icke-linjärt samband vars kurva är bättre anpassad till punktsvärmen än varje rätlinje. Varför fokuserar vi då just på linjära samband? Det finns flera anled-ningar till detta. Det är viktigt att inte, utan en bra anledning, använda ettalltför komplicerat samband. Oberoende av vilket samband man använderkommer den kurva som anpassas att bestämmas utifrån punkterna i sprid-ningsdiagrammet, dvs utifrån ett stickprov. Detta innebär att kurvan i mereller mindre utsträckning påverkas av slumpmässig variation. Har vi anpassatkurvan alltför väl till just detta stickprov är det stor risk att kurvan inte allsspeglar ett annat stickprov och antagligen inte heller det verkliga sambandeti populationen. För att i mesta möjliga mån undvika sådan “överanpassning”är det fördelaktigt med enkla samband, och linjära samband är den enklastetypen av samband. Nu skall man förstås inte till varje pris undvika mer kom-plicerade samband, men man skall ha en bra anledning till att använda dem.För att avgöra vilken typ av samband man skall använda bör man först sökasvar på följande frågor.

• Vad säger teorin? Kan vi på teoretisk väg enbart genom att användavår kunskap om variablernas relation avgöra vilken typ av sambandsom föreligger?

• Vad säger stickprovet? Vilken typ av sambandsmönster går att uttydaur spridningsdiagrammet?

19

Page 21: Regressionsanalys - En Introduktion

För att använda ett icke-linjärt samband bör man ha stöd från både teorioch stickprov. I många situationer har man dock ingen hjälp av teoretiskaresonemang utan får helt förlita sig på informationen i stickprovet och då ärdet säkrast att använda enkla sambandsmodeller. Eftersom det beräknadesambandet antagligen skall användas till inferens, dvs till att dra slutsatserom det verkliga sambandet, är det viktigt att man valt en modell som inteär alltför känslig för felspecifikation. Oberoende av vilken modell vi väljerkommer den verkliga modellen antagligen att ha ett annat utseende (ettsamband är aldrig exakt linjärt) men om vi använder en enkel modell som inteär känslig för sådana mindre fel kommer slutsatserna ändå att bli trovärdiga.Det viktigaste är inte att finna exakt rätt modell utan en modell som geranvändbara resultat. Även detta talar för att man i de flesta fall bör användaen linjär modell.

Vidare gäller att om man begränsar sig till ett mindre intervall på x-axelnkommer de flesta icke-linjära samband att väl kunna beskrivas av en rät linje,dvs om man studerar kortare intervall är de flesta samband ungefär linjära.Studerar vi t.ex. det kvadratiska sambandet i Exempel 10 på kortare intervallfår vi

Reklamkostnad

Vin

st

och vi ser att den linjära anpassningen blir mycket bra. Vidare gäller attresultaten i linjär regression är lättolkade vilket gör de linjära modellerna änmer attraktiva.

2.3 Vad är en rät linje?

Vi förutsätter nu att sambandet mellan variablerna x och y är linjärt, dvsatt det kan beskrivas med en rät linje. Vad innebär då en rät linje matem-atiskt? Nu är det viktigt att man bestämt orsak och verkan, dvs vilken avvariablerna som påverkar och vilken som blir påverkad. Vi förutsätter attdet är x-variabeln som påverkar y-variabeln och inte tvärtom. x-variabelnbrukar då kallas för den oberoende variabeln eller för en förklaringsvariabel

20

Page 22: Regressionsanalys - En Introduktion

medan y-variabeln kallas för den beroende variabeln. När man beskriver ettsådant beroendeförhållande matematiskt används en sk funktion och ett lin-järt förhållande blir på formen

y = a+ bx (3)

där a och b är reella konstanter, dvs vanliga tal, som anger linjens placeringoch lutning. Konstanten a kallas för interceptet och anger var linjen skär y-axeln, dvs vilket värde linjen anger på y-variabeln då x = 0. Detta följer avatt

y = a+ b · 0 = a.

Interceptet anger således linjens placering. Nu är det dock så att det finns ettoändligt antal räta linjer som skär just denna punkt på y-axeln, och därförbehövs ytterligare information. b kallas för linjens riktningskoefficient ochanger linjens lutning.

x

yLinjer med samma b men olika a

x

y

Linjer med samma värdepå a men olika värden på b

Om vi jämför linjens värde för två punkter på x-axeln där den ena är enenhet större kommer skillnaden att vara b. Detta faktum inses via följanderesonemang. Låt yx vara linjens värde i punkten x och yx+1 linjens värde ipunkten x+ 1. Då följer att

yx+1 = a+ b · (x+ 1) = a+ bx+ b = yx + b,

dvs y-värdet i punkten x+ 1 är exakt b enheter större (eller mindre om b ärnegativ) jämfört med motsvarande y-värde i punkten x. Konstanterna a ochb åskådliggörs väl i följande figur.

21

Page 23: Regressionsanalys - En Introduktion

x

y

a

x x+1

1

b

y=a+bx

I statistiska sammanhang kallas den räta linjen för en regressionslinje ochde båda konstanterna a och b för regressionskoefficienter. Framförallt rikt-ningskoefficienten b innehar en viktig roll i regressionsanalysen.

2.4 Minsta-Kvadrat-metoden (MK-metoden)

Hur anpassar vi då på bästa sätt en rät linje till punktsvärmen i ett sprid-ningsdiagram? Om vi för hand med ögonmått och eget tycke anpassar en rätlinje kommer olika personer att anpassa olika linjer till samma datamaterial.Vi behöver därför en objektiv och välmotiverad metod för att avgöra vilkenlinje som är den bästa linjen. Först behövs givetvis ett kriterium för vadsom skall menas med den bästa linjen. Vi vill att linjen skall placeras mitt ipunktsvärmen i den mening att linjen ligger så nära punkterna som möjligt.Men hur än linjen väljs kommer vissa punkter antagligen att ligga relativtlångt från linjen. Flyttar vi sedan linjen för att dessa punkter skall hamnanärmare kommer istället andra punkter att fjärma sig från linjen. För att fåett mått på hur bra en viss linje är summerar vi samtliga punkters avståndtill linjen. Precis som när standardavvikelsen beräknas använder man inteavstånden direkt utan dessa kvadreras först.

Det vertikala avståndet mellan en punkt och linjen kallas för en residualoch betecknas med bokstaven e (error = felterm). Om vi som tidigare an-vänder indexering för att ange den aktuelle individen får vi för individ i attresidualen blir

ei = yi − (a+ bxi)

22

Page 24: Regressionsanalys - En Introduktion

x

y

xi

yi

a+bxi

e i

Vårt mått på hur väl linjen är anpassad till punktsvärmen ges nu av den skresidualkvadratsumman

SSRes =nXi=1

e2i =nXi=1

[yi − (a+ bxi)]2

där SS står för Sum of Squares. Hur skall vi då använda SSRes för att finnaregressionslinjens ekvation (3)? Att bestämma denna ekvation är samma somatt bestämma regressionskoefficienterna a och b, och studerar vi residualk-vadratsumman ser vi att olika värden på a och b ger olika värden på SSRes.Uppgiften blir således att finna de värden på a och b som gör att SSRes blirså liten som möjligt. Metoden för att finna dessa värden på a och b kallas förMinsta-Kvadrat-metoden (MK-metoden) och är matematiskt något avancer-ad. För den intresserade (och något matematiskt bevandrade) ges metodeni Appendix A. Resultatet av metoden ges nedan.

b =

P(xi − x) (yi − y)P

(xi − x)2=

Pxiyi −

PxiP

yinP

x2i − (P

xi)2

n

a = y − bx

Vi ser av detta att tillvägagångssättet blir att först bestämma värdet påb och sedan använda detta värde till att bestämma a. Uttrycket för b serkomplicerat ut men har man följt tipset om att börja med att beräkna ettantal summor, se (1), sid. 10, blir det enkelt.

Exempel 12 Vi återgår till Exempel 3 där vi beräknade korrelationskoeffi-cienten mellan variablerna “Längd” och “Vikt”. Resultatet blev en korrelationpå rxy = 0.831 vilket innebär att punktsvärmen någorlunda kan liknas vid enrät linje. I Exempel 7 konstaterade vi att detta var ett riktat samband där

23

Page 25: Regressionsanalys - En Introduktion

“Längd” påverkar “Vikt” och inte omvänt. Av denna anledning har beteck-ningarna valts så att

x = Längd

y = Vikt

och nu söker vi regressionskoefficienterna a och b till ekvationen

y = a+ bx

Utifrån de beräknade kvadratsummorna i Exempel 3 ger MK-metoden attregressionskoefficienterna blir

b =175.5

221.5= 0.79

a =435

6− 0.79 · 1083

6= −70.5

där vi sparat miniräknarens alla decimaler vid beräkningen av b för beräknin-gen av a. Regressionslinjens ekvation blir således

y = −70.5 + 0.79 · x

¤

2.5 Regressionssambandets innebörd

2.5.1 Hur skall regressionslinjen tolkas?

Vid regressionsanalys är vi primärt intresserade av den beroende variabeln y,och den oberoende variabeln x används för att förbättra insikten angåendey. Antag att vi för ett ögonblick är tillbaka i den univariata situationenoch enbart studerar variabeln y och vill skatta populationsmedelvärdet μy.Skall μy skattas med ett enda värde, en punktskattning, ger de univariatainferensmetoderna att den bästa skattningen ges av stickprovsmedelvärdety. Av beteckningsmässiga skäl skriver vi istället hädanefter

y = bμydär “^” (uttalas “tak” eller “hatt”) anger att detta är en skattning av detverkliga värdet. Men nu har vi dessutom tillgång till individernas värden förx-variabeln och vill på något sätt utnyttja denna merinformation i avseende

24

Page 26: Regressionsanalys - En Introduktion

att skatta μy. I och med x-variabeln kan populationen delas in i delpopula-tioner, en för varje värde på x-variabeln. Varje sådan delpopulation har ettpopulationsmedelvärde för y och detta betecknas

μy|x

där symbolen | uttalas “betingat” eller “givet”.Exempel 13 Antag att vi studerar variablerna

x = Kön

y = Månadslön

vilket innebär att vi gör en indelning i två delpopulationer. Antar vi att medel-lönen bland männen i den aktuella populationen är 22 000 och bland kvinnor-na 20 000 får vi

μy|x=man = 22 000

μy|x=kvinna = 20 000

¤

Vid regressionsanalys är oftast båda variablerna kvantitativa och vi hart.ex. studerat

x = Längd

y = Vikt

vilket innebär att populationen nu delas in i ett mycket stort antal delpopu-lationer; en för varje längd. Antar vi t.ex. att genomsnittsvikten för 180 cmlånga 19-åriga män är 72 kg gäller alltså att

μy|x=180 = 72

ochmotsvarande populationsmedelvärden kan nu beräknas för samtliga delpop-ulationer om vi har tillgång till all information. Ett regressionssamband angerhur dessa delpopulationers medelvärden hänger ihop. Att vi bestämt oss förett linjärt samband innebär alltså att sambandet mellan delpopulationernasmedelvärden kan beskrivas med en rät linje.

μy|x = α+ βx

där vi använder grekiska bokstäver för att poängtera att detta är det verkligasambandet. Den regressionslinje vi beräknat är enbart en skattning av den

25

Page 27: Regressionsanalys - En Introduktion

verkliga linjen eftersom den är baserad enbart på informationen i ett stick-prov. Vår regressionslinje representerar alltså “stickprovsmedelvärden”, ellerskattningar av populationsmedelvärdena, för alla delpopulationer, dvsbμy|x = a+ bx

I Exempel 12 fick vi resultatetbμy|x = −70.5 + 0.79 · xdvs vår skattning av populationsmedelvärdet bland 180 cm långa 19-årigamän är bμy|x=180 = −70.5 + 0.79 · 180 = 72.1där vi som ovan använt samtliga miniräknarens decimaler.

2.5.2 Tolkning av regressionskoefficienterna

Ett viktigt steg i regressionsanalysen är att tolka värdena på regressionskoef-ficienterna a och b. Vi har i Avsnitt 2.3 studerat deras matematiska innebördoch med insikten om hur regressionslinjen skall tolkas får vi

• Interceptet a anger en skattning av genomsnittligt y-värde för individermed värdet x = 0. Dvs a är skattningen av populationsmedelvärdet αför populationen bestående av alla individer med värdet x = 0.

• Riktningskoefficienten b anger en skattning av genomsnittlig förändringi y-värdet då värdet på x-variabeln ökas med en enhet. b anger alltsådet skattade förhållandet mellan populationsmedelvärdena i delpopu-lationerna.

I Exempel 12 ovan gäller således enligt vår skattning att en en centime-ter längre person i genomsnitt väger 0.79 kg mer. Vår skattning säger osst.ex. att medelvikten för 180 cm långa 19-åriga pojkar ligger 7.9 kg övermotsvarande medelvikt bland de som är 170 cm långa. I många situationerär inte tolkningen av interceptet a meningsfull. Detta beror på att värdetx = 0 ofta ligger långt utanför det undersökta området eller att x-variabelnöverhuvudtaget inte kan anta värdet x = 0. I Exempel 12 fick vi t ex atta = −70 vilket skulle betyda att personer utan någon längd, x = 0, i genom-snitt väger −70 kg. Det finns inga personer utan längd men även om dettavarit möjligt kunde de förstås inte haft negativ vikt. Interceptet anger baraden punkt där regressionslinjen skär y-axeln och tar inte hänsyn till om den-na punkt är relevant att tolka eller inte. Oberoende av huruvida a kan gesen relevant tolkning är den viktig i regressionsekvationen eftersom den angerregressionslinjens (vertikala) position.

26

Page 28: Regressionsanalys - En Introduktion

2.5.3 Interpolation och extrapolation

Även om värdet x = 0 oftast inte är relevant är det av intresse att studeray-värdet för andra värden på x-variabeln. Vi studerade t.ex. 19-åriga män avlängden 180 cm och fick den skattade medelvikten till

bμy|x=180 = 72.1Om vi skall tro på regressionslinjen väger alltså 180 cm långa 19-åriga män igenomsnitt 72.1 kg. Då man använder regressionslinjen till denna typ av slut-sats är det viktigt att inte gå alltför långt utanför undersökningsområdet. Envanlig situationen är att man inte känner det verkliga sambandets art menatt punktsvärmen i spridningsdiagrammet uppvisar linjära tendenser. Därföranpassas en linjär regressionslinje. Som stöd för denna anpassning användervi bl.a. figuren i slutet av Avsnitt 2.2 där vi såg att icke-linjära sambandofta med god precision kan approximeras med ett linjärt samband på kortareintervall. Skulle det verkliga sambandet vara icke-linjärt kommer regression-slinjens skattningar av y-värden ändå antagligen ligga nära sanningen om vihåller oss inom det intervall på x-axeln där stickprovet uppvisat de linjäratendenserna. Om vi däremot går utanför detta intervall blir det mer tveksamtatt använda linjen till att dra slutsatser om y-värden eftersom vi där inte harstöd från något stickprov angående vårt antagande om ett linjärt samband.Om det verkliga sambandet är icke-linjärt är det utanför stickprovsområdetstor risk att (de linjära) slutsatserna hamnar långt från sanningen. Då vidrar slutsatser om y-värden inom undersökningsområdet, dvs för x-värdensom ligger mellan det minsta och det största x-värdet i stickprovet, gör vien sk interpolation medan vi annars gör en sk extrapolation. Då man drarslutsatser utifrån en regressionslinje skall man alltid vara försiktig eftersomdessa slutsatser är förenat med stor osäkerhet. Vid extrapolering bör manvara extra försiktig och kritisk till resultatet.

27

Page 29: Regressionsanalys - En Introduktion

x

Interpolation ExtrapolationExtrapolation

Verkligt samband

Regressionslinje

y

2.6 Hur starkt är regressionssambandet?

I och med regressionslinjen har vi funnit den räta linje som i MK-meningbäst beskriver punktsvärmen i spridningsdiagrammet. Vi har dock ingen in-formation om hur väl denna regressionslinje är anpassad till datamaterialet.Korrelationskoefficienten är ett mått på just denna anpassning men är svår-tolkad. För att finna ett mer lättolkat mått utgår vi istället från residu-alkvadratsumman och dess innebörd. Ett av målen med regressionsanalysenär att få säkrare information om μy och utan information om x användsstickprovsmedelvärdet bμy medan man med information om x använder denskattade regressionslinjen bμy|x. För att få en uppfattning om styrkan av re-gressionssambandet ställer vi oss frågan vad vi vunnit på att använda infor-mationen i x-variabeln för att skatta μy. Dvs hur mycket bättre, eller säkrare,blir skattningen?

För att bedöma osäkerheten i en skattning används som tidigare dessspridning, vilken vanligtvis mäts via standardavvikelsen (eller någon vari-ant av denna). Standardavvikelsen består huvudsakligen av en summa avkvadratavvikelser, och det är denna summa som fokuseras på här. Vi villsåledes jämföra spridningen i de båda skattarna bμy och bμy|x genom att jämförasådana kvadratsummor. Punktsvärmens avvikelser från de båda skattarna i

28

Page 30: Regressionsanalys - En Introduktion

Exempel 12 åskådliggörs med

170 180 190

70

75

80

85

Längd

Vik

t

μ̂y

Spridning utan informationen i x

190180170

85

80

75

70

Längd

Vik

t

μ̂y x

Spridning med informationen i x

Först konstaterar vi att denna kvadratsumma nödvändigtvis är mindre förbμy|x än för bμy eftersom MK-metoden konstruerar regressionslinjen så attkvadratsumman minimeras. Frågan är hur mycket mindre spridningen är.

Kvadratsumman som uppkommer ur den vänstra figuren representeraroförklarad variation av att enbart använda informationen i y-variabeln föratt skatta μy. Detta blir således samma kvadratsumma som den som användsi den (univariata) standardavvikelsen för y. Kvadratsumman kallas därför förtotal variation i y och är

SSTot =nXi=1

¡yi − bμy¢2 = nX

i=1

(yi − y)2

Kvadratsumman i den högra figuren blir residualkvadratsumman (se Avsnitt2.4), dvs

SSRes =nXi=1

¡yi − bμy|x¢2 = nX

i=1

e2i

och representerar den oförklarade variation som återstår i y-variabeln efteratt vi använt informationen i x.

Den oförklarade variationen i y-variabeln har förbättrats från SSTot tillSSRes och skillnaden dem emellan kallas för den av regressionen förklaradevariationen och betecknas SSReg.2 Vi har alltså sambandet

SSReg = SSTot − SSRes2I litteraturen ges inget helt konsekvent beteckningssätt för de olika kvadratsummorna.

Speciellt olyckligt är det att kvadratsummorna SSReg och SSRes rent beteckningsmässigtkan misstas för varandra. Vanliga beteckningar är SST, eller TSS (Total Sum of Squares),SSR, eller RSS (Regression Sum of Squares), och SSE, eller ESS (Error Sum of Squares).I viss litteratur används dock SSR, eller RSS som (Residual Sum of Squares), och SSE,eller ESS som (Explained Sum of Squares).

29

Page 31: Regressionsanalys - En Introduktion

ellerSSTot = SSReg + SSRes

Den totala variationen i y-variabeln kan således delas upp i två delar; delsden del som regressionssambandet kan förklara och dels den del som blir kvarsom oförklarad variation.

x

y

xi

yi

μy^

μy^

x

Oförklarad variation(residual)

Observerat värde

Av regressionenförklarad variation

Av regressionen angivet"stickprovsmedelvärde"

Stickprovsmedelvärde

Totalvariation

Ju större del av den totala variationen i y-variabeln som regressionen kanförklara ju starkare är det linjära sambandet mellan x och y. Vårt måttpå sambandets styrka blir därför andelen av den totala variationen som re-gressionen förklarar. Detta mått kallas för determinationskoefficienten ochbetecknas R2 och definieras alltså via

R2 =SSRegSSTot

= 1− SSResSSTot

Vad säger oss då determinationskoefficienten? Individerna i stickprovet harolika y-värden, dvs det finns en viss variation i y-variabeln. På samma sättskiljer sig individerna med avseende på x-variabeln. Determinationskoeffi-cienten anger hur stor del av variationen i y-variabeln som kan förklaras avatt individerna har olika värden på x-variabeln.

Vid enkel linjär regression är även korrelationskoefficienten ett mått påsambandets styrka och det är därför ingen överraskning att det finns ett närasamband mellan r och R2. Det visar sig nämligen att

r2 = R2

dvs determinationskoefficienten kan fås genom att kvadrera korrelationsko-efficienten.

30

Page 32: Regressionsanalys - En Introduktion

Exempel 14 I Exempel 3 fick vi att korrelationen mellan variablerna “Längd”och “Vikt” var rxy = 0.831 och därför följer att determinationskoefficienteni den linjära regressionen blir

R2 = 0.8312 = 0.69

Personerna i stickprovet väger olika mycket, dvs det finns en variation i vikt.Samtidigt är dessa personer olika långa, dvs det finns en variation i längd.Det visar sig att ca 69% av variationen i vikt kan förklaras av att personernaär olika långa. ¤

2.6.1 Övningsuppgifter

Uppgift 2 Lös uppgift 603 (utom e) i Praktisk Statistik.

Uppgift 3 Lös uppgift 605 i Praktisk Statistik.

Uppgift 4 Lös uppgift 608 i Praktisk Statistik.

2.7 Statistisk inferens vid linjär regression

2.7.1 Residualspridningen

Då vi vid univariat statistik mäter spridningen för y-variabeln används stan-dardavvikelsen

sy =

sPni=1 (yi − y)2

n− 1 =

rSSTotn− 1 (4)

och denna används i princip vid all inferens angående populationsmedelvärdetμy. Vad var då anledningen till detta? Då μy skall skattas utgår man alltidfrån stickprovsmedelvärdet y och om stickprovet är någorlunda stort (n ≥ 30)ger Centrala gränsvärdessatsen att sannolikheter för y med god approxima-tion kan uppskattas via normalfördelningen. I normalfördelningen mäts allaavstånd i termer av standardavvikelser och det är av denna anledning sy haren så central roll vid inferens angående μy. I och med extrainformationen ix-variabeln skall vi vid regressionssamband inte utgå från y utan från bμy|x,och istället för sy skall därför spridningen kring regressionslinjen användas.Denna standardavvikelse för residualerna, den sk residualspridningen, ges av

se =

sPni=1

¡yi − bμy|xi¢2n− 2 =

sPni=1 e

2i

n− 2 =

rSSResn− 2 (5)

31

Page 33: Regressionsanalys - En Introduktion

och precis som att sy används vid all univariat inferens angå ende μy användsse vid all inferens angående μy|x. Vid manuella beräkningar av residualsprid-ningen använder man med fördel någon av formlerna

se =

sP(y − y)2 − b2

P(x− x)2

n− 2 =

sPy2i − a

Pyi − b

Pxiyi

n− 2

Exempel 15 Vad blir residualspridningen i Exempel 12? Beräkningarna iExempel 3 gav att

nXi=1

(xi − x)2 = 221.5

nXi=1

(yi − y)2 = 201.5

vilket tillsammans med det faktum att

b = 0.79

ger att residualspridningen blir

se =

r201.5− 0.792 · 221.5

6− 2 = 3.95

Den genomsnittlige individen i stickprovet avviker (i y-led) från regression-slinjen med ungefär fyra y-enheter. I beräkningen använder vi miniräknarensalla decimaler för b och det är nu lika viktigt att spara alla tillgängliga dec-imaler för se eftersom denna ingår i många andra intressanta beräkningar.Denna spridning kan nu jämföras med den univariata standardavvikelsen

sy =

r201.5

6− 1 = 6.35

och vi ser att spridningen, dvs osäkerheten i vår skattning, har minskat ioch med att vi använder informationen i x-variabeln. Det kommer antagligeninte som någon överraskning att vi genom information om en (okänd) personslängd kan komma med en bättre gissning angående personens vikt. Skillnadenmellan se och sy ger oss en uppfattning om hur mycket säkrare en sådangissning blir. ¤

32

Page 34: Regressionsanalys - En Introduktion

2.7.2 Normalfördelningens roll

Som nämndes tidigare är regressionslinjen

bμy|x = a+ bx

bara en skattning av den verkliga regressionslinjen eftersom den enbart an-vänder informationen i stickprovet. Den verkliga linjen

μy|x = α+ βx

beskriver, under förutsättning att sambandet verkligen är linjärt, population-smedelvärden för y-variabeln för varje värde på x-variabeln. För den delpop-ulation där samtliga individer har värdet x på x-variabeln är medelvärdet föry-variabeln således μy|x. Men alla individer i denna delpopulation har intevärdet μy|x, t.ex. gäller förstås att alla 180 cm långa 19-åriga män inte väger72 kg. Som i de flesta populationer föreligger alltså en viss spridning. Dettainnebär att y-värdet för en individ i denna population kan beskrivas via

yi = μy|x + εi = α+ βx+ εi

ε beskriver den positiva eller negativa avvikelsen från det aktuella (del-)populationsmedelvärdet, dvs ε är en residual. Samtliga individer i delpopula-tionen är förknippade med en sådan residual och utifrån dessa kan vi beräknadelpopulationens standardavvikelse (residualspridning) σε. Problemet är attvi aldrig känner y-värdet på samtliga individer (med värdet x på x-variabeln)vilket innebär att σε inte kan beräknas. För att kunna dra slutsatser om μy|xmåste vi dock få en uppfattning om σε.

För att vid univariat inferens få en uppfattning om σ används stickprovs-standardavvikelsen s, men vid regressionsanalys är regressionslinjen (popu-lationsmedelvärdena) skattad för alla delpopulationer med endast ett fåtalobservationer från några av delpopulationerna. Detta innebär att vi i vårtstickprov eventuellt inte har en enda observation från den aktuella delpop-ulationen, dvs ingen av individerna i stickprovet behöver nödvändigtvis havärdet x på x-variabeln. I vår undersökning av sambandet mellan variabler-na “Längd” och “Vikt” visar det sig att ingen av pojkarna i stickprovet var180 cm lång (se Exempel 2), men detta hindrar inte oss från att vara in-tresserade av just denna delpopulation. Enda vägen ur detta problem är attsamtliga delpopulationer har samma standardavvikelse, dvs att σε är sammaför varje värde på x. Om så är fallet kommer samtliga individer i stickprovetkomma från populationer med samma spridning vilket innebär att standar-davvikelsen kring den skattade regressionslinjen, se, kan användas som skat-tning av σε. Nu löser dock inte detta alla våra problem. Är stickprovet litet

33

Page 35: Regressionsanalys - En Introduktion

krävs vid univariat inferens att populationen i sig är (approximativt) nor-malfördelad och att detta villkor är uppfyllt blir extra viktigt vid regression-sinferens eftersom vi eventuellt inte ens har något stickprov från den aktuelladelpopulationen.

Uppskattning av populationsmedelvärde och populationsstandardavvikelsegörs för de flesta delpopulationer utan någon information från just dennadelpopulation utan bygger på följande

• Det föreligger ett linjärt samband mellan populationsmedelvärdena idelpopulationerna, dvs vi kan använda en regressionslinje för att upp-skatta dessa populationsmedelvärden.

• Samtliga delpopulationer har samma spridning, dvs standardavvikelsenkring regressionslinjen i y-led (residualspridningen) är samma för varjex.

• Samtliga delpopulationer är (approximativt) normalfördelade med avseendepå y-variabeln. I den delpopulation där alla individer har värdet x påx-variabeln gäller alltså att y-variabeln är N

¡μy|x, σε

¢.

Dessa villkor åskådliggörs i följande figur.

x

y

x1 x2 x3

=α+βxμy x

y x1μ

y x2μ

y x3μ

2.7.3 Vad vill vi dra slutsatser om?

Vad är anledningen till att vi studerar samband i form av regressionsanalys?

• Hur ser sambandet ut, dvs på vilket sätt påverkas y-variabeln av x-variabeln? Sambandet som förutsätts är

μy|x = α+ βx

34

Page 36: Regressionsanalys - En Introduktion

vilket innebär att vi är intresserade av regressionskoefficienterna α ochβ. Vi är framförallt intresserade av riktningskoefficienten β eftersomdenna beskriver sambandet mellan populationsmedelvärdena i de olikadelpopulationerna.

• Vilka slutsatser kan vi dra om y-värdet för ett givet värde på x-variabeln?Då vi fokuserar på en sådan delpopulation är vi intresserade av

— medelvärdet μy|x.— y-värdet för en enskild individ. Om vi får information angåendeen individs x-värde är det av intresse att gissa dess y-värde, dvsyx. En skattning av yx brukar ibland betecknas ypr för att angeatt detta är en prognos, men vi kommer här att använda denvanliga skattningsbeteckningen byx. Då man skattar värdet på enenskild individ måste man förutom osäkerheten i skattningen avden aktuella delpopulationens medelvärde även ta hänsyn till attenskilda individer avviker från detta populationsmedelvärde ochutgå från sambandet

y = μy|x + ε

2.7.4 Inferens angående regressionskoefficienterna

Riktningskoefficienten β anger hur mycket en förändring i x-variabeln påverkarmedelvärdet i y-variabeln. Den skattade riktningskoefficienten b är en skat-tning av β, dvs

b = bβEftersom b är baserad på informationen i ett stickprov är den utsatt förslumpmässig variation. Ett annat stickprov skulle gett ett annat värde på b,dvs en annan lutning på regressionslinjen. För att få en säkrare uppskattningav linjens verkliga lutning, β, kan vi konstruera ett konfidensintervall. I ochmed förutsättningen att residualerna är normalfördelade följer att även vårskattade riktningskoefficient är normalfördelad, dvs

b är N (β, σb)

vilket innebär att ett konfidensintervall för β med konfidensgrad 1−α ges avb± z · σb

Nu är dock inte σb känd utan måste uppskattas ur stickprovet via sb. Detvisar sig att sb följer ur residualspridningen se via

sb =

ss2eP(x− x)2

=

ss2eP

x2 − (P

x)2

n

35

Page 37: Regressionsanalys - En Introduktion

vilket inte innebär några större problem eftersom både se ochP(x− x)2

beräknats tidigare under analysen. Eftersom stickprovet ofta är litet kommerkonfidensintervallet för β att bli

b± t · sbdär man använder t-fördelningen med n− 2 frihetsgrader.

Exempel 16 I Exempel 12 fick vi att b = 0.79, dvs riktningskoefficientenanger att en centimeter längre 19-åriga män i genomsnitt väger 0.79 kg mer.Detta är dock bara en skattning av den verkliga riktningskoefficienten β ochför att få en bättre (säkrare) uppfattning om detta värde konstrueras ett 95%-igt konfidensintervall för β. Eftersom vi enbart har sex observationer skallvi använda t-fördelningen med 4 frihetsgrader, där det aktuella värdet blirt = 2.78. Utifrån beräkningen av residualspridningen se i Exempel 15 får viatt den skattade standardavvikelsen för b blir

sb =

r3.952

221.5= 0.265

och följaktligen blir konfidensintervallet

0.79± 2.78 · 0.265

eller0.79± 0.74

Alternativt skriver vi intervallet som

0.05 ≤ β ≤ 1.53

vilket innebär att den verkliga riktningskoefficienten med 95% säkerhet befinnersig någonstans mellan 0.05 och 1.53. Med 95% säkerhet uppskattar vi allt-så att en centimeter längre 19-åriga män i genomsnitt väger mellan 0.05och 1.53 kg mer. Det breda intervallet beror mestadels på att uppskattningenbaseras på endast sex observationer. ¤

Då vi konstruerar konfidensintervall för β sätter vi gränser för den verk-liga linjens lutning. Vi åskådliggör intervallet med följande figur

36

Page 38: Regressionsanalys - En Introduktion

x

y

Linjens lutning anger den undregränsen för den verkligariktningskoefficienten

Linjens lutning anger den övregränsen för den verkligariktningskoefficienten.

Figuren är dock något missvisande eftersom vi med ett konfidensintervall förβ ingenting säger om linjens placering (för där behövs α). Linjerna i figurenskall således enbart betraktas utifrån deras lutning. Samtliga streckade lin-jer i figuren har alltså en lutning som inte kan uteslutas som den verkligalutningen.

Vanligtvis i samband med riktningskoefficienten β är vi intresserade avom det verkligen är så att x-variabeln påverkar y-variabeln. Skulle β = 0 ärden verkliga regressionslinjen horisontell

μy|x = α+ 0 · x = α

och samtliga delpopulationer har samma medelvärde på y, dvs μy|x = μy (=α). Informationen i x-variabeln ger då ingen merinformation om medelvärdetför y och är därför överflödig i detta avseende. I en regressionsanalys vill vivara övertygade om att så inte är fallet och ställer därför upp hypotestestet

H0 : β = 0

H1 : β > 0, β < 0, β 6= 0

där som vanligt mothypotesen skall spegla vår tro i sammanhanget. Vi an-vänder förstås b för undersöka detta och för att mäta avvikelsen från dethypotetiska värdet i termer av standardavvikelser använder vi testfunktio-nen

t =b

sb

som är t-fördelad med n− 2 frihetsgrader.

Exempel 17 Vi vill nu få det bekräftat att en 19-årig mans längd verkligenpåverkar hans vikt. Vår övertygelse är att längre personer även tenderar att

37

Page 39: Regressionsanalys - En Introduktion

väga mer vilket innebär att hypoteserna formuleras som

H0 : β = 0

H1 : β > 0

Vi testar trovärdigheten i nollhypotesen genom att beräkna testfunktionen till

t =0.79

0.265= 2.98

dvs resultatet är nästan tre standardavvikelser över det hypotetiska medelvärdet.Studerar vi t-tabellen får vi att

2.78 < t < 3.75

vilket betyder att1% < p-värde < 2.5%

(exakt 2%) vilket betyder att vi har enstjärnig signifikans. Vi drar således slut-satsen att en persons längd ger information om hans vikt. Skulle stickprovetvarit större skulle vi dessutom med all säkerhet få trestjärnig signifikans.Jämför detta resultat med hypotetsprövningen angående korrelationskoeffi-cienten i Exempel 4. ¤

Motsvarande analys i form av konfidensintervall och hypotesprövning kanäven göras för α (och görs oftast automatiskt av statistikprogrammen) menär i de flesta situationer inte av något större intresse.

2.7.5 Inferens angående en viss delpopulation

Antag nu att vi är speciellt intresserade av y-värden för den delpopulationdär samtliga individer har värdet x0 på x-variabeln. Med den skattade re-gressionslinjen bμy|x0 = a+ bx0

har vi fått en punktskattning av denna delpopulations verkliga medelvärde.För att få en säkrare uppskattning bör denna punktskattning utvidgas tillett konfidensintervall för μy|x0 . För att kunna konstruera ett sådant intervallmåste vi ha tillgång till osäkerheten i skattningen. Denna osäkerhet innefattarosäkerhet både angående linjens lutning och dess placering, dvs osäkerhetbåde i a och b. Man kan visa att den sammanslagna effekten kan uppskattasvia

sbμy|x0 = se

s1

n+(x0 − x)2P(x− x)2

38

Page 40: Regressionsanalys - En Introduktion

Ett konfidensintervall för μy|x0 ges nu avbμy|x0 ± t · sbμy|x0eller mer utskrivet

a+ bx0 ± t · ses1

n+(x0 − x)2P(x− x)2

(6)

där vi åter använder t-fördelningen med n− 2 frihetsgrader.

Exempel 18 Vad är medelvikten för 180 cm långa 19-åriga män? Då vi iExempel 12 skattade den linjära regressionslinjen fick vi

bμy|x = −70.5 + 0.79 · xdvs vår punktskattning av populationsmedelvärdet bland 180 cm långa 19-åriga män är bμy|x=180 = −70.5 + 0.79 · 180 = 72.1(glöm inte decimalerna). För att få en säkrare uppskattning konstruerar viett 95%-igt konfidensintervall för μy|x=180. Osäkerheten i punktskattningenberäknas nu med hjälp av redan utförda beräkningar i Exempel 3 och 15 via

sbμy|x0 = 3.95 ·s1

6+(180− 180.5)2

221.5= 1.62

och pga att det sökta tabellvärdet för fyra frihetsgrader är t = 2.78 följer attkonfidensintervallet blir

72.1± 2.78 · 1.62eller

72.1± 4.5Skrivet som ett intervall får vi

67.6 ≤ μy|x=180 ≤ 76.6dvs genomsnittsvikten för 180 cm långa 19-åriga män befinner sig med 95%säkerhet någonstans mellan 67.2 kg och 76.2 kg. ¤

Antag nu att vi istället vill skatta en viss individs y-värde enbart utifråninformation om dess x-värde, vilket vi antar är x = x0. Detta kallas att göraen prognos för individen och punktskattningen för denna betecknas byx=x0.I och med informationen om x-värdet vet vi vilken delpopulation individen

39

Page 41: Regressionsanalys - En Introduktion

tillhör och som punktskattning kan vi inte göra bättre än att använda punk-tskattningen för medelvärdet i denna delpopulation. Punktskattningen blirdärför samma som då vi skattade delpopulationens medelvärde,

byx=x0 = bμy|x=x0dvs regressionslinjens y-värde i punkten x = x0. För att kunna utvidga dettatill ett konfidensintervall för yx=x0 måste vi uppskatta osäkerheten i punkt-skattningen. När vi gör en prognos utför vi två steg som är förenat med osäk-erhet. Först uppskattas delpopulationens medelvärde och sedan uppskattasindividens avvikelse ifrån detta medelvärde. Osäkerheten i skattningen avdelpopulationens medelvärde har vi redan uppskattat till

sbμy|x0och osäkerheten i att skatta en viss individs värde i denna delpopulation är seeftersom vi förutätter att spridningen är samma i samtliga delpopulationer.Den sammanslagna osäkerheten blir

sbyx=x0 =qs2bμy|x0 + s2e (7)

vilket i utskriven form blir

sbyx=x0 = se

s1 +

1

n+(x0 − x)2P(x− x)2

Nu är vi redo att konstruera konfidensintervall för yx men för att inte förväxlakonfidensintervall för populationsmedelvärdet μy|x=x0 med konfidensintervallför yx=x0 kallas det senare vanligtvis för ett prognosintervall. Ett prognosin-tervall för yx=x0 ges av byx=x0 ± t · sbyx=x0eller

a+ bx0 ± t · ses1 +

1

n+(x0 − x)2P(x− x)2

(8)

dvs beräkningsmässigt i princip identiskt med konfidensintervall för μy|x=x0.

Exempel 19 Antag att vi vill skatta en viss 180 cm lång 19-årig mans viktmed ett 95%-igt prognosintervall. Som i föregående exempel ges punktskat-tningen av byx=180 = −70.5 + 0.79 · 180 = 72.1

40

Page 42: Regressionsanalys - En Introduktion

Osäkerheten i denna punktskattning blir

sbyx=180 = 3.95 ·s1 +

1

6+(180− 180.5)2

221.5= 4.27

dvs väsentligt större än motsvarande osäkerhet angående μy|x=x0. Det söktatabellvärdet för fyra frihetsgrader är t = 2.78 vilket medför att prognosinter-vallet blir

72.1± 2.78 · 4.27eller

72.1± 11.9Skrivet som ett intervall får vi

60.2 ≤ yx=180 ≤ 84.0dvs med 95% säkerhet väger en slumpmässigt vald 180 cm lång 19-årig mannågonstans mellan 60.2 kg och 84.0 kg. Detta är ett mycket brett intervalloch ger inte någon direkt information. Detta beror dels på att stickprovet ärlitet och att osäkerheten i prognosintervall för enskilda individer vanligtvis ärmycket större än i konfidensintervall för medelvärden. ¤

I och med termen (x0 − x)2 visar det sig att osäkerheten i skattningar-na bμy|x0 och byx=x0 beror på vilken delpopulation (x-värde) vi är intresseradeav. Ju närmare stickprovsmedelvärdet x det aktuella x-värdet är ju bättreblir det, dvs ju mindre blir spridningen. Detta beror dels på att ett skat-tningsfel i linjens lutning (dvs b’s avvikelse från β) inte har någon stor effekti linjens “nav”, vilket i statistisk mening utgörs av stickprovsmedelvärdena(x, y), medan det får större effekt ju längre man avlägsnar sig från x vilketframgår av följande figur.

x

y

x

y

a+bx

α+β x

Liten effekt av felriktningskoefficient

Stor effekt av felriktningskoefficient

41

Page 43: Regressionsanalys - En Introduktion

Detta har till effekt att konfidens- och prognosintervallen får olika bredd förolika värden på x0. Dessa intervallgränser åskådliggörs som band i nedanståendefigur

170 180 190

50

55

60

65

70

75

80

85

90

95

Längd

Vik

t

Regression

95% CI

95% PI

Den streckade pilen anger prognosintervallets bredd dåx=177 och den heldragna pilen anger konfidensintervalletsbredd då x=180

2.8 Enkel linjär regression med statistikprogram

Regressionsanalys innebär mycket beräkningsarbete och vi har sett att medendast sex observationer blir det förhållandevis tunga och framförallt tid-skrävande beräkningar. Vanligtvis innehåller dessutom en regressionsanalysstora stickprov vilket i princip omöjliggör manuella beräkningar. Lyckligtvisfinns det statistikprogram som löser dessa problem åt oss. Tre av de vanli-gaste programmen är Minitab, SPSS och SAS men i den här framställningennöjer vi oss att presentera hur regressionsutskrifter från Minitab ser ut. Låtoss som avslutning på kapitlet se hur Minitab presenterar resultaten frånexemplet med 19-åringars längd och vikt. För fullständigheten presenterasäven själva tillvägagångssättet.

2.8.1 Enkel linjär regression med Minitab3

För att utföra regressionsanalys i Minitab matas först stickprovet in i tvåkolumner, en för varje variabel. Kolumnerna (variablerna) kan namnges ochi detta exempel används

x = Längd

y = Vikt

3Det finns en möjlighet att prova statistikprogrammet Minitab gratis under 30 dagar.Se www.minitab.com.

42

Page 44: Regressionsanalys - En Introduktion

I menyraden hittar man dialogrutan för regression via

Stat −→ Regression −→ Regression

och i dialogrutan skall sedan (kolumnen för) y-variabeln anges som Re-sponse och (kolumnen för) x-variabeln anges som Predictors. Vill mandessutom ha konfidens- och prognosintervall för populationsmedelvärde re-spektive individvärde för ett visst värde x0 på x-variabeln klickar man påOptions. I fältet för “Prediction intervals for new observations” anger manvärdet x0 och i fältet “Confidence level” anger man den önskade konfidens-graden (95% är standard). Det finns fler valmöjligheter vilka dock liggerutanför framställningen här. Nu är det bara att klicka Ok för att erhållaresultaten av regressionsanalysen.

Vi delar här upp utskriften för att underlätta förklaringen. Först anges re-gressionsekvationen på naturlig form via

Vikt = −70.5 + 0.792 Längd

43

Page 45: Regressionsanalys - En Introduktion

och sedan ges en mer detaljerad beskrivning av regressionskoefficienternatillsammans med hypotesprövning angående både α och β med tvåsidigamothypotser.

Predictor Coef SE Coef T PConstant -70,51 47,95 -1,47 0,215Langd 0,7923 0,2655 2,98 0,041

Vi har således t.ex. att

b = Coef = 0.7923

sb = SE Coef = 0.2655

och då vi testar hypoteserna

H0 : β = 0

H1 : β 6= 0använder vi testfunktionen

T =b

sb=

CoefSE Coef

=0.7923

0.2655= 2.98

vilket sedan Minitab jämför med t-fördelningen med 4 frihetsgrader och kon-staterar i det här fallet att p-värdet blev 0.041. Då vi i Exempel 17 utfördedetta test fick vi samma värde för testfunktionen men p-värdet blev bara runt0.02 vilket beror på att vi använde den ensidiga mothypotesen H1 : β > 0.Minitab (och de flesta andra statistikprogram) använder automatiskt en två-sidig mothypotes varför p-värdet måste justeras manuellt om mothypotesenär ensidig. Sedan följer raden

S = 3,951 R-Sq = 69,0% R-Sq(adj) = 61,3%

vilken dels innehåller residualspridningen, dvs

S = se

och determinationskoefficienten

R-Sq = R2

vidare ges den justerade determinationskoefficienten R-Sq(adj) vilken kom-mer att ges en förklaring i Kapitel 3. Efter detta följer en variansanalystablå,Analysis of Variance som har följande utseende.

44

Page 46: Regressionsanalys - En Introduktion

Analysis of Variance

Source DF SS MS F PRegression 1 139,05 139,05 8,91 0,041Residual Error 4 62,45 15,61Total 5 201,50

I denna tablå studeras variationen i y-variabeln och dess orsaker (se Avs-nitt 2.6). Det fokuseras med andra ord på kvadratsummorna SSReg, SSResoch SSTot, vilka anges i den ordningen i kolumnen märkt SS. Kolumnen DFanger det antal frihetsgrader (Degrees of Freedom) som associeras med deolika variansorsakerna. Antal frihetsgrader som är förknippat med den totalavariationen är alltid n− 1 vilket vi känner till från den univariata statistikendär det var t-fördelningen med just detta antal frihetsgrader som användes.Antal frihetsgrader som associeras med residualerna är vid enkel linjär re-gression n− 2 och därför är det t-fördelningen med detta antal frihetsgradersom används för all inferens vid enkel linjär regression. Vi skall senare i Kapi-tel 3 om multipel linjär regression se att antal frihetsgrader för residualernaär n − k − 1 där k är antal förklarande (oberoende) variabler i regressions-modellen. Antal frihetsgrader för regressionen visar hur många förklarandevariabler det är i modellen. Precis som att summan av SSReg och SSRes blirSSTot gäller samma relation mellan antal frihetsgrader, dvs

DFReg +DFRes = DFTot

Som tillägg till detta ges ävenmedelkvadratsummorna (Mean Sum of Squares)vilka ges i kolumnenMS. Dessa fås genom att dividera kvadratsummorna medrespektive frihetsgrader, dvs

MSReg =SSRegDFReg

MSRes =SSResDFRes

Intressant här är att MSRes enligt definitionen av SSRes blir residualspridnin-gen i kvadrat, den sk residualvariansen, dvs

S2 =MSRes

Detta följer av (5) på sidan 31. MSTot ges inte men av (4) på samma sidaföljer att denna är standardavvikelsen för y i kvadrat, dvs variansen för y.

45

Page 47: Regressionsanalys - En Introduktion

Kolumnerna F och p förklaras i Kapitel 3. Här slutar den utskrift som alltidfås som standard vid regressionsanalys i Minitab men vi har även angivit ettvärde x0 = 180 för vilket vi vill ha konfidens- och prognosintervall.

Predicted Values for New Observations

New Obs Fit SE Fit 95,0% CI 95,0% PI1 72,10 1,62 ( 67,61; 76,60) ( 60,25; 83,96)

Values of Predictors for New Observations

New Obs Langd1 180

Här ges först den skattade regressionslinjens värde för x0 = 180 via

Fit = bμy|x=180 = 72.10och sedan den skattade standardavvikelsen för denna skattning via

SE Fit = sbμy|x=180 = 1.62Tillsammans med aktuellt tabellvärde skattas således konfidensintervallet förμy|x=180 via formeln

Fit± t · SE Fitoch anges som

67.61 ≤ μy|x=180 ≤ 76.60För att kunna konstruera ett prognosintervall måste vi beräkna osäkerheteni denna skattning vilket enligt (7) på sidan 40 fås via

sbyx=180 =q(SE Fit)2 + S2 =

q(SE Fit)2 +MSRes

vilket innebär att Minitab beräknar prognosintervallet via formeln

Fit± t ·q(SE Fit)2 +MSRes

och anges som60.25 ≤ yx=180 ≤ 83.96

Samtliga dessa resultat överensstämmer med våra beräkningar tidigare ikapitlet.

46

Page 48: Regressionsanalys - En Introduktion

2.9 Residualanalys

Detta avsnitt är en länk till nästa kapitel där vi skall generalisera, ellerutvidga, den enkla linjära regressionsmodellen från detta kapitel till en mul-tipel modell med två eller flera oberoende variabler.

Då man i statistiska sammanhang drar slutsatser bygger dessa ofta påvissa antaganden som gjorts angående den bakomliggande verkligheten. Iden univariata statistiken såg vi t.ex. att om urvalet är litet måste variatio-nen i populationen åtminstone approximativt kunna beskrivas med en nor-malfördelning. Då vi jämförde populationsmedelvärden i två populationer ochendast hade små stickprov till vårt förfogande krävdes förutom normalfördel-ningsantagandet dessutom att spridningen i dessa båda populationer var sam-ma. Det är förstås viktigt att de antaganden som görs är väl förankrade iverkligheten för att de slutsatser man drar skall bli trovärdiga. I och medatt den oberoende variabeln delar in populationen i ett antal delpopulation-er (en för varje värde på x-variabeln) kan regressionsanalys ses som att vistuderar den beroende variabeln på ett (eventuellt stort) antal populationersamtidigt. Ett av målen med analysen är att skatta medelvärde och spridningi dessa delpopulationer. Detta görs genom ett begränsat urval vilket innebäratt vi oftast bara har ett fåtal, eller inga, observationer från de flesta avdelpopulationerna (x-värdena). För att kunna skatta och dra slutsatser omden beroende variabeln för alla dessa delpopulationer måste vi därför göravissa antaganden om förhållandet mellan dem. För att resultaten skall blitrovärdiga måste därför dessa antaganden (åtminstone approximativt) varauppfyllda. Vilka antaganden är det då som görs? Vi repeterar.

• Sambandets natur: För att analysen överhuvudtaget skall bli menings-full måste vi förutsätta att det finns ett samband mellan delpopula-tionernas medelvärden. Vi har hittills förutsatt att detta samband ärlinjärt, dvs att sambandet mellan delpopulationernas medelvärden kanbeskrivas som en rät linje. Anledningen till att vi valde en linjär regres-sionsmodell var att de i många situationer väl beskriver det verkligasambandet och att dessa är minst känsliga för felspecifikation. Dockgäller att om det verkliga sambandet kraftigt avviker från det linjärafinns en risk för att våra slutsatser inte alls överensstämmer med verk-ligheten. Vi bör därför vara uppmärksamma på tecken som tyder påatt det verkliga sambandet är icke-linjärt.

• Samma (normalfördelade) spridning i alla delpopulationerna: Islutändan vill vi antagligen använda det skattade sambandet för att draslutsatser om det tänkta bakomliggande sambandet. Detta görs genom

47

Page 49: Regressionsanalys - En Introduktion

att utifrån normalfördelningen (eller t-fördelningen) konstruera konfi-densintervall och hypotestester. För att ha en möjlighet att göra dettabehövs ett mått på spridningen men eftersom vi enbart har observa-tioner från ett fåtal av delpopulationerna och vill kunna dra slutsatserom alla måste vi förutsätta att samtliga delpopulationer har sammastandardavvikelse kring delpopulationsmedelvärdet (regressionslinjen).Vidare måste vi vid små stickprov förutsätta att denna spridning ärnormalfördelad.

• Oberoende variabler förklarar variation i den beroende vari-abeln: Ett mål med regressionsmodellen är att finna en förklaring tillvarför olika individer har olika värden på den undersökta (beroende)variabeln. Vi hoppas att det faktum att individerna har olika värdenpå den oberoende variabeln ger oss en förklaring till detta fenomen.Oftast är det inte bara en faktor som gör att individer skiljer sig utandet finns antagligen ett stort antal andra potentiella oberoende vari-abler som kunnat användas istället för den vi valt. Hur vet vi att vivalt den eller de oberoende variabler som bäst förklarar variationen iden beroende variabeln?

Hur upptäcker vi om dessa antaganden inte är uppfyllda och vilka kon-sekvenser kan det få om dom inte är det? En bild säger oftast mer än tusenformler och vi har redan sett att ett spridningsdiagram avslöjar en hel delom variablernas eventuella samband. Då man undersöker om de gjorda anta-gandena om sambandet är uppfyllda brukar man studera de feltermer, ellerresidualer, som uppkommer av att en viss modell används.

En residual är avvikelsen mellan en individs värde på den beroende vari-abeln och det medelvärde den skattade regressionslinjen anger för en individmed detta värde på x-variabeln. En residual kan således ses som en avvikelsefrån vad som förväntas. En sådan avvikelse beror oftast på flera faktorer ochen residual är uppbyggd bl.a. av följande beståndsdelar.

• Felspecificerad modell: Har vi angivit en felaktig modell beror an-tagligen residualen delvis på detta eftersom regressionlinjen (vid kor-rekt specifikation) annars vore placerad annorlunda.

• Felaktigt utelämnade oberoende variabler: Även om modelltypenär korrekt specificerad kan det vara “fel” oberoende variabler vi valt attta med, vilket innebär att regressionslinjen hamnar annorlunda jämförtmed om vi valt en annan konstellation av oberoende variabler vilketgivetvis påverkar storleken på residualerna.

48

Page 50: Regressionsanalys - En Introduktion

• Verklig variation: Förutom fel i modellvalet förekommer även verklig(slumpmässig) variation. Ibland kan det vara omöjligt att med befintliginformation avgöra orsaken till varför olika individer har olika värde påden beroende variabeln vilket då tolkas som slumpmässig variation, dvsen osäkerhet vi måste leva med.

Det är därför i dessa residualer man skall söka för att finna indikationer påatt något är galet. Residualanalys, dvs metoder för att tyda den informationsom finns i residualerna, är svårbemästrad och kräver en hel del erfarenhetoch vi går här enbart igenom grunderna. Vi fortsätter sedan i nästa kapitelatt se hur residualerna hjälper oss att finna den “rätta” modellen. Det finnsdå framförallt två sätt att studera residualerna, antingen genom att plottadom mot i regressionsmodellen redan ingående förklaringsvariabler eller attplotta dom mot potentiella förklaringsvariabler, dvs variabler vi eventuelltvill införa som förklaringsvariabler i modellen.

Att använda en viss variabel som förklaringsvariabel i en regressionsmod-ell innebär att den använda modellen utnyttjar den information denna vari-abel har angående variationen i den beroende variabeln. Residualerna somblir resultatet av denna regressionsmodell representerar den del av variatio-nen i den beroende variabeln som regressionen inte lyckats förklara och omvarje i regressionen ingående förklaringsvariabel utnyttjats optimalt kommerdessa därmed inte att ha något förklaringsvärde för dessa residualer. Plot-tar vi residualerna mot en ingående förklaringsvariabel skall det inte finnasnågot samband, eller mönster, att uttyda i detta spridningsdiagram. Skulleett sådant mönster ändå gå att urskönja är modellen på något sätt felspeci-ficerad eftersom modellen då inte utnyttjat allt av förklaringsvärde i dennavariabel. Det eventuella mönster i en sådant spridningsdiagram kan ävenindikera vilket felet är och hur detta skall korrigeras.

Residualerna representerar alltså den variation i den beroende variabelnsom regressionsmodellen inte lyckats förklara, dvs det är den del av dennavariation som återstår efter det att de i modellen ingående variablerna så attsäga gjort sitt. Om en ännu inte införd variabel skall ha något att tillföramåste den således ha ett förklaringsvärde på dessa residualer vilket vi kan fåupplysning om genom att plotta denna mot residualerna. Finns det ett klartmönster här borde denna variabel anses som en potentiell förklaringsvariabelom modellen skall utökas.

2.10 Övningsuppgifter

Uppgift 5 Lös uppgift 1305.

49

Page 51: Regressionsanalys - En Introduktion

Uppgift 6 Lös uppgift 1306.

Uppgift 7 Marknadsavdelningen på ett amerikanskt företag vill undersökaeffekten av olika typer av annonsering på försäljningen av en viss produkt. 24städer, med i stort samma befolkningsstorlek, utväljes slumpmässigt. För var-je stad fixeras kostnaden för såväl annonsering i Radio/TV som annonseringi tidningar, och försäljningen mäts för den period som undersökningen avser.I den här uppgiften fokuserar vi på den effekt annonsering i Radio/TV harpå försäljningen och fortsätter sedan i nästa kapitel med att utvidga modellenmed annonsering i tidningar (se Uppgift 9). Vi använder följande variabel-beteckningar

y = Försäljning (10 000-tals $)

x = Annonsering i Radio/TV (1 000-tals $)

och från stickprovet finner vi följande summorPy = 3108,

Px = 660,

Pxy = 99 425P

y2 = 440 830,P

x2 = 25 300

a. Skatta regressionen av försäljning på annonsering i Radio/TV. Tolka påett begripligt sätt (dvs utan att använda statistiska facktermer) de bådaregressionskoefficienterna. Är tolkningen av interceptet meningsfull idet här fallet? Varför/varför inte?

b. Beräkna residualspridningen kring linjen. Beräkna även standardavvikelsenför y-variabeln och jämför de båda värdena. Vilken av dem är alltidminst. Förklara.

c. Konstruera ett 95%-igt konfidensintervall för riktningskoefficienten β.Ge en ordentlig tolkning av intervallet.

d. Beräkna ett intervall som med 95% säkerhet ringar in den genomsnit-tliga försäljningen i städer (med denna befolkningsstorlek) med annon-skostnad i Radio/TV på $15 000.

3 Multipel linjär regression

3.1 Från enkel till multipel linjär regression

I Exempel 14 såg vi att ca 69% av variationen i vikt för 19-åriga män kundeförklaras av att personerna är olika långa. Detta innebär att det återstår 31%

50

Page 52: Regressionsanalys - En Introduktion

av den totala variationen som fortfarande är oförklarad. Med ytterligare kun-skap om individerna som t.ex. annan genetisk information eller föräldrarnasvikt skulle antagligen mer av denna variation förklaras. Det är således säl-lan bara en orsak till att det förekommer variation mellan individer. För attfå en bättre förklaringsgrad och ökad förståelse av orsakssambanden måsteman i de flesta situationer utvidga modellen till att innehålla fler oberoendevariabler. Hur skall då detta gå till? Låt oss starta om med ett nytt exempel.

Exempel 20 En mäklarfirma ville få en statistiskt korrekt bild av hur försäljn-ingspriset av villor i ett visst bostadsområde påverkas av några olika faktorer.För att göra detta samlade man in data i samband med försäljning av nittonvillor och detta datamaterial återfinns i Appendix A.2.2. Vi börjar att skat-ta en enkel linjär regressionsmodell, dvs en modell med enbart en oberoendevariabel. Studerar vi variablerna

y = Försäljningspris (100 000-tal kronor)

x = Boyta (kvadratmeter)

får vi utifrån det befintliga datamaterialet med Minitabs hjälp följande skat-tning.

Intercepttermen a är i det här fallet inte relevant ur tolkningssynpunkt efter-som det inte existerar villor utan boyta. Riktningskoefficienten b är däremottolkningsbar och den säger oss att villor med en extra kvadratmeters boyta igenomsnitt kostar 11 500 kronor mer. Vidare ser vi att förklaringsgraden är68.7%, dvs det faktum att villorna kostar olika mycket kan till knappt 70%förklaras av att de är olika stora (med avseende på boyta). Drygt 30% av vari-ationen i försäljningspris kan alltså inte förklaras av att de har olika boytautan beror på andra faktorer. ¤

Den naturliga utvidgningen av en linjär modell är att förutsätta att ävennästa oberoende variabel påverkar den beroende på ett “linjärt” sätt. Enlinjär modell med två oberoende variabler skulle då få utseendet

μy|x1,x2 = α+ β1x1 + β2x2

51

Page 53: Regressionsanalys - En Introduktion

Med μy|x1,x2 menas populationsmedelvärdet i den delpopulation där indi-viderna har värdet x1 på den första förklaringsvariabeln och x2 på den andraförklaringsvariabeln. I och med införandet av en andra förklaringsvariabel görvi således en ännu finare indelning av populationen vilket innebär att delpop-ulationerna blir mer detaljerat specificerade. I och med detta tillkommer enliten, men viktig, förändring i tolkningen av regressionskoefficienterna jämförtmed den enkla linjära regressionsmodellen. Intercepttermen α är population-smedelvärdet för den delpopulation där både x1 och x2 är noll. Som tidigareär denna oftast inte meningsfull att tolka men är viktig för regressionsekva-tionen eftersom den bestämmer sambandets (vertikala) position. Viktigareär då att korrekt tolka de båda riktningskoefficienterna β1 och β2.

Vid enkel linjär regression representerar β den marginaleffekt en enhets-förändring i den oberoende variabeln har på den beroende variabeln. Anled-ningen till denna tolkning är att

μy|x+1 = α+ β (x+ 1) = α+ βx+ β = μy|x + β

Då vi i en enkel linjär regressionsmodell tolkar marginaleffekten β av enenhetsförändring i den oberoende variabeln kommer denna eventuellt ävenatt innehålla effekter av andra faktorer som vi inte kan påverka eftersom dominte ingår i modellen.

Exempel 21 I Exempel 20 jämfördes försäljningspris för ett antal villorav olika storlek för att få en uppfattning om storlekens inverkan på vil-lans värde. Utifrån den enkla regressionsmodellen uppskattades att en extrakvadratmeters boyta i genomsnitt kostar ca 11 500 kronor. Nu är det dock såatt boytan inte är den enda faktor som påverkar priset på en villa. En annanpotentiell förklarinsvariabel är storleken på tomten. En större tomt borde in-nebära ett högre pris på villan. Hur kan detta påverka regressionskoefficientenför boytan? En vanlig situation är att villor med större boyta också tender-ar att ha större tomtyta. Då vi jämför pris på villor med olika boyta kanjämförelsen därför vara något missvisande eftersom en del av prisskillnadeneventuellt beror på att den större villan även har en större tomt. I och medatt vi i vår regressionsmodell inte känner till (eller åtminstone inte använ-der oss av) tomtstorleken är det något vi inte kan kontrollera. Vi misstänkersåledes att det av regressionsmodellen uppskattade genomsnittspriset på enextra kvadratmeters boyta är något i överkant. ¤

Finns det då någon möjlighet att lösa problemet med sammanblandademarginaleffekter? Det visar sig att multipel linjär regression är lösningenpå problemet. I en multipel regressionsmodell skall regressionskoefficienterna

52

Page 54: Regressionsanalys - En Introduktion

nämligen tolkas som marginaleffekter givet att de andra förklaringsvariabler-na i modellen förblir oförändrade. Att respektive regressionskoefficient skalltolkas på detta sätt följer av

μy|x1+1,x2 = α+ β1 (x1 + 1) + β2x2 =

= α+ β1x1 + β1 + β2x2 =

= μy|x1,x2 + β1

Då man i en multipel regressionsmodell tolkar en regressionskoefficient somden marginaleffekt den berörda oberoende variabeln har på den beroendevariabeln kommer denna effekt inte att blandas med motsvarande effekter avde andra förklaringsvariablerna. Eftersom tolkningen av regressionskoefficien-terna tolkas med förbehållet att värdena på de övriga förklaringsvariablernaförblir oförändrade, dvs att dessa hålls på en konstant nivå, särskiljs dessamarginaleffekter. Anledningen till att införa ytterligare förklaringsvariablerbehöver därmed inte enbart vara för att få bättre förklaringsgrad utan kanäven bero på att man vill särskilja de förklaringseffekter olika faktorer har påden beroende variabeln. Vi förklarar innebörden av allt detta genom fortsättamed vårt mäklarexempel.

Exempel 22 Antag nu att vi av olika skäl vill utvidga regressionsmodellenöver försäljningspris på villor med ytterligare en förklaringsvariabel och fördetta väljer tomtstorleken. Detta innebär att vår modell nu innehåller följandevariabler.

y = Försäljningspris (100 000-tal kronor)

x1 = Boyta (kvadratmeter)

x2 = Tomtyta (100-tals kvadratmeter)

Låter vi Minitab utifrån datamaterialet i Appendix A.2.2 beräkna det skattadelinjära regressionssambandet fås

De båda skattade riktningskoefficienterna skall nu tolkas som att om vi jäm-för villor med samma tomtyta innebär en extra kvadratmeters boyta att

53

Page 55: Regressionsanalys - En Introduktion

försäljningspriset i genomsnitt är ca. 9 800 kronor högre. Vår tidigare mis-stanke verkar alltså vara välgrundad. På motsvarande sätt tolkar vi den an-dra riktningskoefficienten som att om vi jämför villor med samma boytainnebär 100 extra kvadratmeters tomtyta att försäljningspriset i genomsnittär knappt 28 000 kronor högre. Vi återkommer med mer om hur detta regres-sionsresultat skall tolkas. ¤

Den regressionsekvation som används i exemplet ovan är beräknad utifrånett stickprov om nitton villor och är därför bara en skattning av det verkligasambandet. Med beteckningar från enkel linjär regression kan således dennaekvation skrivas som bμy|x1,x2 = a+ b1x1 + b2x2

Uppgiften är då att utifrån informationen i stickprovet bestämma regression-skoefficienterna a, b1 och b2 som skattningar av de verkliga koefficienterna(parametrarna) α, β1 och β2. För att göra detta använder vi samma metodsom tidigare, Minsta-kvadratmetoden, dvs vi bestämmer dessa koefficienterså att de minimerar residualkvadratsumman.

SSRes =X

e2 =X

[y − (a+ b1x1 + b2x2)]2

Hur man utifrån ett datamaterial finner dessa koefficienter presenteras i Ap-pendix A.2.1. Principmässigt innebär således detta ingen större förändringfrån tidigare men det faktum att ytterligare förklaringsvariabler införs i mod-ellen gör att det beräkningsmässigt blir besvärligare. Detta inser man genomatt för exemplet ovan studera de beräkningar som görs i Appendix A.2.2.Därför låter vi i fortsättningen regressionsskattningar utföras av något statis-tikprogram och fokuserar istället på att tolka de utskrifter som dessa programproducerar.

Studerar vi Minitabutskriften i Exempel 22 ovan ser vi att förklarings-graden har ökat till 75.4%, vilket är en ökning med måttliga 6.7% jämförtmed den modell som enbart använde boytan som förklaringsvariabel. Omvi utifrån materialet i Appendix A.2.2 beräknar en enkel regressionsmodellsom enbart använder tomtytan som förklaringsvariabel visar sig denna ha enförklaringsgrad på 34%, dvs variationen i pris förklaras till 34% av att villor-nas tomter är olika stora. Hur kommer det sig då att den bara tillför 6.7%i förklaringsgrad till den modell som redan innehöll boyta som oberoendevariabel? Detta har att göra med att boyta och tomtyta i viss utsträckningförklarar samma del av variationen i försäljningspriset. Då vi tillför tomtytasom förklaringsvariabel i en modell som redan innehåller boyta har dennaredan tagit hand om en stor del av variationen i försäljningspris. Vad som då

54

Page 56: Regressionsanalys - En Introduktion

undersöks är hur mycket av den återstående oförklarade variationen tomtytankan förklara, vilket i det här fallet inte var speciellt mycket. Vi drar därmedslutsatsen att det förklaringsvärde tomtytan har på försäljningspriset till stordel ingår i det förklaringsvärde boytan har. Situationen kan väl beskrivas medföljande diagram.

Variation i försäljningspris

Av boyta förklaradvariation

68.7%

Av tomtyta förklaradvariation

Av bo- och tomtytaförklarad variation

34%

75.4%+ =

Att en oberoende variabel har högt förklaringsvärde i regressionsmodellenbetyder att dess variationsmönster i stor utsträckning överensstämmer medmotsvarande mönster hos den beroende variabeln. I det här fallet är det juknappast överraskande att större boyta i regel medför ett högre pris. Sam-tidigt misstänker vi att även en större tomtyta medför ett högre pris vilketockså (i viss utsträckning) är fallet. För att vara en bra förklaringsvariabelskall den således vara högt korrelerad med den beroende variabeln. Vid mul-tipel linjär regression kommer dock ytterligare en faktor in i bilden, dess re-lation till övriga förklaringsvariabler. Som nämndes tidigare kan vi i det härfallet misstänka att villor med större boyta också tenderar att ha större tom-tyta vilket innebär att dessa båda förklaringsvariabler är korrelerade. Dettaär anledningen till att dom i stor utsträckning förklarar samma del av varia-tionen i försäljningspriset, vilket kan ses som den del som har med “storlek”att göra. Optimalt i en regressionsmodell är alltså att vi har förklaringsvari-abler som är högt korrelerade med den beroende variabeln och samtidigt lågtkorrelerade med varandra. På detta sätt slipper vi den överlappning i förk-laringsvärde som uppkom i den här situationen. Då man skall avgöra vilkaförklaringsvariabler som skall vara med i modellen är det således inte baradess förklaringsvärde av, eller korrelation med, den beroende variabeln manskall ta hänsyn till utan det är även viktigt att ingående studera korrelation-strukturen mellan förklaringsvariablerna. Det är således minst lika viktigtatt en oberoende variabel kan tillföra något nytt, dvs förklara variation i denberoende variabeln som ingen av de andra förklaringsvariablerna klarar av.Vi återkommer till detta viktiga moment i Avsnitt 3.6.

55

Page 57: Regressionsanalys - En Introduktion

3.2 Inferens angående regressionskoefficienterna

Regressionskoefficienterna b1 och b2 är skattningar av β1 och β2 och precissom vid enkel linjär regression är det av intresse att dra slutsatser om dessaverkliga marginaleffekter. Vid multipel regressionsanalys blir det beräkning-stekniskt bra mycket tyngre men principmässigt är det i stort sett sammaberäkningar som utförs. Detta innebär att om vi har tillgång till en utskriftfrån ett statistikprogram används denna på i princip samma sätt som tidi-gare. Samtidigt skall det klargöras att man inte får använda de formler förberäkning av regressionskoefficienter (och annat) som presenterades i sam-band med den enkla linjära regressionsmodellen eftersom denna enbart tarhänsyn till den ena förklaringsvariabeln och därmed i regel ger felaktiga skat-tningar. Den del av utskriften i Exempel 22 som innehöll inferensinformatio-nen angående regressionskoefficienterna hade följande utseende.

Med samma förutsättningar som krävdes vid den enkla linjära regressionenkan vi således utifrån z- eller t-fördelningen antingen konstruera konfidensin-tervall eller utföra hypotestest angående dessa parametrar. En liten skillnadär nu att vi med ett konfidensintervall för exempelvis β1 skall tolka det somen uppskattning (med en viss säkerhet) av den effekt x1 (dvs boytan) har påy-variabeln (försäljningspriset) under förutsättning att x2-variabeln (tomty-ta) hålls konstant. Vid enkel linjär regression användes t-fördelningen medn − 2 frihetsgrader och en annan förändring är att vi i det här fallet skallanvända t-fördelningen med n− 3 frihetsgrader. Detta har att göra med attvi nu skattar ytterligare en parameter, b2, vilket innebär att vi tillför ytterli-gare osäkerhet i modellen. Denna ökade osäkerhet tar vi hänsyn till genomatt arbeta med en t-fördelningen med en frihetsgrad mindre.

Allmänt gäller att den t-fördelning som skall användas har n− k − 1 fri-hetsgrader, där k anger antalet oberoende variabler i regressionsmodellen.Vi drar således av en frihetsgrad för varje ny förklaringsvariabel som införs imodellen. I en sådan modell skriver vi det allmänna uttrycket för ett konfi-densintervall för βj med konfidensgraden 1− α som

bj ± tn−k−1,α/2 · sbjoch ett test för hypoteserna

H0 : βj = 0

H1 : βj > 0, βj < 0, βj 6= 0

56

Page 58: Regressionsanalys - En Introduktion

undersöks med testfunktionen

t =bjsbj

som är t-fördelad med n−k− 1 frihetsgrader då nollhypotesen är sann. Meddet här testet undersöker man om det är statistiskt säkerställt om variabelnxj verkligen har ett förklaringsvärde för y-variabeln då hänsyn redan tagitstill det förklaringsvärde de övriga ingående k − 1 förklaringsvariablerna har.Med detta hypotestest undersöks alltså om det är statistiskt säkerställt att xjkan förklara en del av den variation i y-variabeln ingen av de övriga ingåendeoberoende variablerna kan förklara.

Exempel 23 Vi fortsätter med mäklarexemplet och utifrån Minitabutskriftenoch det faktum att vi nu skall använda t-fördelningen med 16 frihetsgraderföljer att ett 95%-igt konfidensintervall för β1 ges av

b1 ± t16,0.025 · sb1dvs

0.098± 2.12 · 0.0189eller skrivet som ett intervall

0.058 ≤ β1 ≤ 0.138

Med 95%-säkerhet uppskattar vi att en extra kvadratmeters boyta i genomsnittkostar mellan 5 800 och 13 800 kronor. Denna uppskattning av boytans effektpå försäljningspriset skiljer sig från den uppskattning den enkla linjära re-gressionsmodellen gav vilket beror på att här har vi eliminerat den eventuellafelvridning tomtytans storlek medför.På liknande sätt kan vi nu utföra ett signifikanstest för β2, vilket alltså

innebär att vi undersöker om det är statistiskt säkerställt att tomtytan har ettförklaringsvärde för försäljningspriset efter det att boytans förklaringsvärderedan tagits hänsyn till. Vi antar en större tomtyta medför ett högre pris påvillan varför hypoteserna formuleras på följande sätt.

H0 : β2 = 0

H1 : β2 > 0

och testfunktionen blir

t =0.2774

0.1338= 2.07

57

Page 59: Regressionsanalys - En Introduktion

och utifrån t-tabellen med 16 frihetsgrader finner vi att eftersom

1.746 < t < 2.12

följer att2.5% < p-värde < 5%

(exakt 2.74%) och vi har alltså enstjärnig signifikans. Studerar vi Minitabut-skriften ser vi just detta värde på testfunktionen men det tillhörande p-värdetär 5.5%. Detta beror på att Minitab, som de flesta statistikprogram, i dessasignifikanstester automatiskt använder mothypotesen

H1 : β2 6= 0varför p-värdet dubbleras. I det här fallet innebär denna automatik att re-sultatet framstår som icke-signifikant och man bör därför vid denna typ avutskrift vara uppmärksam på hur mothypotsen formulerats. ¤

βj anger alltså den effekt xj-variabeln har på y-variabeln då det sam-manslagna förklaringsvärdet av de övriga ingående oberoende variablernatagits hänsyn till. Ett hypotestest angående βj undersöker huruvida dennaeffekt är säkerställd. Det finns ett alternativt angreppssätt för detta test somdessutom ger en möjlighet till mer generella hypotestester angående mar-ginaleffekter.

3.3 Hypotestester angående marginaleffekter

3.3.1 Sekventiella kvadratsummor

Det förklaringsvärde en nyinförd förklaringsvariabel har kan mätas via dettillskott den ger i förklaringsgraden, vilket vi studerar genom att se hur my-cket SSReg ökar (dvs den del av variationen i den beroende variabeln som kanförklaras av de oberoende variablerna). Kompletterar vi Minitabutskrifternaför regressionssambanden i Exempel 20 och 22 med respektive variansana-lystablåer ser vi att tablån med enbart boytan som förklaringsvariabel blir

Inför vi sedan även tomtytan som förklaringsvariabel ändras denna till

58

Page 60: Regressionsanalys - En Introduktion

Från dessa båda tablåer ser vi att SSReg har ökat från 137.34 till 150.557, ochdifferensen mellan dessa värden representerar det tillskott i förklaringsgradtomtytan bidrar med. För att i en Minitabutskrift se ett sådant tillskottbehöver vi inte göra både en enkel och multipel regression utan kan istäl-let studera de sk. sekventiella kvadratsummorna vilka i den här situationenkommer att bli

och skall tolkas som det tillskott i SSReg en förklaringsvariabel ger i denregressionsmodell som redan består av de förklaringsvariabler ovanför i listan.I det här fallet skall således SeqSSx1 = 137.342 tolkas som det tillskott boytanger i SSReg i den modell som tidigare inte hade några förklaringsvariabler,dvs det är helt enkelt SSReg i den enkla linjära regressionsmodellen ovan.Sedan får vi att

SeqSSx2|x1 = 150.557− 137.34 = 13.216

dvs detta är det tillskott tomtytan ger i SSReg i den modell som redan in-nehåller boytan som förklaringsvariabel.4 Frågan är om detta är ett storttillskott eller inte. På vanligt hypotesprövningsmanér vill vi nu alltså under-söka om detta tillskott är signifikant, dvs att vi med viss övertygelse kanpåstå att det inte enbart beror på slumpen. Då man för sådana hypotestestkonstruerar testfunktioner är det dessa differenser, eller tillskott, man utgårifrån.

För att kunna utföra hypotestestet

H0 : x2 utgör inget tillskott till modellen (som redan innehåller x1)

H1 : x2 utgör ett tillskott till modellen (som redan innehåller x1)

måste vi kunna göra en sannolikhetsbedömning av det uppnådda tillskottet,dvs vi måste kunna bestämma sannolikheten för att få ett så stort tillskottsom vi fått under förutsättning att x2 egentligen inte har något att tillföra(eftersom nollhypotesen förutsätts vara sann). Vi måste alltså konstrueratestfunktionen så att den får en sannolikhetsfördelning vi kan arbeta med.För denna typ av hypotesprövning fungerar varken z- eller t-fördelningenutan vi måste söka oss till den sk. F -fördelningen för att kunna göra dessa

4I boken används något andra beteckningar. Där skrivs SeqSSx2|x1 som SSR (x2 | x1).

59

Page 61: Regressionsanalys - En Introduktion

sannolikhetsbedömningar, och det visar sig att denna kan användas om vikonstruerar testfunktionen som

F =SeqSSx2|x1/1

SSRes/ (n− k − 1)För att få en uppfattning om huruvida tillskottet x2 ger är stort relaterasdet till den oförklarade variation som återstår efter det att x2 förts in i mod-ellen. Skulle denna kvot vara stor har x2 lyckats förklara en stor del av denvariation x1 inte lyckats förklara vilket är ett tecken på att tillskottet ärsignifikant. Vi skall alltså förkasta nollhypotesen för stora värden på test-funktionen och acceptera den för små värden. Innan vi går in på detaljeri själva hypotesprövningen måste vi ta reda på vad som skall menas medsmå och stora värden på testfunktionen. Vi behöver först en beskrivning avF -fördelningen.

3.3.2 F-fördelningen

Rent teoretiskt uppkommer F -fördelningen som en kvot mellan två χ2-fördelningarsom justerats utifrån deras respektive frihetsgrader på följande sätt. Låt X1

och X2 vara två oberoende χ2-fördelade slumpvariabler med v1 respektive v2frihetsgrader. Då gäller att slumpvariabeln

F =X1/v1X2/v2

är F -fördelad med v1 frihetsgrader i täljaren och v2 frihetsgrader i nämnaren.F -fördelningen är således förknippad med ett frihetsgradspar och sanno-likheter förknippade med F -fördelningen finns i Tabell 6 i tabellsamlingen(och sträcker sig från sidan 22—32). Utseendemässigt har F -fördelningen enhel del gemensamt med χ2-fördelningen och t.ex. gäller att

0 1 2 3 4 5F-värde

F-fördelning med 10 fg både itäljaren och i nämnaren

2.98

5%

60

Page 62: Regressionsanalys - En Introduktion

vilket vi i tabellsamlingen finner genom att den övre raden finna v1 = 10,dvs antal frihetsgrader i täljaren och den vänstra kolumnen finna v2 = 10,dvs antal frihetsgrader i nämnaren. På sidan 24 finner vi detta via

P% v1 = 1 · · · · · · 9 10 · · · · · ·v2 = 7

...

......

...... 0.01 11.8

10 5 2.98... 2.5 3.72...

......

3.3.3 Är tillskottet signifikant?

Då är vi rustade att utföra hypotestestet angående det tillskott en ny förk-laringsvariabel ger. Det visar sig att då nollhypotesen är sann är de kvadrat-summor vi studerar χ2-fördelade och vi vet sedan tidigare att SSRes harn − k − 1 frihetsgrader, där k är antal förklaringsvariabler i modellen. Densekventiella kvadratsumman SeqSSx2|x1 har 1 frihetsgrad vilket även framgårav Minitabutskriften. För att finna sannolikheter för vår testfunktion

F =SeqSSx2|x1/1

SSRes/ (n− k − 1) =SeqSSx2|x1MSRes

skall vi således använda F1,n−k−1, dvs F -fördelningen med 1 frihetsgrad itäljaren och n−k−1 frihetsgrader i nämnaren. Även om Tabell 6 är utförligär det inte möjligt att få med alla tänkbara frihetsgrader och som vi skallse i exemplet nedan är det möjligt att den aktuella F -fördelningen inte finnsrepresenterad i tabellen. Då detta inträffar överför vi problemet på en någotsämre situation, dvs vi använder då den F -fördelning i tabellen med antalfrihetsgrader strax under det riktiga.

Exempel 24 Vi undersöker nu om tomtytan ger något signifikant tillskotttill den regressionsmodell angående villapriser som redan innehåller boytansom förklaringsvariabel genom att ställa upp hypotestestet

H0 : Tomtytan utgör inget tillskott till modellen

H1 : Tomtytan utgör ett tillskott till modellen

61

Page 63: Regressionsanalys - En Introduktion

Vi testar detta genom att beräkna testfunktionen till

F =SeqSSx2|x1MSRes

=13.216

3.077= 4.295

där vi funnit de relevanta värdena genom att studera variansanalystablånför regressionsmodellen som innehåller både boyta och tomtyta som förklar-ingsvariabler. Detta värde skall nu jämföras med F1,16 vilken inte finns rep-resenterad i tabellen varför vi istället väljer F1,15. Vi finner nu att

F = 4.295 < 4.54 = F1,15,0.05

och eftersom vi inte har hamnat tillräckligt långt ut i svansen drar vi slutsat-sen att

p-värde > 5%

Resultatet är således inte signifikant och nollhypotesen accepteras. Det till-skott vi observerat är alltså inte tillräckligt stort för att vi med säkerhet (på5%-nivån) skall kunna säga att tomtytan verkligen har förklaringsvärde i denmodell som redan innehåller boytan som förklaringsvariabel. (Dock gäller attvi är nära enstjärnig signifikans.) ¤

Det test som utförs i exemplet ovan är ekvivalent med det t-test som utförsför β2-koefficienten i den multipla regressionen i Minitabutskriften i Exempel22 och 23. Det skall således poängteras att detta test med F -fördelningenalltid är för den tvåsidiga mothypotesen H1 : β2 6= 0. Mer allmänt gäller attsambandet mellan F - och t-fördelningen är

F1,v = t2v

dvs detta samband finns bara i de situationer då antal frihetsgrader i täljarenär 1. F -testet kan dock användas till mer allmänna test angående marginal-effekter. Vi kan nämligen se på den sammanslagna marginaleffekt ett antalförklaringsvariabler har då man redan tagit hänsyn till det sammanslagnaförklaringsvärdet av ett antal andra förklaringsvariabler. Vi går inte in i de-talj på hur detta fungerar men konstaterar att vi på detta sätt kan testasignifikansen hos hela regressionen med hypoteserna

H0 : β1 = β2 = · · · = βk = 0

H1 : Åtminstone en βi 6= 0Dessa hypoteser undersöker nämligen om det tillskott samtliga k förklar-ingsvariabler ger är signifikant, dvs om förklaringsvariablerna tillsammanshar något förklaringsvärde. Tillskottet är nu

SeqSSx1,...,xk = SSReg

62

Page 64: Regressionsanalys - En Introduktion

och testfunktionen blir

F =SSReg/k

SSRes/ (n− k − 1) =MSRegMSRes

som är Fk,n−k−1, dvs F -fördelad med k frihetsgrader i täljaren och n− k− 1frihetsgrader i nämnaren. Studerar man variansanalystablån i en Minitabut-skrift är det just detta test som utförs till höger i tablån.

Exempel 25 Vi vill nu undersöka huruvida boyta och tomtyta tillsammanshar ett signifikant förklaringsvärde för villapriset. I den multipla linjära re-gressionsmodellen i Exempel 22 formulerar vi därför hypoteserna

H0 : β1 = β2 = 0

H1 : β1 och/eller β2 6= 0

För att undersöka detta använder vi ett F -test och utifrån variansanalystablåni början av Avsnitt 3.3.1 följer att

F =MSRegMSRes

=75.279

3.077= 24.46

som skall jämföras med F2,16 (vilket vi finner i kolumnen med frihetsgrader).Denna finns inte i tabellen men

F = 24.46 > 13.2 = F2,15,0.0005

och vi drar slutsatsen attp-värde < 0.05%

och nollhypotesen förkastas, dvs boyta och tomtyta har tillsammans ett sig-nifikant förklaringsvärde för villapriset. I det här fallet är detta uppenbarteftersom vi i den enkla linjära regressionsmodellen fann att boytan självhar ett signifikant förklaringsvärde. Det finns dock situationer där förklar-ingsvariablerna var för sig inte ger signifikanta tillskott men att det gemen-samma tillskottet blir det. ¤

3.4 Inferens angående delpopulationerna

Precis som vid enkel linjär regression vill vi dra slutsatser angående pop-ulationsmedelvärdet för y-variabeln för olika värden på x-variablerna. Vidmultipel regression kommer dessa delpopulationer bli mer detaljerat specifi-cerade i och med att vi nu anger värden på flera x-variabler.

63

Page 65: Regressionsanalys - En Introduktion

Exempel 26 Vi är intresserade av att bestämma hur mycket en villa i genom-snitt kostar. Med enbart stickprovsinformation om villornas pris utgörs denbästa skattningen av medelpriset för dessa villor, dvs bμy = y. Utifrån mate-rialet i Appendix A.2.2 finner vi detta till

bμy = 230

19= 12.1

dvs det genomsnittliga försäljningspriset är ca. 1.2 miljoner. Nu är vi eventuelltinte intresserade av villor i allmänhet utan har vissa önskemål om hur villanskall vara. Antag att vi söker en villa på 120m2, dvs en villa med x1 = 120.Vår uppskattning av priset på en sådan villa skall inte göras med medelprisetpå villor i allmänhet utan skall baseras på den regressionsmodell vi användei Exempel 20. Vi uppskattar priset på sådana villor till

bμy|x1=120 = −3.76 + 0.115 · 120 = 10.0dvs en miljon. Nu kan det dock vara så att vi har ytterligare önskemål angåendevillan och då kanske vi kan ringa in ett förväntat försäljningspris ännu mer.Antag att vi dessutom vill att tomten skall vara på 1000m2, dvs x2 = 10.Utifrån regressionsmodellen i Exempel 22 uppskattar vi priset på sådana vil-lor till

bμy|x1=120,x2=10 = −4.23 + 0.0981 · 120 + 0.277 · 10 = 10.3och vi får uppskattningen till lite drygt en miljon. ¤

Det vi via regressionssambandet får fram angående y-värdet för givnavärden på x-variablerna är enbart en punktskattning av det verkliga popula-tionsmedelvärdet på denna delpopulation. För att få en säkrare uppskattningkonstrueras ett konfidensintervall för medelvärdet på denna delpopulation.Vidare kan vi även vara intresserade av y-värdet för en viss individ meddessa värden på x-variablerna. Då gör vi en prognos angående y-värdet fören enskild individ och vi såg i samband med enkel linjär regression att ävenom punktskattningarna för dessa båda situationer blir identiska är osäker-heten i samband med en prognos större än vid skattning av medelvärdet vilketgör att prognosintervallet blir bredare än motsvarande konfidensintervall förmedelvärdet i delpopulationen. I samband med enkel linjär regression utfördevi dessa beräkningar manuellt men vid multipel linjär regression överlåter videssa ofta betungande beräkningar åt Minitab och fokuserar istället på atttolka de resulterande utskrifterna.

Exempel 27 Låter vi Minitab utföra beräkningarna i föregående exempelfinner vi för den den multipla skattningen av priset på villor med en boyta på

64

Page 66: Regressionsanalys - En Introduktion

100m2 och en tomtyta på 1000m2 till

Den undre delen av utskriften anger vilken delpopulation, dvs vilka värden påx1 och x2, som syftas på. Den övre delen av utskriften innehåller all relevantinformation om konfidens- och prognosintervall för y-variabeln i just dennadelpopulation. Som i beräkningen ovan finner vi t.ex. punktskattningen via

Fit = bμy|x1=120,x2=10 = byx1=120,x2=10 = 10.313eftersom punktskattningen för medelvärde och prognos sammanfaller. För attkunna konstruera konfidens- och prognosintervall måste vi ha en uppfattningom osäkerheten i skattningen av medelvärdet i delpopulationen vilken vi finnervia

Se Fit = sbμy|x1=120,x2=10 = 0.534Eftersom urvalet bestod av 19 villor följer att den t-fördelning som skall an-vändas är t19−2−1 = t16 vilket även framgår av frihetsgraderna för residualer-na (se utskrift i början av Avsnitt 3.3.1). Eftersom t16,0.025 = 2.12 följer attett 95%-igt konfidensintervall ges av

10.313± 2.12 · 0.534eller skrivet som ett intervall

9.180 < μy|x1=120,x2=10 < 11.446

som anges i utskriften. Med 95% säkerhet uppskattar vi således det genom-snittliga försäljningspriset för villor med en boyta på 100m2 och en tomtytapå 1000m2 till mellan 918 000 och 1 145 000 kronor. För att få motsvarandeprognosintervall, dvs konfidensintervall för försäljningspriset på en speciellvilla med en boyta på 100m2 och en tomtyta på 1000m2, måste vi dessutomta hänsyn till spridningen i delpopulationen. Eftersom vi i regressionsanalysförutsätter att denna spridning är samma i alla delpopulationer uppskattasdenna via residualspridningen se och vi finner spridningen för vår prognosvia

sbyx1=120,x2=10 =qs2bμy|x1=120,x2=10 + s2e

65

Page 67: Regressionsanalys - En Introduktion

vilket i utskriften ges av

sbyx1=120,x2=10 =q(Se Fit)2 + S2 =

q(Se Fit)2 +MSRes

Med hjälp av utskriften ovan och variansanalystablån i början av Avsnitt 3.3.1finner vi därför att

sbyx1=120,x2=10 =√0.5342 + 3.077 = 1.834

och det 95%-iga prognosintervallet ges därmed av

10.313± 2.12 · 1.834eller

6.426 < yx1=120,x2=10 < 14.200

precis som i utskriften ovan. Med 95% säkerhet uppskattar vi således försäljn-ingspriset för en enskild villa med en boyta på 100m2 och en tomtyta på1000m2 till mellan 643 000 och 1 420 000 kronor. ¤

3.5 Dummyvariabler

I regressionsanalys studerar vi på vilket sätt och med vilken styrka en ellerflera kvantitativa oberoende variabler påverkar en kvantitativ beroende vari-abel. Det visar sig dock att vi i viss utsträckning även kan använda kvali-tativa variabler som förklaringsvariabler i en sådan regressionsmodell. I in-ferensläran såg vi hur vi genom att kvantifiera en tvåpunktsfördelad, ellerdikotom, kvalitativ variabel som en 0-1 variabel kunde använda kvantitati-va metoder. Vi kunde på detta sätt t.ex. konstruera konfidensintervall ochutföra hypotesprövning angående populationsandelen π. Med motsvarande0-1 kvantifiering kan vi använda sådana tvåpunktsfördelade variabler även iregressionsanalysen, och denna typ av variabler kallas då för dummyvariabler.

Exempel 28 Vi har noterat att vissa villor har garage och andra inte. Efter-som det är rimligt att anta att detta påverkar villapriset vill vi ta med detta imodellen för att få en ännu bättre uppfattning om försäljningspriset på villor.Denna nya förklaringsvariabel blir då en dummyvariabel med

x3 = Garage? (0 = Saknar garage, 1 = Har garage)

I och med att vi kvantifierat variabeln som en 0-1 variabel kan den användassom en vanligt kvantitativ variabel och skattningen av regressionssamban-det utförs på vanligt sätt. Utifrån datamaterialet i Appendix A.2.2 låter vi

66

Page 68: Regressionsanalys - En Introduktion

Minitab beräkna regressionskoefficienterna och den övre delen av utskriftenblir

Hur skall regressionskoefficienterna nu tolkas? Det är ingen mening att tol-ka intercepttermen men b-termerna är vi intresserade av. Dessa skall somvanligt tolkas som marginaleffekter under förutsättning av de övriga förk-laringsvariablerna i modellen hålls konstanta. Vi tolkar därför b1 = 0.104som att om vi jämför villor med samma tomtyta och samma värde påGarage? (vi jämför alltså villor med garage för sig och dom utan garage försig) innebär en extra kvadratmeters boyta att försäljningspriset i genomsnittär ca. 10 400 kronor högre. Motsvarande tolkning kan nu göras för b2.Hur skall då b3, dvs riktningskoefficienten för dummyvariabeln tolkas.

Specificerar vi mer noggrannt hur en riktningskoefficient skall tolkas är detsom en marginaleffekt på y-medelvärdet utifrån en enhetsförändring i den ak-tuella x-variabeln under förutsättning av de övriga ingående förklaringsvari-ablerna förblir oförändrade. En enhetsförändring i en dummyvariabel är attgå från värdet 0 till värdet 1 och b3 = 2.22 skall därför i det här fallet tolkassom att om vi jämför villor med samma bo- och tomtyta kostar villormed garage i genomsnitt 222 000 kronor mer jämfört med villor utan garage.Signifikanstest för regressionskoefficienterna, konfidens- och prognosinter-

vall för de olika delpopulationerna och andra intressanta inferensberäkningarkan nu utföras på liknande sätt som tidigare vilket vi skall se i Uppgift 10. ¤

3.6 Modellkonstruktion

3.6.1 Vilka förklaringsvariabler skall ingå i modellen?

Då man står inför problemet att konstruera en regressionsmodell finns detofta ett stort antal potentiella förklaringsvariabler och frågan är vilka avdessa som skall ingå i modellen. Detta är ett besvärligt problem eftersom vibåde vill ha med många förklaringsvariabler för att få hög förklaringsgradmen samtidigt få förklaringsvariabler för att modellen skall vara enkel. Medmånga förklaringsvariabler uppstår nämligen ofta ett problem som kallasför multikollinearitet, som innebär att förklaringsvariablerna sinsemellan ärhögt korrelerade, vilket har till följd att det blir svårt för regressionen attsärskilja effekter. Resultatet av detta är att osäkerheten i skattningarna avregressionskoefficienterna skjuter i höjden vilket innebär att trovärdigheten iresultaten minskar. Då man avgör vilka förklaringsvariabler som skall ingå imodellen kan man (något vagt) resonera på följande sätt

67

Page 69: Regressionsanalys - En Introduktion

• Ta med de mest saklogiskt motiverade förklaringsvariablerna, dvs devariabler som efter teoretiskt resonemang anses som nödvändiga föratt förklara varför vi har variation i den beroende variabeln. Dock börman vara försiktig med att ha med variabler som förklarar “sammadel” av variationen i y-variabeln. Optimalt är om man kan dela uppvariationen i den beroende variabeln i “teman” eller “faktorer” vilketgör att man kan klassificera förklaringsvariabler utifrån detta och sedani modellen välja förklaringsvariabler så att alla dessa variationsfaktorerblir representerade. På detta sätt bör vi få hög förklaringsgrad ochsamtidigt undvika risken för multikollinearitet.

Exempel 29 Antag att vi vill se vilka sådana variationsfaktorer vi kan finnaför försäljningspris på villor.

• Storlek: Villans storlek har förstås betydelse för priset och de bådaförklaringsvariablerna “Boyta” och “Tomtyta” faller både under dennavariationsfaktor. Detta är ett tecken på att det eventuellt är tillräckligtmed en av dessa variabler i modellen vilket vi även resonerat kring tidi-gare. Å andra sidan gäller att båda regressionskoefficienterna för dessavariabler är signifikanta i den senaste modellen (se utskrift i Exempel28) vilket är ett tecken på att båda variablerna kan vara med.

• Inre flärd: Hur påkostad villan är påverkar också det villans pris ochkan betraktas som en separat faktor trots att den antagligen inte ärhelt skild från storleksfaktorn. Här borde dummyvariabeln Garage? kun-na placeras. Att regressionskoefficienten b3 blir så hög som 2.22 (dvs222 000 kronor extra för ett garage) kan bero på att villor med garageäven tenderar att vara mer påkostat utrustade än villor utan garage.

• Yttre flärd: Var villan är belägen är också det en faktor som påverkarpriset. Vilken stadsdel ligger den i? Ligger den nära vatten? I vår modellingår inget av detta men det skulle antagligen vara av värde att införaen variabel som har med denna variationsfaktor att göra.

¤

Det finns antagligen ytterligare variationsorsaker för försäljningspriset avvillor och det är nyttigt att resonera på detta sätt för att finna den mod-ell man skall använda sig av. Ofta har man hundratals potentiella förklar-ingsvariabler och det är inte alltid så lätt att enbart utifrån teoretiska resone-mang komma fram till vilka av dessa som skall ingå i modellen. Då kan manha stor hjälp av korrelationsanalys.

68

Page 70: Regressionsanalys - En Introduktion

3.6.2 Korrelationsanalys

Det har tidigare påpekats att förklaringsvariabler bör vara högt korrelerademed den beroende variabeln och samtidigt lågt korrelerade med de övriga imodellen ingående förklaringsvariablerna. Att en förklaringsvariabel är högtkorrelerad med den beroende variabeln är ett tecken på att den är saklogisktmotiverad, dvs att den verkligen har ett högt förklaringsvärde i modellen, ochatt den är lågt korrelerad med de övriga förklaringsvariablerna är ett teckenpå att den tillför en annan variationsfaktor. Samtidigt skall det poängterasatt en korrelationsanalys ingenting säger om hur det saklogiskt verkligenförhåller sig utan enbart utifrån informationen i stickprovet anger tecken påatt så är fallet.

En korrelationsanalys utgörs av en matrisuppställning av parvisa korre-lationer mellan samtliga i diskussionen ingående variabler.

Exempel 30 I mäklarexemplet ingår förutom den beroende variabeln äventre förklaringsvariabler vilket leder till korrelationsmatrisen

Här ser vi bl.a. att korrelationen mellan försäljningspriset och boytan ärry,x1 = 0.829 och då detta är det största värdet i den vänstra kolumnen ärdet ett tecken på att boytan är den förklaringsvariabel som skall användas ien enkel linjär regressionsmodell. Då denna modell skall utökas med ytterli-gare en förklaringsvariabel skall man dock inte vara alltför angelägen om attfå med den variabel som är (näst) högst korrelerad med försäljningspriset.Det är viktigt att nästa förklaringsvariabel är högt korrelerad med försäljn-ingskpriset men även den är lågt korrelerad med boyta som redan ingår imodellen. I det här fallet ser vi att av tomtytan och huruvida man har garageeller inte är det tomtytan som i sig förklarar mest av variationen i försäljn-ingspriset eftersom ry,x2 = 0.583 vilket är större än ry,x3 = 0.291. Den mestintressanta frågan är dock nu vilken av dessa båda variabler som förklararmest av den variation som återstår efter att boytan har förklarat sin del.En vägledning om detta kan fås genom att även studera korrelationen medboyta och eftersom rx1,x2 = 0.422 har vi som förväntat ett samband mellanbo- och tomtyta (även om det inte är alarmerande stort) och därmed kom-mer en del av tomtytans förklaringsvärde försvinna genom att boytan redanförklarat den delen. Garagevariabeln är däremot i princip okorrelerad medboytan, rx1,x3 = −0.08, vilket innebär att det mesta av den variabelns förk-laringsvärde är nytt förklaringsvärde och kommer att ge utslag i modellen.

69

Page 71: Regressionsanalys - En Introduktion

Vi kan inte utifrån dessa motstridiga uppgifter bestämt säga vilken av debåda variablerna som skall väljas som andra förklaringsvariabel. I Exempel22 såg vi att förklaringsgraden med bo- och tomtyta som förklaringsvariablerblev R2 = 75.4%. Med Minitabs hjälp finner vi att förklaringsgraden då vianvänder boyta och huruvida villan har garage som förklaringsvariabler blirR2 = 81.6% vilket alltså är ett tecken på att vi skall använda garagevari-abeln trots att den i sig (dvs som ensam förklaringsvariabel) har ett lägreförklaringvärde jämfört med tomtytan. ¤

3.7 Övningsuppgifter

Uppgift 8 Lös uppgift 1403.

Uppgift 9 Vi fortsätter nu med de effekter annonsering har på försäljningsom vi studerade i Uppgift 7. I och med att vi nu har två förklaringsvariablerändrar vi variabelbeteckningarna till

y = Försäljning (10 000-tals $)

x1 = Annonsering i Radio/TV (1 000-tals $)

x2 = Annonsering i tidningar (1 000-tals $)

För analysen förlitar vi oss nu på en Minitabutskrift och en reducerad sådanhar följande utseende.

70

Page 72: Regressionsanalys - En Introduktion

a. Bestäm regressionsekvationen och tolka på ett begripligt sätt (dvs utanatt använda statistiska facktermer) de båda riktningskoefficienterna.

b. Utgör annonskostnad i tidningar ett signifikant tillskott till regressio-nen. Utför en fullständig hypotesprövning på 5%-nivån.

c. Komplettera ANOVA-tablån och beräkna determinationskoefficienten.Tolka denna. Observera att vi här behöver information från den utskriftsom gavs i samband med Uppgift 7.

d. Beräkna ett intervall som med 95% säkerhet ringar in försäljningeni en slumpmässigt vald stad (med denna befolkningsstorlek) med an-nonskostnad i Radio/TV på $15 000 och i tidningar på $10 000. (Deninformation som redovisas i Minitabutskriften är för en sådan stad.)

Uppgift 10 Vi avslutar nu det mäklarexempel angående försäljningspris påvillor som följt oss genom detta kapitel. Använd följande redigerade Minitabut-skrift (och information som givits angående detta exempel i kapitlet) för attlösa uppgifterna nedan.

a. Testa huruvida Tomtvariabeln har ett signifikant förklaringsvärde i mod-ellen, dvs utför ett hypotestest för β2 på 5%-nivån. Var noga med att

71

Page 73: Regressionsanalys - En Introduktion

formulera dina hypoteser korrekt.

b. Komplettera ANOVA-tablån och beräkna determinationskoefficienten.Tolka denna.

c. Testa huruvida Garagevariabeln har ett signifikant förklaringsvärde imodellen, dvs utför ett hypotestest för β3 på 5%-nivån. Detta måste idet här fallet utföras som en undersökning huruvida variabeln ger ettsignifikant tillskott till den modell som redan innehåller bo- och tomtytasom förklaringsvariabler. Hur påverkas p-värdet av att mothypotesen ärensidig?

d. Beräkna ett intervall som med 95% säkerhet ringar in priset för enslumpmässigt vald villa med garage där boytan är 140 kvm och tomtytanär 1 000 kvm. (Den information som redovisas i sista raden i Minitab-utskriften är för en sådan villa.) Ge en verbal tolkning av intervallet.

4 Icke-linjär regression

Linjära regressionsmodeller, både enkla och multipla, är oftast bara approxi-mationer av ett verkligt mer komplicerat samband. Fördelen med dessa mod-eller är att dom är enkla att tolka och att dom inte är så känsliga för småförändringar i den verklighet de skall beskriva. Oftast gäller dessutom attdenna approximation är fullt tillräcklig. Ibland har man emellertid en idé omatt det verkliga sambandet inte är linjärt till sin natur, och då är det inte såattraktivt att använda den linjära approximationsmodellen. Dock gäller atticke-linjära regressionsmodeller tenderar att vara mer känsliga och därför ärdet av största vikt att man har en god kunskap om sambandets art för attvälja rätt modell.

4.1 Kvadratiska samband

En egenföretagare sitter och funderar på hur mycket pengar företaget börlägga på reklam av deras produkter. Till sin hjälp har han både försäljn-ingsstatistik och reklamkostnader för de senaste tolv månaderna. Varornadom säljer kan inte betraktas som säsongsberoende och antag dessutom atthan redan tagit hand om den eventuella fördröjning reklameffekten har påförsäljningen. De statistiska uppgifterna är som följer (i 1 000-tals kronor).

Månad 1 2 3 4 5 6 7 8 9 10 11 12

Reklam 4.3 3.9 4.9 5.2 5.9 6.7 5.7 4.9 8.0 9.6 5.1 6.7

Vinst 40.7 38.1 45.1 46.8 49.1 53.3 50.3 47.1 54.0 53.4 45.9 52.3

72

Page 74: Regressionsanalys - En Introduktion

Intuitivt kan vi tänka oss att ju mer vi spenderar på reklam ju större kommerförsäljningen (och vinsten) att bli. Detta borde emellertid bara fungera tillen viss gräns eftersom marknaden förr eller senare blir mättad med följdenatt försäljningen avstannar. Slutsatsen blir därför att vinsten kommer attsjunka om vi fortsätter spendera pengar på reklam utöver denna mättnad-snivå. Studerar vi ett spridningsdiagram för materialet ovan får vi stöd fördetta resonemang.

4 5 6 7 8 9 10

40

45

50

55

Reklam

Vin

st

Denna typ av samband kallas för kvadratiska samband och beskrivs matem-atiskt via

μy|x = α+ β1x+ β2x2

Hur skall vi då gå tillväga för att skatta denna modell? Eftersom vi i och medMinsta-kvadratmetoden funnit en metod för att på bästa sätt anpassa ettlinjärt samband till ett datamaterial vore det optimalt om vi kunde användadessa resultat även för icke-linjära samband. Då man skattar icke-linjäraregressionsmodeller börjar man därför med att överföra problemet på enlinjär regressionsmodell. Vi vill alltså bestämma den kvadratiska kurva sombäst beskriver materialet ovan genom att skriva om sambandet på linjär form.Detta gör vi genom att bilda variablerna

x1 = x

x2 = x2

vilket leder till en multipel linjär regressionsekvation med två oberoende vari-abler.

μy|x1,x2 = α+ β1x1 + β2x2

Nu kan man på vanligt sätt använda normalekvationerna (se Appendix) föratt skatta modellen, dvs regressionskoefficienterna a, b1 och b2. Vi lämnaröver dessa beräkningar till Minitab som ger regressionsekvationen

73

Page 75: Regressionsanalys - En Introduktion

Vinst = −4.41 + 14.4 ·Reklam− 0.88 ·Reklam2Vad betyder då detta samband, dvs hur skall det tolkas? I ett linjärt sam-band tolkade vi regressionkoefficienterna som den effekt en enhetsförändringi den oberoende variabeln har på den beroende variabeln. I ett kvadratisktsamband blir det besvärligare eftersom både b1 och b2 innehåller denna mar-ginaleffekt. För att förstå hur regressionskoefficienterna skall tolkas i icke-linjära modeller måste vi först ha klart för oss vad som matematiskt menasmed en marginaleffekt. För varje enkel regressionsmodell representeras den-na marginaleffekt av linjens riktningskoefficient (lutning), vilken är konstant(samma för alla x-värden) i en linjär modell. I en icke-linjär modell varierardock denna riktningskoefficient vilket framgår av följande diagram

x

y

1

Marginaleffekt

y=a+bx

1

Marginaleffekt

samma för alla x-värdenI en linjär modell är marginaleffekten

x

y y = b x + b x1 22

1

1

I en kvadratisk modell är marginaleffektenolika för olika x-värden

Marginaleffekt

Marginaleffekt

Eftersom riktningskoefficienten fås genom att derivera sambandet med avseendepå x-variabeln är det på detta sätt man bestämmer marginaleffekten. Detär även detta som görs för att bestämma marginaleffekten vid enkel linjärregression (antagligen utan att man tänker på det). För en enkel linjär re-gressionsmodell blir det

d

dxμy|x =

d

dx(α+ βx) = β

dvs samma marginaleffekt för alla värden på x. Den kvadratiska modellenger

d

dxμy|x =

d

dx

¡α+ β1x+ β2x

2¢= β1 + 2β2x

och vi ser till skillnad från de linjära sambanden att denna effekt är olika förolika värden, x, på den oberoende variabeln. I exemplet ovan ser vi att denskattade marginaleffekten på vinsten vid en reklamkostnad på 3 000 kronorges av

14.4 + 2 · (−0.88) · 3 = 9.12

74

Page 76: Regressionsanalys - En Introduktion

vilket ungefär kan tolkas som att om vi vid denna reklamnivå lägger ytterli-gare lite pengar på reklam förväntas vinstökningen bli en faktor 8.6 av dettareklamtillskott. Den skattade marginaleffekten på vinsten vid en reklamkost-nad på 6 000 kronor blir

14.4 + 2 · (−0.88) · 6 = 3.84med motsvarande tolkning. Vi ser således att marginaleffekten är mindrevid denna reklamnivå vilket tolkas som att varje extra krona vi lägger påreklam inte ger lika stor vinstökning vid 6 000-kronorsnivån som vid 3 000-kronorsnivån. Dock gäller att varje extra krona förväntas ge en vinstökningoch allmänt gäller att så länge denna marginaleffekt är positiv bör vi spenderamer på reklam. På detta sätt kan vi nu finna den reklamnivå som ger denstörsta vinsten. För att allmänt finna det värde på den oberoende variabelnsom optimerar (maximerar eller minimerar) den beroende variabeln skall enliten förändring i den oberoende variabeln inte ge någon förändring i denberoende variabeln, dvs detta optimala värde, x, är det värde som uppfyller

β1 + 2β2x = 0, dvs x = −β12β2

I vårt exempel söker vi den reklamnivå där en liten förändring i reklamkost-nad inte längre förväntas ge någon positiv effekt på vinsten, dvs den skattadeoptimala reklamkostnaden är

x = − 14.4

2 · (−0.88) = 8.18

Enligt den skattade kurvan bör vi således spendera 8 180 kronor på reklamvarje månad för att optimera vinsten.

4.2 Exponentiella samband

I ekonomiska sammanhang är det bland icke-linjära samband inte kvadratiskasamband som är vanligast. Vi tänker oss nu istället en situation där denoberoende variabeln oftast är tid och att den beroende variabeln utvecklasexponentiellt över tiden, dvs en utveckling enligt ränta-på-ränta principendär förändringen från en tidpunkt till en annan är en procentuell förändringsom baseras på värdet vid den första tidpunkten. Detta ger en exponentiellregressionsmodell.

μy|x = α · βxHär skall β tolkas som en relativ marginaleffekt eftersom

μy|x+1 = α · βx+1 = α · βx · β = μy|x · β

75

Page 77: Regressionsanalys - En Introduktion

dvs β anger den relativa, eller procentuella, förändringstakten. Precis somför en enkel linjär regressionsmodell har vi i den exponentiella regressions-modellen två koefficienter, α och β, och det gäller att α är värdet på y dåx = 0 och β anger hur stor den procentuella förändringen är. Detta sambandskattas genom sambandet bμy|x = a · bxdär regressionskoefficienterna skattas utifrån stickprovet.

Exempel 31 Antag att vi placerar 1 000 kronor på ett bankkonto med enfemprocentig ränta. Om inga vidare insättningar eller uttag görs kommer viatt få följande utveckling på kontot

År 0 1 2 3Belopp 1000 1050 1102.5 1157.625

Låter vi nu

y = Belopp

x = År

följer att

y0 = 1000 · 1.050 = 1000y1 = 1000 · 1.051 = 1050y2 = 1000 · 1.052 = 1102.5y3 = 1000 · 1.053 = 1157.625

osv. Vi har alltså det exponentiella sambandet

y = 1000 · 1.05x, x = 0, 1, 2, . . .

¤

Anpassar vi en exponentiell regressionslinje till datamaterialet i exem-plet ovan kommer alla punkter ligga på linjen och vi har alltså en perfektanpassning, vilket förstås beror på att detta är en kontrollerad situation.Oftast gäller dock att datamaterialet inte är så perfekt anpassat utan en-bart antyder ett exponentiellt förhållande. Den årliga förändringen är intealltid exakt densamma men det är vanligt att den procentuella förändringenungefär är densamma vilket betyder att vi kan skatta denna förändringstaktgenom att anpassa en exponentiell regressionslinje. Således befinner vi oss

76

Page 78: Regressionsanalys - En Introduktion

åter vid problemet att bestämma hur linjen skall placeras för att bäst beskri-va datamaterialet, dvs hur koefficienterna a och b skall bestämmas. Minsta-kvadratmetoden utgör som tidigare nämnts en utmärkt metod för att påbästa sätt anpassa en rät linje och precis som vid kvadratisk regression utförvi därför en transformation för att överföra det icke-linjära sambandet på ettlinjärt samband. Tanken är alltså att linearisera det exponentiella samban-det, dvs utföra någon form av matematisk operation på sambandet som gördet linjärt.

Ett exponentialsamband är uppbyggt som en produkt medan ett linjärtsamband är uppbyggt som en summa vilket innebär att vi måste finna ettsätt att överföra multiplikation på addition. Det visar sig att vi kan uppnådetta genom att använda logaritmer. En liten repetition av logaritmer ges iAppendix B. Om vi logaritmerar exponentialuttrycket fås

lg (a · bx) = lg a+ lg bx

Vidare fås att

lg bx = lg (b · b · · · · · b) = lg b+ lg b+ · · ·+ lg b = lg b · x

Om det ursprungliga sambandet är

y = a · bx

följer således efter logaritmering att

lg y = lg (a · bx) = lg a+ lg bx = lg a+ lg b · x

Sätter vi nu

y∗ = lg y

a∗ = lg a

b∗ = lg b

får vi det linjära sambandet

y∗ = a∗ + b∗ · x

I detta linjära sambandet kan vi nu använda minsta-kvadratmetoden föratt skatta regressionskoefficienterna. I och med att uttrycket är logaritmeratgäller dock att vi istället för att använda originaldatan (xi, yi) skall använda(xi, lg yi). x-värdena skall vara oförändrade men y-värdena skall logaritmeras.

77

Page 79: Regressionsanalys - En Introduktion

Dessutom gäller att de regressionskoefficienter vi beräknar är a∗ = lg a ochb∗ = lg b. När vi sedan funnit dessa finner vi a och b genom att avlogaritmerasambandet via

a = 10a∗

b = 10b∗

Nu över till ett exempel på hur man bäst går tillväga då man manuelltskall lösa problemet att bestämma ett exponentiellt samband.

Exempel 32 Antag att

y = omsättningen omräknat i fasta priser

för ett större företag under åren 1998 till 2006 ges av (i Mkr)

År −98 −99 −00 −01 −02 −03 −04 −05 −06Omsättning 290 360 425 503 585 724 871 1 038 1 341

Ritar man ett spridningsdiagram för detta material (Gör det!) ser man ettexponentiellt mönster och vi bestämmer oss för att anpassa en sådan regres-sionslinje. Nu använder vi ett litet knep som är mycket användbart i dennatyp av situation. Att använda originalvärdena på x-variabeln, dvs 1998, 1999,... , 2006 är ingen bra idé pga att det blir stora värden i beräkningarna. Iställetför att använda

x = 1998, 1999, . . . , 2006

skapar vi en ny tidsvariabel genom att flytta oss lägre ner på skalan och t.ex.använda

t = 1, 2, . . . , 8, 9

eller ännu bättret = −4,−3, . . . , 3, 4

Fördelen med den sista varianten är attXt = 0

vilket underlättar beräkningarna avsevärt. Det spelar ingen roll att vi flyttarrunt på skalan så länge vi använder samma relativa avstånd mellan värdenai vår nya tidsvariabel och tänker på vår förflyttning då resultaten skall tolkas.

78

Page 80: Regressionsanalys - En Introduktion

Vi får då uppställningen

År t y lgy t · lgy t2

1998 −4 290 2.4624 −9.8496 161999 −3 360 2.5563 −7.6689 92000 −2 425 2.6284 −5.2568 42001 −1 503 2.7016 −2.7016 12002 0 585 2.7672 0.0000 02003 1 724 2.8597 2.8597 12004 2 871 2.9400 5.8800 42005 3 1038 3.0162 9.0486 92006 4 1341 3.1274 12.5097 16

0 25.0592 4.8212 60

och med formler för enkel linjär regression följer nu att

b0 =4.8212− 0·25.0592

9

60− 02

9

=4.8212

60= 0.0804

a0 =25.0592

9− 0.0804 · 0

9= 2.7844

där vi såg fördelarna med att använda en sådan tidsvariabel t. Nu finner vivåra regressionskoefficienter genom att avlogaritmera.

a = 102.7844 = 608.56

b = 100.0804 = 1.2034

och det är här viktigt att man använder så många decimaler som möjligt (dvsfler än vad som står angivet i formeln ovan) pga att felen i dessa sammanhangannars kan bli alltför stora. Vårt exponentiella samband blir således

bμy|t = 608.56 · 1.2034t, t = −4,−3, . . . , 3, 4

Under den aktuella tidsperioden har vi alltså haft en årlig tillväxt på drygt20%, och omsättningen vid tidpunkt noll, dvs år 2002, skulle enligt modellenvarit 608.56 Mkr. Antag att vi tror på en liknande tillväxt under den närmstaframtiden. Använd modellen för att göra en prognos för år 2007. Med vårtidsvariabel blir år 2007, t = 5 och det följer därför att prognosen blir

by5 = 608.56 · 1.20345 = 1535.05¤

79

Page 81: Regressionsanalys - En Introduktion

Idén att använda en tidsvariabel med värdet noll i mitten fungerar baraom antalet observationer är udda. Om antalet observationer är jämnt löser viproblemet genom att låta de båda mittersta observationerna vara −0.5 och0.5. Hade vi i exemplet ovan enbart undersökt tidsperioden 1998 till 2005skulle vi ha använt tidsvariabeln

t = −3.5,−2, 5, . . . , 2.5, 3.5Det viktiga är inte att någon tidsperiod blir noll utan att

Pt = 0.

4.3 Elasticitetssamband (log-linjära samband)

I nationalekonomiska sammanhang är man ofta intresserad av hur efterfrå-gan av en viss vara påverkas av varans pris och den disponibla inkomsten ilandet. Låt oss börja lite försiktigt med att konstruera en efterfrågemodellsom enbart tar hänsyn till varans pris. Det är inte rimligt att tro att dennaeffekt är lika stor för alla prisnivåer, dvs en linjär modell är inte vad vi söker idessa sammanhang. Istället söker vi en modell som anger hur stor procentuellförändring vi kan förvänta oss i efterfrågan utifrån en procentuell förändringi priset. Använder vi “naturliga” beteckningar med

Q = Efterfrågad kvantitet (y)

p = Varans pris (x)

e = Priselasticitet (b)

kan sambandet beskrivas på följande sätt

Q = a · pedär som vanligt a är en konstant för att sambandet skall få den rätta po-sitionen i höjdled. Procentuella, eller relativa, förändringar beskrivs utifrånlogaritmer och för att se att denna modell beskriver det vi vill att den skallbeskriva och för att samtidigt på vanligt icke-linjärt manér överföra prob-lemet till en linjär modell logaritmerar vi sambandet. Utifrån egenskaper hoslogaritmer ger detta följande.

logQ = log a+ e · log pvilket är en linjär modell

y = a+ bx

där

y = logQ

x = log p

b = e

80

Page 82: Regressionsanalys - En Introduktion

Vi har alltså på detta sätt fått en linjär modell i de logaritmerade variablernaoch därav namnet log-linjär modell. Med linjär tolkning har vi alltså att emäter hur stor förändring vi kan förvänta oss i y, dvs logQ, genom en enhets-förändring i x, dvs log p. Således mäter priselasticiteten det vi vill, dvs denförväntade relativa effekten i Q som en följd av en relativ enhetsförändring ip, dvs

e = Förväntad procentuell förändring i efterfrågan av att priset ökar 1%

Exempel 33 Vid en undersökning avseende efterfrågan på en viss vara hosen viss kundkrets skattade man utifrån ett tidsseriematerial följande efter-frågemodell.

logQ = a− 0.8 · log pDen allmänna prisutvecklingen ett visst år beräknas innebära att varugrup-pens pris kommer att stiga med 3%. Vad kommer detta, enligt den skattademodellen, att innebära för efterfrågan på varan hos den aktuella kundkretsen?Vi har att priselasticiteten

e = −0.8vilket innebär att efterfrågan förväntas sjunka med 0.8% då varans pris stigermed 1%. Eftersom nu priset antas stiga med 3% kommer detta därför attinnebära att efterfrågan förväntas minska med 3 · 0.8% = 2.4%. ¤I de flesta efterfrågemodeller tar man förutom varans pris även hänsyn till

den disponibla inkomsten hos den undersökta populationen. Låter vi därför

I = Disponibel inkomst i den aktuella populationen

E = Inkomstelasticitet

kommer (den fullständiga) efterfrågemodellen att bli

Q = a · pe · IE

eller på logaritmerad (linjär) form

logQ = log a+ e · log p+E · log IDetta linjära uttryck i dom logaritmerade variablerna ger oss åter möjlighetatt tolka de båda regressionskoefficienterna, eller elasticiteterna, e och E.

e = Förväntad procentuell förändring i efterfrågan av att priset ökar 1%,

förutsatt att den disponibla inkomsten är oförändrad.

E = Förväntad procentuell förändring i efterfrågan av att den disponibla

inkomsten ökar 1%, förutsatt att priset är oförändrat.

81

Page 83: Regressionsanalys - En Introduktion

Exempel 34 Låt oss fortsätta med föregående exempel där vi nu dessutomtar hänsyn till den disponibla inkomsten i den aktuella kundkretsen. Antagatt vi då fick följande modell.

logQ = a− 0.5 · log p+ 1.1 · log I

och vi tolkar regressionkoefficienterna på följande sätt. Att priselasticitetenär

e = −0.5betyder nu att efterfrågan förväntas sjunka med 0.5% då varans pris stigermed 1%, förutsatt att den disponibla inkomsten är oförändrad. Att inkomste-lasticiteten är

E = 1.1

betyder nu att efterfrågan förväntas stiga med 1.1% då den disponibla inkom-sten stiger med 1%, förutsatt att varans pris är oförändrat. Antag att förutomen prisökning på 3% den disponibla inkomsten för kundkretsen antas stigamed 2%. Detta kommer då att innebära att efterfrågan förväntas förändrasmed

−0.5 · 3 + 1.1 · 2 = 0.7dvs öka med 0.7%. ¤

4.4 Likheter och olikheter mellan sambandstyperna

Med linjära och kvadratiska regressionsmodeller mäter man hur stor absolutförändring i den beroende variabeln en absolut förändring i den oberoendevariabeln förväntas ge. I en linjär modell är denna förändring samma för allavärdenivåer på den oberoende variabeln medan den i en kvadratisk modellberor på denna värdenivå. I en exponentiell regressionsmodell mäter manhur stor relativ (procentuell) förändring i den beroende variabeln en absolutförändring i den oberoende variabeln förväntas ge. I elasticitetsmodeller, avs-lutningsvis, mäter man hur stor relativ förändring i den beroende variabelnen relativ förändring i den oberoende variabeln förväntas ge.

4.5 Övningsuppgifter

Uppgift 11 Vid ett odlingsförsök observerade man avkastningen per ytenhet(y) från ett antal försöksytor som tillförts olika mängder konstgödsel (x). Allavärden presenteras som dt/ha, dvs deciton per hektar (deciton = 100kg). Deolika försöksytorna valdes slumpmässigt från ett område där andra faktorersom kan tänkas påverka skördens storlek är förhållandevis konstanta.

82

Page 84: Regressionsanalys - En Introduktion

a. Argumentera för varför en kvadratisk modell, och inte en linjär, ärlämplig att använda i det här fallet.

b. Om vi anpassar en kvadratisk modell till vårt material fås ekvationenby = −4.5 + 33.88 · x− 3.84 · x2i. Bestäm marginaleffekten på avkastningen då gödselstorleken är 2dt/ha. Tolka detta värde.

ii. Bestäm, utifrån den skattade modellen, optimal gödselstorlek.

Uppgift 12 På statistiska centralbyråns hemsida kan man läsa att befolknin-gens storlek, y, i Sverige vid några olika tidsperioder gavs av

År y (milj)1750 1.781800 2.351850 3.481900 5.141950 7.042000 8.882005 9.05

där man bör notera att det inte är samma avstånd mellan alla tidsperiodervilket man skall ha i beaktande då man skapar sin nya tidsvariabel. Man kandå inte på något bra sätt uppnå att

Pt = 0 men man kan göra så att siffrorna

inte blir så stora. Anpassa ett exponentialsamband till datamaterialet och görsedan en befolkningsprognos för år 2010.

Uppgift 13 I ett litet expanderande företag har man under åren 1999 till2006 haft följande arbetsstyrka (i genomsnitt per år)

År −99 −00 −01 −02 −03 −04 −05 −06Antal anställda 10 12 14 17 20 24 29 34

Skatta arbetsstyrkans tillväxt under tidsperioden genom att anpassa en expo-nentiell regressionslinje. Gör sedan en prognos för antalet anställda under år2007.

Uppgift 14 Den i Toscana välkända vinfirman Chianti Absolutti har ex-porterat vin till Sverige i många år. En sammanställning av de senaste 20årens export framgår ur tabellen nedan (enhet: 1 000-tal helbuteljer), en långsammen säker ökning.

År −85 −90 −95 −00 −05Export 86 100 113 133 151

83

Page 85: Regressionsanalys - En Introduktion

a. Anpassa en exponentialkurva till exportsiffrorna och gör en prognos förår 2008.

b. Hur stor har, enligt den anpassade kurvan, den genomsnittliga årligaförändringen av exporten till Sverige varit?

Uppgift 15 Antag att vi för en viss vara har följande data angående efter-frågad kvantitet (Q) och pris (p) för ett antal tidsperioder.

Q p2 900 1.002 400 1.152 300 1.202 100 1.40

a. Skatta priselasticiteten i efterfrågemodellen utifrån Minsta-kvadratmetodengenom att först logaritmera för att få en enkel linjär regressionsmodell(i de logaritmerade variablerna).

b. Tolka priselasticiteten i ord. Hur förväntas efterfrågan förändras ompriset stiger med 3%?

Uppgift 16 Man studerar efterfrågan på mjölk och finner med hjälp av Minitabföljande regressionssamband.

logEfterfrågan = −6.11− 0.922 logPris+ 2.08 log Inkomst

a. Tolka priselasticiteten och inkomstelasticiteten i ord.

b. Hur förväntas efterfrågan förändras om priset stiger med 2% samtidigtsom den disponibla inkomsten sjunker med 1%?

84

Page 86: Regressionsanalys - En Introduktion

A Att bestämma regressionskoefficienterna medMK-metoden

A.1 Enkel linjär regression

Sats 1 Minsta kvadratskattningen av a och b i den linjära regressionen bμy|x =a+ bx ger att

b =

P(xi − x) (yi − y)P

(xi − x)2=

Pxiyi −

PxiP

yinP

x2i − (P

xi)2

n

a = y − bx

Bevis. Vi skall alltså finna konstanter a och b sådana attXe2 =

X(y − (a+ bx))2

minimeras. Detta uppnås genom att partialderivera detta uttryckmed avseendepå a och b. Deriverar vi först med avseende på a och sätter denna till nollfår vi

∂a

X(y − (a+ bx))2 = −2

X(y − (a+ bx)) = 0⇐⇒

⇐⇒ na =X

y − bX

x⇐⇒ a = y − bx

Deriverar vi sedan med avseende på b och använder detta uttryck för a fårvi att

∂b

X(y − (a+ bx))2 = −2

Xx {y − [(y − bx) + bx]} = 0⇐⇒

⇐⇒ b³X

x2 − xX

x´=X

xy − yX

x⇐⇒

⇐⇒ b =

Pxy − y

PxP

x2 − xP

x=

Pxy −

PxP

ynP

x2 − (P

x)2

n

vilket var påståendet.

85

Page 87: Regressionsanalys - En Introduktion

A.2 Multipel linjär regression (två förklarande vari-abler)

A.2.1 Normalekvationerna

Sats 2 Minsta kvadratskattningen av a, b1 och b2 i den linjära regressionenbμy|x1,x2 = a+b1x1+b2x2 ges av att man först löser de sk. normalekvationernaX(x1 − x1) (y − y) = b1

X(x1 − x1)

2 + b2X

(x1 − x1) (x2 − x2)X(x2 − x2) (y − y) = b1

X(x1 − x1) (x2 − x2) + b2

X(x2 − x2)

2

och därefter sätter in dessa resultat i

a = y − b1x1 − b2x2

Bevis. Vi skall alltså finna konstanter a, b1 och b2 sådana attXe2i =

X[y − (a+ b1x1 + b2x2)]

2

minimeras. Detta uppnås genom att partialderivera detta uttryckmed avseendepå a och b1 och b2. Deriverar vi först med avseende på a och sätter denna tillnoll får vi∂

∂a

X[y − (a+ b1x1 + b2x2)]

2 = −2X

[y − (a+ b1x1 + b2x2)] = 0⇐⇒⇐⇒ na =

Xy − b1

Xx1 − b1

Xx1 ⇐⇒

⇐⇒ a = y − b1x1 − b2x2

Deriverar vi sedan med avseende på b1 och använder detta uttryck för a fårvi att

∂b1

P[y − (a+ b1x1 + b2x2)]

2=

=− 2Px1

½y −

∙µPy

n− b1

Px1n− b2

Px2n

¶+ b1

Px1 + b2

Px2

¸¾= 0⇐⇒

⇐⇒Px1y − 1

n

Px1 (P

y − b1P

x1 − b2P

x2)− b1P

x21 − b2P

x1x2 = 0⇐⇒

⇐⇒Px1y −

Px1P

y

n= b1

ÃPx21 −

(P

x1)2

n

!+ b2

µPx1x2 −

Px1P

x2n

¶⇐⇒

⇐⇒X

(x1 − x1) (y − y) = b1X

(x1 − x1)2 + b2

X(x1 − x1) (x2 − x2)

vilket är den först angivna normalekvationen ovan. Den andra följer påmotsvarande sätt genom att bestämma den partiella derivatan med avseendepå b2.

86

Page 88: Regressionsanalys - En Introduktion

A.2.2 Datamaterial och beräkningar för Exempel 22

I exemplet hade vi följande beteckningar.

y = Försäljningspris (100 000-tal kronor)

x1 = Boyta (kvadratmeter)

x2 = Tomtyta (100-tals kvadratmeter)

och datamaterialet är

y x1 x2 x21 x22 x1x2 x1y x2y8 105 9 11025 81 945 840 729 100 6 10000 36 600 900 5411 160 7 25600 49 1120 1760 7710 120 14 14400 196 1680 1200 14013 160 9 25600 81 1440 2080 11712 150 14 22500 196 2100 1800 16811 140 9 19600 81 1260 1540 997 105 7 11025 49 735 735 499 110 7 12100 49 770 990 6318 160 10 25600 100 1600 2880 18011 140 8 19600 64 1120 1540 8813 140 7 19600 49 980 1820 9119 170 14 28900 196 2380 3230 26612 145 7 21025 49 1015 1740 8417 160 16 25600 256 2560 2720 27215 180 11 32400 121 1980 2700 16514 135 16 18225 256 2160 1890 2249 110 6 12100 36 660 990 5412 140 12 19600 144 1680 1680 144

summerar vi dessa kolumner finner vi attPy = 230,

Px1 = 2630,

Px2 = 189P

x1x2 = 26 785,P

x1y = 33 035,P

x2y = 2407Px21 = 374 500,

Px22 = 2089

87

Page 89: Regressionsanalys - En Introduktion

och utifrån dessa finner viP(x1 − x1) (y − y) =

Px1y −

Px1P

y

n= 33 035− 2 630 · 230

19= 1 198.158P

(x2 − x2) (y − y) =P

x2y −P

x2P

y

n= 2407− 189 · 230

19= 119.1053P

(x1 − x1) (x2 − x2) =P

x1x2 −P

x1P

x2n

= 26 785− 2 630 · 18919

= 623.4211P(x1 − x1)

2 =P

x21 −(P

x1)2

n= 374 500− 2 630

2

19= 10 452.63P

(x2 − x2)2 =

Px22 −

(P

x2)2

n= 2089− 189

2

19= 208.9474

vilket leder till normalekvationerna

1 198.158 = 10 452.63 · b1 + 623.4211 · b2119.1053 = 623.4211 · b1 + 208.9474 · b2

Detta ekvationssystem löser vi genom att eliminera någon av b1 eller b2. Vitänker oss eliminera b1 genom att till den övre raden addera −10 452.63623.4211

av denundre raden. Detta ger det nya ekvationssystemet

−798.83 = −2 879.91 · b2119.1053 = 623.4211 · b1 + 208.9474 · b2

vilket leder till attb2 =

−798.83−2 879.91 = 0.277

och utifrån detta följer sedan ur den nedre ekvationen att

b1 =119.1053− 208.9474 · 0.277

623.4211= 0.098

Slutligen följer nu att

a =230

19− 0.098 · 2 630

19− 0.277 · 189

19= −4.23

(där vi i beräkningarna använt alla tillgängliga decimaler). Den skattaderegressionsekvationen blir därmed

bμy|x1,x2 = −4.23 + 0.098 · x1 + 0.277 · x2som vi tidigare noterat i utskriften från Minitab i Exempel 22.

88

Page 90: Regressionsanalys - En Introduktion

B Logaritmer

Här ges, av förståelseskäl, en något förenklad beskrivning av logaritmer. Ettpotensuttryck är på formen bx där både b och x är reella tal. b kallas förbasen och x för exponenten. Exempel på potensuttryck är 27, 2.53.1 och 104.Logaritmer definieras som inverser till potensuttryck och finns därmed i olikabaser men vi kommer här enbart att använda oss av 10-logaritmen, dvs denlogaritm som är relaterad till potensuttryck med basen 10.

Då ett tal skrivs som en 10-potens, dvs som ett potensuttryck med basen10, anger 10-logaritmen exponenten i detta uttryck. 10-logaritmen räknarhelt enkelt hur många tior som måste multipliceras för att få det önskadevärdet. Exempelvis kan talet 1 000 skrivas som 10 · 10 · 10, dvs en produkt avtre tior. På potensform blir det 103 vilket betyder att

lg 1 000 = lg (10 · 10 · 10) = lg 103 = 3

En 10-logaritm räknar, eller summerar, således antal tior i den ursprungli-ga produkten. Logaritmer innehar därmed den trevliga egenskapen att mul-tiplikation blir addition, dvs då det ursprungliga uttrycket är en produktkommer motsvarande logaritmerade uttryck att vara en summa. Betraktaexempelvis produkten 100 · 1000 = 100 000. Om vi istället uttrycker detta i10-potenser följer att det blir

102 · 103 = 102+3 = 105

och vi ser att exponenterna adderas. Eftersom logaritmer anger exponentenföljer därmed att

lg¡102 · 103¢ = lg 102 + lg 103 = 2 + 3 = 5

Allmänt gäller attlg (a · b) = lg a+ lg b

vilket är en egenskap som är mycket användbar i olika sammanhang.

89

Page 91: Regressionsanalys - En Introduktion

C Svar till övningsuppgifterna

Här följer svar till dom övvningsuppgifter som presenteras i kompendiet. Förövriga uppgifter finns svar i läroboken Statistisk dataanalys.

1. a) r=0.828, b) 0.5%<p-värde<1%, c) Oklart orsakssamband7. a) a=75.827, b=1.952, b) se=22.47, sy=40.83, c) (1.4; 2.5),d) (93.36; 116.85)

9. a) a=51.648, b1=1.6419, b2=2.5315, b) t=10.13, c) MSE=90, SST=38344,F=202.86, R2=95.1%, d) (81.23; 121.95)

10. a) t=2.38, b) SST=199.79, MSE=1.78, F=32.4, R2=86.6%, c) F=12.64,d) (10.24; 16.19)

11. bi) 18.5, bii) 4.41ar12. a=1.7887, b=1.0333 (t=0,10,20,...), y{2010}=9.8213. a=18.4655, b=1.1921 (t=-3.5,-2.5,-1.5,...), y{2007}=40.714. a) a=114.31, b=1.0286 (t=-10,-5,0,5,10), y{2008}=165, b) 2.86%15. a) e=-0.95, b) -2.85%16. b) -3.92%

90