12
x y

DTU Challenge - Multiple Regression · 2018-06-29 · DTU Challenge - Multiple Regression Vi er ofte interesseret i at se sammenhænge mellem forskellige observationer. Disse sammen-hænge

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: DTU Challenge - Multiple Regression · 2018-06-29 · DTU Challenge - Multiple Regression Vi er ofte interesseret i at se sammenhænge mellem forskellige observationer. Disse sammen-hænge

DTU Challenge - Multiple Regression

Vi er ofte interesseret i at se sammenhænge mellem forskellige observationer. Disse sammen-hænge kan hjælpe os til at forstå naturvidenskabelige og samfundsmæssige sammenhænge. Denviden kan bruges, når politikere og virksomhedsledere skal træ�e beslutninger. Det kunne f.eks.være, om der er en sammenhæng mellem antal år, man uddanner sig og løn bagefter eller om vifår færre tra�kofre, når vi anlægger �ere cykelstier. Det at �nde sammenhænge kan også hjælpeos til at få en ide om fremtidig udvikling. Det kunne f.eks. være at få en ide om, hvor mangeelbiler der vil være om 5 eller 10 år på baggrund af salgstal for elbiler de seneste år. At �ndesammenhænge (eller at �nde ud af, at der ikke er nogen sammenhæng imellem data) er et vigtigtredskab i at forstå nutid og fremtid, og indrette sine handlinger derefter.

Modul 1: Lineær regression med 2 variable.

I lineær regressionsanalyse antager man, at et antal observationer (data punkter) kan beskrivesmed en ret linje, derfor handler det om at �nde den linje, der passer bedst til den data man vilbeskrive. Vi vil i dette afsnit kigge på Lineær regression med 2 variable, og herefter udvide dettil �ere variable.

Eksempel:

Vi ser på en virksomhed, der sælger en række kasser. De har netop lavet en analyse af købspriseni forhold til, hvor mange enheder af produktet de sælger. Hypotesen er, jo billigere pris jo �erekøber produktet. Tabel 1 viser resultatet af analysen. Hvert af datapunkterne kaldes også forobservationer.

Tabel 1: Dataobservationer

Data punkt Pris (x) Enheder solgt (y)1 2 kr. 85002 5 kr. 47003 3 kr. 58004 2 kr. 74005 5 kr. 62006 3 kr. 73007 4 kr. 5600

Plottes disse punkter i 2d med prisen på x-aksen og antal solgte enheder på y-aksen fås Figur1

1

Page 2: DTU Challenge - Multiple Regression · 2018-06-29 · DTU Challenge - Multiple Regression Vi er ofte interesseret i at se sammenhænge mellem forskellige observationer. Disse sammen-hænge

1. LINEÆR REGRESSION MED 2 VARIABLE.

0 1 2 3 4 5 60

2000

4000

6000

8000

Pris

Enhed

ersolgt

Data Punkter y = −1000x+ 10000

Figur 1: Plot af data punker samt linjen y = −1000x+ 10000

De opdager, at punkterne ikke ligger en på en ret linje, men de opdager også, at der ser udtil at være en lineær tendens. Betragt linjen y = −1000x+ 10000. Der ønskes nu et mål for, hvorgodt denne linje passer til data.

Til dette kan man måle fejlen for hvert datapunkt. Lad (xi, yi) være det i'te datapunkt.Inkluderes fejlene, εi, gælder det, at

y1 = −1000x1 + 10000 + ε1 ⇒ 8500 = −1000 · 2 + 10000 + ε1

y2 = −1000x2 + 10000 + ε2 ⇒ 4700 = −1000 · 5 + 10000 + ε2

y3 = −1000x3 + 10000 + ε3 ⇒ 5800 = −1000 · 3 + 10000 + ε3

Eller generelt

yi = −1000xi + 10000 + εi

Vi kan derfor udregne fejlen ved

εi = 1000xi − 10000 + yi

Opgave 1.1

Find punktet (x1, y1), og udregn ε1.

Bemærk, at fejlen ved denne måde at regne på kan antage såvel positive såvel som negativeværdier. Dermed kunne man opnå at summen af alle fejl blev lig med nul, selv om alle punkterligger langt fra linjen. Derfor bruger man i lineær regression den kvadrerede fejl. Disse værdiervil altid være ikke-negative og dermed vil summen af disse også være ikke-negativ. Som udtryk

2

Page 3: DTU Challenge - Multiple Regression · 2018-06-29 · DTU Challenge - Multiple Regression Vi er ofte interesseret i at se sammenhænge mellem forskellige observationer. Disse sammen-hænge

1. LINEÆR REGRESSION MED 2 VARIABLE.

for hvor stor den overordnet fejl er, bruges fejlenes kvadrat traditionelt set. Her bruges SSE fordet engelske 'Sum of Squared Errors'.

SSE =

n∑i=1

ε2i

Bemærk her, at hvis SSE er lig med nul, så ligger alle punkterne på linien.

Opgave 1.2

Udregn SSE for ovenstående eksempel.

Udregnes SSE her fås SSE = 3830000.

Betragt nu linjen y = −850x + 9500. Den passer bedre til data. For at teste denne påstandkan SSE udregnes, og sammenlignes. Jo mindre SSE er, jo mindre er fejlene, og jo tættere vilpunkterne ligge på linjen.

Opgave 1.3

Beregn SSE for linjen y = −850x + 9500, og vurdér hvilken linje der passer bedst tildata.

Man kan blive ved med at komme med nye linjer, og teste dem, men spørgsmålet er, hvordan�ndes den linje, der passer bedst på data? Som sagt, jo mindre SSE er, jo mindre er fejlene, viønsker derfor, at �nde den linje der minimere SSE.

En generel linje kan beskrives som y = ax+ b, og for hvert punkt:

yi = axi + b+ εi ⇔ εi = −axi − b+ yi

Hvor εi er afstanden fra punktet (xi, yi) til linjen. Bemærk her at alle xi'erne er kendt og ligeledeser yi'erne.Opskrives SSE nu mere generelt fås

SSE =

n∑i=1

ε2i =

n∑i=1

(−axi − b+ yi)2

= (−ax1 − b+ y1)2 + (−ax2 − b+ y2)2 + . . .+ (−axn − b+ yn)2

Vi ved, at vi kan minimere en funktion ved at di�erentiere og sætte lig nul. Udfordringen er atfunktionen afhænger af de to variable a og b. Det a og b, der minimere ovenstående udtryk, kannu �ndes vha. teorien om di�erentiering af funktioner med 2 variable. Vi opfatter først SSE somfunktion af a og di�erentierer efter a og dernæst opfatter vi SSE som en funktion, hvor b er denvariable størrelse. Her di�erentierer vi så efter b. Dette kaldes partiel di�erentation.

Lad os benytte partiel di�erentation til at �nde de værdier for a og b som giver en minimalværdi af SSE og dermed den linje, der er �tættest� på observationerne. Skrives SSE ud fås

SSE = 92a2 + 327920000 + 7b2 + 48ab− 91000b− 296000a

Vi kan nu di�erentiere partielt mht. a og vi får

SSE′a = 184a+ 48b− 296000

3

Page 4: DTU Challenge - Multiple Regression · 2018-06-29 · DTU Challenge - Multiple Regression Vi er ofte interesseret i at se sammenhænge mellem forskellige observationer. Disse sammen-hænge

2. LINEÆR REGRESSION MED 3 VARIABLE

Og hvis vi di�erentierer partielt mht. b får vi

SSE′b = 14b+ 48a− 91000

Vi ved, at hvis SSE skal minimeres, skal der gælde

SSE′a = 0 SSE′

b = 0

Dette er to ligninger med to ubekendte (a og b), og ved at isolere f.eks. a i den ene ligning ogindsætte i den anden ligning �nder man frem til b, som så igen kan indsættes og vi har dermedudregnet værdierne af a og b.

Det giver i vores eksempel at a = −823,53 og b = 9323,5 mininimerer SSE. Dermed er denrette linje der �tter dataen bedst y = −823,53x+ 9323,5.

SSE kan også benyttes til udregning af r2 værdien. Lad y være den gennemsnitlige værdi afalle observationerne. Med det kan r2 udregnes som

r2 = 1− SSEn∑

i=1

(yi − y)2

Her kaldes nævneren SST, for Total Sum of Squares.

Opgave 1.4

Udregn r2-værdien for linjen y = −823,53x+ 9323,5

Modul 2: Lineær Regression med 3 variable

Når vi går fra to variable til tre og �ere variable bliver metoden omtalt som multivariable li-neær regression. Formålet er stadig det samme, nemlig at �nde en lineær sammenhæng mellemobservationer, som nu ikke længere blot består af to variable, men tre eller �ere.

Inden for forskellige områder har man forskellige �krav� for, hvor god en sammenhæng skalvære for, at man accepterer analysen. Således vil man ofte i samfundsanalyser være tilfreds såsnart man kan få r2 op på 0,65. Derimod vil man indenfor naturvidenskab og medicin kræveværdier omkring 0,95 eller højere for at godtage analysen.

En r2 værdi på 0,6536 er derfor ikke imponerende. Derfor overvejer virksomheden, om der erandre variable, der kan in�uere antallet af enheder solgt. De �nder frem til at reklamebudgettetbrugt på at markedsføre produkterne også må in�uere på antallet af solgte enheder. Tabel 2 viserdet nye datasæt med de syv observationer udvidet med informationen om, hvad reklamebudget-terne har været, når produkterne skulle markedsføres.

Nu svarer hvert datapunkt til et punkt i et 3-dimensionelt rum med antal solgte enheder påz aksen og pris og reklamebudget på hhv. x og y aksen. Istedet for at �tte en linje til dataen vilvi altså nu �tte et plan til data. Hvor forskriften for en linje er y = ax + b er forskriften for etplan z = ax+ by + c.

Det foreslås nu at planen z = −850 + 0, 50y + 8500. Dette plan er plottet sammen med dataog vist i Figur 2.

4

Page 5: DTU Challenge - Multiple Regression · 2018-06-29 · DTU Challenge - Multiple Regression Vi er ofte interesseret i at se sammenhænge mellem forskellige observationer. Disse sammen-hænge

2. LINEÆR REGRESSION MED 3 VARIABLE

Tabel 2: Dataobservationer

Data punkt Pris (x) Reklame Budget (y) Enheder solgt (z)1 2 kr. 2800 kr. 85002 5 kr. 200 kr. 47003 3 kr. 400 kr. 58004 2 kr. 500 kr. 74005 5 kr. 3200 kr. 62006 3 kr. 1800 kr. 73007 4 kr. 900 kr. 5600

På samme måde som før kan vi udregne fejlene. Lad (xi, yi, zi) beskrive det i'te datapunktog lad ε beskrive fejlen forbundet med det i'te datapunkt og det estimerede plan. Således fås

z1 = −850x1 + 0,50y1 + 8500 + ε1 ⇒ −850 · 2 + 0,50 · 2800 + 8500 + ε1

z2 = −850x2 + 0,50y2 + 8500 + ε2 ⇒ −850 · 5 + 0,50 · 200 + 8500 + ε2

z3 = −850x3 + 0,50y3 + 8500 + ε3 ⇒ −850 · 3 + 0,50 · 400 + 8500 + ε3

Eller mere generelt

zi = axi + byi + c+ εi

Isoleres εi heri fås

εi = −axi − byi − c+ zi

Som tidligere kan SSE nu udregnes ved

SSE =

n∑i=1

ε2i =

n∑i=1

(−axi − byi − c+ zi)2

Opgave 2.1

Udregn SSE for ovenstående eksempel.

Minimeres SSE fås det at a = −835,722, b = 0,592228, og c = 8536,214. Således er det planenz = −835,722x+0,592228y+8536,214, der �tter bedst til data. Forøges prisen på et produkt med1 kr. forventes det at give anledning til 835 færre solgte enheder. Forøges reklamebudgettet med1 kr. kan man forvente at sælge 0,59 enheder mere. Ved nu at udregne r2 værdien fås r2 = 0,9617.Dette indikerer, at den valgte plan er et meget godt estimat for sammenhængen mellem pris,antal solgte enheder og det brugte reklamebudget.

5

Page 6: DTU Challenge - Multiple Regression · 2018-06-29 · DTU Challenge - Multiple Regression Vi er ofte interesseret i at se sammenhænge mellem forskellige observationer. Disse sammen-hænge

2. LINEÆR REGRESSION MED 3 VARIABLE

Figur 2: Plot af data punker samt planen z = −850x+ 0,50y + 8500

Opgave 2.2

Betragt forskriften

z = −835,722x+ 0,592228y + 8536,214

Hvor z er antal enheder solgt, x er prisen, og y er reklamebudgettet.

Hvor mange enheder kan virksomheden forvente at sælge, hvis prisen på et nyt produktsættes til 3 kroner, og reklamebudgettet til 2500?

Opgave 2.3

Betragt igen forskriften

z = −835,722x+ 0,592228y + 8536,214

Hvor z er antal enheder solgt, x er prisen, og y er reklamebudgettet.

For et nyt produkt er reklamebudgettet fastlagt til maksimalt 5000. Hvad skal prisen værefor at maksimere den forventelige indkomst?

6

Page 7: DTU Challenge - Multiple Regression · 2018-06-29 · DTU Challenge - Multiple Regression Vi er ofte interesseret i at se sammenhænge mellem forskellige observationer. Disse sammen-hænge

3. MULTIVARIABEL LINEÆR REGRESSION

Teorien her kan udvides med �ere beskrivende variable. For eksempel kunne det være atantallet af solgte enheder afhang af prisen, reklame i aviser og online reklamebudget. Teorien kanlet udvides til at gælde for et vilkårligt antal dimensioner. Hvis vi betragter n dimensioner kanvi opskrive ligningen

y = α1x1 + α2x2 + . . . αnxn + β

Hvor x'erne er variablene, α'erne er deres koe�cienter og β beskriver skæring med y aksen. Forat �nde værdierne for α'erne er og β kan vi opstille følgende ligninger

y1 = α1x11 + α2x12 + . . .+ αnx1n + β + ε1

y2 = α1x21 + α2x22 + . . .+ αnx2n + β + ε2

...

ym = α1xm1 + α2xm2 + . . .+ αnxmn + β + εm

Hvor m er antallet af datapunkter. Vi antager her at x-variablene er uafhængige af hinanden.SSE kan nu udregnes tilsvarende som før. Hvor vi i eksemplet fra tidligere havde to ligningermed to ubekendte efter partiel di�erentation, får vi nu m ligninger med n+ 1 ubekendte (α'erneog β).

Modul 3: Multivariabel lineær regression

Multivariabel lineær regression har mange styrker, men for at vurdere om det er det rette værktøjtil en given problemstilling, er det vigtigt at kende dets begrænsninger, og hvilke antagelser dermå tages før det kan anvendes.

Antagelser:

• Det antages at der er en lineær sammenhæng mellem den afhængige variabel (i foregåendeeksempel; Enheder solgt) og de uafhængige variable (Pris og reklamebudget)

• De uafhængige variable er uafhængige af hinanden.

• Variablene i modellen optræder udelukkende i første potens, og multipliceres ikke medhinanden. Modellen er altså lineær.

Grundstenen i en multivariabel lineær regression er et valg af et sæt beskrivende variable,der beskriver den afhængige variable, herved forstås en model. Et valg af andre variable giverdermed en anden model.

Opgave 3.1

Vi begynder nu at kigge på challenge casen. Hvilken model (og data) kan bruges til atbeskrive antallet af passagerer på buslinjen 7B i København?

Når man vælger en model, er det vigtigt at overveje, om modellen passer og giver mening.Tilføjelsen af ekstra uafhængige variable vil altid resultere i en højere r2 værdi. Derfor kan til-føjelsen af for mange uafhængige variable uden teoretisk begrundelse resultere i en model, derer over�ttet. I det meste data er der en naturlig variation (støj), denne underliggende variationønsker man ikke at repræsentere i en model. Man siger derfor at en model er over�ttet, hvis

7

Page 8: DTU Challenge - Multiple Regression · 2018-06-29 · DTU Challenge - Multiple Regression Vi er ofte interesseret i at se sammenhænge mellem forskellige observationer. Disse sammen-hænge

3. MULTIVARIABEL LINEÆR REGRESSION

den svarer for præcist til et datasæt, og en over�ttet model vil derfor ikke kunne give pålideligeestimater på fremtidige observationer. Derfor er det ikke tilstrækkeligt at kigge på SSE for atvurdere om en model er bedre end en anden. I stedet måles en models kvalitets ved, hvor godden er til at forudsige kommende data. Til dette deler man normal vis sit datasæt op i to; ettræningssæt og et testsæt.

Træningssæt:

Træningsdatasættet anvendes til at �tte parametrene i modellen, og træne din model.

Testsæt:

Efter modellen er �ttet, skal den 'møde virkeligheden', og ved at anvende modellen på testsættetkan det måles, hvor meget de estimerede værdier afviger fra de rent faktiske observerede værdier.

Den mest simple måde at opdele det fulde datasæt i et træningssæt og et testsæt er at holdenoget data skjult under træningsprocessen, og derefter evaluere modellen på baggrund af detskjulte data. Normalvis bruges en fordeling af data på 70%/30% træning/test. Det er dog vigtigtat data udvælges på en sådan måde at træningssættet giver et repræsentativt billede af det fuldedata. Typisk opnås dette ved at udvælge data tilfældigt.

En anden vigtig ting at vide om multivariable lineær regression er, hvordan kategoriske va-riable skal håndteres. En kategorisk variabel er en variabel, som kun kan antage et fast antalmulige værdier. I 7B casen kan eksempler på kategoriseret data for eksempel være dag (som kunkan være en af værdierne mandag til søndag) og tidspunkt (som kun kan være et tidpunkt iløbet af et døgn fra 00:00 til 23:59). Som eksempel herpå, lad os kigge på Tabel 3, der beskriverantallet af brugere af 7B over en uge.

Tabel 3: Eksmepel med kategorisk data

Data punkt Antal brugere (y) Dag (x)1 15863 Mandag2 14682 Tirsdag3 15247 Onsdag4 14953 Torsdag5 13952 Fredag6 8523 Lørdag7 7569 Søndag

Her er variablen 'dag' en kategoriseret variable, som ikke lige umiddelbart er klar til indsæt-telse i en model. Før det kan bruges skal dagene omsættes til numeriske værdier. Til dette kander laves 7 nye variable, en for mandag, en for tirsdag osv. Disse variable kan nu bruges til atbeskrive hvilken dag det er. For hvert datapunkt vil netop én af disse variable have værdien 1,resten vil være 0. Altså, vil ovenstående eksempel skrives på som vist i Tabel 4

Tabel 4: Samme data som i Tabel 3, men uden kategoriske variable

Data punkt Antal brugere (y) Mandag (x1) Tirsdag (x2) Onsdag (x3) Torsdag (x4) Fredag (x5) Lørdag (x6) Søndag (x7)1 15863 1 0 0 0 0 0 02 14682 0 1 0 0 0 0 03 15247 0 0 1 0 0 0 04 14953 0 0 0 1 0 0 05 13952 0 0 0 0 1 0 06 8523 0 0 0 0 0 1 07 7569 0 0 0 0 0 0 1

8

Page 9: DTU Challenge - Multiple Regression · 2018-06-29 · DTU Challenge - Multiple Regression Vi er ofte interesseret i at se sammenhænge mellem forskellige observationer. Disse sammen-hænge

3. MULTIVARIABEL LINEÆR REGRESSION

Dette giver anledning til følgende model

y = α1x1 + α2x2 + α3x3 + α4x4 + α5x5 + α6x6 + α7x7 + β

På denne måde vil man vha. de forskellige α'er kunne beskrive daglige udsving i antal brugere.Da variablene x2 til x7 er 0 for det første datapunkt vil dette altså kunne skrives som

y1 = α1x1 + β + ε1

Opgave 3.2

Tabel 5 viser antallet af brugere af 7B på forskellige tidsrum i løbet af en eftermiddag.Omskriv dette datasæt således, at det ikke bruger kategoriseret variable.

Tabel 5: Data for Opgave 3.2

Data punkt Antal brugere (y) Tidsrum1 839 12:00-12:592 884 13:00-13:593 1151 14:00-14:594 1683 15:00-15:595 1720 16:00-16:596 1379 17:00-17:59

Opgave 3.3

Tabel 6 viser antallet af brugere af 7B på forskellige tidsrum over forskellige dage. Omskrivdette datasæt således, at det ikke bruger kategoriseret variable.

Tabel 6: Data for Opgave 3.3

Data punkt Antal brugere (y) Tidsrum Dag1 839 12:00-12:59 Mandag2 884 13:00-13:59 Mandag3 1151 14:00-14:59 Mandag4 1683 15:00-15:59 Mandag5 1720 16:00-16:59 Mandag6 1379 17:00-17:59 Mandag7 789 12:00-12:59 Tirsdag8 820 13:00-13:59 Tirsdag9 1106 14:00-14:59 Tirsdag10 1589 15:00-15:59 Tirsdag11 1676 16:00-16:59 Tirsdag12 1246 17:00-17:59 Tirsdag

9

Page 10: DTU Challenge - Multiple Regression · 2018-06-29 · DTU Challenge - Multiple Regression Vi er ofte interesseret i at se sammenhænge mellem forskellige observationer. Disse sammen-hænge

4. INTRODUKTION TIL SMART MOBILITY DATA TOOL

Modul 4: Introduktion til Smart Mobility Data Tool

Vi vil i dette modul introducere værktøjet, som er tiltænkt til brug under udførelsen af casen.Vi vil give en introduktion til værktøjet, samt gå igennem eksempler der viser brugen af værktøjet.

Vi fortsætter med at se på antal passagerer på buslinjen 7B i København over �ere måneder,samt antal hverdage og weekender. Se Tabel 7.

Tabel 7: Data for 7B

Måned (x) Antal uge dage (x2) Antal weekend dage (x3) Passagerer (y)1 21 10 3729282 21 9 3261683 21 10 3688094 23 8 3950925 22 9 4024276 22 9 4391487 22 8 4365948 19 12 4544909 22 9 44861610 20 8 452250

I Tabel 7 vil x1 variablen fange den langsomt voksende trend der er i dataen, og x2 og x3 vilfange variationen, der er i forbindelse med antal ugedage og weekenddage. Herved fås følgendemodel

y = α1x1 + α2x2 + α3x3 + β

For at estimere denne model bruges Smart Mobility Data Tool. Hent de to datasæt train-mini.csvsamt test-mini.csv, gå herefter ind på internetsiden https://man-vm-datachal1.win.dtu.dk/datachal2018.Følg herefter nedenstående steps

1. Under Browse vælges training �len

2. Modellen bestemmes under ChooseColumns. Her vælges det hvilke kolon-ner (variable) der skal med i modellen.For dette eksempel vælges alle kolon-ner undtagen CheckIn.

3. Tryk nu på Estimate Linear Model

4. For nu at teste modellen på rigtigtog ukendt data, indlæses �len test-mini.csv

5. Tryk nu på knappen Predict

Den første del af outputtet er vist i Figur 3. Øverst ses først et mål for den absolutte gen-nemsnitlige fejl (Train Score (MAE) � Mean Absolute Error) på træningsdataen. Herefter vises

10

Page 11: DTU Challenge - Multiple Regression · 2018-06-29 · DTU Challenge - Multiple Regression Vi er ofte interesseret i at se sammenhænge mellem forskellige observationer. Disse sammen-hænge

4. INTRODUKTION TIL SMART MOBILITY DATA TOOL

eksempel på træningsdataen. Dette indeholder et plot af target værdierne (sort linje), samt de afmodellen estimerede værdier (rød linje). Tabellen nedunder viser et udsnit af det samme data.Outputtet fra modelestimatet ses under Estimated Model Parameters - Vist i Figur 4.

Figur 3: Den første del af outputtet fra Smart Mobility Data Tool

Figur 4: Den anden del af outputtet fra Smart Mobility Data Tool

De værdier der minimerer SSE kan nu a�æses under Estimate, og det ses at værdierne er

α1 = 14632, α2 = 11509, α3 = 11557, β = −21138

Yderligere ses det at r2 = 0.8767.Til sidst i outputtet (Figur 5) ses modelprædiktionerne på testdatasættet)

11

Page 12: DTU Challenge - Multiple Regression · 2018-06-29 · DTU Challenge - Multiple Regression Vi er ofte interesseret i at se sammenhænge mellem forskellige observationer. Disse sammen-hænge

4. INTRODUKTION TIL SMART MOBILITY DATA TOOL

Figur 5: Den anden del af outputtet fra Smart Mobility Data Tool

Opgave 4.1

Betragt det samme datasæt. Hvis vi istedet kun tager måneden samt antal hverdage imåneden fås modellen

y = α1x1 + α2x2 + β

Estimér nu denne model vha. Smart Mobility Data Tool. Hvilken af disse modeller erbedst til at forudsige kommende observationer?

Vi introducerer nu Smart Mobility Challenge datasættet. Dette datasæt indeholder data fraoktober 2016 til og med februar 2018. Hver række beskriver et enkelt data punkt. For hver datapunkt haves følgende informationer.

• Date (x1): Datoen

• Day (x2): Hvilken dag på ugen det er

• DayType (x3): Om det er hverdag, weekend, jul, påske eller skoleferie

• StattutoryHoliday (x4): Om det er en helligdag.

• Hour (x5): Hvilken time på døgnet det er. 1H svarer til 01:00 � 01:59.

• Temperature (x6): Den gennemsnitlige temperatur i Københavns-området i den pågæl-dende time.

• WindSpeedMS (x7): Den gennemsnitlige vindhastighed i Københavns-området i den på-gældende time

• Condition (x8): Vejrforholdet; om det er klart, skyet, regnvejr eller snevejr.

• TotalPassengerCount (y): Antallet af passagere der er checket på 7B i den pågældendetime.

I Smart Mobility Challenge skal du lave en model, der kan bruges til at forudsige antallet afpassagere der checker ind på buslinje 7B i en given time (antaget at alle vejrforholdende erkendte). Der haves data fra Oktober 2016 til og med Februar 2018. Efter a�evering af modellentestes det hvor god den er til at estimerer antallet af passagere på 7B i marts 2018.

Som der er gjort i ovenstående eksempel, anbefales det at det fulde datasæt deles op i ettestsæt og et træningssæt.

12