Regressiodiagnostiikka - Aalto

TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseenRegressiodiagnostiikka

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikkaPoikkeavat havainnotRegressiokertoimien vakioisuusMultikollineaarisuusHomoskedastisuus ja heteroskedastisuusAutokorrelaatioNormaalisuusMallin ennustuskyky

Regressiodiagnostiikka

Regressiodiagnostiikka:Mitä opimme? – 1/2

• Regressiomallien soveltamisen pääkysymys on seuraava:Kuvaako selitettävän muuttujan ja selittäjien väliselle tilastolliselle riippuvuudelle täsmennetty regressiomalli riippuvuutta oikein?

• Ns. standardioletukset takaavat sen, että pienimmän neliösumman menetelmä tuottaa regressioparametreille optimaaliset estimaattorit.

• Jos ns. standardioletukset eivät päde, pienimmän neliösumman menetelmä ei välttämättä ole optimaalinen.

• Regressiodiagnostiikassa estimoituun regressiomalliin kohdistetaan diagnostisia testejä, joilla pyritään selvittämään pätevätkö mallista tehdyt standardioletukset.

• Jos diagnostiset testi osoittavat, että regressiomalli on täsmennetty väärin, voidaan mallia pyrkiä korjaamaan niin, että se kuvaisi paremmin selitettävä muuttujan ja selittäjien välistä tilastollista riippuvuutta.

Regressiodiagnostiikka:Mitä opimme? – 2/2

• Tässä luvussa tarkastellaan seuraavia regressiodiagnostiikan kohtia:– Regressiografiikan käyttö regressiodiagnostiikassa– Poikkeavat havainnot ja niiden tunnistaminen– Regressiokertoimien vakioisuuden testaaminen– Selittäjien multikollineaarisuuden vaikutukset ja mittaaminen– Mallin jäännöstermin homoskedastisuus ja heteroskedastisuus– Mallin jäännöstermin korreloituneisuus– Mallin jäännöstermin normaalisuus– Mallin ennustuskyky

Regressiodiagnostiikka:Esitiedot

• Esitiedot: ks. seuraavia lukuja:Yleinen lineaarinen malli

Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumatMoniulotteisia todennäköisyysjakaumia

Regressiodiagnostiikka:Lisätiedot

• Yleisen lineaarisen mallin soveltamisen erityiskysymyksiä käsitellään myös luvuissa

Regressiomallin valintaRegressioanalyysin erityiskysymyksiä

>> Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikkaPoikkeavat havainnotRegressiokertoimien vakioisuusMultikollineaarisuusHomoskedastisuus ja heteroskedastisuusAutokorrelaatioNormaalisuusMallin ennustuskyky

AvainsanatDeterministinen malliHeteroskedastisuusHomoskedastisuusJäännöstermiKorrelaatioNormaalisuusLineaarinen regressiomalliMallin ennustuskykyMallin spesifiointiMallin täsmentäminenMultikollineaarisuusPienimmän neliösumman

menetelmäPoikkeava havaintoRakenneosa

Yleinen lineaarinen malli ja regressiodiagnostiikka

RegressioanalyysiRegressiodiagnostiikkaRegressiofunktioRegressiokerroinRegressiomalliSatunnainen osaSelitettävä muuttujaSelittäjien valintaSelittäminenSelittävä muuttujaSpesifiointivirheStandardioletusSystemaattinen osaTilastollinen riippuvuusVakioparametrisuusoletus

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallit selitysmalleina

• Oletetaan, että tavoitteena on selittää selitettävän muuttujan y havaittujen arvojen vaihtelu selittävien muuttujien eli selittäjien x1, x2, … , xk havaittujen arvojen vaihtelun avulla.

• Sitä varten selitettävän muuttujan y tilastolliselle riippuvuudelle selittäjistä x1, x2, … , xk pyritään rakentamaan tilastollinen malli, jota kutsutaan regressiomalliksi.

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallien yleinen muoto 1/3

• Olkoon

selitettävän muuttujan y regressiomalli selittäjien x1, x2, … , xk suhteen.

• Tällöinyj = selitettävän muuttujan y satunnainen ja

havaittu arvo havaintoyksikössä jxji = selittävän muuttujan xi havaittu arvo

havaintoyksikössä j, i = 1, 2, … , kεj = satunnainen ja ei-havaittu jäännös- eli

virhetermi havaintoyksikössä j

1 2( , , , ; ) , 1,2, ,j j j jk jy f x x x j nε= + =β… …

• Regressiomallissa

selittäjien x1, x2, … , xk havaittujen arvojen funktio

muodostaa mallin systemaattisen osan eli rakenneosanja jäännöstermi

muodostaa mallin satunnaisen osan.• Mallin systemaattinen osa kuvaa selitettävän muuttujan y

tilastollista riippuvuutta selittäjistä x1, x2, … , xk.

1 2( , , , ; )j j jkf x x x β…

• Regressiomallissa

mallin systemaattisen osan määräävä funktio

riippuu parametristaβ = (β1, β2, … , βp)

joka tarkemmin määrää funktion f muodon.• Huomautus:

Tavallisesti parametrin β arvo on tuntematon ja on siksi estimoitava havainnoista.

1 2( , , , ; )j j jkf x x x β…

Yleinen lineaarinen malli ja regressiodiagnostiikka Onko malli oikea ja onko malli hyvä?

• Regressioanalyysin peruskysymykset:(i) Kuvaako malli selitettävän muuttujan ja selittäjien

välistä riippuvuutta sisällöllisesti oikein? Kysymys 1 ei ole tilastotieteellinen ja siihenvastaaminen vaatii tutkittavaa ilmiötä kuvaavan taustateorian tuntemusta.

(ii) Kuvaako malli selitettävän muuttujan ja selittäjien välistä riippuvuutta tilastollisesti oikein?Kysymys 2 on tilastotieteellinen ja siihen voidaan pyrkiä vastaamaan tilastotieteen keinoin.

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiomallin hyvyys ja regressiodiagnostiikka 1/2

• Regressiomallia pidetään tilastollisesti oikeana, jos mallista saadut estimointitulokset ovat sopusoinnussa mallia koskevien oletuksien kanssa.

• Siksi regressiomallia koskevien oletuksien tarkistaminenmuodostaa keskeisen osan regressioanalyysin soveltamista.

• Regressiomallia koskevien oletuksien tarkistamista on tapana kutsua regressiodiagnostiikaksi.

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiomallin hyvyys ja regressiodiagnostiikka 2/2

• Regressiodiagnostiikassa käytetään seuraavia menetelmiä:– Estimoinnin onnistumista havainnollistetaan

tilastografiikalla.– Estimoinnin onnistumista kuvataan

diagnostisilla tunnusluvuilla.– Mallia koskevia oletuksia testataan

diagnostisilla testeillä.

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiomallin spesifiointi eli täsmentäminen 1/2

• Tilastollisen mallin muodon ja mallia koskevien oletuksienmäärittelemistä kutsutaan mallin spesifioinniksi eli täsmentämiseksi.

• Määriteltyä mallia kutsutaan spesifikaatioksi tai täsmennykseksi.

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiomallin spesifiointi eli täsmentäminen 2/2

• Regressiomallin spesifioiminen tarkoittaa seuraavien valintojen tekemistä:(i) Mallin selitettävän muuttujan ja selittäjien valinta.(ii) Mallin systemaattisen eli rakenneosan funktionaalisen

muodon ja parametroinnin valinta.(iii) Mallin selitettävän muuttujan ja selittäjien

funktionaalisen muodon valinta.(iv) Mallin jäännöstermiä koskevien stokastisten

oletuksien valinta.

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiomallin täsmentäminen:Kommentteja

• Valinnat (i)-(iii) liittyvät regressiomallin rakenneosan spesifiointiin.

• Valinta (iv) liittyy regressiomallin jäännöstermin spesifiointiin.

• Huomautus:Valinnat (i)-(iv) eivät ole toisistaan riippumattomia.

Yleinen lineaarinen malli ja regressiodiagnostiikkaLineaariset regressiomallit

• Olkoon selitettävän muuttujan y regressiomalli selittäjien x1, x2, … , xk suhteen muotoa

• Tällöin malli on lineaarinen sekä parametrien (regressio-kertoimien) β0, β1, β2, … , βk että selittäjien x1, x2, … , xksuhteen ja sitä kutsutaan yleiseksi lineaariseksi malliksi.

0 1 1 2 2 , 1,2, ,j j j k jk jy x x x j nβ β β β ε= + + + + + = …

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Määritelmä

• Olkoon

yleinen lineaarinen malli, jossayj = selitettävän muuttujan y satunnainen ja

havaittu arvo havaintoyksikössä jxji = selittävän muuttujan eli selittäjän xi havaittu

arvo havaintoyksikössä j , i = 1, 2, … , kβ0 = vakioselittäjän tuntematon regressiokerroinβi = selittäjän xi tuntematon regressiokerroinεj = satunnainen ja ei-havaittu jäännös- eli

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli:Matriisiesitys

• Yleinen lineaarinen malli voidaan esittää matriiseinmuodossa

jossay = selitettävän muuttujan y havaittujen arvojen

muodostama satunnainen n-vektoriX = selittäjien x1, x2, … , xk havaittujen arvojen

ja ykkösten muodostama n×(k + 1)-matriisiβ = regressiokertoimien muodostama tuntematon

ja kiinteä eli ei-satunnainen (k + 1)-vektoriε = jäännöstermien muodostama ei-havaittu ja

satunnainen n-vektori

+y = Xβ ε

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Standardioletukset kiinteille selittäjille

• Jos yleisen lineaarisen mallin selittäjät x1, x2, … , xk ovat kiinteitä eli ei-satunnaisia muuttujia, mallia koskevat standardioletukset voidaan esittää matriisein seuraavassa muodossa:(i) Matriisin X alkiot ovat ei-satunnaisia vakioita.(ii) Matriisi X on täysiasteinen: r(X) = k + 1(iii) E(ε) = 0(iv)&(v) Homoskedastisuus- ja korreloimattomuusoletus:

Cov(ε) = σ2I(vi) Normaalisuusoletus:

ε ∼ Nn(0, σ2I)

+y = Xβ ε

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Standardioletukset satunnaisille selittäjille

• Jos yleisen lineaarisen mallin selittäjät x1, x2, … , xk ovat satunnaismuuttujia, mallia koskevat standardioletukset voidaan esittää matriisein seuraavassa muodossa:(i)´ Matriisin X alkiot ovat satunnaismuuttujia.(ii)´ Matriisi X on täysiasteinen: r(X) = k + 1(iii)´ E(ε | X) = 0(iv)´&(v)´ Homoskedastisuus- ja korreloimattomuusoletus:

Cov(ε | X) = σ2I(vi)´ Normaalisuusoletus:

(ε | X) ∼ Nn(0, σ2I)

+y = Xβ ε

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Rakenneosa ja jäännösosa

• Yleisessä lineaarisessa mallissa

selitettävä muuttujan arvojen vektori y on esitetty kahden osatekijän summana.

• Mallin systemaattinen eli rakenneosa

riippuu selittäjien havaituista arvoista.• Jäännöstermi ε muodostaa mallin satunnaisen osan, joka

ei riipu selittäjien havaituista arvoista.

= +y Xβ ε

E( ) =y X Xβ

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Regressiokertoimien PNS-estimointi 1/2

• Yleisen lineaarisen mallin

regressiokertoimienβ0, β1, β2, … , βk

PNS- eli pienimmän neliösumman estimaattoritb0, b1, b2, … , bk

minimoivat jäännös- eli virhetermien εj neliösumman

kertoimien β0, β1, β2, … , βk suhteen.

2 20 1 1 2 2

1 1( )

j j j j k jkj j

y x x xε β β β β= =

= − − − − −∑ ∑

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Regressiokertoimien PNS-estimointi 2/2

regressiokertoimien vektorin β = (β0, β1, β2, … , βk)

PNS-estimaattori voidaan esittää matriisein muodossa

= +y Xβ ε

1( )−′ ′=b X X X y

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:PNS-estimaattorin ominaisuudet

regressiokertoimien vektorin β PNS-estimaattorilla

on standardioletuksien (i)-(vi) pätiessä seuraavat stokastiset ominaisuudet:

= +y Xβ ε

1( )−′ ′=b X X X y

E( )Cov( ) ( )

N ( , ( ) )k

b βb X X

b β X X∼

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Sovitteet ja residuaalit 1/2

• Olkoonb = (b0, b1, b2, … , bk)

regressiokertoimien vektorinβ = (β0, β1, β2, … , βk)

PNS-estimaattori.• Määritellään estimoidun mallin sovitteet kaavalla

• Määritellään estimoidun mallin residuaalit ej kaavalla0 1 1 2 2 , 1,2, ,ˆ j j j k jky b b x b x b x j n= + + + + = …

0 1 1 2 2

ˆ, 1,2, ,

j j j k jk

y b b x b x b x j n

= − − − − − = …

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Sovitteet ja residuaalit 2/2

• Sovitteiden muodostama n-vektori voidaan esittäämatriisein muodossa

• Residuaalien muodostama n-vektori voidaan esittäämatriisein muodossa

• Huomautus:Koska residuaalit kuvaavat estimoidun regressiomallin ja havaintoarvojen yhteensopivuutta, monet regressiodiagnostiikan menetelmistä perustuvat estimoidun regressiomallin residuaaleihin tai niiden muunnoksiin.

1ˆ ( )−′ ′= = =y Xb X X X X y Py

1ˆ ( ( ) ) ( )−′ ′= − = − = − =e y y I X X X X y I P y My

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Sovitteiden ja residuaalien ominaisuudet

• Sovitteiden muodostamalla n-vektorilla on seuraavat stokastiset ominaisuudet :

• Residuaalien muodostamalla n-vektorilla e on seuraavat stokastiset ominaisuudet :

• Huomautus:Yllä olevan mukaan residuaalit ej ovat yleensä sekäheteroskedastisia että korreloituneita, vaikka jäännöstermit εj on oletettu homoskedastisiksi ja korreloimattomiksi.

ˆE( )ˆCov( ) ( )σ σ −

′ ′= =

y Xβy P X X X X

2 2 2 1

E( )Cov( ) ( ) ( ( ) )σ σ σ −

′ ′= = − = −

e 0e M I P I X X X X

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Projektiomatriisit P ja M

• Matriisit

ovat symmetrisiä ja idempotentteja eli projektioita:

• LisäksiPM = MP = 0

• Matriisia P kutsutaan regressiodiagnostiikassa usein hattumatriisiksi.

( )( )

′ ′=

′ ′= − = −

P X X X XM I P I X X X X

′ = =

P P P PM M M M

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli:Jäännösvarianssin estimointi

• Yleisen lineaarisen mallin jäännöstermien εj varianssin eli jäännösvarianssin σ2 harhaton estimaattori on

jossaej = estimoidun mallin residuaali, j = 1, 2, … , nn = havaintojen lukumääräk = (aitojen) selittäjien xi lukumäärä

s en k =

=− − ∑

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Mallin spesifiointi

• Yleistä lineaarista mallia

sovellettaessa pääkiinnostus kohdistuu mallin systemaattisen osan eli rakenneosan

oikeaan spesifiointiin eli täsmentämiseen, koska juuri mallin rakenneosa kuvaa selitettävän muuttujan yriippuvuutta selittäjistä x1, x2, … , xk .

• Virheet mallin rakenneosan spesifioinnissa johtavat virheellisiin johtopäätöksiin selitettävän muuttujan ja selittäjien välisestä riippuvuudesta.

= +y Xβ ε

E( ) =y X Xβ

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Spesifiointivirheet mallin rakenneosassa 1/3

• Spesifiointivirheitä lineaarisen mallin rakenneosassa:(i) Sovelletaan lineaarista mallia, vaikka selitettävän

muuttujan y riippuvuus selittäjistä x1, x2, … , xk ei ole lineaarista.

(ii) Mallissa on väärät selittäjät:– Mallista puuttuu selittäjiä.– Mallissa on liikaa selittäjiä.

(iii) Selitettävä muuttuja ja/tai selittäjät ovat mallissa väärässä funktionaalisessa muodossa.

(iv) Oletetaan virheellisesti, että regressiokertoimet ovat vakioita.

• Kommentteja kohtiin (i)-(iv):(i) Epälineaaristen regressiomallien käsittely

sivuutetaan tässä esityksessä.(ii) Selittäjien valinta on regressioanalyysin keskeisiä

– ja vaikeimpia – ongelmia.Ks. lukua Regressiomallin valinta.

(iii) Sopiva selitettävän muuttujan ja/tai selittäjien muunnos saattaa linearisoida selitettävän muuttujan ja selittäjien epälineaarisen riippuvuuden. Ks. lukua Regressiomallin valinta.

(iv) Parametrien vakioisuutta on mahdollista testata.Ks. kappaletta Parametrien vakioisuus.

• Vain huolellinen perehtyminen tutkittavan ilmiön taustateoriaan mahdollistaa regressiomallin rakenneosan spesifioinnin oikein.

• Spesifiointivirheet regressiomallin rakenneosassa tulevat tavallisesti esiin estimoidun mallinresiduaaleissa.

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Mallin jäännöstermin spesifiointi

• Vaikka yleistä lineaarista mallia

sovellettaessa pääasiallinen kiinnostus kohdistuu mallin systemaattisen osan eli rakenneosan

oikeaan spesifiointiin, on syytä huomata, että mallin jäännöstermille

εvalittu spesifikaatio eli täsmennys vaikuttaa sekäestimointimenetelmän valintaan että mallista tehtävään tilastolliseen päättelyyn.

= +y Xβ ε

E( ) =y X Xβ

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Spesifiointivirheet mallin jäännöstermissä 1/3

• Spesifiointivirheitä lineaarisen mallin jäännöstermissä:(i) Oletetaan virheellisesti, että jäännöstermi ε on

homoskedastinen ja korreloimaton.(ii) Oletetaan virheellisesti, että jäännöstermi ε on

normaalinen.

• Kommentteja kohtiin (i)-(ii):(i) Jos jäännöstermiä koskeva homoskedastisuus-

tai korreloimattomuusoletus ei päde, regressio-kertoimien PNS-estimaattorit eivät ole parhaitaGaussin ja Markovin lauseen mielessä.Ks. lukua Regressiomallin erityiskysymyksiä.

(ii) Jos jäännöstermiä koskeva normaalisuusoletus ei päde, t- ja F-jakaumiin perustuva tilastolliset testit eivät välttämättä ole päteviä.

• Spesifiointivirheet regressiomallin jäännöstermissänäkyvät tavallisesti estimoidun mallin residuaaleissa.

• Estimoidun mallin residuaaleissa havaittu hetero-skedastisuus, korreloituneisuus tai epänormaalisuus ei kuitenkaan välttämättä merkitse sitä, että mallin jäännöstermi on spesifioitu väärin.

• Residuaalien heteroskedastisuus, korreloituneisuus tai epänormaalisuus saattavat indikoida myös sitä, ettämallin rakenneosa on spesifioitu väärin.

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Spesifiointivirheiden vaikutukset

• Regressioanalyysissa pääkiinnostus kohdistuu oikean spesifikaation löytämiseen regressiomallin systemaattiselle osalle eli rakenneosalle, koska juuri rakenneosa kuvaa selitettävän muuttujan riippuvuutta selittäjistä.

• Regressiomallin jäännöstermin spesifikaatio vaikuttaa kuitenkin voimakkaasti sekä mallin estimointiin ettätestaukseen.

• Sekä regressiomallin rakenneosan että jäännöstermin virheellinen spesifiointi näkyy tavallisesti estimoidun mallin residuaaleissa.

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Diagnostiset tarkistukset

• Regressiomalli on aina syytä alistaa seuraavien diagnostisten tarkistusten kohteeksi:(i) Onko havaintojen joukossa regressioanalyysin

tuloksia vääristäviä poikkeavia havaintoja?(ii) Ovatko regressiokertoimet vakioita?(iii) Ovatko selittäjät itsenäisiä?(iv) Ovatko mallin jäännöstermit homoskedastisia?(v) Ovatko mallin jäännöstermit korreloimattomia?(vi) Ovatko mallin jäännöstermit normaalisia?

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Mallin ennustuskyvyn arviointi

• On syytä muistaa, että voimakkain testi tieteelliselle selitysmallille on sen kyky ennustaa.

• Siksi regressiomalleja sovellettaessa on aina syytä testata mallin ennustuskykyä tavanomaisten diagnostisten tarkistusten lisäksi.

Yleinen lineaarinen malli ja regressiodiagnostiikka>> Regressiografiikka

Poikkeavat havainnotParametrien vakioisuusMultikollineaarisuusHomoskedastisuus ja heteroskedastisuusAutokorrelaatioNormaalisuusMallin ennustuskyky

AvainsanatAikasarjadiagrammiHeteroskedastisuusHomoskedastisuusJäännöstermiKorrelaatioLineaarinen regressiomalliPistediagrammiRakenneosaRegressiografiikkaResiduaaliResiduaalidiagrammiSatunnainen osaSelitysasteSoviteSystemaattinen osa

Regressiografiikka

RegressiografiikkaRegressiomallin hyvyys ja regressiografiikka

• Regressiomallin hyvyyttä voidaan tutkia mallista saatuja estimointituloksia havainnollistavien graafisten esitystenavulla.

• Regressiografiikan standardikuviot:(i) Kuviot, joiden avulla estimoidun mallin sovitteita

verrataan selitettävän muuttujan havaittuihin arvoihin.

(ii) Kuviot, joiden avulla havainnollistetaan estimoidun mallin residuaaleja.

RegressiografiikkaSovitteiden tutkiminen:Pistediagrammien käyttö 1/2

• Regressiomallin spesifikaation hyvyyttä voidaan tutkia vertaamalla estimoidun mallin sovitteita selitettävän muuttujan havaittuihin arvoihin piirtämällä niiden riippuvuutta havainnollistava pistediagrammi:Piirretään sovitteet selitettävän muuttujan havaittuja arvoja vastaan eli esitetään lukuparit

pisteinä avaruudessa .ˆ( , ) , 1,2, ,j jy y j n= …

RegressiografiikkaSovitteiden tutkiminen:Pistediagrammien käyttö 2/2

• Regressiomalli on sitä parempi mitä lähempänä pisteet

ovat suoraa, jonka kulmakerroin = 1.• Pisteiden muodostaman pistepilven

tai -parven käyristyminen viittaa regressiomallin rakenne-osan väärään spesifikaatioon eli täsmennykseen.

• Poikkeavat havainnot erottuvat tavallisesti ”kaukana” em. suorasta olevina pisteinä.

ˆ( , ) , 1,2, ,j jy y j n= …

RegressiografiikkaSovitteiden tutkiminen:Mallin hyvyyden mittaaminen

• Regressiomallin hyvyyden mittarina voidaan käyttää selitettävän muuttujan y havaittujen arvojen yj ja estimoidun mallin sovitteiden otoskorrelaatiokerrointa

• Jos estimoitu regressiomalli on lineaarinen ja mallissa on vakio,

jossa R2 on estimoidun mallin selitysaste.[ ]2 2ˆCor( , )y y R=

ˆCor( , )y yˆ jy

RegressiografiikkaResiduaalien tutkiminen:Residuaalidiagrammit 1/2

• Regressiomallin spesifikaation hyvyyttä voidaan tutkia piirtämällä estimoidun mallin residuaaleista kuviot, joita kutsutaan residuaalidiagrammeiksi:(i) Piirretään residuaalit sovitteita vastaan eli esitetään

lukuparit

pisteinä avaruudessa .(ii) Piirretään residuaalit eri selittäjien arvoja vastaan eli

esitetään lukuparit

pisteinä avaruudessa .

ˆ( , ) , 1,2, ,j jy e j n= …

( , ) , 1,2, , ; 1,2, ,ji jx e j n i k= =… …

RegressiografiikkaResiduaalien tutkiminen:Residuaalidiagrammit 2/2

• Oikein täsmennetyn regressiomallin residuaali-diagrammeissa pisteet muodostavat vaakatasossa vasemmalta oikealle etenevät tasaleveät pistepilvet tai -parvet, joissa ei näy poikkeavia havaintoja.

• Residuaalidiagrammien pistepilvien käyristyminen viittaa regressiomallin rakenneosan väärään spesifikaatioon elitäsmennykseen:(i) Selitettävän muuttujan riippuvuus selittäjistä ei ole

lineaarista.(ii) Mallissa ei ole oikeita selittäjiä.(iii) Selitettävä muuttuja ja/tai selittäjät eivät ole oikeassa

funktionaalisessa muodossa.TKK (c) Ilkka Mellin (2004) 52

RegressiografiikkaResiduaalien tutkiminen:Heteroskedastisuus

• Jos residuaalidiagrammien pistepilvet tai -parvet eivät ole tasaleveitä (esim. pilvet levenevät oikealle tai vasemmalle), regressiomallin jäännöstermi saattaa olla heteroskedastinen.

• Estimoidun mallin residuaalien heteroskedastisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen.

RegressiografiikkaAikasarjojen regressiomallit

• Aikasarjojen regressiomalleissa oletetaan, että havainnot on järjestetty ajassa niin, että havaintoindeksin

j = 1, 2, … , narvot viittaavat peräkkäisiin ajanhetkiin.

• Huomautus:Aikasarjoissa havaintoindeksinä käytetään usein kirjainta t:

t ← time

RegressiografiikkaAikasarjojen regressiomallit:Sovitteiden ja residuaalien tutkiminen 1/3

• Aikasarjojen regressiomallin spesifikaation hyvyyttätutkitaan tavallisesti piirtämällä seuraavat aikasarja-diagrammit:(i) Piirretään selitettävän muuttujan havaitut arvot

ja estimoidun mallin sovitteet

aikasarjoina samaan kuvioon.(ii) Piirretään estimoidun mallin residuaalit

aikasarjana.

ˆ , 1,2,...,jy j n=

, 1,2,...,jy j n=

, 1,2,...,je j n=

• Aikasarjadiagrammit ovat pistediagrammeja, joissa muuttujan arvot piirretään aikaa vastaan.Tavallisesti peräkkäisiin havaintoihin liittyvät pisteet yhdistetään aikasarjadiagrammissa janalla.

• Siten edellisellä kalvolla mainitut aikasarjadiagrammien piirtäminen merkitsee seuraavien pistediagrammien piirtämistä:(i) Selittettävän muuttujan arvot:

Sovitteet:(ii) Residuaalit:

ˆ( , ) , 1,2,...,jj y j n=( , ) , 1,2,...,jj y j n=

( , ) , 1,2,...,jj e j n=

• Regressiomalli on sitä parempi, mitä lähempänäestimoidun mallin sovitteiden muodostama aikasarja

kulkee selitettävän muuttujan havaittujen arvojen muodostamaa aikasarjaa

tai − mikä on sama asia − mitä pienempiä ovat residuaalit

• Aikasarjadiagrammeista (i) ja (ii) (ks. edelliset kalvot) nähdään minä ajanhetkinä malli selittää selitettävän muuttujan käyttäytymistä hyvin ja minä huonosti.

ˆ , 1,2, ,jy j n= …

, 1,2, ,jy j n= …

, 1,2,...,je j n=

RegressiografiikkaAikasarjojen regressiomallit:Residuaalit ja regressiodiagnostiikka

• Jos residuaaliaikasarjan pistepilvi ei ole tasaleveä (esim. pilvi levenee oikealle tai vasemmalle), regressiomallin jäännöstermi saattaa olla heteroskedastinen.

• Residuaaliaikasarjan heteroskedastisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatiooneli täsmennykseen.

• Jäännöstermin korreloituneisuus tulee esille residuaali-aikasarjan sisäisessä rytmiikassa (autokorrelaatio-rakenteessa).

• Residuaaliaikasarjan korreloituneisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen.

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikka

>> Poikkeavat havainnotParametrien vakioisuusMultikollineaarisuusHomoskedastisuus ja heteroskedastisuusAutokorrelaatioNormaalisuusMallin ennustuskyky

AvainsanatCookin etäisyysHattumatriisiLeverageLineaarinen regressiomalliNormaali havaintoPoikkeava havaintoPoistoresiduaaliResiduaaliResiduaalidiagrammiSoviteStandardoitu poistoresiduaaliStandardoitu residuaaliVipuluku

Poikkeavat havainnot

Poikkeavat havainnotPoikkeavat ja normaalit havainnot

• Poikkeavalla havainnolla (engl. outlier) tarkoitetaan havaintoa, joka eroaa jossakin mielessä merkitsevästi muista havainnoista.

• Tilastollisen analyysin kannalta havaintoa voidaan pitääpoikkeavana, jos se vääristää tilastollisen analyysin tulokset:(i) Jos havainnon poistaminen muuttaa olennaisesti

tilastollisen analyysin tuloksia, havainto on poikkeava.

(ii) Jos havainnon poistaminen ei olennaisesti muutatilastollisen analyysin tuloksia, havainto on normaali.

Poikkeavat havainnotPoikkeavien havaintojen vaikutukset

• Regressioanalyysissa poikkeavat havainnot saattavat aiheuttaa seuraavia vaikeuksia:(i) Mallin valinta vaikeutuu.(ii) Mallin estimointi hankaloituu.(iii) Mallia koskeva tilastollinen päättely saattaa vääristyä.

Poikkeavat havainnotPoikkeavien havaintojen tunnistaminen 1/2

• Regressioanalyysissa poikkeavien havaintojen tunnistamiseen käytetään sekä graafisia menetelmiä ettäerityisesti niiden tunnistamiseen konstruoituja tunnuslukuja.

• Poikkeavat havainnot voidaan usein tunnistaa suoraan residuaalidiagrammeista.

Poikkeavat havainnotPoikkeavien havaintojen tunnistaminen 2/2

• Tässä kappaleessa tarkastellaan seuraavia poikkeavien havaintojen tunnistamiseen tarkoitettuja tunnuslukuja:– Residuaalit– Standardoidut residuaalit– Poistoresiduaalit– Standardoidut poistoresiduaalit– Vipuluvut eli leverage-luvut– Cookin etäisyydet

Poikkeavat havainnot Yleinen lineaarinen malli:Määritelmä

• Olkoon

yleinen lineaarinen malli, jossayj = selitettävän muuttujan y satunnainen ja

havaittu arvo havaintoyksikössä jxji = selittävän muuttujan eli selittäjän xi havaittu

arvo havaintoyksikössä j , i = 1, 2, … , kβ0 = vakioselittäjän tuntematon regressiokerroinβi = selittäjän xi tuntematon regressiokerroinεj = satunnainen ja ei-havaittu jäännös- eli

Poikkeavat havainnotResiduaalit:Määritelmä

• Olkootb0, b1, b2, … , bk

regressiokertoimienβ0, β1, β2, … , βk

PNS-estimaattorit.• Määritellään estimoidun mallin sovitteet kaavalla

• Määritellään estimoidun mallin residuaalit ej kaavalla0 1 1 2 2 , 1,2, ,ˆ j j j k jky b b x b x b x j n= + + + + = …

0 1 1 2 2

ˆ, 1,2, ,

j j j k jk

y b b x b x b x j n

= − − − − − = …

Poikkeavat havainnotResiduaalit:Poikkeavien havaintojen tunnistaminen

• Estimoidun mallin residuaaleja ej voidaan käyttääpoikkeavien havaintojen tunnistamiseen.

• Voimakkaasti muista residuaaleista poikkeavat residuaalitsaattavat viitata poikkeaviin havaintoihin.

Poikkeavat havainnotStandardoidut residuaalit:Määritelmä 1/2

• Koska estimoidun lineaarisen regressiomallin PNS-residuaalit ej ovat yleensä heteroskedastisia, regressio-diagnostiikassa tarkastellaan PNS-residuaalien sijasta usein standardoituja residuaaleja.

• Residuaalin ej , j = 1, 2, … , n varianssi on

on hattumatriisin

j. diagonaalialkio.

2 2D ( ) (1 )j jje hσ= −

[ ]jj jjh = P

1( )−′ ′=P X X X X

Poikkeavat havainnotStandardoidut residuaalit:Määritelmä 2/2

• Standardoidut eli studentisoidut residuaalit Std(ej) , j = 1, 2, … , n saadaan PNS-residuaaleista ej kaavalla

• Standardoidun residuaalin Std(ej) kaavassa

on residuaalin ej varianssin estimaattori, jossa

on jäännösvarianssin σ2 harhaton estimaattori.

Std( )D( )

2 2D ( ) (1 )j jje s h= −

s en k =

=− − ∑

Poikkeavat havainnotStandardoidut residuaalit:Poikkeavien havaintojen tunnistaminen

• Standardoituja residuaaleja Std(ej) voidaan käyttääpoikkeavien havaintojen tunnistamiseen.

• Jos estimoitu regressiomalli on riittävä kuvaamaan kaikkia havaintoja, standardoitujen residuaalien itseisarvot saavat vain pienellä todennäköisyydellä suurempia arvoja kuin2.5-3.

• Lukuarvoja 2.5-3 suuremmat standardoitujen residuaalienitseisarvot saattavat viitata poikkeaviin havaintoihin.

• Standardoitujen residuaalien itseisarvoja voidaan verrata Studentin t-jakaumasta sopivasti valittuun kriittiseen rajaan.

Poikkeavat havainnotPoistoresiduaalit:Määritelmä 1/2

• Poikkeavia havaintoja voidaan etsiä poistoresiduaalienavulla:(i) Estimoidaan malli siten, että havainto j jätetään pois.(ii) Määrätään havaintoa j vastaava poistoresiduaali

selitettävän muuttujan y havaitun arvon yj ja ilman havaintoa j estimoidun mallin muuttujalle y antaman arvon erotuksena (ennustevirheenä).

• Havaintoa j vastaava poistoresiduaali mittaa ilman havaintoa j estimoidun mallin kykyä ennustaa selitettävän muuttujan y arvo havainnossa j.

Poikkeavat havainnotPoistoresiduaalit:Määritelmä 2/2

• Poistoresiduaalit dj , j = 1, 2, … , n saadaan PNS-residuaaleista ej kaavalla

on hattumatriisin

j. diagonaalialkio.

[ ]jj jjh = P

1( )−′ ′=P X X X X

Poikkeavat havainnotStandardoidut poistoresiduaalit:Määritelmä 1/2

• Poistoresiduaalin dj , j = 1, 2, … , n varianssi on

on hattumatriisin

j. diagonaalialkio.

22D ( )

[ ]jj jjh = P

1( )−′ ′=P X X X X

Poikkeavat havainnotStandardoidut poistoresiduaalit:Määritelmä 2/2

• Standardoidut eli studentisoidut poistoresiduaalitStd(dj) , j = 1, 2, … , n saadaan poistoresiduaaleista djkaavalla

on poistoresiduaalin dj varianssin estimaattori, jossa on jäännösvarianssin σ2 harhaton estimaattori mallista, josta havainto j on jätetty pois.

Std( )D( )

2( )2D ( )

−2( )js

Poikkeavat havainnotStandardoidut poistoresiduaalit:Poikkeavien havaintojen tunnistaminen

• Standardoituja poistoresiduaaleja Std(dj) voidaan käyttääpoikkeavien havaintojen tunnistamiseen.

• Jos estimoitu regressiomalli on riittävä kuvaamaan kaikkia havaintoja, standardoitujen poistoresiduaalien itseisarvot saavat vain pienellä todennäköisyydellä suurempia arvojakuin 2.5-3.

• Lukuarvoja 2.5-3 suuremmat standardoitujen poisto-residuaalien itseisarvot saattavat viitata poikkeaviin havaintoihin.

• Standardoitujen poistoresiduaalien itseisarvoja voidaan verrata Studentin t-jakaumasta sopivasti valittuun kriittiseen rajaan.

Poikkeavat havainnotVipuluvut: Määritelmä 1/2

• Poikkeavia havaintoja voidaan etsiä vipulukujen eli leverage-lukujen avulla.

• Havaintoa j vastaava vipuluku (leverage) hjj , j = 1, 2, … , non hattumatriisin

j. diagonaalialkio:

1( )−′ ′=P X X X X

[ ]jj jjh = P

Poikkeavat havainnotVipuluvut: Määritelmä 2/2

• Vipuluvut hjj ovat verrannollisia havaintopisteiden

etäisyyksiin selittävien muuttujien havaintoarvojen aritmeettisten keskiarvojen muodostamasta pisteestä

1 2( , , , )j j jkx x x…

1 2( , , , )kx x x…

Poikkeavat havainnotVipuluvut:Poikkeavien havaintojen tunnistaminen

• Jos havaintoa j vastaava vipuluku (leverage) hjj on selvästi muita suurempi, havainto j on syrjässä selittävien muuttujien muihin havaintoarvoihin nähden.

• Syrjässä olevat havainnot saattavat vääristää regressio-analyysin tulokset.

Poikkeavat havainnotCookin etäisyydet:Määritelmä 1/3

• Poikkeavia havaintoja voidaan etsiä Cookin etäisyyksienavulla:(i) Estimoidaan malli niin, että kaikki havainnot ovat

mukana.Lasketaan estimoidulle mallille sovitteet , l = 1, 2, … , n.

(ii) Estimoidaan malli jättämällä pois havainto j.Lasketaan ilman havaintoa j estimoidun mallin antama arvo kaikille havaintoyksiköille l = 1, 2, … , n.

(iii) Verrataan lukuja ja toisiinsa.

( )ˆl jy

ˆly ( )ˆl jy

• Cookin etäisyydet Dj , j = 1, 2, … , n saadaan kaavalla

on jäännösvarianssin σ2 harhaton estimaattori, joka on määrätty, kun mallin estimoinnissa on käytetty kaikkia havaintoja.

ˆ ˆ( )( 1)

nl l jl

s en k =

=− − ∑

• Cookin etäisyydet Dj , j = 1, 2, … , n voidaan laskea myös kaavalla

jossaStd(ej)

on havaintoa j vastaava standardoitu residuaali ja

on hattumatriisin

j. diagonaalialkio.

[ ]jj jjh = P

1( )−′ ′=P X X X X

Std( )1 1

k h= ⋅

Poikkeavat havainnotCookin etäisyydet:Poikkeavien havaintojen tunnistaminen

• Cookin etäisyyksiä Dj voidaan käyttää poikkeavien havaintojen tunnistamiseen.

• Jos havaintoa j vastaava Cookin etäisyysDj > 1

tai on selvästi muiden havaintojen Cookin etäisyyttäsuurempi, havainto kannattaa ottaa erikoistarkasteluun.

Poikkeavat havainnotTilastografiikan käyttö poikkeavien havaintojen tunnistamisessa 1/2

• Poikkeavien havaintojen tunnistamiseen tarkoitettujen tunnuslukujen käyttöä voidaan usein helpottaa sopivilla graafisilla esityksillä.

• Tällöin käytetyn tunnusluvun havaintokohtaiset arvot Tj , j = 1, 2, … , n

piirretään havaintonumeroa vastaan pistediagrammina(j, Tj) , j = 1, 2, … , n

• Poikkeavat havainnot erottuvat kuviosta tavallisesti helposti.

Poikkeavat havainnotTilastografiikan käyttö poikkeavien havaintojen tunnistamisessa 2/2

• Pistediagrammissa(j, Tj) , j = 1, 2, … , n

tunnusluku Tj voi olla esimerkiksi mikä tahansa seuraavista tunnusluvuista:– Residuaali– Standardoitu residuaali– Poistoresiduaali– Standardoitu poistoresiduaali– Vipuluku– Cookin etäisyys

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikkaPoikkeavat havainnot

>> Parametrien vakioisuusMultikollineaarisuusHomoskedastisuus ja heteroskedastisuusAutokorrelaatioNormaalisuusMallin ennustuskyky

AvainsanatChow-testiEnnustaminenF-testiLineaarinen regressiomalliRegressiokerroinSelitettävä muuttujaSelittävä muuttujaVakioparametrisuusoletus

Parametrien vakioisuus

Parametrien vakioisuusVakioparametrisuusoletusyleisessä lineaarisessa mallissa

• Kun yleinen lineaarinen malli spesifioidaan muodossa

spesifikaatioon sisältyy implisiittisesti seuraava mallin regressiokertoimia koskeva vakioparametrisuusoletus:Regressiokertoimet

β0, β1, β2, … , βk

ovat samat kaikille havainnoille j = 1, 2, … , n.• Lisäksi mallia koskeviin standardioletuksiin kuuluu

homoskedastisuusoletus eli jäännösvarianssia koskevavakioparametrisuusoletus:

2Var( ) , 1,2, ,j j nε σ= = …

Parametrien vakioisuusVakioparametrisuusoletuksen testaaminen:Testausasetelma 1/4

• Jaetaan havainnotj = 1, 2, … , n

kahteen osaan:Osa 1: j = 1, 2, … , h (h kpl)Osa 2: j = h + 1, h + 2, … , n ((n – h) kpl)

• Oletetaan lisäksi, ettäh ≥ k +1

• Muodostetaan kaksi lineaarista regressiomallia:(i) Käytetään mallissa (1) havaintoja j = 1, 2, … , h.(ii) Käytetään mallissa (2) havaintoja j = 1, 2, … , n.

• Malli (1) voidaan esittää matriisein muodossa

jossa Xh on h×(k+1)-matriisi.• Tehdään mallista (1) seuraavat oletukset:

h h h h= +y X β ε

N ( , )h

ε 0 I∼

• Malli (2) voidaan esittää matriisein muodossa

jossa Xn on n×(k+1)-matriisi.• Tehdään mallista (2) seuraavat oletukset:

n n n n= +y X β ε

N ( , )n

= +Xε 0 I∼

• Huomaa, että mallin (2) n×(k + 1)-matriisi Xn voidaan esittää muodossa

jossa (n – h)×(k + 1)-matriisi X2 on liittyy havaintoihinj = h + 1, h + 2, … , n

Parametrien vakioisuusVakioparametrisuusoletuksen testaaminen:Testisuure

• Estimoidaan molemmat mallit (1) ja (2) PNS-menetelmällä.

• OlkoonSSEh = jäännösneliösumma mallista (1)SSEn = jäännösneliösumma mallista (2)

• Muodostetaan F-testisuure1 n h

SSE SSEn kFn h SSE

−− −= ⋅

Parametrien vakioisuusVakioparametrisuusoletuksen testaaminen:Chow-testi

• Jos nollahypoteesi

pätee, testisuure

noudattaa F-jakaumaa vapausastein (n – h) ja (n – k – 1):

• Suuret testisuureen arvot viittaavat siihen, että oletus parametrien vakioisuudesta ei päde.

• Testi tunnetaan kirjallisuudessa nimellä Chow-testi.

SSE SSEn kFn h SSE

−− −= ⋅

2 20H : ,n h n hσ σ= =β β

( , 1)F F n h n k− − −∼

Parametrien vakioisuusVakioparametrisuusoletuksen testaaminen:Testisuureen toinen muoto 1/4

• Ennustetaan selitettävän muuttujan y arvot havainnoissaj = h + 1, h + 2, … , n

regressiomallilla (1):

1 1 1 10 1 1 2 2ˆ , 1, 2, ,j j j k jky b b x b x b x j h h n= + + + + = + + …

1 1 1 10 1 2( , , , , )

regressiokertoimien vektorin PNS-estimaattori mallista (1)

b b b b=

• Olkoon

ennustevirheiden

muodostama (n – h)-vektori.• Vektorilla u on seuraavat stokastiset ominaisuudet:

jossaX2 = havaintoihin j = h + 1, h + 2, … , n liittyvä osa

matriisista Xn

ˆ , 1, 2, ,j j ju y y j h h n= − = + + …

1 2( , , , )h h nu u u+ +=u …

2 12 2

E( )Cov( ) ( ( ) )h h hσ −

′ ′= +

u 0u I X X X X

• Olkoon lisäksi

• Tällöin matriisi

on ennustevirheiden vektorin u kovarianssimatriisin Cov(u) estimaattori.

2tavanomainen harhaton estimaattorijäännösvarianssille mallista (1)

2 12 2Cov( ) ( ( ) )h h hs −′ ′= +u I X X X X

• Chow-testisuure nollahypoteesille

voidaan edellä olevia merkintöjä käyttäen esittäämuodossa

• Chow-testisuureella on siten seuraava tulkinta:Chow-testisuure testaa havainnoista j = 1, 2, … , hestimoidun mallin (1) kykyä ennustaa selitettävän muuttujan y arvoja havainnoissa j = h + 1, h + 2, … , n.

2 20H : ,n h n hσ σ= =β β

11 Cov( )Fn h

− ′= −

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikkaPoikkeavat havainnotParametrien vakioisuus

>> MultikollineaarisuusHomoskedastisuus ja heteroskedastisuusAutokorrelaatioNormaalisuusEnnustuskyky

AvainsanatKorrelaatiomatriisiKovarianssimatriisiLineaarinen regressiomalliLineaarinen riippuvuusMatriisin asteMatriisin kuntoisuuslukuMomenttimatriisiMultikollineaarisuusOminaisarvoSelitettävä muuttujaSelittävä muuttujaVarianssin inflaatiotekijä

Multikollineaarisuus

MultikollineaarisuusLineaarinen riippuvuus ja multikollineaarisuus 1/3

• Olkoon

standardioletukset toteuttava yleinen lineaarinen malli, jossa X on selittäjien arvojen ja ykkösten muodostama täysiasteinen n×(k + 1)-matriisi.

• Regressiokertoimien vektorin β PNS-estimaattori on

• PNS-estimaattorin b kovarianssimatriisi on

= +y Xβ ε

1( )−′ ′=b X X X y

2 1Cov( ) ( )σ −′=b X X

• Yleisen lineaarinen mallin regressiokertoimien vektorin βPNS-estimaattorin ja sen kovarianssimatriisin kaavoista nähdään:Jos matriisi X ei ole täysiasteinen, PNS-estimaattoria ja sen kovarianssimatriisia on mahdotonta muodostaa em. kaavoilla.

• Matriisin X täysiasteisuus eli ehtor(X) = k + 1

merkitsee sitä, että matriisin X sarakkeiden on oltava lineaarisesti riippumattomia.

• Jos yleisen lineaarisen mallin

selittävien muuttujien havaittujen arvojen muodostama n×(k + 1)-matriisi X ei ole täysiasteinen eli

r(X) < k + 1 PNS-estimointi ei ole tavanomaisessa mielessä mahdollista.

• Jos matriisi X on täysiasteinen eli r(X) = k + 1

mutta matriisin X sarakkeet ovat lähes lineaarisesti riippuvia, sanotaan, että mallin selittäjät ovat multikollineaarisia.

= +y Xβ ε

MultikollineaarisuusMultikollineaarisuuden vaikutukset 1/2

• Multikollineaarisuus saattaa hankaloittaa sekä regressio-mallin estimointia että mallista tehtävää tilastollista päättelyä.

• Siten voimakas multikollineaarisuus saattaa hankaloittaa myös mallin valintaa.

• Koska multikollineaarisuus on suhteellinen ominaisuus –toisin kuin lineaarinen riippuvuus – voidaan puhua multikollineaarisuuden asteesta.

MultikollineaarisuusMultikollineaarisuuden vaikutukset 2/2

• Mitä vähemmän selittäjät ovat multikollineaarisia, sitäitsenäisempiä ovat selittävät muuttujat selitettävän muuttujan käyttäytymisen selittäjinä.

• Jos selittäjät ovat voimakkaasti multikollineaarisia, ne kertovat jossakin mielessä samaa asiaa selitettävän muuttujan käyttäytymisestä.

MultikollineaarisuusVarianssin inflaatiotekijä 1/3

• Oletetaan, että selitettävää muuttujaa y selitetään lineaarisella regressiomallilla, jonka selittäjinä ovat muuttujat x1 , x2 , … , xk .

• Olkoon bi selittäjän xi regressiokertoimen βi PNS-estimaattori.

• Tällöin

jossa on selitysaste lineaarisesta regressiomallista, jonka selitettävänä muuttujana on alkuperäisen mallin selittäjä xi ja selittäjinä ovat muut alkuperäisen mallin selittäjistä.

1Var( )1 ( )

i ni ji ij

bR x x

= ⋅− −∑

• Regressiokertoimen bi varianssin kaavassa esiintyväätekijää

kutsutaan selittäjää xi vastaavaksi varianssin inflaatio-tekijäksi.

1 , 1,2, ,1i

VIF i kR

= =−

• Jos selittäjät x1 , x2 , … , xk ovat ortogonaalisia eli korreloimattomia,

jaVIFi = 1 kaikille i = 1, 2, … , k

• Jos selittäjä xi voidaan esittää muiden selittäjien x1 , x2 , … , xi–1 , xi+1 , … , xk lineaarikombinaationa,

jaVIFi = +∞

2 0 kaikille 1,2, ,iR i k= = …

2 1iR =

MultikollineaarisuusVarianssin inflaatiotekijän tulkinta 1/2

• Kaavasta

nähdään seuraavaa:(i) Estimaattorin bi varianssi on sitä suurempi, mitä

suurempi on vastaava varianssin inflaatiotekijä VIFi .(ii) Estimaattorin bi varianssi on sitä pienempi, mitä

pienempi on vastaava varianssin inflaatiotekijä VIFi .

Var( )( )

i i nji ij

b VIFx xσ

= ⋅−∑

MultikollineaarisuusVarianssin inflaatiotekijän tulkinta 2/2

• Regressiomallin selittäjien voimakasta multi-kollineaarisuutta pidetään tavallisesti haitallisena ja selittäjien mahdollisimman suurta ortogonaalisuutta hyödyllisenä ominaisuutena regressioanalyysissa.

• Jos VIFi > 10 jollekin i = 1, 2, … , k

multikollineaarisuudesta saattaa olla haittaa.• Puhtaissa koeasetelmissa, joissa selittävien muuttujien

arvot voidaan valita, selittäjät pyritään saamaan ortogonaalisiksi (tai lähes ortogonaalisiksi).

MultikollineaarisuusMomenttimatriisi 1/2

• Selittäjien x1 , x2 , … , xk havaittujen arvojen momentti-matriisin A = [ aij ] i. rivin ja j. sarakkeen alkio aij on muuttujien xi ja xj havaittujen arvojen tulomomentti:

jossa1

( )( )n

ij li i lj jl

a x x x x=

= − −∑

1 1n n

i li j ljl l

x x x xn n= =

= =∑ ∑

MultikollineaarisuusMomenttimatriisi 2/2

• Selittäjien x1 , x2 , … , xk havaittujen arvojen momentti-matriisi A voidaan esittää matriisein muodossa

jossaZ = aitojen selittäjien x1 , x2 , … , xk havaittujen

arvojen muodostama n×k-matriisi= aitojen selittäjien x1 , x2 , … , xk havaittujen

arvojen aritmeettisten keskiarvojen muodostama k-vektori

( ) ( )n′ ′ ′= − −

′ ′= −A Z 1z Z 1z

Z Z z z

MultikollineaarisuusOtoskovarianssimatriisi 1/2

• Selittäjien x1 , x2 , … , xk havaittujen arvojen otos-kovarianssimatriisin S = [ sij ] i. rivin ja j. sarakkeen alkio sij on muuttujien xi ja xj havaittujen arvojen otoskovarianssi:

• Erityisesti

1 ( )( )1

ij li i lj jl

s x x x xn =

= − −− ∑

1 1n n

i li j ljl l

x x x xn n= =

= =∑ ∑

MultikollineaarisuusOtoskovarianssimatriisi 2/2

• Selittäjien x1 , x2 , … , xk havaittujen arvojen otos-kovarianssimatriisi S voidaan esittää matriisein muodossa

jossaZ = aitojen selittäjien x1 , x2 , … , xk havaittujen

arvojen muodostama n×k-matriisi= aitojen selittäjien x1 , x2 , … , xk havaittujen

arvojen aritmeettisten keskiarvojen muodostama k-vektori

A = aitojen selittäjien x1 , x2 , … , xk havaittujen arvojen muodostama k×k-momenttimatriisi

1 1( ) ( )1 1n n

′ ′ ′= − − =− −

S Z 1z Z 1z A

MultikollineaarisuusOtoskorrelaatiomatriisi 1/2

• Selittäjien x1 , x2 , … , xk havaittujen arvojen otos-korrelaatiomatriisin R = [ rij ] i. rivin ja j. sarakkeen alkio rij on muuttujien xi ja xj havaittujen arvojen otoskorrelaatio:

jossa sij = muuttujien xi ja xj havaittujen arvojen

otoskovarianssi = on muuttujan xi otoskeskihajonta = on muuttujan xj otoskeskihajonta

i iis s=

j jjs s=

MultikollineaarisuusOtoskorrelaatiomatriisi 2/2

• Selittäjien x1 , x2 , … , xk havaittujen arvojen otoskorrelaatiomatriisi R voidaan esittää matriiseinmuodossa

jossaS = aitojen selittäjien x1, x2, … , xk havaittujen

arvojen muodostama otoskovarianssimatriisiDs =

= selittäjien x1, x2, … , xk havaittujen arvojen otoskeskihajontojen s1, s2, … , sk muodostama diagonaalimatriisi

1 1s s− −=R D SD

1 2diag( , , , )ks s s…

MultikollineaarisuusMultikollineaarisuus ja selittäjien korreloituneisuus

• Selittäjien x1 , x2 , … , xk multikollineaarisuutta voidaan tutkia – paitsi tarkastelemalla selittäjiä vastaavia varianssin inflaatiotekijöitä – tutkimalla myös seuraavien matriisien ominaisarvoja (ja ominaisvektoreita):(i) Aitojen selittäjien havaittujen arvojen n×k-matriisista

Z saatava k×k-matriisi Z´Z(ii) Selittäjien havaittujen arvojen momenttimatriisi A(ii) Selittäjien havaittujen arvojen kovarianssimatriisi S(iii) Selittäjien havaittujen arvojen korrelaatiomatriisi R

• Multikollineaarisuuden mittarina voidaan käyttääesimerkiksi matriisin kuntoisuuslukua eli suurimman ja pienimmän ominaisarvon suhdetta.

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikkaPoikkeavat havainnotParametrien vakioisuusMultikollineaarisuus

>> Homoskedastisuus ja heteroskedastisuusAutokorrelaatioNormaalisuusEnnustuskyky

AvainsanatHeteroskedastisuusHomoskedastisuusJäännöstermiJäännösvarianssiLineaarinen regressiomalliRakenneosaResiduaaliSelitettävä muuttujaSelittävä muuttujaSovite

Homoskedastisuus ja heteroskedastisuus

Homoskedastisuus ja heteroskedastisuusHomoskedastisuusoletus

• Yleistä lineaarista mallia koskevan standardioletuksen (iv) mukaan kaikilla mallin jäännöstermeillä εj on sama varianssi:

• Tätä oletusta kutsutaan homoskedastisuusoletukseksi.• Jos homoskedastisuusoletus ei päde, niin sanomme, että

jäännöstermit ovat heteroskedastisia ja kirjoitamme

• Tällöin siis on olemassa indeksit k ja l siten, että

2Var( ) , 1,2, ,j j nε σ= = …

2Var( ) , 1,2, ,j j j nε σ= = …

2 2Var( ) Var( )k k l lε σ σ ε= ≠ =

Homoskedastisuus ja heteroskedastisuusHeteroskedastisuuden vaikutukset

• Jos regressiomallin jäännöstermit εj ovat hetero-skedastisia, mallin regressiokertoimien PNS-estimaattoriteivät ole enää parhaita lineaaristen ja harhattomien estimaattoreiden joukossa.

• Tämä merkitsee sitä, että regressiokertoimien PNS-estimaattoreiden varianssit ovat tarpeettoman suuria:(i) Regressiokertoimien luottamusväleistä tulee

tarpeettoman leveitä.(ii) Regressiokertoimia koskevista testisuureiden arvoista

tulee tarpeettoman pieniä.

Homoskedastisuus ja heteroskedastisuusHeteroskedastisuuden havaitseminen

• Jäännöstermien heteroskedastisuus tulee usein esille estimoidun mallin hyvyyttä havainnollistavista residuaali-diagrammeista:(i) Piirretään standardoidut residuaalit sovitteita vastaan:

(ii) Aikasarjojen regressiomalleille residuaalit piirretään yleensä aikasarjana:

• Jos residuaalidiagrammin pisteiden vyö ei ole tasaleveä(esim. vyö levenee oikealle tai vasemmalle), regressio-mallin jäännöstermi saattaa olla heteroskedastinen.

ˆ( ,Std( )) , 1,2, ,j jy e j n= …

( , ) , 1,2,...,jj e j n=

Homoskedastisuus ja heteroskedastisuusHomoskedastisuuden testaaminen

• Olkoon

estimoidun lineaarisen mallin tuottama sovite ja

vastaava residuaali.• Määrätään selitysaste R2 apuregressiosta

• Jos homoskedastisuusoletus pätee,

• Suuret testisuureen nR2 arvot johtavat homoskedastisuus-oletuksen hylkäämiseen.

ˆ , 1,2, ,jy j n= …

, 1,2, ,je j n= …

20 1 ˆj j je yα α δ= + +

2 2 (1)nR χ∼

Homoskedastisuus ja heteroskedastisuusHomoskedastisuuden testaaminen: Kommentteja

• Homoskedastisuustestit saattavat reagoida myös regressio-mallin rakenneosan väärään spesifikaatioon.

• Siten homoskedastisuustestin testisuureen merkitseväarvo ei saa automaattisesti johtaa toimenpiteisiin, joilla pyritään korjaamaan jäännöstermin heteroskedastisuus.

Homoskedastisuus ja heteroskedastisuusJäännösvarianssin stabiloivia muunnoksia

• Sopiva selitettävän muuttujan arvojen muunnos saattaa stabiloida jäännöstermien varianssin:

[ ] ( )[ ]

Heteroskedastisuuden Stabiloivatyyppi muunnos

E( ) 1 E( ) arcsin

E( ) log( )

y y y y

′∝ =

′∝ − =

′∝ =

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikkaPoikkeavat havainnotParametrien vakioisuusMultikollineaarisuusHomoskedastisuus ja heteroskedastisuus

>> AutokorrelaatioNormaalisuusEnnustuskyky

AvainsanatAutokorrelaatioDurbinin ja Watsonin testisuureJäännöstermiKorrelaatioLineaarinen regressiomalliRakenneosaResiduaaliSelitettävä muuttujaSelittävä muuttujaSovite

Autokorrelaatio

AutokorrelaatioKorreloimattomuusoletus

• Yleistä lineaarista mallia koskevan standardioletuksen (v) mukaan mallin jäännöstermit εj ovat korreloimattomia:

• Tätä oletusta kutsutaan korreloimattomuusoletukseksi.• Jos

niin sanomme, että jäännöstermit ovat korreloituneita.

Cor( , ) 0 ,j l j lε ε = ≠

Cor( , ) 0 ,j l j lε ε ≠ ≠

AutokorrelaatioKorreloituneisuuden vaikutukset

• Jos regressiomallin jäännöstermit εj ovat korreloituneita, mallin regressiokertoimien PNS-estimaattorit eivät ole enää parhaita lineaaristen ja harhattomien estimaattoreiden joukossa.

• Tämä merkitsee sitä, että regressiokertoimien PNS-estimaattoreiden varianssit ovat tarpeettoman suuria:(i) Regressiokertoimien luottamusväleistä tulee

tarpeettoman leveitä.(ii) Regressiokertoimia koskevista testisuureiden arvoista

tulee tarpeettoman pieniä.

AutokorrelaatioKorreloituneisuus ja aikasarjat

• Korreloituneisuus on aikasarjojen regressiomallientavallinen ongelma.

• Aikasarjojen regressiomalleissa kiinnitetään huomio korreloituneisuuden lajiin, jota kutsutaan autokorrelaatioksi.

• Oletetaan, että havainnot ovat aikajärjestyksessä.• Olkoon εj lineaarisen mallin

jäännöstermi.• Koska havainnot ovat aikajärjestyksessä, jäännöstermit εj

muodostavat aikasarjan.

AutokorrelaatioAutokovarianssit

• Koska lineaarisen mallin jäännöstermeistä εj on oletettu

jäännöstermien εj muodostaman aikasarjan τ. auto-kovarianssi γτ voidaan määritellä kaavalla

• Erityisesti

on aikasarjan εj , j = 1, 2, … , n varianssi.• Huomautus:

Autokovarianssit γτ ovat riippumattomia ajanhetkestä j.

E( ) , 1, 2, , , 0,1,2, , 1j j j n nτ τγ ε ε τ τ τ−= = + + = −… …

20 Var( ) , 1,2, ,j j nγ ε σ= = = …

E( ) 0 , 1,2, ,j j nε = = …

AutokorrelaatioAutokorrelaatiokertoimet

• Olkootγτ = jäännöstermien εj τ. autokovarianssiγ0 = Var(εj) = σ2

= jäännöstermien εj varianssi• Jäännöstermien εj muodostaman aikasarjan τ. auto-

korrelaatiokerroin ρτ määritellään kaavalla

• Huomautus:Autokorrelaatiokertoimet ρτ ovat riippumattomia ajanhetkestä j.

, 0,1,2, , 1nττ

γρ τγ

= = −…

AutokorrelaatioAutokorrelaatiokertoimien ominaisuudet

• Autokorrelaatiokertoimilla ρτ on seuraavat ominaisuudet:(i)(ii)(iii)

0 1ρ =

τ τρ ρ− =| | 1τρ ≤

Autokorrelaatio1. kertaluvun autokorrelaation testaaminen

• Tarkastelemme seuraavassa 1. kertaluvun auto-korrelaation testaamista.

• Asetetaan nollahypoteesi

jossa ρ1 on 1. kertaluvun autokorrelaatiokerroin.• Vaikka nollahypoteesi H0 kiinnittää huomiota vain

jäännöstermien 1. kertaluvun autokorrelaatioon, sen testaamisella on keskeinen rooli regressiodiagnostiikassa.

0 1H : 0ρ =

AutokorrelaatioDurbinin ja Watsonin testisuure

• Määritellään Durbinin ja Watsonin testisuure kaavalla

• Voidaan osoittaa, ettäDW ≈ 2

jos nollahypoteesi pätee.• Suuret DW-testisuureen poikkeamat sen normaaliarvosta ≈

2 johtavat nollahypoteesin hylkäämiseen.

−=∑

0 1H : 0ρ =

AutokorrelaatioDurbinin ja Watsonin testisuure: Ominaisuudet

• Durbinin ja Watsonin testisuureella on seuraavat ominaisuudet:(i) 0 ≤ DW ≤ 4(ii) DW ≈ 0 ⇔ ρ1 ≈ +1(iii) DW ≈ 2 ⇔ ρ1 ≈ 0(iv) DW ≈ 4 ⇔ ρ1 ≈ –1

• Durbinin ja Watsonin testisuureen jakauma ei ole mitään tavanomaista tyyppiä, mutta DW-testisuureen kriittisiäarvoja on taulukoitu ja useat tilastolliset ohjelmistot tulostavat DW-testisuureen kriittisiä arvoja tai DW-testisuureen arvoja vastaavia p-arvoja.

Autokorrelaatio1. kertaluvun autokorrelaation testaaminen:Kommentteja

• Durbinin ja Watsonin testi on autokorrelaatiotestinärajoittunut, koska testi kiinnittää huomiota vain 1. kerta-luvun autokorrelaatioon.

• Durbinin ja Watsonin testi saattaa kuitenkin reagoida myös regressiomallin rakenneosan väärään spesifikaatioon.

• Siten Durbinin ja Watsonin testisuureen merkitseväarvo ei saa automaattisesti johtaa toimenpiteisiin, joilla pyritään korjaamaan jäännöstermin auto-korreloituneisuus.

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikkaPoikkeavat havainnotParametrien vakioisuusMultikollineaarisuusHomoskedastisuus ja heteroskedastisuusAutokorrelaatio

>> NormaalisuusMallin ennustuskyky

AvainsanatBowmanin ja Shentonin testiJäännöstermiLineaarinen regressiomalliNormaalisuusRakenneosaRankit Plot -kuvioResiduaaliSelitettävä muuttujaSelittävä muuttujaSoviteWilkin ja Shapiron testi

Normaalisuus

NormaalisuusNormaalisuusoletus

• Yleistä lineaarista mallia koskevan standardioletuksen (vi) mukaan mallin jäännöstermit εj ovat normaalisia:

• Tätä oletusta kutsutaan normaalisuusoletukseksi.• Jos oletus (vi) ei päde, jäännöstermit eivät ole

normaalisia.

2N(0, ) , 1,2,...,j j nε σ =∼

NormaalisuusEpänormaalisuuden vaikutukset

• Jos regressiomallin jäännöstermit εj eivät ole normaalisia, t- ja F-jakaumiin perustuva tilastollinen päättely ei välttämättä ole enää pätevää.

• Tämä johtuu siitä, että regressiokertoimien PNS-estimaattoreiden otosjakaumat eivät ole tällaisessa tilanteessa normaalisia.

• Huomautus:Vaikka jäännöstermit εj eivät olisikaan normaalisia, t- ja F-jakaumiin perustuva tilastollinen päättely on kuitenkin yleensäsuuntaa-antavaa, jos poikkeamat normaalisuudesta ovat kohtuullisia.

NormaalisuusNormaalisuuden testaaminen

• Regressiomallien jäännös- eli virhetermien normaalisuutta voidaan tutkia usealla eri tavalla.

• Monet tilastolliset ohjelmistot tarjoavat esimerkiksi toisen tai molemmat seuraavista testeistä:– Bowmanin ja Shentonin testi– Rankit Plot -kuvio sekä Wilkin ja Shapiron testi

• Tässä käsittelemme vain Bowmanin ja Shentonin testiä.Lisätietoja jakaumaoletusten testaamisesta: ks. lukua Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminenluentosarjassa Johdatus tilastotieteeseen.

NormaalisuusBowmanin ja Shentonin testi 1/2

• Bowmanin ja Shentonin testi jäännöstermin normaalisuudelle perustuu χ2-testisuureeseen

• Testisuureen lausekkeessa

ovat estimoidun regressiomallin residuaalienej , j = 1, 2, … , n vinous ja huipukkuus, joiden kaavoissa

2 2 21 26 24

n nc cχ = +

3 41 23 2 2

3m mc cm m

= = −

1 1( )n n

kk j j

j jm e e e e

n n= =

= − =∑ ∑TKK (c) Ilkka Mellin (2004) 142

NormaalisuusBowmanin ja Shentonin testi 2/2

• Jos nollahypoteesi jäännöstermin normaalisuudesta pätee, testisuure χ2 noudattaa suurissa otoksissaapproksimatiivisesti χ2-jakaumaa vapausasteinf = 2:

• Testisuureen χ2 normaaliarvo eli odotusarvo nolla-hypoteesin H0 pätiessä on

E(χ2) = 2• Normaaliarvoaan merkitsevästi suuremmat χ2-testisuureen

arvot viittaavat siihen, että nollahypoteesi H0 ei päde.

2 2~ (2)aχ χ

NormaalisuusNormaalisuuden testaaminen: Kommentteja

• Normaalisuustestit saattavat reagoida myös regressio-mallin rakenneosan väärään spesifikaatioon.

• Siten normaalisuustestien testisuureiden merkitsevät arvot eivät saa automaattisesti johtaa toimenpiteisiin, joilla pyritään korjaamaan jäännöstermin epä-normaalisuus.

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikkaPoikkeavat havainnotParametrien vakioisuusMultikollineaarisuusHomoskedastisuus ja heteroskedastisuusAutokorrelaatioNormaalisuus

>> Mallin ennustuskyky

AvainsanatChow-testiχ2-testiEnnustaminenEnnusteEnnustevirheLineaarinen regressiomalliParametrien vakioisuusResiduaaliSelitettävä muuttujaSelittävä muuttujaSovite

Mallin ennustuskyky

Mallin ennustuskykyEnnuskyvyn testaaminen

• Jossakin mielessä voimakkain testi lineaarisen mallin(1)käyttökelpoisuudelle on mallin kyky ennustaa.

• Mallissa (1):yj = selitettävän muuttujan y havaittu arvo

havainnossa jxji = selittäjän xi havaittu arvo havainnossa j

0 1 1 2 2j j j k jk jy x x xβ β β β ε= + + + + +

Mallin ennustuskykyEnnuskyvyn testaaminen:Testausasetelma 1/5

• Oletetaan, että sekä selitettävästä muuttujasta y ettäselittäjistä x1, x2, … , xk on käytettävissä havaintoarvot havainnoissa

j = 1, 2, … , n, n + 1, n + 2, … , n + h ((n + h) kpl)• Estimoidaan lineaarinen regressiomalli (1) havainnoista

j = 1, 2, … , n• Käytetään havainnoista j = 1, 2, … , n estimoitua mallia

selitettävän muuttujan y arvojen yj ennustamiseenhavainnoissa

j = n + 1, n + 2, … , n + h

• Olkoon

havainnoista j = 1, 2, … , n muodostettu lineaarinen malli matriisimuodossa.

• Mallissa:X

• Olkoon

vektorin β PNS-estimaattori havainnoista j = 1, 2, … , n.

= +y Xβ ε

on ( 1)-matriisi, ( ) 1N ( , )n

n k r kσ

× + = +X Xε 0 I∼

1( )−′ ′=b X X X y

• Muodostetaan selittäjien x1, x2, … , xk havaituista arvoista xji havainnoissa j = n + 1, n + 2, … , n + h vektori

zj = (1, xj1 , xj2 , … , xjk) , j = n + 1, n + 2, … , n + h• Muodostetaan vektoreista zj h×(k + 1)-matriisi

jossa vektorit zj ovat riveinä.

• Selitettävän muuttujan y arvojen yj havaintoihinj = 1, 2, … , n

perustuvat ennusteet havainnoissaj = n + 1, n + 2, … , n + h

saadaan kaavasta

ja vastaavat ennustevirheet saadaan kaavasta

• Muodostetaan ennustevirheistä uj h-vektoriu = (un+1 , un+2 , … , un+h)

ˆ , 1, 2, ,j jy j n n n h′= = + + +z b …

ˆ , 1, 2, ,j j ju y y j n n n h= − = + + +…

• Ennustevirheillä

on seuraavat stokastiset ominaisuudet:

• Vastaavasti ennustevirheiden muodostamalla h-vektorilla u = (un+1 , un+2 , … , un+h)

on seuraavat stokastiset ominaisuudet:

E( ) 0

Var( ) (1 ( ) )j

u σ −

′ ′= + z X X z

E( )Cov( ) ( ( ) )h hσ −

′ ′= +

u 0u I X X X X

ˆ ˆ , 1, 2, ,j j j j ju y y y j n n n h′= − = − = + + +z b …

Mallin ennustuskykyEnnuskyvyn testaaminen:Testisuure

• Muodostetaan χ2-testisuure

on ennustevirhe havainnossa j jas2

on tavanomainen havainnoista j = 1, 2, … , n määrätty harhaton estimaattori jäännösvarianssille σ2 .

• Estimoitu malli ennustaa huonosti, jos testisuure saa suuria arvoja.

ˆ , 1, 2, ,j j j j ju y y y j n n n h′= − = − = + + +z b …

Mallin ennustuskykyEnnuskyvyn testaaminen:Testisuureen jakauma 1/2

• Asetetaan regressiomallin (1) parametrien samuutta otos-ja ennustejaksoilla koskeva nollahypoteesi

jossa indeksi 1 viittaa otosjaksoonj = 1, 2, … , n

ja indeksi 2 viittaa ennustejaksoonj = n + 1, n + 2, … , n + h

2 20 1 2 1 2H : ,σ σ= =β β

Mallin ennustuskykyEnnuskyvyn testaaminen:Testisuureen jakauma 2/2

• Jos nollahypoteesi

pätee, testisuure

noudattaa χ2-jakaumaa vapausastein h:

• Suuret testisuureen arvot viittaavat siihen, että oletus parametrien vakioisuudesta ei päde.

2 20 1 2 1 2H : ,σ σ= =β β

2 2 ( )hχ χ∼

Mallin ennustuskykyEnnuskyvyn testaaminen:Kommentti

• Regressiomallin ennustekykyä voidaan testata myös parametrien vakioisuutta testaavalla Chow-testillä.

• Tässä esitetty χ2-testisuure ja Chow-testi ovat läheistäsukua toisilleen ja antavat asymptoottisesti eli suurilla havaintojen lukumäärillä saman tuloksen.

Regressiodiagnostiikka - Aalto

Documents

Aalto Talk

Aalto-yliopistonkirjastonkaukopalvelu … · • Aalto-wiki on Aalto-yliopiston valmistelun aikainen ... • Uuden yliopiston nimeksi Aalto-yliopisto 29.5.2008 • Alvar Aalto

elBulli - Aalto

Alvar Aalto

AALTO EXCHANGE

Aalto Viipuriry

Hydraulics - Aalto

Aalto-yliopisto, PL 11000, 00076 AALTO Taiteen kandidaatin

UNESSA - Aalto

Asplund & Aalto

Aalto University

iii - Aalto

Aalto University Magazine 03 Appendix Masters of Aalto 2012

Aalto University Professional Development – Aalto PRO · Aalto University Professional Development – Aalto PRO 3 Abstract Business Continuity Plan (BCP) of local business unit

Studentrestauranger Otaniemen kampuskartta Otnäs campuskarta Otaniemi campus map - Aalto · 2018-09-14 · 4 Aalto Acoustics Lab 13 Aalto Bioproduct Centre 2 Aalto CRE Aalto University

Aaltoyliopisto Aalto-universitetet Aalto University · 2019-03-04 · Bussit Aalto-yliopiston asemalta Bussar från Aalto-universitetets station Buses from Aalto University station

1895 - Aalto

Matchbox - Aalto

Aalto-yliopisto, PL 11000, 00076 AALTO Taiteen … · 2017. 4. 28. · Aalto-yliopisto, PL 11000, 00076 AALTO Taiteen maisterin opinnäytteen tiivistelmä Tekijä Tero Hytönen Työn

Aalto PRO Aalto-yliopiston täydennyskoulutusta Värikoodi ...€¦ · Aalto University Professional Development (Aalto PRO) • a new unit (1.1.2011) in Aalto University dedicated