Upload
amal
View
89
Download
0
Embed Size (px)
DESCRIPTION
Ristiinvalidointi ja bootstrap-menetelmä 20.10.2010. Ristiinvalidointi. Estimoi suoraan odotusarvoista ennustevirhettä Valitaan mallirakenne jolle estimoitu ennustevirhe pienin Ristiinvalidointi yksinkertaista, laajasti käytössä Ei estimoi hyvin yleistysvirhettä - PowerPoint PPT Presentation
Citation preview
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Ristiinvalidointi ja bootstrap-menetelmä
20.10.2010
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Ristiinvalidointi• Estimoi suoraan odotusarvoista ennustevirhettä
– Valitaan mallirakenne jolle estimoitu
ennustevirhe pienin
• Ristiinvalidointi yksinkertaista, laajasti käytössä
• Ei estimoi hyvin yleistysvirhettä
– Lisää tästä kappaleessa 7.12, ei kuulu esitykseen
))](,([ xfYLEErr
Err
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
K-kertainen ristiinvalidointi
• Jaetaan N havainnon opetusaineisto K yhtä suureen osaan
• Sovitetaan malli käyttäen osia 1, ..., k-1, k+1, ..., K
• Estimoidaan odotusarvoinen ennustevirhe käyttäen osaa k
• Toistetaan kaikilla
opetus opetus opetus validointi opetus. . .K1 2 3 4
opetusainesto
Kk ...,,1
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Odotusarvoisen ennustevirheen estimoiminen ristiinvalidoinnilla
• Indeksointifunktio
– Kertoo mihin osaan havainto i kuuluu
• malli joka sovitettu opetusaineistolla,
josta osa k poistettu
– mallin parametrivektori
• Odotusarvoisen ennustevirheen ristiinvalidointiestimaatti
},,1{},,1{: KN
),(ˆ xf k
N
ii
iki xfyL
NfCV
1
)(, ),(ˆ1
),ˆ(
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Ristiinvalidoinnin kertaluvun valitseminen
• ”Leave One Out” (LOO) – ristiinvalidointi: K=N
– Estimoi harhattomasti odotusarvoista ennustevirhettä
– Opetusjoukot samankaltaisia varianssi korkea
• Tyypillisesti K=5 tai K=10
– Odotusarvoisen ennustevirheen estimaatti voi olla harhainen
– Opetusjoukot erilaisia varianssi pienempi
• Mitä korkeampi K, sitä enemmän aikaa käytetään laskentaan
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Ristiinvalidointi ja mallin oppiminen 1/2
• Kuvassa opetetun mallin odotusarvoinen ennustevirhe
– Opetusaineiston koko N = 200
• Jos ristiinvalidoinnissa K=5, opetukseen käytetään 160 havaintoa
• Lähes yhtä hyvä estimaatti kuin käytettäessä N kpl havaintoja
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Ristiinvalidointi ja mallin oppiminen 2/2
• Nyt koko opetusaineiston koko N = 50
• Jos ristiinvalidoinnissa K=5, opetukseen käytetään 40 havaintoa
• Odotusarvoisen ennustevirheen estimaatti ylöspäin harhainen
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Ristiinvalidointivirhe lineaarisessa regressiossa
ristiinvalidointivirheja sen luottamusväli
• Kirjan kappaleen 7.3.1
esimerkki
• Luokittelu tehty lineaarisella
regressiolla jossa p parasta
selittäjää
• Ristiinvalidoinnissa K= 10
• Valitaan p = 9 , koska
p = 10 ei eroa
tilastollisesti
merkitsevästi
ennustevirhe
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
LOO-ristiinvalidoinnin approksimointi
• Approksimoidaan LOO-ristiinvalidointia, kun
– Lineaarinen malli:
– Neliöllinen virhefunktio:
• Monille lineaarisille sovitusmenetelmille
– on :n i:s diagonaalielementti
Syy ˆ
2
11
2
1
)(ˆ1)(ˆ1
),ˆ(
N
i ii
iiN
ii
ii S
xfy
Nxfy
NfCV
2)())(,( XfYXfYL
iiS S
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Yleistetyn ristiinvalidointi
• Yleistetty ristiinvalidointiestimaatti on
– trace(S) on efektiivinen parametrien lukumäär
• Etuna laskennallinen helppous
– trace(S) on joskus helpompi laskea kuin alkiot
• Ristiinvalidointi ei aina anna riittävän sileitä malleja
– Yleistetty ristiinvalidointi auttaa
• Yhtymäkohtia Akaiken informaatiokriteerin kanssa
2
1 /)(trace1
)(ˆ1)ˆ(
N
i
ii
N
xfy
NfGCV
S
iiS
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Ristiinvalidoinnin soveltaminen
• Ristiinvalidointia helppo soveltaa väärin
• Tarkastellaan luokittelutilannetta, jossa
– Kaksi luokkaa, p selittäjää, N havaintoa luokista
• Mahdollinen lähestymistapa:
1. Valitaan selittäjät, jotka korreloivat eniten selitettävien
luokkamuuttujien kanssa
2. Muodostetaan luokittelija 1. vaiheessa valittujien
muuttujien perusteella
3. Käytetään ristiinvalidointia luokittelijan parametrien valitsemiseen ja
odotusarvoisen ennustevirheen estimoimiseen
VÄÄRIN
VÄÄRIN
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Ristiinvalidoinnin väärinkäyttö
• Nyt luokittelussa kaksi luokkaa,
N = 50, p=5000 normaalijakautunutta selittäjää
• Selittäjät riippumattomia luokkamuuttujista
• Valitaan 1. vaiheessa 100 eniten luokkamuuttujien
kanssa korreloitunutta selittäjää
• Muodostetaan lähimmän naapurin luokittelija
• Estimoidaan odotusarvoinen ennustevirhe
ristiinvalidoinnilla, K=5
• Toistettiin 50 kertaa, keskimäärin CV = 0.03 ?
5.0Err
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Ristiinvalidoinnissa tehty virhe
• Vaiheessa 1 valittu 100 luokkamuuttujien kanssa eniten
korreloivaa selittäjää
• Havaintojen jättäminen pois selittäjien valinnan jälkeen
ei vastaa riippumattoman validointiaineiston käyttämistä!
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Ristiinvalidoinnin oikea käyttö
1. Jaetaan aineisto K yhtä suureen osaan sattumanvaraisesti
2. Jokaiselle osalle k = 1, 2, ... , K
a) Valitaan selittäjät, jotka korreloivat eniten luokkamuuttujien
kanssa käyttäen aineistoa josta poistettu osa k
b) Käyttäen näitä selittäjiä, muodosta luokittelija käyttäen
opetusaineistoa josta poistettu osa k
c) Käytä luokittelijaa ennustamaan opetusaineiston osan k
luokkamuuttujien arvot
• Odotusarvoisen ennustevirheen estimaatti vaiheen
2 c) tulosten perusteella
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Ristiinvalidoinnin soveltaminen päätöspuuhun
• N = 20 havaintoa 2 luokasta,
p = 500 selittäjää
• Luokkamuuttujat riippumattomia
selittäjistä
• Luokitellaan yhden selittäjän
päätöspuulla
– Jaetaan aineisto kahteen luokkaan
yhden selittäjän arvon perusteella
– Parametrina haaran sijainti
5.0Err
luokkaA
luokkaB
haara
selittäjän arvo
havainto luokasta A
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Tutkittava väite ristiinvalidoinnista
• ”Koko aineistoon sovitettaessa löydetään varmasti
hyvin toimiva luokittelija. Jos käytetään 5-kertaista
ristiinvalidointia, tämä sama luokittelija toimii hyvin
myös mille tahansa 4/5 ja 1/5 aineistosta. Tämän takia
ristiinvalidoinnin avulla estimoitu odotusarvoinen
ennustevirhe on liian pieni.”
VÄÄRIN
VÄÄRIN
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Väitteen tutkiminen simulaatiolla
• Käytetty 5-kertaista ristiinvalidointia, N = 20
• Vasemmalla opetusvirhe eri selittäjille, opetusaineistona 16 havaintoa
• Oikealla y-akselilla luokitteluvirhe, validointiaineistona 4 havaintoa
Err = 0.5 !
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Väitteessä tehty päättelyvirhe
• Malli muodostettava kokonaan uudelleen jokaiselle ositukselle
• Vasen kuva:
– 20 havainnolla luokittelija olisi täydellinen, 16 havainnolla tehdään kaksi virhettä
• Oikea kuva:
– Väärin luokiteltujen pisteiden osuus, luokittelija muodostettu 50 kertaa
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Bootstrap-menetelmät
• Tavoitteena estimoida yleistysvirhe
• Käytännössä estimoi hyvin vain
odotusarvoisen ennustevirheen
• Opetusjoukko jossa
• Poimitaan takaisinpanolla N näytteen opetusjoukkoja
alkuperäisestä datasta B kertaa:
• Sovitetaan malli jokaiseen bootstrap-opetusjoukkoon
• Lasketaan jokaisen mallin avulla estimaatti
Err
Err
Nzzz ,,, 21 Z iii yxz ,
B*1* ,..., ZZ
)( *iS Z
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Bootstrap: periaatepiirros
Nzzz ,,, 21 Z
1*Z 2*Z B*Z
)( 1*ZS )( 2*ZS )( *BS Z Bootstrap –replikaatiot
Bootstrap –opetusjoukot
Alkuperäinenopetusjoukko
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Bootsrap: toinen periaatepiirros
• Useimmissa versioissa Paroni
von Münchausen vetää itsensä
suosta palmikostaan, ei
saappaannyöreistään
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Bootstrap-estimaatti
• Sovitettujen mallien perusteella voidaan laskea
esim. bootsrap-estimaatin varianssi
• Voidaan pitää varianssin Monte-Carlo estimaattina
kun näytteistetään opetusaineiston empiirisestä
jakaumasta
,)(1
1)(ˆ
1
2**
B
b
b SSB
SarV ZZ
B
b
b
B
SS
1
** )(Z
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Bootstrap-estimaatti odotusarvoiselle ennustevirheelle
• Sovitetaan bootsrap-aineistoon, validoidaan
alkuperäisellä
• Huono estimaatti: bootstrap-aineistossa ja
validointiaineistossa paljon samoja havaintoja
Tuloksena saatu estimaatti liian pieni
B
b
N
ii
biboot xfyL
NBrrE
1 1
* )(ˆ,(11ˆ
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Bootstrap & lähimmän naapurin luokittelija
• Kaksi luokkaa, molemmissa luokissa yhtä monta havaintoa
• Selittäjät ja luokkamuuttujat riippumattomia Err = 0.5
• Havainto i ei vaikuta ellei mukana bootstrap-aineistossa b
• Saadaan
Liian pieni estimaatti odotusarvoiselle ennustevirheelle!
bootrrE
N
N
111b aaineistoss-bootstrap i havaintoPr
632.01
1 e
184.0)632.01(5.0]ˆ[E bootrrE
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
LOO Bootstrap-estimaattoria
• Estimaattia voidaan parantaa matkimalla LOO-ristiinvalidointia
• Merkitään niiden bootstrap-aineistojen indeksien
joukkoa jossa havainto i ei mukana
• Bootstrap-näytteessä keskimäärin havaintoa
– Käyttäytyy kuten ristiinvalidointi jossa K=2
– Samat ongelmat liittyen opetusjoukon kokoon (kalvot 6 ja 7)
N
i Cbi
bii
xfyLCN
rrE1
*)1(
1
))(ˆ,(11ˆ
iC
N632.0
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
”.632”-estimaattori
• ”.632”-estimaattori korjaa odotusarvoisen ennustevirheen
- estimaattoria kohti opetusvirhettä
• Johtaminen monimutkaista
• Toimii huonosti jos luokittelija ylisovittuu opetusaineistoon
eli
)1(ˆrrE
)1()632(. ˆ632.0err368.0ˆ rrErrE
0err
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
”.632+” – estimaattorin johtaminen
• Halutaan korjata ylisovittumisesta aiheutuvia ongelmia
• Määritellään informaatioton virhesuure
– Virheiden osuus jos selittävät muuttujat ja selitettävät
luokkamuuttujat riippumattomia
• Estimaattori
N
i
N
iii xfyL
N 1 1''2))(ˆ,(
1
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
”.632+”-estimaattori
• Määritellään suhteellinen ylisovittuminen
– 0 jos ei lainkaan ylisovittumista ( )
– 1 jos
• Määritellään .632+ - estimaattori
• Kompromissi: lopputulos jotain
opetusvirheen ja LOO bootstrap-estimaatin väliltä
• Johto monimutkainen, ei käsitelty kirjassa
err
errrrER
ˆˆ
)1(
errrrE )1(ˆ
errerrrrE ˆ )1(
,ˆˆerr)ˆ1(ˆ )1()632(. rrEwwrrE
Rw
ˆ368.01
632.0ˆ
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Bootsrap- ja ristiinvalidointi- estimaattoreiden vertailu
• Kirjan esimerkeissä ristiinvalidoinnin ja bootstrap-
menetelmien käyttö johti samankaltaisiin tuloksiin
– Etuna helppo toteutus
– Haittana laskennallinen vaativuus
– Akaiken informaatiokriteerillä samankaltaisia tuloksia
• Parempi arvio yleistysvirheestä kuin Akaiken
informaatiokriteerillä tai Bayesiläisellä
informaatiokriteerillä
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Kiitos!
• Kysymyksiä?
S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu
Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010
Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010
Kotitehtävä: Kirjan tehtävä 7.10• Kaksi luokkaa, N havaintoa, p bin. selittäjää jotka
riippumattomia luokkamuuttujista
• Luokittelijana jokin p selittäjästä
• Jos p riittävän suuri, löydetään selittäjä joka luokittelee
koko aineiston täydellisesti
– Tällöin myös ristiinvalidoinnin validointiaineisto luokitellaan täydellisesti
• Seuraako tästä, että ristiinvalidoinnilla laskettu ennustevirhe on 0,
eikä ristiinvalidointia voida käyttää?
• Saa simuloida jos haluaa, voi myös päätellä ja perustella
– Osittain valmis MATLAB-koodi es14.m