31
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2010 Esitelmä 14 – Jouni Pousi Optimointiopin seminaari – Syksy 2010 Ristiinvalidointi ja bootstrap-menetelmä 20.10.2010

Ristiinvalidointi ja bootstrap-menetelmä 20.10.2010

  • Upload
    amal

  • View
    89

  • Download
    0

Embed Size (px)

DESCRIPTION

Ristiinvalidointi ja bootstrap-menetelmä 20.10.2010. Ristiinvalidointi. Estimoi suoraan odotusarvoista ennustevirhettä Valitaan mallirakenne jolle estimoitu ennustevirhe pienin Ristiinvalidointi yksinkertaista, laajasti käytössä Ei estimoi hyvin yleistysvirhettä - PowerPoint PPT Presentation

Citation preview

Page 1: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Ristiinvalidointi ja bootstrap-menetelmä

20.10.2010

Page 2: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Ristiinvalidointi• Estimoi suoraan odotusarvoista ennustevirhettä

– Valitaan mallirakenne jolle estimoitu

ennustevirhe pienin

• Ristiinvalidointi yksinkertaista, laajasti käytössä

• Ei estimoi hyvin yleistysvirhettä

– Lisää tästä kappaleessa 7.12, ei kuulu esitykseen

))](,([ xfYLEErr

Err

Page 3: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

K-kertainen ristiinvalidointi

• Jaetaan N havainnon opetusaineisto K yhtä suureen osaan

• Sovitetaan malli käyttäen osia 1, ..., k-1, k+1, ..., K

• Estimoidaan odotusarvoinen ennustevirhe käyttäen osaa k

• Toistetaan kaikilla

opetus opetus opetus validointi opetus. . .K1 2 3 4

opetusainesto

Kk ...,,1

Page 4: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Odotusarvoisen ennustevirheen estimoiminen ristiinvalidoinnilla

• Indeksointifunktio

– Kertoo mihin osaan havainto i kuuluu

• malli joka sovitettu opetusaineistolla,

josta osa k poistettu

– mallin parametrivektori

• Odotusarvoisen ennustevirheen ristiinvalidointiestimaatti

},,1{},,1{: KN

),(ˆ xf k

N

ii

iki xfyL

NfCV

1

)(, ),(ˆ1

),ˆ(

Page 5: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Ristiinvalidoinnin kertaluvun valitseminen

• ”Leave One Out” (LOO) – ristiinvalidointi: K=N

– Estimoi harhattomasti odotusarvoista ennustevirhettä

– Opetusjoukot samankaltaisia varianssi korkea

• Tyypillisesti K=5 tai K=10

– Odotusarvoisen ennustevirheen estimaatti voi olla harhainen

– Opetusjoukot erilaisia varianssi pienempi

• Mitä korkeampi K, sitä enemmän aikaa käytetään laskentaan

Page 6: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Ristiinvalidointi ja mallin oppiminen 1/2

• Kuvassa opetetun mallin odotusarvoinen ennustevirhe

– Opetusaineiston koko N = 200

• Jos ristiinvalidoinnissa K=5, opetukseen käytetään 160 havaintoa

• Lähes yhtä hyvä estimaatti kuin käytettäessä N kpl havaintoja

Page 7: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Ristiinvalidointi ja mallin oppiminen 2/2

• Nyt koko opetusaineiston koko N = 50

• Jos ristiinvalidoinnissa K=5, opetukseen käytetään 40 havaintoa

• Odotusarvoisen ennustevirheen estimaatti ylöspäin harhainen

Page 8: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Ristiinvalidointivirhe lineaarisessa regressiossa

ristiinvalidointivirheja sen luottamusväli

• Kirjan kappaleen 7.3.1

esimerkki

• Luokittelu tehty lineaarisella

regressiolla jossa p parasta

selittäjää

• Ristiinvalidoinnissa K= 10

• Valitaan p = 9 , koska

p = 10 ei eroa

tilastollisesti

merkitsevästi

ennustevirhe

Page 9: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

LOO-ristiinvalidoinnin approksimointi

• Approksimoidaan LOO-ristiinvalidointia, kun

– Lineaarinen malli:

– Neliöllinen virhefunktio:

• Monille lineaarisille sovitusmenetelmille

– on :n i:s diagonaalielementti

Syy ˆ

2

11

2

1

)(ˆ1)(ˆ1

),ˆ(

N

i ii

iiN

ii

ii S

xfy

Nxfy

NfCV

2)())(,( XfYXfYL

iiS S

Page 10: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Yleistetyn ristiinvalidointi

• Yleistetty ristiinvalidointiestimaatti on

– trace(S) on efektiivinen parametrien lukumäär

• Etuna laskennallinen helppous

– trace(S) on joskus helpompi laskea kuin alkiot

• Ristiinvalidointi ei aina anna riittävän sileitä malleja

– Yleistetty ristiinvalidointi auttaa

• Yhtymäkohtia Akaiken informaatiokriteerin kanssa

2

1 /)(trace1

)(ˆ1)ˆ(

N

i

ii

N

xfy

NfGCV

S

iiS

Page 11: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Ristiinvalidoinnin soveltaminen

• Ristiinvalidointia helppo soveltaa väärin

• Tarkastellaan luokittelutilannetta, jossa

– Kaksi luokkaa, p selittäjää, N havaintoa luokista

• Mahdollinen lähestymistapa:

1. Valitaan selittäjät, jotka korreloivat eniten selitettävien

luokkamuuttujien kanssa

2. Muodostetaan luokittelija 1. vaiheessa valittujien

muuttujien perusteella

3. Käytetään ristiinvalidointia luokittelijan parametrien valitsemiseen ja

odotusarvoisen ennustevirheen estimoimiseen

VÄÄRIN

VÄÄRIN

Page 12: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Ristiinvalidoinnin väärinkäyttö

• Nyt luokittelussa kaksi luokkaa,

N = 50, p=5000 normaalijakautunutta selittäjää

• Selittäjät riippumattomia luokkamuuttujista

• Valitaan 1. vaiheessa 100 eniten luokkamuuttujien

kanssa korreloitunutta selittäjää

• Muodostetaan lähimmän naapurin luokittelija

• Estimoidaan odotusarvoinen ennustevirhe

ristiinvalidoinnilla, K=5

• Toistettiin 50 kertaa, keskimäärin CV = 0.03 ?

5.0Err

Page 13: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Ristiinvalidoinnissa tehty virhe

• Vaiheessa 1 valittu 100 luokkamuuttujien kanssa eniten

korreloivaa selittäjää

• Havaintojen jättäminen pois selittäjien valinnan jälkeen

ei vastaa riippumattoman validointiaineiston käyttämistä!

Page 14: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Ristiinvalidoinnin oikea käyttö

1. Jaetaan aineisto K yhtä suureen osaan sattumanvaraisesti

2. Jokaiselle osalle k = 1, 2, ... , K

a) Valitaan selittäjät, jotka korreloivat eniten luokkamuuttujien

kanssa käyttäen aineistoa josta poistettu osa k

b) Käyttäen näitä selittäjiä, muodosta luokittelija käyttäen

opetusaineistoa josta poistettu osa k

c) Käytä luokittelijaa ennustamaan opetusaineiston osan k

luokkamuuttujien arvot

• Odotusarvoisen ennustevirheen estimaatti vaiheen

2 c) tulosten perusteella

Page 15: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Ristiinvalidoinnin soveltaminen päätöspuuhun

• N = 20 havaintoa 2 luokasta,

p = 500 selittäjää

• Luokkamuuttujat riippumattomia

selittäjistä

• Luokitellaan yhden selittäjän

päätöspuulla

– Jaetaan aineisto kahteen luokkaan

yhden selittäjän arvon perusteella

– Parametrina haaran sijainti

5.0Err

luokkaA

luokkaB

haara

selittäjän arvo

havainto luokasta A

Page 16: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Tutkittava väite ristiinvalidoinnista

• ”Koko aineistoon sovitettaessa löydetään varmasti

hyvin toimiva luokittelija. Jos käytetään 5-kertaista

ristiinvalidointia, tämä sama luokittelija toimii hyvin

myös mille tahansa 4/5 ja 1/5 aineistosta. Tämän takia

ristiinvalidoinnin avulla estimoitu odotusarvoinen

ennustevirhe on liian pieni.”

VÄÄRIN

VÄÄRIN

Page 17: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Väitteen tutkiminen simulaatiolla

• Käytetty 5-kertaista ristiinvalidointia, N = 20

• Vasemmalla opetusvirhe eri selittäjille, opetusaineistona 16 havaintoa

• Oikealla y-akselilla luokitteluvirhe, validointiaineistona 4 havaintoa

Err = 0.5 !

Page 18: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Väitteessä tehty päättelyvirhe

• Malli muodostettava kokonaan uudelleen jokaiselle ositukselle

• Vasen kuva:

– 20 havainnolla luokittelija olisi täydellinen, 16 havainnolla tehdään kaksi virhettä

• Oikea kuva:

– Väärin luokiteltujen pisteiden osuus, luokittelija muodostettu 50 kertaa

Page 19: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Bootstrap-menetelmät

• Tavoitteena estimoida yleistysvirhe

• Käytännössä estimoi hyvin vain

odotusarvoisen ennustevirheen

• Opetusjoukko jossa

• Poimitaan takaisinpanolla N näytteen opetusjoukkoja

alkuperäisestä datasta B kertaa:

• Sovitetaan malli jokaiseen bootstrap-opetusjoukkoon

• Lasketaan jokaisen mallin avulla estimaatti

Err

Err

Nzzz ,,, 21 Z iii yxz ,

B*1* ,..., ZZ

)( *iS Z

Page 20: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Bootstrap: periaatepiirros

Nzzz ,,, 21 Z

1*Z 2*Z B*Z

)( 1*ZS )( 2*ZS )( *BS Z Bootstrap –replikaatiot

Bootstrap –opetusjoukot

Alkuperäinenopetusjoukko

Page 21: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Bootsrap: toinen periaatepiirros

• Useimmissa versioissa Paroni

von Münchausen vetää itsensä

suosta palmikostaan, ei

saappaannyöreistään

Page 22: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Bootstrap-estimaatti

• Sovitettujen mallien perusteella voidaan laskea

esim. bootsrap-estimaatin varianssi

• Voidaan pitää varianssin Monte-Carlo estimaattina

kun näytteistetään opetusaineiston empiirisestä

jakaumasta

,)(1

1)(ˆ

1

2**

B

b

b SSB

SarV ZZ

B

b

b

B

SS

1

** )(Z

Page 23: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Bootstrap-estimaatti odotusarvoiselle ennustevirheelle

• Sovitetaan bootsrap-aineistoon, validoidaan

alkuperäisellä

• Huono estimaatti: bootstrap-aineistossa ja

validointiaineistossa paljon samoja havaintoja

Tuloksena saatu estimaatti liian pieni

B

b

N

ii

biboot xfyL

NBrrE

1 1

* )(ˆ,(11ˆ

Page 24: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Bootstrap & lähimmän naapurin luokittelija

• Kaksi luokkaa, molemmissa luokissa yhtä monta havaintoa

• Selittäjät ja luokkamuuttujat riippumattomia Err = 0.5

• Havainto i ei vaikuta ellei mukana bootstrap-aineistossa b

• Saadaan

Liian pieni estimaatti odotusarvoiselle ennustevirheelle!

bootrrE

N

N

111b aaineistoss-bootstrap i havaintoPr

632.01

1 e

184.0)632.01(5.0]ˆ[E bootrrE

Page 25: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

LOO Bootstrap-estimaattoria

• Estimaattia voidaan parantaa matkimalla LOO-ristiinvalidointia

• Merkitään niiden bootstrap-aineistojen indeksien

joukkoa jossa havainto i ei mukana

• Bootstrap-näytteessä keskimäärin havaintoa

– Käyttäytyy kuten ristiinvalidointi jossa K=2

– Samat ongelmat liittyen opetusjoukon kokoon (kalvot 6 ja 7)

N

i Cbi

bii

xfyLCN

rrE1

*)1(

1

))(ˆ,(11ˆ

iC

N632.0

Page 26: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

”.632”-estimaattori

• ”.632”-estimaattori korjaa odotusarvoisen ennustevirheen

- estimaattoria kohti opetusvirhettä

• Johtaminen monimutkaista

• Toimii huonosti jos luokittelija ylisovittuu opetusaineistoon

eli

)1(ˆrrE

)1()632(. ˆ632.0err368.0ˆ rrErrE

0err

Page 27: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

”.632+” – estimaattorin johtaminen

• Halutaan korjata ylisovittumisesta aiheutuvia ongelmia

• Määritellään informaatioton virhesuure

– Virheiden osuus jos selittävät muuttujat ja selitettävät

luokkamuuttujat riippumattomia

• Estimaattori

N

i

N

iii xfyL

N 1 1''2))(ˆ,(

1

Page 28: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

”.632+”-estimaattori

• Määritellään suhteellinen ylisovittuminen

– 0 jos ei lainkaan ylisovittumista ( )

– 1 jos

• Määritellään .632+ - estimaattori

• Kompromissi: lopputulos jotain

opetusvirheen ja LOO bootstrap-estimaatin väliltä

• Johto monimutkainen, ei käsitelty kirjassa

err

errrrER

ˆˆ

)1(

errrrE )1(ˆ

errerrrrE ˆ )1(

,ˆˆerr)ˆ1(ˆ )1()632(. rrEwwrrE

Rw

ˆ368.01

632.0ˆ

Page 29: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Bootsrap- ja ristiinvalidointi- estimaattoreiden vertailu

• Kirjan esimerkeissä ristiinvalidoinnin ja bootstrap-

menetelmien käyttö johti samankaltaisiin tuloksiin

– Etuna helppo toteutus

– Haittana laskennallinen vaativuus

– Akaiken informaatiokriteerillä samankaltaisia tuloksia

• Parempi arvio yleistysvirheestä kuin Akaiken

informaatiokriteerillä tai Bayesiläisellä

informaatiokriteerillä

Page 30: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Kiitos!

• Kysymyksiä?

Page 31: Ristiinvalidointi ja  bootstrap-menetelmä 20.10.2010

S ysteemianalyysinLaboratorioAalto-yliopiston teknillinen korkeakoulu

Esitelmä # - Esitelmöijän nimiOptimointiopin seminaari - Syksy 2010

Esitelmä 14 – Jouni PousiOptimointiopin seminaari – Syksy 2010

Kotitehtävä: Kirjan tehtävä 7.10• Kaksi luokkaa, N havaintoa, p bin. selittäjää jotka

riippumattomia luokkamuuttujista

• Luokittelijana jokin p selittäjästä

• Jos p riittävän suuri, löydetään selittäjä joka luokittelee

koko aineiston täydellisesti

– Tällöin myös ristiinvalidoinnin validointiaineisto luokitellaan täydellisesti

• Seuraako tästä, että ristiinvalidoinnilla laskettu ennustevirhe on 0,

eikä ristiinvalidointia voida käyttää?

• Saa simuloida jos haluaa, voi myös päätellä ja perustella

– Osittain valmis MATLAB-koodi es14.m