Ante Barišić Vedran Ivanac Nikolina Mišljenčević€¦ · Plan predavanja ¾Bayesovo pravilo ¾Specifičnosti naivnog Bayesovog klasifikatora ¾Pretpostavka koju klasifikator

Ante BarišićVedran Ivanac

Nikolina Mišljenčević

Plan predavanja

Bayesovo praviloSpecifičnosti naivnog Bayesovog klasifikatoraPretpostavka koju klasifikator koristiMAP hipotezaPraktične primjene klasifikatoraPrimjer: podaci za “Igranje odbojke”Rješenje upotrebom naivnog Bayesovog

klasifikatoraOstali klasifikatoriPodsjetnik

Bayesovo pravilo

)()()|()|(

xPyPyxPxyp =

(model) hipotezaypodaci x

:pravila Bayesovog ePojašnjenj

==

13. siječnja 2005. Bayesovo učenje 4 / 29

Bayesovo pravilo - primjerH = {h1=(iz Skandinavije), h2=(iz ostatka Europe)};

P(h1) = 0,048; P(h2) = 0,952

A = {osoba je plava}; P(A) = 0,1

u Skandinaviji su gotovo svi plavi: P(A|h1) = 0,85

vjerojatnost da je osoba plave kose iz Skandinavije?

P(h1|A) je “a posteriori” vjerojatnost hipoteze h1

408.01.0

048.0*85.0)(

)()|()|( 111 === APhPhAPAhP

Specifičnosti naivnog Bayesovog klasifikatora

primjena kod podataka koje se sastoje od više atributakoristi pretpostavku o nezavisnosti atributa

unutar razreda zbog čega se i naziva “naivnim”računa MAP hipotezu

Pretpostavka koju klasifikator koristi

atributi unutar podatka su međusobno neovisni u odnosu na razred:

ta pretpostavka u stvarnosti često može biti narušenausprkos tome, u praksi dobro funkcionira

∏==t

tT haPhaaPhP )|()|,...,()|( 1d

MAP hipoteza

MAP hipoteza – Maximum A Posteriori je ona hipoteza za koju je P(h|D) najveći za predočene podatke D

pišemo hMAP

MAP hipoteza

na temelju Bayesovog teorema:

Vjerojatnost P(D) možemo izostaviti jer je konstantna

)()()|(max

DPhPhDPh iiHhMAP i∈=

)|(max DhPh iHhMAP i∈=

)()|(max iiHhMAP hPhDPh i∈=

Maksimalna vjerodostojnost(maximum likelihood ML)

U slučaju kada su sve hipoteze iz h jednako vjerojatne, dalje pojednostavljujemo:

)|(max iHhMAP hDPh i∈= )( ihP

)|(max iHhML hDPh i∈=

Praktične primjene klasifikatora

Medicinske dijagnozeKlasifikacija teksta

Filtracija neželjene (spam) pošte Odabir web stranica koje bi mogle zanimati određenog korisnika

Proučavanje karakteristika genoma

Primjer: podaci za “Igranje odbojke na pijesku”

DAN VRIJEME TEMPERATURA VLAGA VJETAR IGRATI ODBOJKU?

Dan 1 Sunčano Visoka Visoka Slab Ne

Dan 2 Sunčano Visoka Visoka Jak Ne

Dan 3 Oblačno Visoka Visoka Slab Da

Dan 4 Kišno Srednja Visoka Slab Da

Dan 5 Kišno Niska Normalna Slab Da

Dan 6 Kišno Niska Normalna Jak Ne

Dan 7 Oblačno Niska Normalna Jak Da

Dan 8 Sunčano Srednja Visoka Slab Ne

Dan 9 Sunčano Niska Normalna Slab Da

Dan 10 Kišno Srednja Normalna Slab Da

Dan 11 Sunčano Srednja Normalna Jak Da

Dan 12 Oblačno Srednja Visoka Jak Da

Dan 13 Oblačno Visoka Normalna Slab Da

Dan 14 Kišno Srednja Visoka Jak Ne

Rješenje upotrebom naivnog Bayesovog klasifikatora

Klasificiraj svako novo pojavljivanje podatkax=(a1,…aT) kao:

Da bi to izračunali na temelju primjera za učenje, moramo procijeniti parametre iz primjera za učenje

Za svaku hipotezu h

Za svaku vrijednost atributa at za svaku pojavu podatka

)( procijeni:)(ˆ hPhP =

)|( procijeni:)|(ˆ haPhaP tt =

∏==t

thh

BayesNaive haPhPhPhPh )|()(maxarg)|()(maxarg x

Pomoću primjera iz tablice, klasificiraj zadani novi podatak x(vektor koji se ne nalazi u postojećoj tablici):X = (Vrijeme = sunčano, Temp = niska, Vlaga = visoka, Vjetar = jak)

Pitanje je zapravo: igrati odbojku ili ne?

∏∈∈

==t

tnedahnedah

NB haPhPhPhPh )|()(maxarg)|()(maxarg],[],[

x

)|(*)|()|.(

*)|()(maxarg],[

hjakVjetarPhvisokaVlažnostPhniskaTempP

hsuncanoVrijemePhPhnedah

NB

===

==∈

Pomoću primjera iz tablice, klasificiraj zadani novi podatak x(vektor koji se ne nalazi u postojećoj tablici):X = (Vrijeme = sunčano, Temp = niska, Vlaga = visoka, Vjetar = jak)

neDjkuIgratiOdboodgovor

nejakPnevisokaPneniskaPnePneP

dajakPdavisokaPdaniskaPdaPdaP

nejkuIgratiOdbojakVjetarPdajkuIgratiOdbojakVjetarP

nejkuIgratiOdbovisokaVlagaPdajkuIgratiOdbovisokaVlagaP

nejkuIgratiOdboniskaaTemperaturPdajkuIgratiOdboniskaaTemperaturP

nejkuIgratiOdbosuncanoVrijemePdajkuIgratiOdbosuncanoVrijemeP

nejkuIgratiOdboPdajkuIgratiOdboP

=⇒=

==

=

================

========

========

======

)(:76.0*8.0*2.0*6.0*36.0

)|()|()|()|suncan()(0053.033.0*33.0*33.0*22.0*64.0

)|()|()|()|suncan()(

60.05/3)|(33.09/3)|(

80.05/4)|(33.09/3)|(

20.05/1)|(33.09/3)|(

60.05/3)|(22.09/2)|(

36.014/5)(64.014/9)(

0.020

Ostali klasifikatori:

njima se ovdje nećemo baviti, već ćemo samospomenuti neke od njih:

Optimalni Bayesov klasifikatorPolunaivni Bayesov klasifikatorGibbsov algoritam

po složenosti prelaze razinu ovog predavanja

Podsjetnik

Bayesovo pravilo se može pretvoriti u klasifikatorMaximum A Posteriori (MAP) procjena hipoteze sadrži znanje o prošlim događajima dok “max likelihood” nenaivni Bayesov klasifikator je jednostavan ali učinkovit klasifikator za vektorske podatke (podatke s nekoliko atributa) koji pretpostavlja da su atributi nezavisni u odnosu na razred

Documents

Ante Barišić Vedran Ivanac Nikolina Mišljenčević€¦ · Plan predavanja ¾Bayesovo pravilo ¾Specifičnosti naivnog Bayesovog klasifikatora ¾Pretpostavka koju klasifikator