Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Ante BarišićVedran Ivanac
Nikolina Mišljenčević
Plan predavanja
Bayesovo praviloSpecifičnosti naivnog Bayesovog klasifikatoraPretpostavka koju klasifikator koristiMAP hipotezaPraktične primjene klasifikatoraPrimjer: podaci za “Igranje odbojke”Rješenje upotrebom naivnog Bayesovog
klasifikatoraOstali klasifikatoriPodsjetnik
Bayesovo pravilo
)()()|()|(
xPyPyxPxyp =
(model) hipotezaypodaci x
:pravila Bayesovog ePojašnjenj
==
13. siječnja 2005. Bayesovo učenje 4 / 29
Bayesovo pravilo - primjerH = {h1=(iz Skandinavije), h2=(iz ostatka Europe)};
P(h1) = 0,048; P(h2) = 0,952
A = {osoba je plava}; P(A) = 0,1
u Skandinaviji su gotovo svi plavi: P(A|h1) = 0,85
vjerojatnost da je osoba plave kose iz Skandinavije?
P(h1|A) je “a posteriori” vjerojatnost hipoteze h1
408.01.0
048.0*85.0)(
)()|()|( 111 === APhPhAPAhP
Specifičnosti naivnog Bayesovog klasifikatora
primjena kod podataka koje se sastoje od više atributakoristi pretpostavku o nezavisnosti atributa
unutar razreda zbog čega se i naziva “naivnim”računa MAP hipotezu
Pretpostavka koju klasifikator koristi
atributi unutar podatka su međusobno neovisni u odnosu na razred:
ta pretpostavka u stvarnosti često može biti narušenausprkos tome, u praksi dobro funkcionira
∏==t
tT haPhaaPhP )|()|,...,()|( 1d
MAP hipoteza
MAP hipoteza – Maximum A Posteriori je ona hipoteza za koju je P(h|D) najveći za predočene podatke D
pišemo hMAP
MAP hipoteza
na temelju Bayesovog teorema:
Vjerojatnost P(D) možemo izostaviti jer je konstantna
)()()|(max
DPhPhDPh iiHhMAP i∈=
)|(max DhPh iHhMAP i∈=
)()|(max iiHhMAP hPhDPh i∈=
Maksimalna vjerodostojnost(maximum likelihood ML)
U slučaju kada su sve hipoteze iz h jednako vjerojatne, dalje pojednostavljujemo:
)|(max iHhMAP hDPh i∈= )( ihP
)|(max iHhML hDPh i∈=
Praktične primjene klasifikatora
Medicinske dijagnozeKlasifikacija teksta
Filtracija neželjene (spam) pošte Odabir web stranica koje bi mogle zanimati određenog korisnika
Proučavanje karakteristika genoma
Primjer: podaci za “Igranje odbojke na pijesku”
DAN VRIJEME TEMPERATURA VLAGA VJETAR IGRATI ODBOJKU?
Dan 1 Sunčano Visoka Visoka Slab Ne
Dan 2 Sunčano Visoka Visoka Jak Ne
Dan 3 Oblačno Visoka Visoka Slab Da
Dan 4 Kišno Srednja Visoka Slab Da
Dan 5 Kišno Niska Normalna Slab Da
Dan 6 Kišno Niska Normalna Jak Ne
Dan 7 Oblačno Niska Normalna Jak Da
Dan 8 Sunčano Srednja Visoka Slab Ne
Dan 9 Sunčano Niska Normalna Slab Da
Dan 10 Kišno Srednja Normalna Slab Da
Dan 11 Sunčano Srednja Normalna Jak Da
Dan 12 Oblačno Srednja Visoka Jak Da
Dan 13 Oblačno Visoka Normalna Slab Da
Dan 14 Kišno Srednja Visoka Jak Ne
Rješenje upotrebom naivnog Bayesovog klasifikatora
Klasificiraj svako novo pojavljivanje podatkax=(a1,…aT) kao:
Da bi to izračunali na temelju primjera za učenje, moramo procijeniti parametre iz primjera za učenje
Za svaku hipotezu h
Za svaku vrijednost atributa at za svaku pojavu podatka
)( procijeni:)(ˆ hPhP =
)|( procijeni:)|(ˆ haPhaP tt =
∏==t
thh
BayesNaive haPhPhPhPh )|()(maxarg)|()(maxarg x
Pomoću primjera iz tablice, klasificiraj zadani novi podatak x(vektor koji se ne nalazi u postojećoj tablici):X = (Vrijeme = sunčano, Temp = niska, Vlaga = visoka, Vjetar = jak)
Pitanje je zapravo: igrati odbojku ili ne?
∏∈∈
==t
tnedahnedah
NB haPhPhPhPh )|()(maxarg)|()(maxarg],[],[
x
)|(*)|()|.(
*)|()(maxarg],[
hjakVjetarPhvisokaVlažnostPhniskaTempP
hsuncanoVrijemePhPhnedah
NB
===
==∈
Pomoću primjera iz tablice, klasificiraj zadani novi podatak x(vektor koji se ne nalazi u postojećoj tablici):X = (Vrijeme = sunčano, Temp = niska, Vlaga = visoka, Vjetar = jak)
neDjkuIgratiOdboodgovor
nejakPnevisokaPneniskaPnePneP
dajakPdavisokaPdaniskaPdaPdaP
nejkuIgratiOdbojakVjetarPdajkuIgratiOdbojakVjetarP
nejkuIgratiOdbovisokaVlagaPdajkuIgratiOdbovisokaVlagaP
nejkuIgratiOdboniskaaTemperaturPdajkuIgratiOdboniskaaTemperaturP
nejkuIgratiOdbosuncanoVrijemePdajkuIgratiOdbosuncanoVrijemeP
nejkuIgratiOdboPdajkuIgratiOdboP
=⇒=
==
=
================
========
========
======
)(:76.0*8.0*2.0*6.0*36.0
)|()|()|()|suncan()(0053.033.0*33.0*33.0*22.0*64.0
)|()|()|()|suncan()(
60.05/3)|(33.09/3)|(
80.05/4)|(33.09/3)|(
20.05/1)|(33.09/3)|(
60.05/3)|(22.09/2)|(
36.014/5)(64.014/9)(
0.020
Ostali klasifikatori:
njima se ovdje nećemo baviti, već ćemo samospomenuti neke od njih:
Optimalni Bayesov klasifikatorPolunaivni Bayesov klasifikatorGibbsov algoritam
po složenosti prelaze razinu ovog predavanja
Podsjetnik
Bayesovo pravilo se može pretvoriti u klasifikatorMaximum A Posteriori (MAP) procjena hipoteze sadrži znanje o prošlim događajima dok “max likelihood” nenaivni Bayesov klasifikator je jednostavan ali učinkovit klasifikator za vektorske podatke (podatke s nekoliko atributa) koji pretpostavlja da su atributi nezavisni u odnosu na razred