16
Ante Barišić Vedran Ivanac Nikolina Mišljenčević

Ante Barišić Vedran Ivanac Nikolina Mišljenčevi怦 · Plan predavanja ¾Bayesovo pravilo ¾Specifičnosti naivnog Bayesovog klasifikatora ¾Pretpostavka koju klasifikator

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

  • Ante BarišićVedran Ivanac

    Nikolina Mišljenčević

  • Plan predavanja

    Bayesovo praviloSpecifičnosti naivnog Bayesovog klasifikatoraPretpostavka koju klasifikator koristiMAP hipotezaPraktične primjene klasifikatoraPrimjer: podaci za “Igranje odbojke”Rješenje upotrebom naivnog Bayesovog

    klasifikatoraOstali klasifikatoriPodsjetnik

  • Bayesovo pravilo

    )()()|()|(

    xPyPyxPxyp =

    (model) hipotezaypodaci x

    :pravila Bayesovog ePojašnjenj

    ==

  • 13. siječnja 2005. Bayesovo učenje 4 / 29

    Bayesovo pravilo - primjerH = {h1=(iz Skandinavije), h2=(iz ostatka Europe)};

    P(h1) = 0,048; P(h2) = 0,952

    A = {osoba je plava}; P(A) = 0,1

    u Skandinaviji su gotovo svi plavi: P(A|h1) = 0,85

    vjerojatnost da je osoba plave kose iz Skandinavije?

    P(h1|A) je “a posteriori” vjerojatnost hipoteze h1

    408.01.0

    048.0*85.0)(

    )()|()|( 111 === APhPhAPAhP

  • Specifičnosti naivnog Bayesovog klasifikatora

    primjena kod podataka koje se sastoje od više atributakoristi pretpostavku o nezavisnosti atributa

    unutar razreda zbog čega se i naziva “naivnim”računa MAP hipotezu

  • Pretpostavka koju klasifikator koristi

    atributi unutar podatka su međusobno neovisni u odnosu na razred:

    ta pretpostavka u stvarnosti često može biti narušenausprkos tome, u praksi dobro funkcionira

    ∏==t

    tT haPhaaPhP )|()|,...,()|( 1d

  • MAP hipoteza

    MAP hipoteza – Maximum A Posteriori je ona hipoteza za koju je P(h|D) najveći za predočene podatke D

    pišemo hMAP

  • MAP hipoteza

    na temelju Bayesovog teorema:

    Vjerojatnost P(D) možemo izostaviti jer je konstantna

    )()()|(max

    DPhPhDPh iiHhMAP i∈=

    )|(max DhPh iHhMAP i∈=

    )()|(max iiHhMAP hPhDPh i∈=

  • Maksimalna vjerodostojnost(maximum likelihood ML)

    U slučaju kada su sve hipoteze iz h jednako vjerojatne, dalje pojednostavljujemo:

    )|(max iHhMAP hDPh i∈= )( ihP

    )|(max iHhML hDPh i∈=

  • Praktične primjene klasifikatora

    Medicinske dijagnozeKlasifikacija teksta

    Filtracija neželjene (spam) pošte Odabir web stranica koje bi mogle zanimati određenog korisnika

    Proučavanje karakteristika genoma

  • Primjer: podaci za “Igranje odbojke na pijesku”

    DAN VRIJEME TEMPERATURA VLAGA VJETAR IGRATI ODBOJKU?

    Dan 1 Sunčano Visoka Visoka Slab Ne

    Dan 2 Sunčano Visoka Visoka Jak Ne

    Dan 3 Oblačno Visoka Visoka Slab Da

    Dan 4 Kišno Srednja Visoka Slab Da

    Dan 5 Kišno Niska Normalna Slab Da

    Dan 6 Kišno Niska Normalna Jak Ne

    Dan 7 Oblačno Niska Normalna Jak Da

    Dan 8 Sunčano Srednja Visoka Slab Ne

    Dan 9 Sunčano Niska Normalna Slab Da

    Dan 10 Kišno Srednja Normalna Slab Da

    Dan 11 Sunčano Srednja Normalna Jak Da

    Dan 12 Oblačno Srednja Visoka Jak Da

    Dan 13 Oblačno Visoka Normalna Slab Da

    Dan 14 Kišno Srednja Visoka Jak Ne

  • Rješenje upotrebom naivnog Bayesovog klasifikatora

    Klasificiraj svako novo pojavljivanje podatkax=(a1,…aT) kao:

    Da bi to izračunali na temelju primjera za učenje, moramo procijeniti parametre iz primjera za učenje

    Za svaku hipotezu h

    Za svaku vrijednost atributa at za svaku pojavu podatka

    )( procijeni:)(ˆ hPhP =

    )|( procijeni:)|(ˆ haPhaP tt =

    ∏==t

    thh

    BayesNaive haPhPhPhPh )|()(maxarg)|()(maxarg x

  • Pomoću primjera iz tablice, klasificiraj zadani novi podatak x(vektor koji se ne nalazi u postojećoj tablici):X = (Vrijeme = sunčano, Temp = niska, Vlaga = visoka, Vjetar = jak)

    Pitanje je zapravo: igrati odbojku ili ne?

    ∏∈∈

    ==t

    tnedahnedah

    NB haPhPhPhPh )|()(maxarg)|()(maxarg],[],[

    x

    )|(*)|()|.(

    *)|()(maxarg],[

    hjakVjetarPhvisokaVlažnostPhniskaTempP

    hsuncanoVrijemePhPhnedah

    NB

    ===

    ==∈

  • Pomoću primjera iz tablice, klasificiraj zadani novi podatak x(vektor koji se ne nalazi u postojećoj tablici):X = (Vrijeme = sunčano, Temp = niska, Vlaga = visoka, Vjetar = jak)

    neDjkuIgratiOdboodgovor

    nejakPnevisokaPneniskaPnePneP

    dajakPdavisokaPdaniskaPdaPdaP

    nejkuIgratiOdbojakVjetarPdajkuIgratiOdbojakVjetarP

    nejkuIgratiOdbovisokaVlagaPdajkuIgratiOdbovisokaVlagaP

    nejkuIgratiOdboniskaaTemperaturPdajkuIgratiOdboniskaaTemperaturP

    nejkuIgratiOdbosuncanoVrijemePdajkuIgratiOdbosuncanoVrijemeP

    nejkuIgratiOdboPdajkuIgratiOdboP

    =⇒=

    ==

    =

    ================

    ========

    ========

    ======

    )(:76.0*8.0*2.0*6.0*36.0

    )|()|()|()|suncan()(0053.033.0*33.0*33.0*22.0*64.0

    )|()|()|()|suncan()(

    60.05/3)|(33.09/3)|(

    80.05/4)|(33.09/3)|(

    20.05/1)|(33.09/3)|(

    60.05/3)|(22.09/2)|(

    36.014/5)(64.014/9)(

    0.020

  • Ostali klasifikatori:

    njima se ovdje nećemo baviti, već ćemo samospomenuti neke od njih:

    Optimalni Bayesov klasifikatorPolunaivni Bayesov klasifikatorGibbsov algoritam

    po složenosti prelaze razinu ovog predavanja

  • Podsjetnik

    Bayesovo pravilo se može pretvoriti u klasifikatorMaximum A Posteriori (MAP) procjena hipoteze sadrži znanje o prošlim događajima dok “max likelihood” nenaivni Bayesov klasifikator je jednostavan ali učinkovit klasifikator za vektorske podatke (podatke s nekoliko atributa) koji pretpostavlja da su atributi nezavisni u odnosu na razred