PU 4 Bayes klasifikacija.ppt - lejla-bm.com.ba · Bayesov klasifikator je optimalan s obzirom na minimizaciju klasifikacione greške vjerovatno

28.3.2013.

1

Sadržaj predavanja

Klasifikacija zasnovana na Bayesovoj teoriji odlučivanja

Naivni Bayesov klasifikator, primjer

Copyright: Lejla Banjanović-Mehmedović 1

Prepoznavanje uzoraka

Klasifikacija zasnovana na Bayesovoj teoriji odlučivanja

Probabilistički pristup u prepoznavanju uzoraka: Statistička varijacija uzoraka Šum u mjerenjima

Dizajn klasifikatora, koji klasificiraju nepoznate uzorake u najvjerovatnije klase: Osnovni cilj prepoznavanja oblika jeste da se donese odluka

kojoj kategoriji posmatrani uzorak pripada. Na osnovu opservacija ili mjerenja formira se vektor mjerenja. Ovaj vektorsluži kao ulaz u pravilo odlučivanja kroz koje se ovaj vektorpridružuje nekoj od analiziranih klasa.



28.3.2013.

2

Slučajni vektori i njihova raspodjela

Posmatrajmo slučajni vektor X (vektor uzoraka), koji se sastoji od n slučajnih varijabli:

Pridružuje se funkcija raspodjele vjerovatnoće

i funcija gustine vjerovatnoće



Slučajni vektori i njihova raspodjela U teoriji prepoznavanja uzoraka operiše se sa slučajnim vektorima

koji se pridružiju različitim klasama (klasa i, L ukupan broj klasa.)

– a’priori vjerovatnoća pojave klase i Svaka klasa je okarakterisana svojom funckijom raspodjele (uslovna

raspodjele za i-tu klasu)- distribucija vektora X u svaku od klasa

Bezuslovna funcija raspodjele sl. vektora X –miksana funkcija raspodjele:

Aposteriorna vjerovatnoća klase se računa na osnovu Bayesove teoreme (predstavlja vjerovatnoću da nepoznati uzorak pripada datoj klasi):



28.3.2013.

3

Bayesovo klasifikaciono pravilo


Slučaj 2 klase: a’priori vjerovatnoće poznate ili

Uslovna vjerovatanoća ili funkcija sličnosti klase wi u odnosu na X

Traženje max. vrijednosti pri istoj a’priori vrijednosti se odnosi na uslovne vjerovatnoće!




Izraz l se naziva količnik vjerodostojnosti (likelihood ratio) i to je vrlo važna veličina u prepoznavanju oblika.

Količnik a’ priori vjerovatnoća naziva se vrijednošću praga (threshold value)količnika vjerodostojnosti u odlučivanju.


28.3.2013.

4


Uobičajeno je da se na količnik vjerodostojnosti primjeni funkcija negativnog prirodnog logaritma, i tada pravilo odlučivanja dobija formu:

Izraz h(X) predstavlja diskriminacionu funkciju.



Bayesovo pravilo odlučivanja minimalne greške

U analizi navedenog pravila vrlo je važno odrediti vjerovatnoću greške odlučivanja. Ovo i slična pravila ne obezbjeđuje savršeno klasifikovanje.

Pod vjerovatnoćom greške se podrazumjeva vjerovatnoća događaja da će pravilo donijeti pogrešnu odluku o pripadanju mjernog vektora klasi.


Primjer dvije klase iste vjerovatnoće, pri čemu je uzeta samo jedna karakteristika (atribut) l=1


28.3.2013.

5

Bayesovo pravilo odlučivanja minimalne greške


Ukupna greška (Bayesova greška) :

Bayesova vjerovatnoća greške sastoji iz dva člana: prvi se odnosi na loše klasifikovane vektore iz klase ω1, dok se drugi odnosi na loše klasifikovane vektore iz klase ω2.

Ovo pravilo generiše najmanju moguću grešku odlučivanja (Bayesovo pravilo odlučivanja minimalne greške) ako se greška minimizira tako da za izdjeljene regione R1 i R2 vrijedi:

Ili uopšteno: Bayesov klasifikator je optimalan s obzirom na minimizaciju

klasifikacione greške vjerovatnoće.Prepoznavanje uzoraka

Bayesovo pravilo odlučivanja minimalne cijene


Vrlo često u praksi, minimizacija vjerovatnoće greške nije najbolji kriterijum za projektovanje pravila odlučivanja.

Često se dešava da greška kada se mjerni vektor iz prve klase pridruži drugoj nema istu težinu kao kada se mjerni vektor iz druge klase pridruži prvoj.

Dobar primer za ilustraciju ovakve situacije jeste prepoznavanje oboljenja u medicini.

Zbog toga se uvode cjene za svaku od mogućih odluka.


28.3.2013.

6



Problem iz medicine: Umjesto da selektiramo R1 i R2 tako da min. Pe, minimizirat ćemo modifikovanu verziju:




Rj, regioni prostora klase j Vektor X koji pripada klasi wk, leži u regionu i Greška => uvođenje kazne (gubitka,pogrešna odluka)

Rizik asociran sa klasom wk: Cilj: izabrati takvo formiranje regiona tako da prosječan rizik

bude minimiziran:


28.3.2013.

7



Za 2 klase:

Pridružit ćemo X klasi ω1 ako je l1

28.3.2013.

8

Diskriminantne funkcije i površ odlučivanja


Minimiziranje rizika ili greške vjerovatnoće je ekvivalentno podjeli prostora uzoraka u M regiona, za zadatke sa M klasa.

Ako su Ri, Rj granični regioni, onda su podjeljeni sa površi odlučivanja u multidimenzionalnom prostoru.

U slučaju minimalne greške vjerovatnoće, površ odlučivanja opisana sa:

S matematičke strane, opravdano uvesti diskriminantnu funkciju

pa test odluke glasi: Klasificiraj X u ωi ako je Površi odlučivanja, koje razdvajaju granične regione opisane sa:


Normalna raspodjela Poseban slučaj funkcije gustine vjerovatnoće p(X) jeste normalna raspodjela slučajne

varijable X (multi forma za l-dimenzionalni prostor):

pri čemu je ovo forma za normalnu raspodjelu sa matematičkim očekivanjem M i kovarijacionom matricom Σ

hji je (i,j)-ti element inverzne matrice Σ tr A-trag matrice A, zbir svih dijagonalnih elemenata matrice A.



28.3.2013.

9

Posmatramo 2-D prostor:


Normalna raspodjela

Primjer sferične simetrije



Normalna raspodjela

Graf Gausijana izdužen duž x1 ose, smjer veće varijanse, krive elipse


28.3.2013.

10


Normalna raspodjela

Graf Gausijana izdužen duž x2 ose


Primjer nedijagonalne kovarijantne matice (različite krive po obliku i orjentaciji


Normalna raspodjela


28.3.2013.

11


Normalna raspodjela

Jednačina elipse čije su ose određene varijansama uključenih karakteristika


Bayesov klasifikator za Normalno distribuirane klase Cilj: analizirati optimalni Bayesov klasifikator, gdje su uključene

funkcije vjerovatnoće svake klase u odnosu na vektor uzoraka X

opisujući distribuciju podataka sa multivarijacionom normalnom distribucijom

Diskriminaciona funkcija:

ili



28.3.2013.

12

Bayesov klasifikator za Normalno distribuirane klase

Generalno nelinearna kvadratna forma.

Za l=2 =>

Kriva odlučivanja je kvadratna (elipsa, parabola, hiperbola, parovi linija i sl.) => Bayesov kvadratni klasifikator

Za l>2 => hiperkvadratna površ odlučivanja





Primjer kvadratne krive odlučivanja (elipsa, hiperbola)


28.3.2013.

13



Dvije jednako vjerovatne klase u 2D prostoru, sa normalnom distribucijom i različitih kovarijansnih matrica. Kriva odlučivanja-elipsa




Dvije jednako vjerovatne klase u 2D prostoru, sa normalnom distribucijom i različitih kovarijansnih matrica. Kriva odlučivanja-hiperbolaPrepoznavanje uzoraka

28.3.2013.

14

Hiperravni odlučivanja


Kvadratni doprinos u (**) dolazi od izraza:

Reduciranjem gi(X):

gi(X) je linearna funkcija od X, površi odlučivanja -hiperravni


Hiperravni odlučivanja


Linija odlučivanja za kompaktne i nekompaktne klase


28.3.2013.

15

Klasifikatori minimalne distance Ako uvedemo pretpostavku u (**) da 2 jednako vjerovatne klase

imaju istu kovarijantnu matricu =>

1. Dijagonalna matrica, max gi(X) implicira min. Euklidske distance 2. Nedijagonalna matrica, max gi(X) implicira min. Mahalanobisove distance





Naivni Bayesov klasifikator

Spada u grupu statističkih parametarskih klasifikatora (vektor atributa se interpretira kao stohastička varijabla čija raspodjela zavisi od klase uzoraka), iz tog razloga se može koristiti Bayesova teorema u klasifikaciji.

Primjena u prepoznavanju uzoraka

28.3.2013.

16




Pretpostavimo da imamo skup od m uzoraka ili podataka S ={S1,S2,...,Sm}, gdje je svaki uzorak Si predstavljen kao n-dimenzini vektor {x1,x2,...,xn}, pri čemu svako xi predstavlja atribut uzorka.

Neka je definisano k klasa k1, k2,…, kk i neka svaki uzorak pripada jednoj od ovih klasa. Neka je dat dodatni uzorak X, pri

čemu ne znamo kojoj klasi pripada.




Ukoliko klasifikaciju predstavimo kao pronalaženje najvjerojatnije klasifikacije tada se može računati po izrazu:

što predstavlja najvjerovatniji element konačnog skupa K svih mogućih klasifikacija uzoraka. Svaki uzorak prikazan je kao skup vrijednosti atributa

28.3.2013.

17




Naivni Bayesov klasifikator uvodi pojednostavljenje u vidu pretpostavljene međusobne nezavisnosti vrijednosti atributa u n-torkama tako da vrijedi izraz:

Prepravljeni izraz za klasifikaciju Naivnim Bayesovim klasifikatorom sada glasi:

Događaji E1, E2,...En su međusobno nezavisni ako isamo ako za bilo koji podskup

ovih događaja vrijedi:



Primjer za klasifikaciju Naivnim Bayesovim klasifikatorom

Za svaki uzorak opisan atributima A1, A2 i A3 data je klasa, kojoj pripada. Potrebno je predvidjeti klasu za novi uzorak opisan sa X= {1,2,2}.

Uzorak Atribut A1 Atribut A2 Atribut A3 Klasa K

1 1 2 1 1

2 0 0 1 1

3 2 1 2 2

4 1 2 1 2

5 0 1 2 1

6 2 2 2 2

7 1 0 0 1

28.3.2013.

18




A’priori vjerovatnoće za svaku od klasa su:

Proračun uslovnih vjerovatnoća za svaki atribut novog uzorka u odnosu na svaku klasu:




Pod pretpostavkom uslovne nezavisnosti atributa, uslovne vjerovatnoće su:

28.3.2013.

19




Množenjem uslovnih vjerovatnoća sa odgovarajućim a’priori vjerovatnoćama, moćemo naći odgovarajuće a’posteriori vjerovatnoće:

te maksimum imeđu njih:

Documents

PU 4 Bayes klasifikacija.ppt - lejla-bm.com.ba · Bayesov klasifikator je optimalan s obzirom na minimizaciju klasifikacione greške vjerovatno