Author
nicola-fanizzi
View
255
Download
3
Embed Size (px)
DESCRIPTION
La regola precedente equivale alla seguente: Se P(x|ω 1 ) P(x|ω 2 ) > (λ 12 − λ 22 )P(ω 2 ) (λ 21 − λ 11 )P(ω 1 ) Il rischio corrispondente a questa loss function è la probabilità d’errore media Lo spazio delle feature viene diviso in c regioni di decisione Se g i (x) > g j (x) ∀j = i allora x è in R i (R i significa assignare x a ω i ) Caso binario
Teoria delle Decisioni Bayesiana
Corso di Apprendimento AutomaticoLaurea Magistrale in Informatica
Nicola Fanizzi
Dipartimento di InformaticaUniversit degli Studi di Bari
14 gennaio 2009
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Sommario
IntroduzioneTeoria delle decisioni Bayesiana - nel continuoClassificazione a Minimo Tasso dErrore(Minimum-Error-Rate)Classificatori, funzioni discriminanti e superfici di decisioneTeoria delle decisioni Bayesiana - nel discreto
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Introduzione I
Esempio branzino/salmoneStato di natura, probabilit a priori
Lo stato di natura una variabile aleatoriaLa pesca di salmone o branzino equiprobabile:
P(1) = P(2) probabilit a priori uniforme
P(1) + P(2) = 1 esclusivit ed esaustivit
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Introduzione II
Regola di decisione con la sola informazione delleprobabilit a priori:Se P(1) > P(2) allora decidi per 1altrimenti decidi per 2Usare linformazione condizionale sulle classe
Sia X una variabile aleatoria che misura il pesoP(x |1) e P(x |2) descrivono la differente leggerezza tra ledue popolazioni di pesci
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Introduzione III
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Probabilit a posteriori, verosimilianza, evidenza I
P(j |x) p. a posteriori
=
verosimilianza P(x |j)
p. a priori P(j)
P(x) evidenza
P(x) meno importante di P(j |x) e P(j)In caso di c categorie
P(x) =c
j=1
P(x |j)P(j)
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Probabilit a posteriori, verosimilianza, evidenza II
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Errore I
La decisione conseguenza dalle probabilit a posterioriX unosservazione per la quale:se P(1|x) > P(2|x) stato di natura reale = 1se P(1|x) < P(2|x) stato di natura reale = 2
Pertanto:quando si osserva una particolare x ,la probabilit derrore :
P(error |x) = P(1|x) decidendo per 2P(error |x) = P(2|x) decidendo per 1
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Errore II
Minimizzare la probabilit derrore
Se P(1|x) > P(2|x) allora decidi per 1 altrimenti per 2Vale anche in media:
P(errore) =
P(errore, x)dx =
P(errore|x)P(x)dx
Pertanto:
P(errore|x) = min{P(1|x),P(2|x)}
(regola di decisione Bayesiana)
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Nel caso del continuo I
Generalizzazione delle idee precedenti:
Usare pi duna feature
Usare pi di due stati di naturaPermettere azioni non decidere solo per lo stato di natura
Permettere altre azioni oltre alla classificazione permetteanche la possibilit di rigettoRifiutare di prendere una decisione in casi difficili o cattivi!
Introdurre una loss function pi generale della probabilitderrore
La loss function stabilisce il costo di ogni azione intrapresa
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Nel caso del continuo II
Sia {1, 2, . . . , c} linsieme di c stati di natura(categorie)
Sia {1, 2, . . . , a} linsieme delle azioni possibiliSia (i |j) il costo dellazione i quando lo stato di natura j
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Nel caso del continuo III
Rischio globaleR si ottiene sommando R(i |x)
rischio condizionato
per i = 1, . . . ,a
R =
R((x)|x)p(x)dx
Minimizzare R Minimizzare R(i |x) per i = 1, . . . ,a
R(i |x) =c
j=1
(i |j)P(j |x) i = 1, . . . ,a
Selezionare lazione i per la quale R(i |x) sia minima R minimale (rischio di Bayes, miglior performance ottenibile)
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Classificazione binaria I
1: decidere per 12: decidere per 2
ij = (i |j)costo della decisione per i quando il vero stato di natura j
Rischio condizionato:
R(1|x) = 11P(1|x) + 12P(2|x)R(2|x) = 21P(1|x) + 22P(2|x)
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Classificazione binaria II
La nostra regola la seguente:Se R(1|x) < R(2|x) allorasi compie lazione 1 ossia decidi per 1
Questo porta alla regola equivalente:decidi per 1 se
(21 11)P(x |1)P(1) > (12 22)P(x |2)P(2)
altrimenti decidi per 2
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Tasso di verosimiglianza
La regola precedente equivale alla seguente:Se
P(x |1)P(x |2) >
(12 22)P(2)(21 11)P(1)
allora compi lazione 1 (decidere per 1)altrimenti compi lazione 2 (decidere per 2)
P(x |1)P(x |2) likelihood ratio
Propriet della decisione ottimaleSe il grado di verosimiglianza eccede una soglia indipendentedallesempio di input x , si possono intraprendere azioni ottimali
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Classificazione per minimo tasso derrore I
Le azioni sono decisioni sulle classiSe i viene intrapresa ed il vero stato di natura j allora:la decisione corretta se i = j ed erronea se i 6= jSi cerca una regola di decisione cheminimizza la probabilit derrore che il tasso derrore
Introduzione della loss function zero-uno:
(i , j) =
{0 i = j1 i 6= j
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Classificazione per minimo tasso derrore II
Perci, il rischio condizionato :
R(i |x) =c
j=1
(i , j)P(j |x)
=j 6=i
P(j |x) = 1 P(i |x)
Il rischio corrispondente a questa loss function la probabilitderrore media
Minimizzare il rischio richiede di massimizzare P(i |x)(dato che R(i |x) = 1 P(i |x))Per il minimo tasso derrore:Decidere i if P(i |x) > P(j |x) j 6= i
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Classificazione per minimo tasso derrore III
Regioni di decisione e loss function zero-uno
Pertanto si ha la regola:Sia (1222)P(2)(2111)P(1) = allora decidere per 1 se
P(x |1)P(x |2) >
Se la loss function zero-uno che significa:
Se =(
0 11 0
)allora =
P(2)P(1)
= a
Se =(
0 21 0
)allora =
2P(2)P(1)
= b
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Classificazione per minimo tasso derrore IV
Con una loss function 0/1 o basata sulla classificazione, i limiti di decisionesono determinati da a. Se la loss function penalizza la miscategorizzazionedi 2, si passa a soglie pi ampie b, e R1 diventa pi piccola
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Il caso multi-categorico
Insieme di funzioni discriminanti gi(x), i = 1, . . . , cIl classificatore assegna un vettore x alla classe i se:
gi(x) > gj(x) j 6= i
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Struttura funzionale di un classificatore
Un passo successivo determina quale dei valori discriminanti sia il massimo,e assegna la classe di conseguenza
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Minimizzazione del rischio
Sia gi(x) = R(i |x)La discriminazione massima corrisponde al minimo rischio!Per il minimum error rate, considerare
gi(x) = P(i |x)
La discriminazione massima corrisponde alla massimaprob. a posteriori!
gi(x) P(x |i)P(i)
ossiagi(x) = ln P(x |i) + ln P(i)
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Regioni di decisione I
Lo spazio delle feature viene diviso in c regioni di decisioneSe gi(x) > gj(x) j 6= i allora x in Ri(Ri significa assignare x a i )Caso binario
Un classificatore detto dicotomizzatore con due funzionidiscriminanti g1 e g2Sia g(x) = g1(x) g2(x)
Decidere per 1 se g(x) > 0; altrimenti decidere per 2Calcolo di g(x)
g(x) = P(1|x) P(2|x) = ln P(x |1)P(x |2) + lnP(1)P(2)
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Regioni di decisione II
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Caso discreto I
Le componenti di x sono a valori binari o interi, x prendesolo uno degli m valori discreti
v1, v2, . . . , vm
Caso di features binarie indipendenti nel problema binarioSia x = [x1, x2, . . . , xd ]t dove ogni xi 0 o 1, con leprobabilit:
pi = P(xi = 1|1) e qi = P(xi = 1|2)
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Caso discreto II
La funzione discriminante in tal caso sar:
g(x) =d
i=1
wixi + w0
dove
wi = lnpi(1 qi)qi(1 pi) i = 1, . . . ,d
e
w0 =d
i=1
ln1 pi1 qi + ln
P(1)P(2)
Decidere 1 se g(x) > 0 e 2 se g(x) 0
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Credits
R. Duda, P. Hart, D. Stork: Pattern Classification, Wiley
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana