Teoria delle Decisioni Bayesiana
Corso di Apprendimento AutomaticoLaurea Magistrale in Informatica
Nicola Fanizzi
Dipartimento di InformaticaUniversità degli Studi di Bari
14 gennaio 2009
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Sommario
IntroduzioneTeoria delle decisioni Bayesiana - nel continuoClassificazione a Minimo Tasso d’Errore(Minimum-Error-Rate)Classificatori, funzioni discriminanti e superfici di decisioneTeoria delle decisioni Bayesiana - nel discreto
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Introduzione I
Esempio branzino/salmoneStato di natura, probabilità a priori
Lo stato di natura è una variabile aleatoriaLa pesca di salmone o branzino è equiprobabile:
P(ω1) = P(ω2) probabilità a priori uniforme
P(ω1) + P(ω2) = 1 esclusività ed esaustività
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Introduzione II
Regola di decisione con la sola informazione delleprobabilità a priori:”Se P(ω1) > P(ω2) allora decidi per ω1altrimenti decidi per ω2”Usare l’informazione condizionale sulle classe
Sia X una variabile aleatoria che misura il pesoP(x |ω1) e P(x |ω2) descrivono la differente leggerezza tra ledue popolazioni di pesci
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Introduzione III
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Probabilità a posteriori, verosimilianza, evidenza I
P(ωj |x)︸ ︷︷ ︸p. a posteriori
=
verosimilianza︷ ︸︸ ︷P(x |ωj)
p. a priori︷ ︸︸ ︷P(ωj)
P(x)︸ ︷︷ ︸evidenza
P(x) meno importante di P(ωj |x) e P(ωj)
In caso di c categorie
P(x) =c∑
j=1
P(x |ωj)P(ωj)
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Probabilità a posteriori, verosimilianza, evidenza II
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Errore I
La decisione è conseguenza dalle probabilità a posterioriX è un’osservazione per la quale:se P(ω1|x) > P(ω2|x)→ stato di natura reale = ω1se P(ω1|x) < P(ω2|x)→ stato di natura reale = ω2
Pertanto:quando si osserva una particolare x ,la probabilità d’errore è:
P(error |x) = P(ω1|x) decidendo per ω2
P(error |x) = P(ω2|x) decidendo per ω1
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Errore II
Minimizzare la probabilità d’errore
Se P(ω1|x) > P(ω2|x) allora decidi per ω1 altrimenti per ω2
Vale anche in media:
P(errore) =
∫ −∞−∞
P(errore, x)dx =
∫ −∞−∞
P(errore|x)P(x)dx
Pertanto:
P(errore|x) = min{P(ω1|x),P(ω2|x)}
(regola di decisione Bayesiana)
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Nel caso del continuo I
Generalizzazione delle idee precedenti:
Usare più d’una feature
Usare più di due stati di naturaPermettere azioni non decidere solo per lo stato di natura
Permettere altre azioni oltre alla classificazione permetteanche la possibilità di rigettoRifiutare di prendere una decisione in casi difficili o cattivi!
Introdurre una loss function più generale della probabilitàd’errore
La loss function stabilisce il costo di ogni azione intrapresa
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Nel caso del continuo II
Sia {ω1, ω2, . . . , ωc} l’insieme di c stati di natura(”categorie”)
Sia {α1, α2, . . . , αa} l’insieme delle azioni possibili
Sia λ(αi |ωj) il costo dell’azione αi quando lo stato di naturaè ωj
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Nel caso del continuo III
Rischio globaleR si ottiene sommando R(αi |x)︸ ︷︷ ︸
rischio condizionato
per i = 1, . . . ,a
R =
∫R(α(x)|x)p(x)dx
Minimizzare R ⇔ Minimizzare R(αi |x) per i = 1, . . . ,a
R(αi |x) =c∑
j=1
λ(αi |ωj)P(ωj |x) i = 1, . . . ,a
Selezionare l’azione αi per la quale R(αi |x) sia minima→ R minimale (rischio di Bayes, miglior performance ottenibile)
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Classificazione binaria I
α1: decidere per ω1
α2: decidere per ω2
λij = λ(αi |ωj)
costo della decisione per ωi quando il vero stato di natura è ωj
Rischio condizionato:
R(α1|x) = λ11P(ω1|x) + λ12P(ω2|x)
R(α2|x) = λ21P(ω1|x) + λ22P(ω2|x)
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Classificazione binaria II
La nostra regola è la seguente:Se R(α1|x) < R(α2|x) allorasi compie l’azione α1 ossia ”decidi per ω1”
Questo porta alla regola equivalente:decidi per ω1 se
(λ21 − λ11)P(x |ω1)P(ω1) > (λ12 − λ22)P(x |ω2)P(ω2)
altrimenti decidi per ω2
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Tasso di verosimiglianza
La regola precedente equivale alla seguente:Se
P(x |ω1)
P(x |ω2)>
(λ12 − λ22)P(ω2)
(λ21 − λ11)P(ω1)
allora compi l’azione α1 (decidere per ω1)altrimenti compi l’azione α2 (decidere per ω2)
P(x |ω1)
P(x |ω2)likelihood ratio
Proprietà della decisione ottimale”Se il grado di verosimiglianza eccede una soglia indipendentedall’esempio di input x , si possono intraprendere azioni ottimali”
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Classificazione per minimo tasso d’errore I
Le azioni sono decisioni sulle classiSe αi viene intrapresa ed il vero stato di natura è ωj allora:la decisione è corretta se i = j ed erronea se i 6= j
Si cerca una regola di decisione cheminimizza la probabilità d’errore che è il tasso d’errore
Introduzione della loss function zero-uno:
λ(αi , ωj) =
{0 i = j1 i 6= j
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Classificazione per minimo tasso d’errore II
Perciò, il rischio condizionato è:
R(αi |x) =c∑
j=1
λ(αi , ωj)P(ωj |x)
=∑j 6=i
P(ωj |x) = 1− P(ωi |x)
Il rischio corrispondente a questa loss function è la probabilitàd’errore media
Minimizzare il rischio richiede di massimizzare P(ωi |x)(dato che R(αi |x) = 1− P(ωi |x))Per il minimo tasso d’errore:Decidere ωi if P(ωi |x) > P(ωj |x) ∀j 6= i
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Classificazione per minimo tasso d’errore III
Regioni di decisione e loss function zero-uno
Pertanto si ha la regola:Sia (λ12−λ22)P(ω2)
(λ21−λ11)P(ω1)= θλ
allora decidere per ω1 se P(x |ω1)P(x |ω2)
> θλ
Se λ è la loss function zero-uno che significa:
Se λ =
(0 11 0
)allora θλ = P(ω2)
P(ω1)= θa
Se λ =
(0 21 0
)allora θλ = 2P(ω2)
P(ω1)= θb
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Classificazione per minimo tasso d’errore IV
Con una loss function 0/1 o basata sulla classificazione, i limiti di decisionesono determinati da θa. Se la loss function penalizza la miscategorizzazionedi ω2, si passa a soglie più ampie θb, e R1 diventa più piccola
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Il caso multi-categorico
Insieme di funzioni discriminanti gi(x), i = 1, . . . , cIl classificatore assegna un vettore x alla classe ωi se:
gi(x) > gj(x) ∀j 6= i
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Struttura funzionale di un classificatore
Un passo successivo determina quale dei valori discriminanti sia il massimo,e assegna la classe di conseguenza
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Minimizzazione del rischio
Sia gi(x) = −R(αi |x)La discriminazione massima corrisponde al minimo rischio!Per il minimum error rate, considerare
gi(x) = P(ωi |x)
La discriminazione massima corrisponde alla massimaprob. a posteriori!
gi(x) ≡ P(x |ωi)P(ωi)
ossiagi(x) = ln P(x |ωi) + ln P(ωi)
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Regioni di decisione I
Lo spazio delle feature viene diviso in c regioni di decisioneSe gi(x) > gj(x) ∀j 6= i allora x è in Ri(Ri significa assignare x a ωi )Caso binario
Un classificatore detto dicotomizzatore con due funzionidiscriminanti g1 e g2
Sia g(x) = g1(x)− g2(x)
Decidere per ω1 se g(x) > 0; altrimenti decidere per ω2
Calcolo di g(x)
g(x) = P(ω1|x)− P(ω2|x) = lnP(x |ω1)
P(x |ω2)+ ln
P(ω1)
P(ω2)
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Regioni di decisione II
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Caso discreto I
Le componenti di x sono a valori binari o interi, x prendesolo uno degli m valori discreti
v1, v2, . . . , vm
Caso di features binarie indipendenti nel problema binarioSia x = [x1, x2, . . . , xd ]t dove ogni xi è 0 o 1, con leprobabilità:
pi = P(xi = 1|ω1) e qi = P(xi = 1|ω2)
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Caso discreto II
La funzione discriminante in tal caso sarà:
g(x) =d∑
i=1
wixi + w0
dove
wi = lnpi(1− qi)
qi(1− pi)i = 1, . . . ,d
e
w0 =d∑
i=1
ln1− pi
1− qi+ ln
P(ω1)
P(ω2)
Decidere ω1 se g(x) > 0 e ω2 se g(x) ≤ 0
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana
Credits
R. Duda, P. Hart, D. Stork: Pattern Classification, Wiley
Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana