Transcript
Page 1: Teoria delle Decisioni Bayesiana

Teoria delle Decisioni Bayesiana

Corso di Apprendimento AutomaticoLaurea Magistrale in Informatica

Nicola Fanizzi

Dipartimento di InformaticaUniversità degli Studi di Bari

14 gennaio 2009

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 2: Teoria delle Decisioni Bayesiana

Sommario

IntroduzioneTeoria delle decisioni Bayesiana - nel continuoClassificazione a Minimo Tasso d’Errore(Minimum-Error-Rate)Classificatori, funzioni discriminanti e superfici di decisioneTeoria delle decisioni Bayesiana - nel discreto

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 3: Teoria delle Decisioni Bayesiana

Introduzione I

Esempio branzino/salmoneStato di natura, probabilità a priori

Lo stato di natura è una variabile aleatoriaLa pesca di salmone o branzino è equiprobabile:

P(ω1) = P(ω2) probabilità a priori uniforme

P(ω1) + P(ω2) = 1 esclusività ed esaustività

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 4: Teoria delle Decisioni Bayesiana

Introduzione II

Regola di decisione con la sola informazione delleprobabilità a priori:”Se P(ω1) > P(ω2) allora decidi per ω1altrimenti decidi per ω2”Usare l’informazione condizionale sulle classe

Sia X una variabile aleatoria che misura il pesoP(x |ω1) e P(x |ω2) descrivono la differente leggerezza tra ledue popolazioni di pesci

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 5: Teoria delle Decisioni Bayesiana

Introduzione III

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 6: Teoria delle Decisioni Bayesiana

Probabilità a posteriori, verosimilianza, evidenza I

P(ωj |x)︸ ︷︷ ︸p. a posteriori

=

verosimilianza︷ ︸︸ ︷P(x |ωj)

p. a priori︷ ︸︸ ︷P(ωj)

P(x)︸ ︷︷ ︸evidenza

P(x) meno importante di P(ωj |x) e P(ωj)

In caso di c categorie

P(x) =c∑

j=1

P(x |ωj)P(ωj)

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 7: Teoria delle Decisioni Bayesiana

Probabilità a posteriori, verosimilianza, evidenza II

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 8: Teoria delle Decisioni Bayesiana

Errore I

La decisione è conseguenza dalle probabilità a posterioriX è un’osservazione per la quale:se P(ω1|x) > P(ω2|x)→ stato di natura reale = ω1se P(ω1|x) < P(ω2|x)→ stato di natura reale = ω2

Pertanto:quando si osserva una particolare x ,la probabilità d’errore è:

P(error |x) = P(ω1|x) decidendo per ω2

P(error |x) = P(ω2|x) decidendo per ω1

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 9: Teoria delle Decisioni Bayesiana

Errore II

Minimizzare la probabilità d’errore

Se P(ω1|x) > P(ω2|x) allora decidi per ω1 altrimenti per ω2

Vale anche in media:

P(errore) =

∫ −∞−∞

P(errore, x)dx =

∫ −∞−∞

P(errore|x)P(x)dx

Pertanto:

P(errore|x) = min{P(ω1|x),P(ω2|x)}

(regola di decisione Bayesiana)

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 10: Teoria delle Decisioni Bayesiana

Nel caso del continuo I

Generalizzazione delle idee precedenti:

Usare più d’una feature

Usare più di due stati di naturaPermettere azioni non decidere solo per lo stato di natura

Permettere altre azioni oltre alla classificazione permetteanche la possibilità di rigettoRifiutare di prendere una decisione in casi difficili o cattivi!

Introdurre una loss function più generale della probabilitàd’errore

La loss function stabilisce il costo di ogni azione intrapresa

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 11: Teoria delle Decisioni Bayesiana

Nel caso del continuo II

Sia {ω1, ω2, . . . , ωc} l’insieme di c stati di natura(”categorie”)

Sia {α1, α2, . . . , αa} l’insieme delle azioni possibili

Sia λ(αi |ωj) il costo dell’azione αi quando lo stato di naturaè ωj

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 12: Teoria delle Decisioni Bayesiana

Nel caso del continuo III

Rischio globaleR si ottiene sommando R(αi |x)︸ ︷︷ ︸

rischio condizionato

per i = 1, . . . ,a

R =

∫R(α(x)|x)p(x)dx

Minimizzare R ⇔ Minimizzare R(αi |x) per i = 1, . . . ,a

R(αi |x) =c∑

j=1

λ(αi |ωj)P(ωj |x) i = 1, . . . ,a

Selezionare l’azione αi per la quale R(αi |x) sia minima→ R minimale (rischio di Bayes, miglior performance ottenibile)

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 13: Teoria delle Decisioni Bayesiana

Classificazione binaria I

α1: decidere per ω1

α2: decidere per ω2

λij = λ(αi |ωj)

costo della decisione per ωi quando il vero stato di natura è ωj

Rischio condizionato:

R(α1|x) = λ11P(ω1|x) + λ12P(ω2|x)

R(α2|x) = λ21P(ω1|x) + λ22P(ω2|x)

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 14: Teoria delle Decisioni Bayesiana

Classificazione binaria II

La nostra regola è la seguente:Se R(α1|x) < R(α2|x) allorasi compie l’azione α1 ossia ”decidi per ω1”

Questo porta alla regola equivalente:decidi per ω1 se

(λ21 − λ11)P(x |ω1)P(ω1) > (λ12 − λ22)P(x |ω2)P(ω2)

altrimenti decidi per ω2

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 15: Teoria delle Decisioni Bayesiana

Tasso di verosimiglianza

La regola precedente equivale alla seguente:Se

P(x |ω1)

P(x |ω2)>

(λ12 − λ22)P(ω2)

(λ21 − λ11)P(ω1)

allora compi l’azione α1 (decidere per ω1)altrimenti compi l’azione α2 (decidere per ω2)

P(x |ω1)

P(x |ω2)likelihood ratio

Proprietà della decisione ottimale”Se il grado di verosimiglianza eccede una soglia indipendentedall’esempio di input x , si possono intraprendere azioni ottimali”

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 16: Teoria delle Decisioni Bayesiana

Classificazione per minimo tasso d’errore I

Le azioni sono decisioni sulle classiSe αi viene intrapresa ed il vero stato di natura è ωj allora:la decisione è corretta se i = j ed erronea se i 6= j

Si cerca una regola di decisione cheminimizza la probabilità d’errore che è il tasso d’errore

Introduzione della loss function zero-uno:

λ(αi , ωj) =

{0 i = j1 i 6= j

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 17: Teoria delle Decisioni Bayesiana

Classificazione per minimo tasso d’errore II

Perciò, il rischio condizionato è:

R(αi |x) =c∑

j=1

λ(αi , ωj)P(ωj |x)

=∑j 6=i

P(ωj |x) = 1− P(ωi |x)

Il rischio corrispondente a questa loss function è la probabilitàd’errore media

Minimizzare il rischio richiede di massimizzare P(ωi |x)(dato che R(αi |x) = 1− P(ωi |x))Per il minimo tasso d’errore:Decidere ωi if P(ωi |x) > P(ωj |x) ∀j 6= i

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 18: Teoria delle Decisioni Bayesiana

Classificazione per minimo tasso d’errore III

Regioni di decisione e loss function zero-uno

Pertanto si ha la regola:Sia (λ12−λ22)P(ω2)

(λ21−λ11)P(ω1)= θλ

allora decidere per ω1 se P(x |ω1)P(x |ω2)

> θλ

Se λ è la loss function zero-uno che significa:

Se λ =

(0 11 0

)allora θλ = P(ω2)

P(ω1)= θa

Se λ =

(0 21 0

)allora θλ = 2P(ω2)

P(ω1)= θb

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 19: Teoria delle Decisioni Bayesiana

Classificazione per minimo tasso d’errore IV

Con una loss function 0/1 o basata sulla classificazione, i limiti di decisionesono determinati da θa. Se la loss function penalizza la miscategorizzazionedi ω2, si passa a soglie più ampie θb, e R1 diventa più piccola

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 20: Teoria delle Decisioni Bayesiana

Il caso multi-categorico

Insieme di funzioni discriminanti gi(x), i = 1, . . . , cIl classificatore assegna un vettore x alla classe ωi se:

gi(x) > gj(x) ∀j 6= i

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 21: Teoria delle Decisioni Bayesiana

Struttura funzionale di un classificatore

Un passo successivo determina quale dei valori discriminanti sia il massimo,e assegna la classe di conseguenza

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 22: Teoria delle Decisioni Bayesiana

Minimizzazione del rischio

Sia gi(x) = −R(αi |x)La discriminazione massima corrisponde al minimo rischio!Per il minimum error rate, considerare

gi(x) = P(ωi |x)

La discriminazione massima corrisponde alla massimaprob. a posteriori!

gi(x) ≡ P(x |ωi)P(ωi)

ossiagi(x) = ln P(x |ωi) + ln P(ωi)

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 23: Teoria delle Decisioni Bayesiana

Regioni di decisione I

Lo spazio delle feature viene diviso in c regioni di decisioneSe gi(x) > gj(x) ∀j 6= i allora x è in Ri(Ri significa assignare x a ωi )Caso binario

Un classificatore detto dicotomizzatore con due funzionidiscriminanti g1 e g2

Sia g(x) = g1(x)− g2(x)

Decidere per ω1 se g(x) > 0; altrimenti decidere per ω2

Calcolo di g(x)

g(x) = P(ω1|x)− P(ω2|x) = lnP(x |ω1)

P(x |ω2)+ ln

P(ω1)

P(ω2)

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 24: Teoria delle Decisioni Bayesiana

Regioni di decisione II

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 25: Teoria delle Decisioni Bayesiana

Caso discreto I

Le componenti di x sono a valori binari o interi, x prendesolo uno degli m valori discreti

v1, v2, . . . , vm

Caso di features binarie indipendenti nel problema binarioSia x = [x1, x2, . . . , xd ]t dove ogni xi è 0 o 1, con leprobabilità:

pi = P(xi = 1|ω1) e qi = P(xi = 1|ω2)

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 26: Teoria delle Decisioni Bayesiana

Caso discreto II

La funzione discriminante in tal caso sarà:

g(x) =d∑

i=1

wixi + w0

dove

wi = lnpi(1− qi)

qi(1− pi)i = 1, . . . ,d

e

w0 =d∑

i=1

ln1− pi

1− qi+ ln

P(ω1)

P(ω2)

Decidere ω1 se g(x) > 0 e ω2 se g(x) ≤ 0

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Page 27: Teoria delle Decisioni Bayesiana

Credits

R. Duda, P. Hart, D. Stork: Pattern Classification, Wiley

Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana


Recommended