of 44/44
LE PROBABILITA’ A PRIORI INFORMATIVE Corso di Laurea Magistrale in Scienze Statistiche A.A. 2008/2009

Probabilità a priori informative - Statistica bayesiana

  • View
    328

  • Download
    0

Embed Size (px)

DESCRIPTION

Relazione di statistica bayesiana sulle probabilità a priori informative: - definizione - concetto di buona assegnazione di probabilità - formula di Bayes - esempi di aggiornamento delle probabilità per distribuzioni discrete e continue - misture di famiglie coniugate - probabilità a priori di massima entropia

Text of Probabilità a priori informative - Statistica bayesiana

  • 1. Corso di Laurea Magistrale in Scienze StatisticheLE PROBABILITA A PRIORI INFORMATIVEA.A. 2008/2009

2. Le probabilit a priori: una questione controversaFine di un paradigma o sua evoluzione? APPROCCIO DECISIONALE Determinanti di una decisione: esperienza a priori campione conseguenze potenzialiConcetto di informazione allargata, che comprende anche quella inosservabile, consente di formalizzare lesperienza a priori tramite modelli probabilistici. 3. Le probabilit a priori: una questione controversaFine di un paradigma o sua evoluzione? SOGGETTIVITA nella scelta delle probabilitmette in discussione la scientificit della statistica mancanza di protezione da rappresentazioni distorte della realt 4. Le probabilit a priori: una questione controversa La scelta dipende dallammontare di informazione disponibile Se esiste tanta informazione in materia In letteratura esiste una distribuzione a priori usata comunemente con valori dei parametri gi specificati Se linformazione parziale Si ricorre alle probabilit a priori informative Se non si hanno informazioni Si utilizzano probabilit a priori non informative, tali da non veicolare alcun tipo di conoscenza a priori allinterno del modello utilizzato 5. Le probabilit a priori informativeLe probabilit a priori informative sono probabilit stabilite dal soggetto che effettua lo studio - prima di procedere allosservazione della realt - in base alla plausibilit che egli attribuisce a ciascun valore del parametro.Legame indissolubile con il giudizio del soggetto assertore, che esprime il grado di credibilit degree of belief che egli attribuisce ad un insieme di valori plausibili del parametro. 6. Le probabilit a priori informative Regole nella scelta delle probabilit a prioriOsservabilit Solo gli eventi verificabili (osservabili) nella realt possono essere oggetto di assegnazione di probabilitCoerenza Rispetto degli assiomi di Kolmogorov, cos da garantire la comprensibilit del linguaggio probabilistico e lassenza di contraddizioni 7. Le probabilit a priori informative Una buona assegnazione di probabilit DefinizioneA chi compete?Bont sostanzialedipende dalla conoscenza che lassertore ha riguardo loggetto dellasserzioneall esperto in materiaBont normativalegata allabilit dellassertore ad esprimere le sue opinioni in forma probabilistica.allo statisticoNecessit di una integrazione tra le due competenze per raggiungere unassegnazione il pi possibile vicina alla realt. 8. Le probabilit a priori informative Tipologie di probabilit a priori informativeProbabilit a priori coniugateProbabilit a priori di massima entropia 9. Probabilit a priori coniugateLa trattabilit matematica della formula di BayesUna probabilit a priori verosimiglianzaconiugata con la funzione di consentelasemplificazionematematica della formula di Bayes:poich la probabilit a posteriori apparterr alla stessa famiglia di quella a priori. 10. Probabilit a priori coniugateLa libert di scelta assicurata da:i parametri della curva, che per certe distribuzioni per es. la Beta possono modificare radicalmente landamento della curvalesistenza di famiglie coniugate mistura, che ampliano lo spettro di distribuzioni che possono esser utilizzate 11. Probabilit a priori coniugateDefinizione di famiglia coniugataSia F=f X ( x | s), sSuna classe di funzioni di verosimiglianzae P un insieme di funzioni di probabilit discrete o continue; se, per ogni x, ciascunf X ( x | sF e )probabilit a posteriori p S s | xP, p S s la risultante funzione di f X ( x | s) p S s ancora inP, allora P chiamata famiglia coniugata, o famiglia di probabilit a priori coniugate, per F. 12. Probabilit a priori coniugateCaratteristiche di una famiglia coniugataLe famiglie sono: il pi piccole possibile parametrizzateil calcolo delle probabilit a posteriori si riduce ad un aggiornamento dei parametri associati alla probabilit a priori coniugata. 13. Probabilit a priori coniugate Famiglie coniugate di particolari distribuzioni di probabilit 14. Probabilit a priori coniugate Esempio di updating per variabili aleatorie discrete Distribuzione a priori: Betag ( ; a, b)( a b) (a ) (b)a 1(1) b 1 ,01 Verosimiglianza del parametro rispetto alle osservazioni: Binomialeg( y | )n yy(1)ny Nel calcolo delle probabilit a posteriori le costanti possono essere omesse. Allora sar:( a b) e (a) (b)n y 15. Probabilit a priori coniugate Esempio di updating per variabili aleatorie discreteg ( | y)a 1(1)b1y(1)nya y 1(1)bn y 1 cio la probabilit a posteriori ancora della famiglia Beta, con i parametri aggiornati:( | y)Beta(aay, bb ny) 16. Probabilit a priori coniugate Esempio di updating per variabili aleatorie continue Quando la probabilit a priori e la funzione di verosimiglianza sono entrambe normali, cio:--g( )exp(f (y | )(m) 2 ) 2 2s(y exp( 2N ( m, s 2 ))2 2)yN( ,2) 17. Probabilit a priori coniugate Esempio di updating per variabili aleatorie continue la probabilit a posteriori ha questa forma:g ( | y1 , y2 ,..., yn )exp11 2(2 2s2ns2n2sn21m s2n221y s2 quindi la distribuzione a posteriori ancora normale, ma con i parametri aggiornatiN (m ' , ( s 2 ) ' ) 18. Probabilit a priori coniugate Esempio di updating per variabili aleatorie continue Infatti, definendo la precisione di una distribuzione come il reciproco della varianza, con la propriet delladditivit, la varianza a posteriori viene calcolata proprio dalla precisione a posteriori, ottenuta come somma tra la precisione a priori e la precisione delle osservazioni:12 '(s )n21s2(s ), da cui2 222 's2ns 2 mentre la media a posteriori la media ponderata della media a priori e quella osservata, dove i pesi sono dati rispettivamente dalla proporzione della precisione a posteriori dovuta alla distribuzione a priori e da quella dovuta alla distribuzione campionaria:1 m'n2sn21m s2n221y s2 19. Probabilit a priori coniugate Applicazione: studio della quota di mercato ottenuta da un nuovo brand con probabilit a priori coniugate - quota di mercato ottenuta da un nuovo brand.- distribuzione triangolare, cio g( )=2(1-g().), o ancheBeta(3,1) 20. Probabilit a priori coniugate Applicazione: studio della quota di mercato ottenuta da un nuovo brand con probabilit a priori coniugate Si estragga un campione casuale di 5 consumatori: solo uno dei 5 compra il nuovo prodotto. Dal momento che la quota di mercato una proporzione e . supponendo le decisioni degli individui estratti indipendenti, si pu . ipotizzare una f.d.v. Binomiale, ciof (x | )5 xx(1)5 x5 1(1)45 (1)4 21. Probabilit a priori coniugate Applicazione: studio della quota di mercato ottenuta da un nuovo brand con probabilit a priori coniugate Calcolo delle probabilit a posteriorig ( | x)g( ) f (x | ) 12(1- ) * 5 (1 1g ( ) f ( x | )d. 0)410 (1)510 (1)5 d12(1- . ) * 5 (14) d0 La distribuzione a posteriori quindi10 (1 ) 5 10 / 420( | x)Beta(8,2)42 (1)5 22. Probabilit a priori coniugate Applicazione: studio della quota di mercato ottenuta da un nuovo brand con probabilit a priori coniugate Posterior( | x)0.40.6Beta(8,2)3f2.1 0 -1 0. 0.20.81x In realt, sarebbe bastato osservare che la distribuzione beta la famiglia coniugata delle funzioni di verosimiglianza binomiali e, al fine di individuare le probabilit a posteriori, procedere allupdating dei parametri 23. Probabilit a priori coniugate Misture di famiglie coniugate.Lintroduzione di misture di famiglie coniugate permette di raggiungere una maggiore libert e flessibilit nella formalizzazione delle conoscenze a priori . Propriet di approssimazione universale 24. Probabilit a priori coniugate Definizione di mistura di famiglie coniugateSe P una famiglia coniugata per F, lo qualsiasi mistura m-dimensionale costruita con elementi di P.Se per la verosimiglianza ad essere una mistura di funzioni di F, la probabilit a posteriori risultante dalla combinazione di questa verosimiglianza con una probabilit a priori da P, non appartiene a P. E possibile adottare una famiglia coniugata mistura per verosimiglianze di tipo mistura. 25. Probabilit a priori coniugate Applicazione sulle misture di famiglie coniugate CAMPIONE Sia S una quantit ignota osservata n volte (cio si estrae un campione casuale composto da n unit x1,x2,xn) da una popolazione che si suppone ( s, 2 ) con varianza nota. La funzione di verosimiglianza sar: 26. Probabilit a priori coniugate Applicazione sulle misture di famiglie coniugate PROBABILITA A PRIORI Si supponga che la conoscenza a priori del fenomeno spinga a ritenere che: -la probabilit che s sia vicina allo 0 molto alta cio p(s=0)1;-c una probabilit positiva, ma bassa, che il parametro assumavalori molto lontani dallo 0. Questo tipo di comportamento fa pensare ad una distribuzione a code pesanti, non contemplata nella famiglia coniugata normale. E quindi necessario ricorrere ad un modello mistura per le probabilit a priori: 27. Probabilit a priori coniugate Applicazione sulle misture di famiglie coniugateUna distribuzione N(s|2 0), con2 0=1Una distribuzione N(s|Il modello mistura di a) e b), con00 .22 1),con2 1 =20 28. Probabilit a priori coniugate Applicazione sulle misture di famiglie coniugate PROBABILITA A POSTERIORI NELLA MIXTURE FORMAggiornamento del peso: 29. Probabilit a priori di massima entropiaIl metodo della massima entropia ha come obiettivo la ricerca di una probabilit a priori il pi oggettiva (il meno informativa) possibile, pur non rinunciando allinformazione parziale disponibile. 30. Probabilit a priori di massima entropia Linformazione Linformazione pu essere rappresentata da un codice costituito da una sequenza di bit. Quando viene posta una domanda, essa porta con s una quantit di incertezza sulla risposta corretta proporzionale alle alternative disponibili.Se la domanda (variabile) X ha N risposte alternative (determinazioni), lincertezza (Uncertainty) ad essa associata pari a:U(X )log 2 N X 31. Probabilit a priori di massima entropia Linformazione Numero di Alternativ eProbabilit logica delle opzioniBits11020.5140.2522560.00390625 1 N8Nlog 2 N 32. Probabilit a priori di massima entropia Linformazione Se x una risposta o un insieme di risposte - alternativa alla domanda X (cio una determinazione - o un insieme di determinazioni - della variabile X), allora linformazione che essa trasmette pu esser definita come la differenza tra due stati di incertezza:I (xX ) U ( X ) U ( x)log 2 N Xlog 2 N xtanto pi alta quanto pi bassa la probabilit di quellevento:I ( x)log( P( x))1 log( ) P ( x) 33. Probabilit a priori di massima entropia LentropiaLentropia di una variabile aleatoria X la media dell informazioneI ( x i ) associata a ciascuna delle realizzazioni ( x1 , x2 ,..., xn )della stessa:nH (X )E[ I ( xi )]I ( xi ) P ( xi ) i 1dove conI ( xi )si indica la quantit di incertezza associata ad unevento, cio linformazione che si ottiene affermando che tale evento si realizzato 34. Probabilit a priori di massima entropiaProbabilit a priori di massima entropia per problemi a natura discreta Quando il parametro s pu assumere un numero finito di valori:sSs1 , s2 ,..., sMlentropia della funzione di probabilita priori p S (s ) definita come:H (S ) siES [log(1 pS ( si ) log( ) pS ( si ) SES I ( si )1 )] ES [ log pS ( si )] pS ( si ) 35. Probabilit a priori di massima entropia Il metodo dei moltiplicatori di LagrangeIl metodo dei moltiplicatori di Lagrange un metodo che serve per trovare i massimi e i minimi di una funzione in pi variabili soggetta ad uno o pi vincoli, che si pone alla base dellottimizzazione lineare non vincolata. Esso riduce la ricerca dei punti stazionari di una funzione vincolata in n variabili con k vincoli a trovare i punti stazionari di una funzione non vincolata in n+k variabili, introducendo una nuova variabile scalare incognita per ogni vincolo, detta moltiplicatore di Lagrange, e definisce una nuova funzione (la Lagrangiana) in termini della funzione originaria, dei vincoli e dei moltiplicatori di Lagrange. 36. Probabilit a priori di massima entropia Metodo dei moltiplicatori di Lagrange e massimizzazione dellentropia per problemi a natura discreta Poich anche la massimizzazione dellentropia rientra tra i problemi di ottimizzazione vincolata, essa viene trattata con il metodo dei moltiplicatori di Lagrange. Una probabilit a priori di massima entropia per problemi a natura discreta una funzione di probabilit che massimizza lentropia (lincertezza) tra tutte le funzioni compatibili con linformazione parziale disponibile che, per lapplicabilit del criterio, deve essere espressa formalmente (rappresenta i vincoli al problema di massimizzazione):pS (si ) g k (si )kper k=0,1,,m,si Sp S (si ) 1 il vincolo onnipresente.dove si S 37. Probabilit a priori di massima entropia Metodo dei moltiplicatori di Lagrange e massimizzazione dellentropia per problemi a natura discretaSotto questo tipo di vincoli, la probabilit a priori di massima entropia per problemi a natura discreta assume la forma: mpME Sk gk0(s)ek 1, dove i valori dei parametrisoluzioni del problema di ottimizzazione vincolata diME p S (s )k sono 38. Probabilit a priori di massima entropia La distribuzione che massimizza lentropia per problemi a natura discreta Problema: ricerca della distribuzione di probabilit a priori discretag ( p1 , p2 ,... pn ) che massimizza lentropia: ng ( p1 , p2 ,...pn ) :pk ln pk k 1dove lunico vincolo quello onnipresente.max H ( S ) pS ( s ) 39. Probabilit a priori di massima entropia La distribuzione che massimizza lentropia per problemi a natura discreta Si possono usare i moltiplicatori di Lagrange per trovare il punto di massima entropia (dipendente dalle probabilit). Per tutti i k da 1 a n, si richieda che:(g(fp S ( sk )exppk1))01Questo dimostra che tutti i pk sono uguali (perch dipendono da soltanto). 40. Probabilit a priori di massima entropia La distribuzione che massimizza lentropia per problemi a natura discreta Utilizzando il vincolo k pk = 1, troviamo:pk1/ NLa distribuzione uniforme la distribuzione di massima entropia 41. Probabilit a priori di massima entropia La distribuzione che minimizza lentropia per problemi a natura discreta Distribuzione di probabilit discreta:p S ( sk ) 1p S ( sk ), dovee1k i Ma setende a 0, allora devono farlo tutti i p S ( sk ), cio:La concentrazione della massa di probabilit su un solo punto massimizza la certezza e minimizza linformazione. 42. Probabilit a priori di massima entropia Probabilit a priori di massima entropia per problemi a natura continua Linformazione disponibile, che rappresenta i vincoli al problema di massimizzazione dellentropia, espressa come:pS ( s) g k ( s)dsk=0, 1,, mkSLa probabilit a priori di massima entropia diventa mME Spk gk0( s)qS ( s)e(s)k 1dove i parametri sono ricavati dai vincoli.persS, 43. Probabilit a priori di massima entropia Probabilit a priori di massima entropia per problemi a natura continuaNon esiste la distribuzione che massimizza lentropia, ma occorre di volta in volta scegliere una distribuzione a priori qS(s) non informativa. Se non ci sono vincoli espliciti oltre la normalizzazione, allora la probabilit a priori di massima entropia coincide con la densit noninformativa qS(s) prescelta. 44. Grazie per lattenzione! Carla Guadalaxara