Bayesian Inference Using Gibbs Sampling. - Universitat de ... · PDF fileSUMARIO n Introduccion a la prob bayesiana y a MCMC. 10 min n Instalación de Winbugs 1.4 (5 min) n Uso de

WIN-BUGS: un software para el análisis de modelos bayesianos

usando MCMC

Bayesian Inference Using Gibbs Sampling.

Dr Toni Monleón GetinoDepartament d’Estadística (UB)

21 Mayo 2010

Material extraido del curso:Seminario de Aplicaciones Bayesianas en Economía de la Salud (19 y 20 Octubre 2006, UPF-CRES)

Introducción al análisis bayesiano computacional: MCMC (WinBUGS)

Miguel Ángel Negrín Hernández [www.personales.ulpgc.es/mnegrin.dmc]Francisco José Vázquez Polo [www.personales.ulpgc.es/fjvpolo.dmc]

fjvpolo or [email protected].

También de : Introduction to Bayesian Analysis using Winbugs (David Spiegelhalter and Dave Lunn, 2010-Cambridge (UK))

También material de:

SUMARIO

n Introduccion a la prob bayesiana y a MCMC. 10 min

n Instalación de Winbugs 1.4 (5 min)

n Uso de Winbugs (10 min)

n Ejemplos de probabilidad y de GLM con sintaxisBugs (40 min)

Thomas BAYES (1702 - 1761)

Origen: Trabajos del Reverendo Thomas Bayes (1763)

Desde un punto de vista estricto, la estadísticabayesiana comienza en 1959 con la publicación deltrabajo “Probability and Statistics for BusinessDecisions” por Robert Schlaiffer.

En él se presentan las principales ideas de laestadística bayesiana, en el que se define laprobabilidad como una opinión ordenada, en el que lainferencia no es más que una revisión de lasopiniones a la luz de nueva información relevante.

Probabilidad: Matemáticas usadas para describirincertidumbre.

Prob. frecuentista: Probabilidad de un evento como ellímite de la frecuencia relativa con la que el eventoocurre en una serie de repeticiones de dicho evento.Estas series son hipotéticas. Prob. Clásica: simetría.

centradas en el “evento”

Objetividad vs. Subjetividad

Prob. bayesiana: Probabilidad de un evento es el número usado para indicar la opinión de un determinado observador de que ocurra el evento. La probabilidad se centra en el “observador”.

& Bibliografía Básica:

4 Berry, D. And Stangl, DK. (1996) “Bayesian Biostatistics”. Ed. Dekker. LEE

4 Chen, M., Shao, Q. e Ibrahim, J.(2000). “Monte Carlo Methods in BayesianComputation”. Springer-Verlag. NY.

4 Leonard,T. y Hsu, J.S.(1999). “Bayesian Methods. An analysis for statisticians and interdisciplinary researches” Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge.

4 O’Hagan, A.(1994). “Bayesian Inference”. Kendall’s Advanced Theory of Statistics (vol.2b). E. Arnold. University Press. Cambridge.

4 O’Hagan, A.(2003). “A primer on Bayesian Statistics in Health Economics and Outcomes Research”. Centre for Bayesian Statistics in Health Economics.

4 Lee, P. (1993) “Bayesian Statistics: An introduction”. Oxford, UK: Oxford University Press, UK.

InferenciaSegún la teoría frecuentista o clásica, solo eventos repetiblestienen probabilidades. En la metodología bayesiana, laprobabilidad describe incertidumbre desde un sentido amplio.

Un evento puede ser incierto por ser intrínsecamenteimpredecible, sujeto a variabilidad aleatoria. Por ejemplo larespuesta de un paciente a un tratamiento. Pero, también puedeser incierto simplemente porque tenemos un conocimientoimperfecto, por ejemplo, la respuesta media de una población aun tratamiento. Solo la primera definición de incertidumbre esreconocida en la estadística frecuentista.

Parámetros son específicos de cada problema y,generalmente, no están sujetos a variabilidad aleatoria.

La estadística frecuentista no reconoce dichosparámetros como aleatorios.

Sin embargo, la perspectiva bayesiana supone dichosparámetros como aleatorios simplemente por serdesconocidos.

Intervalo de confianza clásico

Para obtener una estimación por intervalo del parámetropoblacional θ desconocido, tendremos que obtener dosestadísticos (θmin, θmax) que nos darán los valores extremos delintervalo, tales que

αθθθ −=≤≤ 1)( maxminP

Al valor (1-α)% se le llama nivel de confianza.

Ejemplo: Queremos estudiar si el tratamiento 2 es más costoso que el tratamiento 1.

Perspectiva bayesiana: ¿ Prob (C2 – C1) > 0?

Perspectiva clásica: ¿ valor – p ?

¿Cómo interpretar un valor-p?

Interpretación al valor p

La hipótesis nula de que el tratamiento 2 es más costoso que el 1 es rechazada al 5%, es decir, p=0.05. ¿Qué quiere decir?

1. Solamente para el 5% de los pacientes, el tratamiento 2 es más costoso.

2. Si repitiésemos el análisis un número elevado de veces, y si la hipótesis nula fuese cierta, entonces solamente el 5% de las ocasiones sería rechazada.

3. Hay una probabilidad del 5% de que la hipótesis nula es cierta.

Probabilidad condicionada

Extraído del material de Statmedia (Dep Estadística, UB)



Pr( , ) Pr( | ) Pr( ) Pr( | ) Pr( )A B A B B B A A= ⋅ = ⋅

Pr( | ) Pr( ) Pr( , )Pr( , )Pr( | )

Pr( )Pr( | ) Pr( )Pr( | )

Pr( )

A B B A BA BA BB

B A AA BB

⋅ =

=

⋅=

/ Fórmula para probabilidades condicionadas:

/ Teorema de Bayes:

Pr( | ) Pr( )Pr( | )Pr( )

DataDataData

θ θθ ⋅=

Dist. a Dist. a posterioriposteriori

VerosimilitudVerosimilitud(nuestro modelo (nuestro modelo de cómo un de cómo un dato individual dato individual es generado)es generado)

Dist. a Dist. a prioripriori

/ Teorema de Bayes.

/ Notación abreviada común en la literatura bayesiana

[ | ] [ ][ | ][ ]

DataDataData

θ θθ ⋅=

[ | ]Dataθ

/ donde:

ü [ ] indica la probabilidad o verosimilitud dada por una determinada distribución

ü es la distribución de θ dados los datos.

|Data θ

Ejemplo: Realizando un test para una enfermedad (1 decada 50000). El test es muy preciso, con una tasa de falsospositivos o falsos negativos de 0.1%. Realizamos el test yobtenemos un positivo. ¿Qué quiere esto decir?

¿Podemos rechazar la hipótesis nula de no tener laenfermedad al 0.1%?

P(tener enf. | test +)=P(test + | tener enf.) P(tener enf.)

P(test +)= 1.9589 %

Información a priori. Elicitación.

La información a priori es tanto una gran ventaja y unapotencial debilidad de la aproximación bayesiana.

Tipos de distribución a priori:

-No informativas (o impropias, de referencia, débiles oignorantes): Representa una carencia de información previa

-Informativa (o genuina): incorpora información procedentede análisis previos o información de expertos

-Estructural (o jerárquica): incorpora información sobrerelaciones entre parámetros.

Inferencia bayesiana conjugada.

Pr( | ) Pr( )Pr( | )Pr( )

DataDataData

θ θθ ⋅=

Dist. a Dist. a posterioriposteriori

Ejemplo:

Supongamos que θ representa un porcentaje (p.e. elparámetro de una binomial) y que estamos interesados ensu estimación:

• 0 ≤ θ ≤ 1

•Verosimilitud Binomial: los datos corresponden a: “k” éxitos de un número fijo, N, de pacientes.

Ejemplo (continuación):

La verosimilitud tiene una expresión del tipo:

( ) ( )[ | , ] 1k N kNk N

kθ θ θ −

= ⋅ ⋅ −

<< Dado θ, la verosimilitud indica la probabilidad que el modelo otorga a que en N observaciones k

hayan ocurrido con “éxito” >>

Ejemplo (continuación):

[θ | a,b ] ~ Beta(a,b)

1 1( )[ | , ] (1 )( ) ( )

a ba ba ba b

θ θ θ− −Γ += −

Γ Γ

(a>0, b>0)

Información a priori: Distribución Beta

Elementos del análisis bayesiano con FirstBayes

1. El rango de variación es el de un porcentaje: [0,1]

2. Tiene una relación natural (“conjugada”) con el modelo binomial.

Ventajas de la distribución Beta

0 0.2 0.4 0.6 0.8 10

1

2

3

4

5

Beta(.25, .25)

Beta(3, 7)

Beta(1, 1)

3. Es muy flexible: admite una grandísima variedad de formas (Homberg, 1995).

Homberg:

4. Fácil de asignar, “elicitar”:

Media= a/(a+b)

Varianza= ab/((a+b)^2(a+b+1))

Moda=(a-1)/(a+b-2)

[ | ] [ ][ | ][ ]

DataDataData

θ θθ ⋅=

Procedimiento de actualización de nuestros

juicios sobre la proporción de pacientes

El modelo Beta-Binomial

Inf. a priori: [θ ] Beta (a,b)

Verosimilitud k: [k | θ, N ] Binomial (θ, N )

Posteriori: [θ | k, N ] Beta (a+k, b+(N-k))

Propiedad de conjugación: Posteriori y priori pertenecen a la misma familia.

1 Observaciones previas relevantesAtribuirle el mismo peso que a los nuevos datos.Utilizar “a priori” con igual media atenuando eltamaño muestral (Ej. 100 observaciones previas con30 éxitos, ponderar un 10% del peso - Beta (3,7)).

¿Qué “a priori” debemos utilizar?

2 Priori “no informativa”No exista información previaMinimizar el peso de la a prioriBeta(0,0), Beta(0.25,0.25), Beta(1,1)

Computación en Análisis Bayesiano:

Métodos MCMC (Markov Chain Monte-Carlo).

WIN-BUGS: un software para el análisis de modelos bayesianos usando MCMC)

Cantidad a posteriori de interés:

π(θ)f(x|θ)π(θ)f(x|θ)dθ∫Q

é E[g(θ)|x] =π(θ)f(x|θ)dθ∫Q

g(θ)π(θ)f(x|θ)dθ∫Q

θ=(θ1, . . ., θp)∈Θ, π(θ|x) =

E[g(θ)|x] = g(θ)π(θ|x)dθ, donde∫Q


Por ejemplo:

g(θ) = θ ⇒ media a posteriori

g(θ) = θi·θj ⇒ momentos a posteriorir s

g(θ) = I{θ∈A} ⇒ prob. a posteriori de un conjunto

g(θ) = (θi-E[θi|x])(θj-E[θj|x]) ⇒ covarianza entre θi, θj a posteriori

g(θ) = f(z|θ) ⇒ predictiva de z a posteriori


Pero generalmente,

π(θ)f(x|θ)π(θ)f(x|θ)dθ∫Q

1) π(θ|x) =

no adopta una forma funcional conocida (salvoanálisis conjugado), la evaluación del denominadorgeneralmente no es posible de forma analítica.

2) E[g(θ)|x] implica nuevamente integrales analíticamente no factibles.


. . . Y se hace necesario el tratamiento numérico,aproximado del problema, (salvo análisis conjugadoy familias exponenciales).

Agravado en muchos casos porque la dimensión delespacio paramétrico es mayor que 1, lo que implicaademás la integración sobre espacios dedimensiones que pueden ser elevadas .


Ejemplo 1.

π(µ, h|x) ∝h((n+n

0)/2-1) exp{(-1/2)[b0(µ-a0)2 +s0h+h∑i(xi-µ)²]}

“no tiene una forma exacta”

¿cómo calcular, por ejemplo, la cantidad?

E[µ|x] = µ·π(µ, h|x)dµdh∫ ∫∞ ∞

0 -∞

µ ~ N(a0, b0-1), h=1/σ²~ G(n0/2, s0/2), θ=(µ, h),

Sup. x1, x2, . . ., xn iid ~ N(µ, σ²= h-1), para


• En cualquier caso, nos enfrentamos a complicadosproblemas de integración que han constituidola principal dificultad del análisis bayesiano.

• Distintos métodos de integración numérica,mediante aproximaciones determinísticas,ver Bernardo y Smith, 1994; O’ Hagan, 1994 oRobert y Casella, 1999).

• Pero estos métodos no tienen en cuenta lanaturaleza aleatoria del problema, que las funcionesimplicadas sean densidades probabilísticas . . .


§ Si fuera posible generar directamente muestrasindependientes de π(θ|x) mediante algún métodoaleatorio de simulación, esto conduciría a laobtención de la cantidad a posteriori de interés, . . .

(el Teorema Central del Límite aseguraría laconvergencia de las cantidades muestrales a lascantidades de interés).


Ejemplo 2. Dadas 1000 observ. de π(θ|x), es posible:

···

ü calcular la media muestral para estimar E[π(θ|x)]

ü calcular la var. muestral para estimar Var[π(θ|x)]

ü ordenar la muestra y buscar el valor no 250(1er cuartil), o el valor no 500 (mediana), . . .

ü obtener la proporción de la muestra mayor que θ0(Prob{θ > θ0})


1 0.11032 0.051483 0.65274 0.0042835 0.028666 0.13457 0.36368 0.26299 0.173210 0.3267

.

.

.

media muestral = 0.140097258varianza muestral = 0.025131898

mediana = 0.08161

1er cuartil = 0.02092

262 mayores que θ0 = 0.2,(Prob{θ > 0.2}=0.262).

moda = 0.05148


Histograma

0200400600

0

0.15 0.3

0.45 0.6

0.75 0.9

Theta

Frec

uenc

ia

Perfil

0100200300400500

0.03

0.18

0.33

0.48

0.63

0.78

0.93

Theta

Frec

uenc

ia

F


Pero en muchos casos no es posible la simulacióndirecta de muestras independientes para π(θ|x) . . .

Sin embargo, puede ser posible simular muestrascon algún tipo de dependencia, que converjan(bajo ciertas condiciones de regularidad) a ladistribución de interés π(θ|x),

Ø construir mediante simulación Monte Carlo unadeterminada Cadena de Markov . . .


Desde hace aproximadamente 12-15 años, losmétodos basados en simulación Monte Carlo medianteCadenas de Markov, MCMC, permiten laresolución de problemas que hasta entonces no erananalíticamente tratables y que precisaban distintasaproximaciones numéricas para las integralesimplicadas.Estos métodos permiten muestrear la distribución aposteriori, aunque ésta sea desconocida, gracias a laconstrucción de una cadena de Markov cuyadistribución estacionaria sea, precisamente π(θ|x).


“. . .Muestrear la distribución a posteriori ycalcular la cantidad a posteriori de interésmediante MCMC son los retos más importantesde la computación bayesiana más avanzada .”(Chen, Shao e Ibrahin, 2000).

“MCMC es, esencialmente, integración MonteCarlo, haciendo correr por largo tiempo unainteligentemente construida cadena de Markov .”(Gilks, Richardson y Spiegelhalter, 1996).


Explicación de cómo funciona muestreo de Gibbs y Algoritmo de Metropolis Hastings

http://www.dpye.iimas.unam.mx/eduardo/MCB/node25.html

Algunos aspectos teóricos.

Una cadena de Markov es una sucesión de vv. aa.,{X1, X2, . . ., Xt, . . . } tal que

∀t≥ 0, Xt+1 sólo depende del estado actual,Xt+1 es muestreado de p(⋅|Xt), es decir:

p(Xt+1|Xt, Xt-1, . . ., X1)=p(Xt+1|Xt).

p(⋅|⋅) es la probabilidad de transición de la cadena.


ß Principales métodos de muestreo :

•Muestreo de Gibbs

•Algoritmo de Metrópolis-Hastings

¿cómo diseñar la cadena, {θ(t)}?

Se trata de muestrear iterativamente a partir dedistribuciones apropiadas (no se puede muestreardirectamente de π(θ|x)).


•Muestreo de Gibbs

Aunque π(θ|x)=π((θ1, . . ., θp)|x) no sea estándar,puede que sí lo sean las condicionadas a posterioride cada θi respecto al resto,π(θi|θ1, . . . θi-1, θi+1, . . ., θp, x) ) = π(θi|θ-i, x), paraθ-i = (θ1, . . . θi-1, θi+1, . . ., θp).(“full conditional”, ¡es una distribución univariante!).

Ü Orígenes:Grenader(1983), Geman y Geman (1984).Ü En AB:Gelfand y Smith (1990), George(1992), Robert y Casella (1999).


Esquema general:•Paso 0. Valores iniciales : θ(0) = (θ01, . . ., θ0p)•Paso 1. Para obtener θ(1) = (θ11, . . ., θ1p):

se muestrea θ11 de π(θ1|x, θ02, . . ., θ0p)se muestrea θ12 de π(θ2|x, θ11, θ03, . . ., θ0p)se muestrea θ13 de π(θ3|x, θ11, θ12, θ04, . . ., θ0p). . .se muestrea θ1p de π(θp|x, θ11, . . ., θ1p-1).

···•Paso k. Actualizar θ(k) = (θk1, . . ., θkp)

a partir de θ(k-1) .


Ejemplo 3.Sup. x1, x2, . . ., xn iid ~ N(µ, σ²= h-1), paraµ~ N(a0, b0

-1), h=1/σ²~ G(n0/2, s0/2), θ=(µ, h), con

π(µ, h|x) no estándar, pero las condicionadas se

obtienen de :

π(µ|h, x) = = π(µ, h|x)π(h|x)

π(µ, h|x)∫π(µ, h|x)dµ

π(µ, h|x)π(µ|x)

π(µ, h|x)∫π(µ, h|x)dhπ(h|µ, x) = =


de donde,

⋅ π(µ|h, x) ∝ exp{ }(b0+nh)(µ - )2-12

a0b0 +hnb0+nh

a0b0 +hnb0+nh

1b0+nh

~ N( , )

2n0+n (s0+∑i(xi-µ)²)

2~ G( , )

h exp{- ·h}n0+n

2 (s0+∑i(xi-µ)²)2

⋅ π(h|µ, x) ∝ -1


muestreo de Gibbs:

•Paso 0. Valores iniciales : θ(0) = (µ0, h0)•Paso 1. Para obtener θ(1) = (µ1, h1):

se muestrea µ1 de π(µ|h=h0, x),(se genera un valor de la distr. Normal)

se muestrea h1 de π(h|µ= µ1, x),(se genera un valor de la distr. Gamma)

se actualiza (µ0, h0) a (µ1, h1),

···•Paso k. Actualizar θ(k) = (µk, hk), a partir de θ(k-1) .


ß la serie θ(0), θ(1), . . .., θ(N),puede analizarse casi como una muestra independientede π(θ|x), y por tanto, cantidades muestrales estimarán lascantidades a posteriori respectivas (media muestral parala media a posteriori, cualquier momento o percentilmuestral para el correspondiente a posteriori, o la curvadescrita por el histograma de valores para un parámetro θi

aproxima la forma de la curva de la distribución marginalπ(θi|x)).


¿por qué “casi”?

Puede presentarse una fuerte correlación entre lasrealizaciones muestrales, que puede corregirsedesechando las ‘m’ primeras: “muestra burn in”,θ(0), θ(1), . . ., θ(m), θ(m+1), . . ., θ(N).

”burn in” análisis muestral

N-mσ²

la serie (gráfica de los valores muestrales), de loscoeficientes de autocorrelación de la misma puedenayudar a determinar ‘m’ y ‘N’, (no es fácil).

* El valor del error, , el análisis de la traza de


mu

lag0 20 40

-1.0 -0.5 0.0 0.5 1.0

ß En el ejemplo 3, se obtiene, para µ :

mu sample: 9000

-0.5 0.0 0.25

0.0 1.0 2.0 3.0 4.0

node mean sd MC error 2.5% median 97.5% start samplemu 0.1266 0.1021 0.001096 -0.06959 0.1265 0.3292 1001 9000

mu

iteration10950109001085010800

-0.4 -0.2 0.0 0.2 0.4 0.6

Histograma

Coef. de autocorrelación

Traza de la serie


h

lag0 20 40

-1.0 -0.5 0.0 0.5 1.0

ß Y para h:

h sample: 9000

0.5 0.75 1.0 1.25

0.0 1.0 2.0 3.0 4.0

node mean sd MC error 2.5% median 97.5% start sampleh 0.936 0.1328 0.001303 0.6964 0.9287 1.213 1001 9000

h

iteration10950109001085010800

0.5 0.75 1.0

1.25 1.5

1.75Histograma

Coef. de autocorrelación

Traza de la serie


• Algoritmo de Metrópolis-Hastings

Para construir la cadena {θ(t)}, las prob. detransición p(θ(t+1)|θ(t)) vendrán dadas por una distr.arbitraria, (distribución generadora de candidatos),q(θ,θ’) tal que ∫q(θ,θ’)dθ’ =1,

dados el valor actual θ, y el valor candidato, θ’.

Ü Orígenes:Metropolis et al (1953) y Hastings (1970).Ü Más recientes:Tierney(1994), Chib y Greenberg (1995), Robert y Casella (1999)


• Variables auxiliares (data augmentation)Ü (Ver Tanner y Wong (1987).)

La introducción de parámetros auxiliares puedesimplificar el problema:π(θ|x)Ô π(θ, λ|x) de simulación más sencilla

⇒ se simula π(θ, λ|x) y sólo se usan las muestraspara θ./Ejemplo 5.Sup. x1, x2, . . ., xn iid ~ St(µ, h, α0), paraµ ~ N(a0, b0

-1), h=1/σ²~ G(n0/2, s0/2), θ=(µ, h)


⌫ reparametrizar la t de Student como una mixturade distribuciones normales:xi ~ N (µ, (λih)-1), para λi ~ G(α0/2, α0/2), i=1, . . ., n⇒ f(xi|µ, h) ~ St(µ, h, α0), i=1, . . ., n, por tantoθ=(µ, h)Ô (θ, λ) = (µ, h, λ1, λ2, . . ., λn), f(x|θ) y π(θ|x)son las mismas, pero las condicionadas son ahora:

• π(µ|h, λ, x) ~ Normal• π(h|µ, λ, x) ~ Gamma• π(λ|µ, h, x) ~ producto de Gammas.

⇒ se puede aplicar muestreo de Gibbs.


Software:

WinBUGS.


: El Proyecto BUGS:

Spiegelhalter, D., Thomas, A. y Best, N.

MRC Biostatistics Unit, Institute of Public Health,Cambrigde & Department of Epidemiology andPublic Health, Imperial College School of Medicine atSt. Mary’s Hospital.

8 http://www.mrc-bsu.cam.ac.uk/bugs



BUGS, Bayesian Inference Using Gibbs Sampling esun software diseñado para el análisis de modelosbayesianos usando MCMC.

8 la última versión, 1.4.3, puede obtenerse desde ladirección web, así como el manual, numerososejemplos, enlaces interesantes, y la subscripción a lalista de correo de usuarios.

WinBUGS, es su versión Windows, que incorpora unmenú de representación gráfica del modelo, Doodle,y utiliza Metropolis-Hastings.


ANTES CLAVE ANNUAL, AHORA CLAVE UNIVERSAL

http://www-users.york.ac.uk/~pml1/bayes/winbugsinfo/raab.htm

EJERCICIOS DOODLE Y OTROS SENCILLOS EN

8 Para empezar a trabajar con un modelo:

crear el doodle

formular el modelo

simulación

Analizar los resultados

cargar datos y valores iniciales editor,hojade cálculo

burn in


Ventajas:- Proporciona inferencias más naturales y útiles que la de los métodos frecuentistas.

-Facilitan el uso de mayor información, obteniendo resultados más robustos.

-Puede afrontar problemas más complejos.

-Son ideales para problemas de toma de decisión.

-Son más transparentes en relación a los supuestos empleados en el proceso de inferencia.


Desventajas:-Incorpora un elemento de subjetividad no presente en el análisis clásico.

-En la práctica, la información a priori es difícil de especificar (elicitar).

-Los métodos bayesianos son más complejos que los clásicos, y el software disponible es escaso.


Saghir A. BashirAmgen Ltd, Cambridge, U.K.Email: [email protected]

4th January 2001

Outline

n Introductionn BUGS and WinBUGSn Graphical Modelsn DoodleBUGSn Example - Simulationn Power calculationn Summary

Introduction

n Bayesian Inference Using Gibbs Samplingq BUGS

n Analysis of Complex Models

n Bayesian Methods

n Markov Chain Monte Carlo Integrationq Useful when no closed form exists

Classic BUGS

n Declarative Language n Similar to Splus

n Complex Statistical Modelsn Missing datan Measurement Errorn No closed form for Likelihood

n Graphical Modelling

n Flexible compared to approximations

WinBUGS

n Similar to Classic BUGSq Plus new methodological developments

n Graphical representation of modelq DoodleBUGS

n Menu Control of session

n Cut and paste to other packages

BUGS and WinBUGS

n No data management facilityq Why reinvent the wheel?

n “Easy” interface with other packagesq R and Splusq Stata (S. Bashir)

n Simple analysis of output

Working with BUGS

Output Analysis

R/SplusSTATA

Prepare Data

EditorStats packageSpread sheet

BUGS Analysis

WinBUGSBUGS

Graphical Models

n Complex multivariate probability modelsq Representationq Visualisation

n Graphs...q simplify complex modelsq communicate structure of the problemq provide basis for computation

WinBUGS

n BUGS language

n DoodleBUGSn Used for the purposed of this Demo.

n WinBUGS is currently free from:n http://www.mrc-bsu.cam.ac.uk/bugs/n Register to get full version access

DoodleBUGS

n Start WinBUGSn Select “Doodle” from menu bar

DoodleBUGS - Basics

n Select “New…”

n Press “ok”n You have a window to “Doodle” in.

Nodes

n Creating a node q Mouse click in Doodle Window

n Deleting a node: CTRL + Del

n Nodes can beq Stochastic

q Logical

q Constant (rectangle)

Node Types

Example - Simulation

n Letq r1 ~ Bin (0.25, 250)q r2 ~ Bin (0.35, 150)

n Calculate p: common proportion for r1 & r2

n p = (r1+r2)/400

n Classical p = 0.2875

DoodleBUGS

n Start with r1 ~ Bin(0.25, 250) (stochastic node)

DoodleBUGS

n Add r2 ~ Bin(0.35, 150) (stochastic node)

Logical Nodes

n Add p as a logical node

q To define a logical node click on “type” for choices.

Logical Functions

n Add “edges” for the logical relationship

q Whilst node p is highlighted, CTRL + click in “parent nodes” r1 and r2 (hollow arrows ⇒ logical function)

Stochastic Nodes

n Stochastic dependenceq p1 ~ N(0.25, 0.000026) (i.e., p1 ~ [0.24, 0.26])q size1 = 250 (constant)

q Single arrows for stochastic dependencies

Normal Distribution

n Note the Normal distribution in BUGS is defined as N (mean, precision) where precision = 1/variance

q Note that we can define upper and lower bounds so that the proportion is between 0 and 1.

DoodleBUGS Model

n Let us add these stochastic dependencies to our “logical” model

DoodleBUGS Model

n What is our model?

n r1 ~ Bin (p1, size1)

n p1 ~ N (0.25, 0.000026)

n size1 = 250

n r2 ~ Bin (p2, size2)

n p2 ~ N (0.35, 0.000026)

n size2 = 150

WinBUGS Modelling

n Running our model in WinBUGSq Create a New document n Menu bar - File - New

n A New document window will appear

WinBUGS Document

n Select your Doodle from your Doodle Windowq Menu bar - Edit - Select Document

n Copy your Doodleq Menu bar - Edit - Copy

n Paste it into your New Documentq Menu bar - Edit - Paste

Model Data

n Before running we need to give BUGS some datan Type list(size1=250, size2=150) at the top (or the

bottom) of your new document.

Running BUGS

n Use “Specification...” from the “Model” option on Menu Bar to run BUGS

Running BUGS

ChecksSyntax

StartSampler

Check Model

LoadData

CompileModel

InitialValues

UpdateSampler

Check Model

n Select the Doodle (note the hairy boarder)

n Menu bar - Model - Check modeln Note the message in bottom left hand

corner

Load Data

n Highlight the word “list”

n Menu bar - Model - Datan Bottom left hand corner

Compiling the Model

n Menu bar - Model - Compilen Bottom left hand corner

Load Initial Values

n Menu bar - Model - Gen initsn Bottom left hand side

Update the Model

n Menu bar - Model - Update

n 1000 MCMC updates to be carried out.

Burn In

n Model has been updated

n MCMC run did not store any data.q Used for the “burn in”

n Store values by “monitoring” them toq Draw inferences q Monitor MCMC run

Monitoring Nodes

n Monitoring p our parameter of interestn Menu bar - Inference - Samples...

n Sample Monitor Tool

Monitoring Nodes

n Type name of node “p” to monitorn Press “set”

Update & Monitor

n Update model again

n 1000 values “monitored” of the MCMC run for p

Summary Statistics

n Summary statisticsn Select “p” from the Sample Monitor Tooln Press “stats” (Sample Monitor Tool)

n Node statistics window

Summary Statistics

n Mean = 0.2873n Median = 0.285 (usually more stable)

n 95% credible interval (0.245, 0.335)n MCMC run size 1000

MCMC Time Series

n Press “History” in Sample Monitor Tool

Kernel Density

n Press “Density” in the Sample Monitor Tool

Kernel Density

n Increase monitored values to 25,000

Plates

n Creating a plate q CTRL + mouse click in Doodle Window

q Deleting a plate: CTRL + Del

n Allow more complex structure, e.g.,q Repeated measuresq Hierarchical models

n Extend our example to calculate powerq r1 and r2 from Binomial distributionq Simulte r1 and r2 100 times per “update”q Calculate test statisticq Count number of times it falls in critical region

Plates

n H0: p1 = p2 = p vs H1: p1 < p2

q p1 = r1/size1 & p2 = r2/size2

n Test statistic

Test Statistic

(p2 - p1)s.d.(p)

s.d.(p) = √(p(1-p)(1/size1 + 1/size2))

Power

n Dataq list(prop1=.25, prop2=.35, size1=250,size2=150, N=100, alpha.val=1.96)

n Results

n Power = 57% (47%, 67%)

Power - History

Power - Density

Updates

n Updating - Bottom left hand corner

n After updates finish

Summary

n BUGS is a power toolq Bayesian Analysisq Simulation Tool

n Graphical Models q Doodle BUGSq Simple representation of model

n Easy to use!

•EJEMPLO DE REGRESION EN ECOLOGIA

•EJEMPLOS EN WINBUGS (HELP)

Documents

Bayesian Inference Using Gibbs Sampling. - Universitat de ... · PDF fileSUMARIO n Introduccion a la prob bayesiana y a MCMC. 10 min n Instalación de Winbugs 1.4 (5 min) n Uso de