Introducción a la Inferencia Bayesiana Probabilidadusers.df.uba.ar/alejo/materias/InferenciaBayesiana/... · Introducción a la Inferencia Bayesiana Probabilidad. Repaso de probabilidad

Introducción a la Inferencia Bayesiana

Probabilidad

Repaso de probabilidad

discreta✓

p(y) =X

✓

p(y, ✓)

simétrica

p(✓) =

Zp(y, ✓)dy

marginalización

p(y) =

Zp(y, ✓)d✓

simétrica

p(✓, y) = p(y|✓)p(✓)

probabilidad conjunta, condicional

p(✓, y) = p(✓|y)p(y)

var(y) =

Z(y � E(y))2p(y)dy

media, varianza

E(y) =

Zyp(y)dy

independencia

p(✓, y) = p(✓)p(y)

var(y) = E(y2)� (E(y))2 moda? mediana?

Teorema de Bayes

p(✓|y) = p(y|✓)p(✓)p(y)

p(✓|y) = p(y|✓)p(✓)Rp(y|✓)p(✓)d✓

p(✓|y) / p(y|✓)p(✓)

likelihoodpriorposterior

Muestras vs. distribuciones

prob

abilid

ad

color

x ⇠ Distrib

p(x) = pdf(Distrib)

(“x” distribuida como …)

Con muchas muestras, puedo aproximar la pdf/pmf…

Independenciap(A,B) = p(A)p(B)

p(A,B|C) = p(A|C)p(B|C)Independencia Condicional

p(A,B,C) = p(B|A,C)p(A|C)p(C)

p(A,B,C) = p(C|A,B)p(B|A)p(A)

p(A,B,C) = p(A|B,C)p(B|C)p(C)

“Desarmando” la conjunta…

6) p(A,B) = p(A)p(B) ) p(A|B,C) = p(A|C)

. . .

Distribución Binomial

p(k|�) =✓

n

k

◆�k(1� �)n�k

k ⇠ Binomial(�, n)

k sucesos de n “tiradas”, con probabilidad de suceso theta

¿1 tirada? Bernoulli

Distribución Betap(✓) =

✓↵�1(1� ✓)��1

B(↵,�)✓ 2 [0, 1]↵,� > 0

E[✓] =↵

↵+ �

0 1

0.0115

Beta(�,�)↵

✓

¿Cómo cambia si los parámetros difieren?

Distribución Multinomial

�1, �2, . . . , �k

# # #y1, y2, . . . , yk

kX

j=1

✓j = 1

probabilidades

kX

j=1

yj = n

cuentas

p(y|�) �kY

j=1

�yj

j

Binomial Multinomial Bernoulli Categórica

k=2

n=1

(�1, �2, . . . , �k) = (1/6, 1/6, . . . , 1/6)

✓j � 0kX

j=1

✓j = 1

p(⇥|�) = Dirichlet(�1, . . . ,�k) �kY

j=1

⇥�j�1j

parametrización alternativa:

(�1, . . . ,�k) ! �(m1, . . . ,mk)X

j

mj = 1 �m : media

↵ sharpness, cuantifica similitud de las muestras con la media (¡análogo a la precisión!)

Distribución de Dirichlet

Beta, Dirichlet: distribuciones sobre distribuciones…¡volverán!

Paradoja de SimpsonTratamiento A Tratamiento B

Cálculos chicos 93% (81/87) 87% (234/270)

Cálculos grandes 78% (273/350) 69% (55/80)

Ambos 81% (354/437) 83% (289/350)

¿¡Qué pasó!?

La asignación del tratamiento depende de la severidad del caso: el mejor tratamiento (A), se da más en casos más graves

(cálculos grandes), lo que desbalancea los grupos

Paradoja de SimpsonAdmisiones a Berkeley 1973

http://vudlab.com/simpsons/

No hay injusticia en la admisión, hay sesgo

en la elección de carreras por género y cupos distintos en los

departamentos

PrácticaExplorar los lenguajes propuestos

muestreando de una Binomial y una Beta con distintos parámetros.

Hacer histogramas de las muestras.

Usar por lo menos jags, WebPPL, y otro a elección.

Documents

Introducción a la Inferencia Bayesiana Probabilidadusers.df.uba.ar/alejo/materias/InferenciaBayesiana/... · Introducción a la Inferencia Bayesiana Probabilidad. Repaso de probabilidad