Upload
others
View
21
Download
0
Embed Size (px)
Citation preview
Introducción a la Inferencia Bayesiana
Probabilidad
Repaso de probabilidad
discreta✓
p(y) =X
✓
p(y, ✓)
simétrica
p(✓) =
Zp(y, ✓)dy
marginalización
p(y) =
Zp(y, ✓)d✓
simétrica
p(✓, y) = p(y|✓)p(✓)
probabilidad conjunta, condicional
p(✓, y) = p(✓|y)p(y)
var(y) =
Z(y � E(y))2p(y)dy
media, varianza
E(y) =
Zyp(y)dy
independencia
p(✓, y) = p(✓)p(y)
var(y) = E(y2)� (E(y))2 moda? mediana?
Teorema de Bayes
p(✓|y) = p(y|✓)p(✓)p(y)
p(✓|y) = p(y|✓)p(✓)Rp(y|✓)p(✓)d✓
p(✓|y) / p(y|✓)p(✓)
likelihoodpriorposterior
Muestras vs. distribuciones
prob
abilid
ad
color
x ⇠ Distrib
p(x) = pdf(Distrib)
(“x” distribuida como …)
Con muchas muestras, puedo aproximar la pdf/pmf…
Independenciap(A,B) = p(A)p(B)
p(A,B|C) = p(A|C)p(B|C)Independencia Condicional
p(A,B,C) = p(B|A,C)p(A|C)p(C)
p(A,B,C) = p(C|A,B)p(B|A)p(A)
p(A,B,C) = p(A|B,C)p(B|C)p(C)
“Desarmando” la conjunta…
6) p(A,B) = p(A)p(B) ) p(A|B,C) = p(A|C)
. . .
Distribución Binomial
p(k|�) =✓
n
k
◆�k(1� �)n�k
k ⇠ Binomial(�, n)
k sucesos de n “tiradas”, con probabilidad de suceso theta
¿1 tirada? Bernoulli
Distribución Betap(✓) =
✓↵�1(1� ✓)��1
B(↵,�)✓ 2 [0, 1]↵,� > 0
E[✓] =↵
↵+ �
0 1
0.0115
Beta(�,�)↵
✓
¿Cómo cambia si los parámetros difieren?
Distribución Multinomial
�1, �2, . . . , �k
# # #y1, y2, . . . , yk
kX
j=1
✓j = 1
probabilidades
kX
j=1
yj = n
cuentas
p(y|�) �kY
j=1
�yj
j
Binomial Multinomial Bernoulli Categórica
k=2
n=1
(�1, �2, . . . , �k) = (1/6, 1/6, . . . , 1/6)
✓j � 0kX
j=1
✓j = 1
p(⇥|�) = Dirichlet(�1, . . . ,�k) �kY
j=1
⇥�j�1j
parametrización alternativa:
(�1, . . . ,�k) ! �(m1, . . . ,mk)X
j
mj = 1 �m : media
↵ sharpness, cuantifica similitud de las muestras con la media (¡análogo a la precisión!)
Distribución de Dirichlet
Beta, Dirichlet: distribuciones sobre distribuciones…¡volverán!
Paradoja de SimpsonTratamiento A Tratamiento B
Cálculos chicos 93% (81/87) 87% (234/270)
Cálculos grandes 78% (273/350) 69% (55/80)
Ambos 81% (354/437) 83% (289/350)
¿¡Qué pasó!?
La asignación del tratamiento depende de la severidad del caso: el mejor tratamiento (A), se da más en casos más graves
(cálculos grandes), lo que desbalancea los grupos
Paradoja de SimpsonAdmisiones a Berkeley 1973
http://vudlab.com/simpsons/
No hay injusticia en la admisión, hay sesgo
en la elección de carreras por género y cupos distintos en los
departamentos
PrácticaExplorar los lenguajes propuestos
muestreando de una Binomial y una Beta con distintos parámetros.
Hacer histogramas de las muestras.
Usar por lo menos jags, WebPPL, y otro a elección.