[email protected]) ([email protected]

2021-2022

Aprendizaje Automatico

6. Modelos graficos

Francisco Casacuberta Nolla Enrique Vidal Ruiz([email protected]) ([email protected])

Departament de Sistemas Informatics i Computacio (DSIC)

Universitat Politecnica de Valencia (UPV)

Septiembre, 2021

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.1

Index

1 Introduccion a los modelos graficos . 2

2 Redes bayesianas . 6

3 Independencia condicional . 14

4 Inferencia en redes bayesianas . 17

5 Campos de Markov aleatorios . 27

6 Aprendizaje de modelos graficos . 34

7 Bibliografıa y notacion . 46

Septiembre, 2021 DSIC – UPV


Index

◦ 1 Introduccion a los modelos graficos . 2









Modelos graficos (MG)• Los MGs y concretamente las redes bayesianas fundamentan la aproximacion

probabilıstica a los Sistemas Inteligentes. Uno de los mas famosos impulsoresfue Judea Pearl ganador del “ACM A.M. Turing Award” en 2011. Los MGs tambiense conocen como modelos probabilısticos estructurados.

• Concepto: Representacion compacta de distribuciones de probabilidad conjuntamediante grafos dirigidos (redes bayesianas) y no dirigidos (campos aleatoriosmarkovianos) (teorıa de grafos + teorıa de la probabilidad). Los MGs generalizana las redes neuronales y a los modelos de Markov ocultos entre otros.

• Aspectos:– Inferencia: deducir distribuciones de probabilidad a partir de otras dadas.– Aprendizaje: obtener el modelo probabilıstico a partir de observaciones.

• Aplicaciones:– Diagnostico medico, de fallos, ...– Vision por computador: segmentacion de imagenes, reconstruccion 3D,

analisis de escenas– Procesado del lenguaje natural: reconocimiento del habla, extraccion de

informacion textual, traduccion automatica, ...– Robotica: planificacion, localizacion, ...



Algunos conceptos sobre la teorıa de las probabilidades

Probabilidad P (x) :∑x

P (x) = 1

Probabilidad conjunta P (x, y) :∑x

∑y

P (x, y) = 1

Probabilidad condicional P (x | y) :∑x

P (x | y) = 1 ∀y

Marginales P (x) =∑y

P (x, y), P (y) =∑x

P (x, y)

Regla de la probabilidad conjunta P (x, y) = P (x)P (y | x)

Regla de la cadena P (x1, x2, . . . , xN) = P (x1)

N∏i=2

P (xi | x1, . . . , xi−1)

Regla de Bayes P (y | x) P (x) = P (y)P (x | y)



Factorizacion de distribuciones conjuntas

Una distribucion conjunta sobre tres variables puede expresarse exactamentemediante seis factorizaciones completas diferentes:

P (a, b, c) = P (a) P (b | a) P (c | a, b) = P (a) P (c | a) P (b | a, c)= P (b) P (a | b) P (c | a, b) = P (b) P (c | b) P (a | b, c)= P (c) P (a | c) P (b | a, c) = P (c) P (b | c) P (a | b, c)

Cada factorizacion se puede representar mediante un grafo dirigido acıclico:

a

b

c

a

c

b

b

a

c

b

c

a

c

a

b

c

b

a



Index


◦ 2 Redes bayesianas . 6








Redes bayesianas: ejemplos

Si hay dependencias inexistentes (o despreciables), la factorizacion exacta(o aproximada) de una distribucion conjunta puede ser incompleta, lo quequeda reflejado en el grafo correspondiente. Ejemplos:

P (a, b, c) = P (a, b, c, d, e, f) =P (a) P (b) P (c | a, b) P (a) P (b) P (c) P (d | b, c) P (e | a, b, d) P (f | a, c)

a

b

c

a

bc

e

d

f



Redes bayesianas: un ejemplo detallado

P (A | L)

Aspersor (A)Lluvia (L) p f

n 0.60 0.40s 0.99 0.01

Aspersor

Lluvia

Césped

P (L)

Lluvia (L)n s

0.8 0.2

Aspersor p : paradof : funciona

Cesped r : resecom: mojado

Lluvia n : no llueves : sı llueve

P (C | A,L)

Cesped (C)Lluvia (L) Aspersor (A) r m

n p 1.00 0.00n f 0.10 0.90s p 0.20 0.80s f 0.01 0.99

Distribucion conjunta: P (L,A,C) = P (L) P (A | L)P (C | L,A)

Ejercicio: calcular P (L = l, A = a,C = c), l ∈ {n, s}, a ∈ {p, f}, c ∈ {r,m}.Septiembre, 2021 DSIC – UPV


Un ejemplo detallado (cont.)

• ¿Cual es la probabilidad de que llueva si el cesped esta mojado?

P (L = s | C = m) =P (L = s, C = m)

P (C = m)

=

∑a∈{p,f}P (L = s, A = a,C = m)∑

a∈{p,f},l∈{n,s}P (L = l, A = a,C = m)

=0.1584 + 0.00198

0.288 + 0.00198 + 0.0 + 0.1584

= 0.3577

• El cesped esta mojado. ¿Cual es la mejor prediccion: llueve o no llueve?

argmaxl∈{n,s}

P (L = l | C = m) = n

Ejercicio:a) Calcular P (A = a | L = l, C = c), a ∈ {p, f}, l ∈ {n, s}, c ∈ {r,m}.b) Llueve y el cesped esta mojado.¿Cual es la mejor prediccion sobre el estado del aspersor?



Redes bayesianas: otro ejemploP (P )

Polucion (P)b a

0.9 0.1

P (X | C)

Rayos X (X)Cancer (C) n d p

n 0.80 0.10 0.10p 0.10 0.20 0.70

Fumador

Cáncer de

pulmón

Polución

Rayos X Disnea

P (F )

Fumador (F)n s

0.7 0.3

P (D | C)

Disnea (D)Cancer (C) n s

n 0.70 0.30p 0.35 0.65

Polucion b: bajoa: alto

Fumador n: nos: sı

Disnea n: nos: sı

Rayos X n: negativod: dudosop: positivo

Cancer n: negativop: positivo

P (C | P, F )

Cancer (C)Polucion (P) Fumador (F) n p

b n 0.999 0.001b s 0.97 0.03a n 0.95 0.05a s 0.92 0.08

Ejercicio: ¿Cual es la probabilidad de que un pacienteno fumador no tenga cancer si la radiografıa ha dado unresultado negativo pero sufre de disnea?



Redes bayesianas

Una red bayesiana es un grafo dirigido y acıclico (“directed acyclic graph”-DAG-) donde:

• Los nodos representan:

– variables aleatorias (discretas o contınuas)– distribuciones de probabilidad condicional para cada variable xi dados

los valores de las variables asociadas a los nodos padres a(xi)

• Los arcos representan dependencias entre las variables

Una red bayesiana con nodos x1, . . . , xD define una distribucion deprobabilidad conjunta:

P (x1, . . . , xD) =

D∏i=1

P (xi | a(xi))



Algunas redes bayesianas simples

• El clasificador de Bayes (x ∈ Rd y c ∈ {1, . . . , C}):

c

x

P (c)

P (x | c)

P (x, c) = P (c) P (x | c)

P (c | x) =P (x, c)

P (x)=

P (c)P (x | c)∑c′ P (c′)P (x | c′)

• Modelos naive-Bayes (xi ∈ R con 1 ≤ i ≤ d y c ∈ {1, . . . , C}):

c

x 1

x d

P (c)

P (x1 | c) P (xd | c)

P (x1, . . . , xd, c) = P (c)

d∏i=1

P (xi | c)



Otro ejemplo de red bayesiana: modelo oculto de Markov

P(q |q ) 1 1

P(x|q ) 1

X 1

q 1

q 2

Q 1

Q 2

Q 3

Q 4

P(Q ) 1

P(Q |Q ) 2 1

P(Q |Q ) 3 2

P(Q |Q ) 4 3

P(X |Q ) 1 1

P(q |q ) 2 2

P(q |q ) 2 1

X 2 X 3 X 4

P(X |Q ) 2 2

P(X |Q ) 3 3

P(X |Q ) 4 4

P(x|q ) 2

Σ = {a, b, c}, x ∈ ΣQ = {q1, q2}

Las variables aleatorias Qi toman valores en Q y las Xi en Σ, 1 ≤ i ≤ 4.

Probabilidad conjunta de la red bayesiana: P (X1 X2 X3 X4, Q1 Q2 Q3 Q4) =

P (Q1) P (X1 | Q1) P (Q2 | Q1) P (X2 | Q2) P (Q3 | Q2) P (X3 | Q3) P (Q4 | Q3) P (X4 | Q4)

Probabilidad de generar la cadena “aabc”: P (X1 = a,X2 = a,X3 = b,X4 = c) =∑r1,r2,r3,r4∈Q

P (X1 = a,X2 = a,X3 = b,X4 = c, Q1 = r1, Q2 = r2, Q3 = r3, Q4 = r4)

O sea, la suma de probabilidades de generar “aabc” mediante todas las secuencias de 4 estados.Septiembre, 2021 DSIC – UPV


Index



◦ 3 Independencia condicional . 14







Independencia condicional

Se dice que a es condicionalmente independiente de bdado c (o tambien que a esta D-separado de b por c, y sedenota como: a � b | c) si:

P (a, b | c) = P (a | c)P (b | c) ⇔ P (a | b, c) = P (a | c)

Se dice que a es incondicionalmente independiente de b(y se denota como: a � b | ∅) si:

P (a, b) = P (a)P (b)



Reglas de independencia condicional e incondicional

a bc

Direccion causal: a � b | c, a �/ b | ∅

P (a, b | c) =P (a)P (c | a)P (b | c)

P (c)= P (a | c)P (b | c)

pero en general P (a, b) 6= P (a)P (b)

c

a b

Causa comun: a � b | c, a �/ b | ∅

P (a, b | c) = ��

P (c)P (a | c)P (b | c)

��

P (c)= P (a | c)P (b | c)

pero en general P (a, b) 6= P (a)P (b)

a b

c

Estructura en V: a �/ b | c, a � b | ∅En general P (a, b | c) 6= P (a | c)P (b | c)

pero P (a, b) =∑c

P (a)P (b)P (c | a, b) = P (a)P (b)



Index




◦ 4 Inferencia en redes bayesianas . 17






Inferencia con redes bayesianas

• En general, el problema consiste en calcular la probabilidad a posteriori dealguna variable x a partir de las distribuciones conjuntas asociadas a una RB,dada alguna evidencia e (como valores dados de otras variables) y sin importarlos valores del resto de las variables f :

P (x | e) =P (x, e)

P (e)con: P (x, e) =

∑f

P (x, e, f), P (e) =∑x,f

P (x, e, f)

• El objetivo es calcular eficientemente P (x, e) y P (e)

Ejemplo: Calcular P (x3) a partir de una distribucion conjunta dada por:

P (x1, x2, x3, x4) = P (x2)P (x1 | x2)P (x3 | x2)P (x4 | x3)

Supongamos que cada xi, i = 1, 2, 3, 4 puede tomar n valores:

– P (x3) =∑

x1,x2,x4P (x2)P (x1 | x2)P (x3 | x2)P (x4 | x3) ⇒ O(n3) operaciones.

– P (x3) =∑

x2P (x2)P (x3 | x2)

∑x1P (x1 | x2)

∑x4P (x4 | x3)

=∑

x2P (x2)P (x3 | x2) ⇒ O(n) operaciones.



Inferencia con redes bayesianas

Situaciones donde es util calcular las probabilidades a-posteriori:

• Prediccion: ¿Cual es la probabilidad de observar un sıntomasabiendo que se tiene una determinada enfermedad?

• Diagnostico: ¿Cual es la probabilidad de que una determinadaenfermedad sea un diagnostico correcto dados algunos sıntomas?

En RB, la direccion de los enlaces entre variables no restringe el tipode preguntas que se pueden hacer.



Tipos de redes bayesianas

La estructura de una Red Bayesiana puede permitir ciertas factorizacionessistematicas en los calculos asociados a la inferencia.

Dos tipos de estructura admiten factorizaciones eficientes: cadena y (poli-)arbol.

Cadena

Árbol

Poli-árbolGrafo (DAG)



Inferencia en una cadena

x i x n-1 x n x n+1 x fx i+1 x f-1

+E x n -E x n

Supongamos que el ultimo xi ∈ E+xn

y el primer xf ∈ E−xnestan dados:

P (xn | xi, xf) =P (xn, xi, xf)

P (xi, xf)

=P (xn) P (xi | xn) P (xf | xn, ZZZxi)

P (xi, xf)(Indep. cond.: xf � xi | xn)

=��

��P (xn) P (xi) P (xn | xi) P (xf | xn)

��

�P (xn) P (xi, xf)(Regla de Bayes)

= α P (xn | xi) P (xf | xn) (α = P (xi)/P (xi, xf))

• Ejercicio: ¿Que ocurre si tambien conocemos xi′ ∈ E+xn

con i′ < i?• Ejercicio: ¿Que ocurre si tambien conocemos xf ′ ∈ E−xn con f ′ > f?



Inferencia en una cadenaPropagacion de creencias (“Belief propagation”)


+E x n -E x n

λ (x ) nπ (x ) n

P (xn | xi, xf) = α P (xn | xi) P (xf | xn)def= α π(xn) λ(xn)

donde π(xn) y λ(xn) se calculan como:

π(xi) = 1 λ(xf) = 1

π(xn) =∑xn−1

P (xn | xn−1) π(xn−1) λ(xn) =∑xn+1

P (xn+1 | xn) λ(xn+1)

• Ejercicio: Obtener una expresion para P (xn)



Inferencia en una cadena (derivacion I)


+E x n -E x n

π (x ) nπ (x ) n-1

π(xn) = P (xn | xi) =∑xn−1

P (xn, xn−1 | xi)

=∑xn−1

P (xn−1 | xi) P (xn | ��xi, xn−1) =∑xn−1

P (xn−1 | xi) P (xn | xn−1)

=∑xn−1

π(xn−1) P (xn | xn−1)

π(xi) = 1



Inferencia en una cadena (derivacion II)


+E x n -E x n

λ (x ) nλ (x ) n+1

λ(xn) = P (xf | xn) =∑xn+1

P (xf , xn+1 | xn)

=∑xn+1

P (xn+1 | xn) P (xf | ��xn, xn+1) =∑xn+1

P (xn+1 | xn) P (xf | xn+1)

=∑xn+1

P (xn+1 | xn) λ(xn+1)

λ(xf) = 1



Inferencia en un arbol

u i

E-x j

E+x j

x j

λ (x )y j k

λ (u )x i j

π (x )y j k

π (u )x i j

y k

Para calcular P (xj | E+xj, E−xj

) = α π(xj) λ(xj)

λ(xj) =

m∏k=1

λyk(xj) con λyk(xj) =∑yk

λ(yk) P (yk | xj)

π(xj) =∑ui

P (xj | ui) πxj(ui) con πxj

(ui) = α∏j′ 6=j

λxj′(ui) π(ui)



Inferencia en otros tipos de grafos

• Poli-arboles (“Polytrees”). Los nodos pueden tener multiplespadres, pero solo puede existir un camino unico entre cualquierpar de nodos: una generalizacion del algoritmo sobre un arbol.

• Grafos generales. Inferencia aproximada:

– Metodos variacionales.– Metodos basados en muestreo.



Index





◦ 5 Campos de Markov aleatorios . 27





Campos de Markov aleatorios

Un campo de Markov aleatorio es un modelo grafico en la que se asumeun modelo simplificado de independencia condicional. Se define como:

• Un conjunto de variables aleatorias V = {X1, . . . , XD}• Un grafo no-dirigido R = (V,E)

• El conjunto Q de todos los cliques (maximos) † de R

• Una distribucion de probabilidad conjunta factorizada como:

P (x1, . . . , xD) =1

Z

∏C∈Q

ψC(VC)

donde VC es el subconjunto de variables del clique C y ψC :Q→R>0 esuna funcion llamada funcion potential y Z es un factor de normalizacion.

Ejemplo (3 cliques maximos, V1 = {A,B,C}, V2 = {C,D}, V3 = {D,E}):

A B

C D

EP (A,B,C,D,E) =

1

Zψ1(A,B,C) ·ψ2(C,D) ·ψ3(D,E)

†Un clique es un subgrafo totalmente conectado. Es maximo si no es subgrafo de algun otro clique.Septiembre, 2021 DSIC – UPV


Campos de Markov aleatorios: potenciales exponenciales

Si las funciones de potencial son de la familia exponencial:

P (x1, . . . , xD) =1

Z

∏C∈Q

ψC(VC)

=1

Z

∏C∈Q

exp (−EC(VC))

=1

Zexp

(−∑C∈Q

EC(VC))

donde EC :Q→R es una funcion llamada funcion de energıa.

Un tipo de funcion de energıa simple puede definirse mediantefunciones lineales generalizadas:

EC(VC) = −∑k

θC,k fC,k(VC)



Un ejemplo(Bishop. Pattern Recognition and Machine Learning. 2006)

Imagen binaria original: x,xi ∈ {−1,+1}, 1 ≤ i ≤ D(D = numero de pıxeles de la imagen)

La imagen corrupta: y,yi ∈ {−1,+1}, 1 ≤ i ≤ D(se han alterado 10% de los pıxeles)

El objetivo es recuperar la imagen original a partir de la imagen corrupta




• Fuerte correlacion entre xi y yi

• Correlacion entre xi y xj si son pıxeles vecinos;es decir, si i ∈ N(j), j ∈ N(i).

xi

yi

• Cliques maximos: Ci = (xi, yi) ∀i; Cij = (xi, xj) ∀i, ∀j ∈ N(i)

• Funcion de energıa:

EC(VCij) = −β xi xj

EC(VCi) = −ν xi yi

}→

∑C∈Q

EC(VC) = −β∑i,j

xi xj − ν∑i

xi yi

• Distribucion conjunta:

P (x1, . . . , xD, y1, . . . , yD) =1

Zexp

(β∑i,j

xi xj + ν∑i

xi yi

)Septiembre, 2021 DSIC – UPV



• A partir de la distribucion conjunta:

P (x,y) ≡ P (x1, . . . , xD, y1, . . . , yD) =1

Zexp

(β∑i,j

xixj + ν∑i

xiyi

)• Inferencia:

P (x | y) =P (x,y)

P (y)=

exp(β∑

i,j xixj + ν∑

i xiyi

)∑

x′1,...,x′D

exp(β∑

i,j x′ix′j + ν

∑i x′iyi

)• Explicacion mas probable:

x ≡ (x1, . . . , xD) = argmaxx

P (x | y) = argmaxx1,...,xD

(β∑i,j

xixj + ν∑i

xiyi

)

Esto es, x =



Inferencia con campos de Markov aleatorios

• En cadenas: Algoritmo adelante-atras (”Backward-Forward algorithm”)

• En arboles: Algoritmo suma-producto

• En grafos generales: Algoritmo de arbol de union (“Junction treealgorithms”), algoritmo suma-producto (“Loopy belief propagation”)



Index






◦ 6 Aprendizaje de modelos graficos . 34




Aprendizaje de redes bayesianas

• Dada la estructura, aprender las distribuciones de probabilidad apartir de un conjunto de entrenamiento.

– Metodos basados en la maximizacion de la verosimilitud(algoritmo EM -T3-).

– Aprendizaje bayesiano.

• Aprender la estructura a partir de un conjunto de entrenamiento.

– Un problema de seleccion de modelos: busqueda en el espaciode grafos.



Aprendizaje en redes bayesianas: ejemplo

• B es el estado de la baterıa (cargada B = 1 o descargada B = 0)• C es el estado del deposito de combustible (lleno C = 1 o vacıo C = 0)• I es el estado del indicador electrico del combustible (lleno I = 1 o vacıo I = 0)

Por simplicidad se asume que las distribuciones asociadas a las variables I y C sonfijas y conocidas y hay que estimar la distribucion de B a partir de observaciones.

P (B) = ?

P (C = 1) = 0.9

P (I = 1 | B = 0, C = 0) = 0.1

P (I = 1 | B = 0, C = 1) = 0.2

P (I = 1 | B = 1, C = 0) = 0.2

P (I = 1 | B = 1, C = 1) = 0.8

B C

I

P (B,C, I) = P (B) P (C) P (I | B,C)

P (B) viene dada por dos valores de probabilidad, p0 = P (B = 0), p1 = P (B = 1).Por tanto los parametros a estimar son:

Θ = (p0, p1), p0 + p1 = 1



Aprendizaje con observaciones completasSea S = {(b1, c1, i1), . . . , (bN , cN , iN), } un conjunto de observaciones de entrenamiento.Sean N0 y N1 = N − N0 los numeros de observaciones en las que b = 0 y b = 1,respectivamente. Se asume que S esta ordenado de forma que bn = 0, 1 ≤ n ≤ N0 ybm=1, NN0+1≤m≤N . La log-verosimilitud es:

LS(p0, p1) =

N∑n=1

logP (B = bn, C = cn, I = in)

=

N∑n=1

log(P (B = bn)P (C = cn)P (I = in | B = bn, C = cn))

=

N0∑n=1

log p0 +

N∑m=N0+1

log p1 + K = N0 log p0 + N1 log p1 + K

donde K incluye los terminos independientes de p0, p1. Maximizacion de LS mediante multipli-cadores de Lagrange, como en el ejemplo de estimacion de probs. a priori del Tema 3 · · ·→

p0 =N0

N, p1 =

N1

N

Ejemplos: S = {(0, 1, 1), (1, 1, 0)} → p0 = 12, p1 = 1

2

S = {(0, 0, 1), (1, 1, 0)} → p0 = 12, p1 = 1

2

S = {(0, 1, 1), (0, 0, 1), (1, 1, 0)} → p0 = 23, p1 = 1

3Septiembre, 2021 DSIC – UPV


Algoritmo esperanza-maximizacion (EM) (Recordatorio)

Dada la muestra S = {x1, . . . ,xN} y variables latentes {z1, . . . ,zN}.

• Inicializacion: t = 1, Θ(1) = arbitrario.

• Iteracion hasta la convergencia:

– Paso E: A partir de Θ(t) y para todo 1 ≤ n ≤ N ,

qn(zn) , P (zn | xn;Θ(t))

– Paso M: Maximizacion de la funcion auxiliar Q′(Θ, q) con respecto a Θ

Θ(t+ 1) = argmaxΘ

Q′(Θ, q) = argmaxΘ

N∑n=1

∑zn

qn(zn) logP (xn, zn | Θ)

– t = t+ 1



Algoritmo esperanza-maximizacion (EM)

En el ejemplo, se dispone de observaciones del estado del deposito de combustibley de lo que marque el indicador del estado de baterıa, pero no del verdaderoestado de la baterıa, la muestra incompleta seran los datos observables, S ={(c1, i1), . . . , (cN , iN)}, (x = (c, i)), las variables latentes, {b1, . . . , bN} (z = b) y losparametros p0 y p1 (Θ = (p0, p1)).

• Inicializacion: t = 1, p0(1) = arbitrario y p1(1) = 1− p0(1).

• Iteracion hasta la convergencia

– Paso E. A partir de p0(t) y p1(t) y cada muestra 1 ≤ n ≤ N .

qn(b) , P (B = b | C = cn, I = in; p0(t), p1(t)) b ∈ {0, 1}

– Paso M.

(p0(t+ 1), p1(t+ 1)) = argmaxp0,p1

Q′(p0, p1, q)

= argmaxp0,p1

N∑n=1

1∑b=0

qn(b) logP (C = cn, I = in, B = b | p0, p1)

– t = t+ 1



Aprendizaje EM con observaciones incompletas: Paso E

En el paso E hay que calcular, para cada observacion incompleta, la distribucion deprobabilidad de la variable oculta o latente (B) dados los valores conocidos de lasotras dos variables (C e I) y de los parametros obtenido en la iteracion anterior t(p0(t), p1(t)).

qn(b) = P (B=b | C = cn, I = in; p0(t), p1(t))

=P (B=b, C = cn, I = in; p0(t), p1(t))

P (C = cn, I = in; p0(t), p1(t))

=P (B=b;p0(t),p1(t))

XXXXXXXXXP (C=cn)P (I=in|B=b,C=cn)

P (B=0)XXXXXXXXXP (C=cn)P (I=in|B=0,C=cn)+P (B=1)

XXXXXXXXXP (C=cn)P (I=in|B=1,C=cn)

=pb(t) kbn

p0(t) k0n + p1(t) k1npara b ∈ {0, 1}

Donde: k0n = P (I= in | B=0, C=cn) y k1n = P (I= in | B=1, C=cn)



Aprendizaje EM con observaciones incompletas: paso M

En el paso M hay que maximizar Q′(p0, p1, q), definida en base a las esperanzascalculadas en el paso E.

Q′(p0, p1, q) =

N∑n=1

1∑b=0

qn(b) logP (B = b, C = cn, I = in; p0, p1)

=

N∑n=1

1∑b=0

qn(b) log(P (B = b; p0, p1)P (C = cn)P (I = in | B = b, C = cn))

=

(N∑

n=1

qn(0) log p0 + qn(1) log p1

)+K = q0 log p0 + q1 log p1 +K

Donde,

K =

N∑n=1

1∑b=0

qn(b) log(P (C = cn)P (I = in | B = b, C = cn))

q0 =

N∑n=1

qn(0) y q1 =

N∑n=1

qn(1)

.Septiembre, 2021 DSIC – UPV


Aprendizaje EM con observaciones incompletas: paso M

Maximizar Q′: similar a estimacion de probabilidades a priori por maximaverosimilitud (Tema 3):

• Funcion de Lagrange:

Λ(p0, p1, β) = Q′(p0, p1, q) + β(1− p0 − p1)= q0 log p0 + q1 log p1 +K + β(1− p0 − p1)

• Funcion dual: ∂Λ

∂p0= 0 ⇒ p?0 =

q0β

;∂Λ

∂p1= 0 ⇒ p?1 =

q1β

ΛD(β) = K ′ + β − (q0 + q1) log β = K ′ + β −N log β

Donde K ′ = K + q0 log q0 + q1 log q1

• Optimizando la funcion dual:dΛD

dβ= 1− N

β= 0 ⇒ β? = N

• Solucion final: p0(t+ 1) , p?0 =q0N

; p1(t+ 1) , p?1 =q1N



Algoritmo esperanza-maximizacion (EM)

Dado un conjunto de datos obervables S = {(c1, i1), . . . , (cN , iN)}, (x = (c, i)), lasvariables latentes, {b1, . . . , bN} (z = b) y los parametros p0 y p1 (Θ = (p0, p1))., elalgoritmo final queda:

• Inicializacion: t = 1, p0(1) = arbitrario y p1(1) = 1− p0(1).

• Iteracion hasta la convergencia

– Paso E. A partir de p0(t) y p1(t).

∗ Para cada muestra 1 ≤ n ≤ Nqn(b) =

pb(t) kbnp0(t) k0n + p1(t) k1n

para b ∈ {0, 1}

∗ Calcular: q0 =

N∑n=1

qn(0) q1 =

N∑n=1

qn(1)

– Paso M. Calcular: (p0(t+ 1), p1(t+ 1)) =( q0N,q1N

)– t = t+ 1



Aprendizaje EM con observaciones incompletas: ejemplos

Sea S = {(1, 1), (1, 0)} (N = 2):

Paso E: q1(0) = 0.2p0(t)/(0.2p0(t) + 0.8p1(t)), q1(1) = 0.8p0(t)/(0.2p0(t) + 0.8p1(t)),

q2(0) = 0.8p0(t)/(0.8p0(t) + 0.2p1(t)), q2(1) = 0.2p0(t)/(0.8p0(t) + 0.2p1(t)).

q0 = q1(0) + q2(0), q1 = q1(1) + q2(1) .

Paso M: p0(t+ 1) =q0N, p1(t+ 1) =

q1N

Inicializando con p1(1) = 0.9, p0(1) = 0.1:t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16p1(t) 0.90 0.83 0.75 0.68 0.62 0.58 0.55 0.53 0.52 0.51 0.51 0.51 0.50 0.50 0.50 0.50

Si ahora las observaciones son S = {(0, 1), (1, 0)}:t 1 2 3 4 5 10 20 25 30 35 36 37 38 39 40 41p1(t) 0.90 0.82 0.72 0.61 0.52 0.45 0.28 0.19 0.18 0.18 0.17 0.17 0.17 0.17 0.17 0.17



Algunos toolkits

• BNThttps://code.google.com/p/bnt

• GraphLabhttps://turi.com/

• PMTK3 probabilistic modeling toolkit for Matlab/Octavehttps://github.com/probml/pmtk

• Software Packages for Graphical Modelshttp://www.cs.ubc.ca/˜murphyk/Software/bnsoft.html


https://code.google.com/p/bnt

https://turi.com/

https://github.com/probml/pmtk

http://www.cs.ubc.ca/~murphyk/Software/bnsoft.html


Index







◦ 7 Bibliografıa y notacion . 46



Bibliografıa

Christopher M. Bishop: “Pattern Recognition and Machine Learning”. Springer, 2006.



Notacion

• P (x): probabilidad de x

• P (x, y): probabilidad conjunta de x e y

• P (x | y): probabilidad condicional de x dado y

• Para un conjunto de variables VC en un clique C, ψC(VC) = exp (−E(VC))es una funcion potential donde E(VC) es una funcion de energıa.

• Una funcion de energıa lineal: E(VC) = −∑k

θC,k fC,k(VC) donde fC,k son

determinadas funciones que obtienen caracterısticas del clique C.


Documents

[email protected]) ([email protected]