49
2021-2022 Aprendizaje Autom ´ atico 6. Modelos gr ´ aficos Francisco Casacuberta Nolla Enrique Vidal Ruiz ([email protected]) ([email protected]) Departament de Sistemas Inform ` atics i Computaci ´ o (DSIC) Universitat Polit` ecnica de Val` encia (UPV) Septiembre, 2021

[email protected]) ([email protected]

  • Upload
    others

  • View
    16

  • Download
    0

Embed Size (px)

Citation preview

Page 1: fcn@dsic.upv.es) (evidal@dsic.upv

2021-2022

Aprendizaje Automatico

6. Modelos graficos

Francisco Casacuberta Nolla Enrique Vidal Ruiz([email protected]) ([email protected])

Departament de Sistemas Informatics i Computacio (DSIC)

Universitat Politecnica de Valencia (UPV)

Septiembre, 2021

Page 2: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.1

Index

1 Introduccion a los modelos graficos . 2

2 Redes bayesianas . 6

3 Independencia condicional . 14

4 Inferencia en redes bayesianas . 17

5 Campos de Markov aleatorios . 27

6 Aprendizaje de modelos graficos . 34

7 Bibliografıa y notacion . 46

Septiembre, 2021 DSIC – UPV

Page 3: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.2

Index

◦ 1 Introduccion a los modelos graficos . 2

2 Redes bayesianas . 6

3 Independencia condicional . 14

4 Inferencia en redes bayesianas . 17

5 Campos de Markov aleatorios . 27

6 Aprendizaje de modelos graficos . 34

7 Bibliografıa y notacion . 46

Septiembre, 2021 DSIC – UPV

Page 4: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.3

Modelos graficos (MG)• Los MGs y concretamente las redes bayesianas fundamentan la aproximacion

probabilıstica a los Sistemas Inteligentes. Uno de los mas famosos impulsoresfue Judea Pearl ganador del “ACM A.M. Turing Award” en 2011. Los MGs tambiense conocen como modelos probabilısticos estructurados.

• Concepto: Representacion compacta de distribuciones de probabilidad conjuntamediante grafos dirigidos (redes bayesianas) y no dirigidos (campos aleatoriosmarkovianos) (teorıa de grafos + teorıa de la probabilidad). Los MGs generalizana las redes neuronales y a los modelos de Markov ocultos entre otros.

• Aspectos:– Inferencia: deducir distribuciones de probabilidad a partir de otras dadas.– Aprendizaje: obtener el modelo probabilıstico a partir de observaciones.

• Aplicaciones:– Diagnostico medico, de fallos, ...– Vision por computador: segmentacion de imagenes, reconstruccion 3D,

analisis de escenas– Procesado del lenguaje natural: reconocimiento del habla, extraccion de

informacion textual, traduccion automatica, ...– Robotica: planificacion, localizacion, ...

Septiembre, 2021 DSIC – UPV

Page 5: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.4

Algunos conceptos sobre la teorıa de las probabilidades

Probabilidad P (x) :∑x

P (x) = 1

Probabilidad conjunta P (x, y) :∑x

∑y

P (x, y) = 1

Probabilidad condicional P (x | y) :∑x

P (x | y) = 1 ∀y

Marginales P (x) =∑y

P (x, y), P (y) =∑x

P (x, y)

Regla de la probabilidad conjunta P (x, y) = P (x)P (y | x)

Regla de la cadena P (x1, x2, . . . , xN) = P (x1)

N∏i=2

P (xi | x1, . . . , xi−1)

Regla de Bayes P (y | x) P (x) = P (y)P (x | y)

Septiembre, 2021 DSIC – UPV

Page 6: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.5

Factorizacion de distribuciones conjuntas

Una distribucion conjunta sobre tres variables puede expresarse exactamentemediante seis factorizaciones completas diferentes:

P (a, b, c) = P (a) P (b | a) P (c | a, b) = P (a) P (c | a) P (b | a, c)= P (b) P (a | b) P (c | a, b) = P (b) P (c | b) P (a | b, c)= P (c) P (a | c) P (b | a, c) = P (c) P (b | c) P (a | b, c)

Cada factorizacion se puede representar mediante un grafo dirigido acıclico:

a

b

c

a

c

b

b

a

c

b

c

a

c

a

b

c

b

a

Septiembre, 2021 DSIC – UPV

Page 7: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.6

Index

1 Introduccion a los modelos graficos . 2

◦ 2 Redes bayesianas . 6

3 Independencia condicional . 14

4 Inferencia en redes bayesianas . 17

5 Campos de Markov aleatorios . 27

6 Aprendizaje de modelos graficos . 34

7 Bibliografıa y notacion . 46

Septiembre, 2021 DSIC – UPV

Page 8: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.7

Redes bayesianas: ejemplos

Si hay dependencias inexistentes (o despreciables), la factorizacion exacta(o aproximada) de una distribucion conjunta puede ser incompleta, lo quequeda reflejado en el grafo correspondiente. Ejemplos:

P (a, b, c) = P (a, b, c, d, e, f) =P (a) P (b) P (c | a, b) P (a) P (b) P (c) P (d | b, c) P (e | a, b, d) P (f | a, c)

a

b

c

a

bc

e

d

f

Septiembre, 2021 DSIC – UPV

Page 9: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.8

Redes bayesianas: un ejemplo detallado

P (A | L)

Aspersor (A)Lluvia (L) p f

n 0.60 0.40s 0.99 0.01

Aspersor

Lluvia

Césped

P (L)

Lluvia (L)n s

0.8 0.2

Aspersor p : paradof : funciona

Cesped r : resecom: mojado

Lluvia n : no llueves : sı llueve

P (C | A,L)

Cesped (C)Lluvia (L) Aspersor (A) r m

n p 1.00 0.00n f 0.10 0.90s p 0.20 0.80s f 0.01 0.99

Distribucion conjunta: P (L,A,C) = P (L) P (A | L)P (C | L,A)

Ejercicio: calcular P (L = l, A = a,C = c), l ∈ {n, s}, a ∈ {p, f}, c ∈ {r,m}.Septiembre, 2021 DSIC – UPV

Page 10: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.9

Un ejemplo detallado (cont.)

• ¿Cual es la probabilidad de que llueva si el cesped esta mojado?

P (L = s | C = m) =P (L = s, C = m)

P (C = m)

=

∑a∈{p,f}P (L = s, A = a,C = m)∑

a∈{p,f},l∈{n,s}P (L = l, A = a,C = m)

=0.1584 + 0.00198

0.288 + 0.00198 + 0.0 + 0.1584

= 0.3577

• El cesped esta mojado. ¿Cual es la mejor prediccion: llueve o no llueve?

argmaxl∈{n,s}

P (L = l | C = m) = n

Ejercicio:a) Calcular P (A = a | L = l, C = c), a ∈ {p, f}, l ∈ {n, s}, c ∈ {r,m}.b) Llueve y el cesped esta mojado.¿Cual es la mejor prediccion sobre el estado del aspersor?

Septiembre, 2021 DSIC – UPV

Page 11: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.10

Redes bayesianas: otro ejemploP (P )

Polucion (P)b a

0.9 0.1

P (X | C)

Rayos X (X)Cancer (C) n d p

n 0.80 0.10 0.10p 0.10 0.20 0.70

Fumador

Cáncer de

pulmón

Polución

Rayos X Disnea

P (F )

Fumador (F)n s

0.7 0.3

P (D | C)

Disnea (D)Cancer (C) n s

n 0.70 0.30p 0.35 0.65

Polucion b: bajoa: alto

Fumador n: nos: sı

Disnea n: nos: sı

Rayos X n: negativod: dudosop: positivo

Cancer n: negativop: positivo

P (C | P, F )

Cancer (C)Polucion (P) Fumador (F) n p

b n 0.999 0.001b s 0.97 0.03a n 0.95 0.05a s 0.92 0.08

Ejercicio: ¿Cual es la probabilidad de que un pacienteno fumador no tenga cancer si la radiografıa ha dado unresultado negativo pero sufre de disnea?

Septiembre, 2021 DSIC – UPV

Page 12: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.11

Redes bayesianas

Una red bayesiana es un grafo dirigido y acıclico (“directed acyclic graph”-DAG-) donde:

• Los nodos representan:

– variables aleatorias (discretas o contınuas)– distribuciones de probabilidad condicional para cada variable xi dados

los valores de las variables asociadas a los nodos padres a(xi)

• Los arcos representan dependencias entre las variables

Una red bayesiana con nodos x1, . . . , xD define una distribucion deprobabilidad conjunta:

P (x1, . . . , xD) =

D∏i=1

P (xi | a(xi))

Septiembre, 2021 DSIC – UPV

Page 13: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.12

Algunas redes bayesianas simples

• El clasificador de Bayes (x ∈ Rd y c ∈ {1, . . . , C}):

c

x

P (c)

P (x | c)

P (x, c) = P (c) P (x | c)

P (c | x) =P (x, c)

P (x)=

P (c)P (x | c)∑c′ P (c′)P (x | c′)

• Modelos naive-Bayes (xi ∈ R con 1 ≤ i ≤ d y c ∈ {1, . . . , C}):

c

x 1

x d

P (c)

P (x1 | c) P (xd | c)

P (x1, . . . , xd, c) = P (c)

d∏i=1

P (xi | c)

Septiembre, 2021 DSIC – UPV

Page 14: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.13

Otro ejemplo de red bayesiana: modelo oculto de Markov

P(q |q ) 1 1

P(x|q ) 1

X 1

q 1

q 2

Q 1

Q 2

Q 3

Q 4

P(Q ) 1

P(Q |Q ) 2 1

P(Q |Q ) 3 2

P(Q |Q ) 4 3

P(X |Q ) 1 1

P(q |q ) 2 2

P(q |q ) 2 1

X 2 X 3 X 4

P(X |Q ) 2 2

P(X |Q ) 3 3

P(X |Q ) 4 4

P(x|q ) 2

Σ = {a, b, c}, x ∈ ΣQ = {q1, q2}

Las variables aleatorias Qi toman valores en Q y las Xi en Σ, 1 ≤ i ≤ 4.

Probabilidad conjunta de la red bayesiana: P (X1 X2 X3 X4, Q1 Q2 Q3 Q4) =

P (Q1) P (X1 | Q1) P (Q2 | Q1) P (X2 | Q2) P (Q3 | Q2) P (X3 | Q3) P (Q4 | Q3) P (X4 | Q4)

Probabilidad de generar la cadena “aabc”: P (X1 = a,X2 = a,X3 = b,X4 = c) =∑r1,r2,r3,r4∈Q

P (X1 = a,X2 = a,X3 = b,X4 = c, Q1 = r1, Q2 = r2, Q3 = r3, Q4 = r4)

O sea, la suma de probabilidades de generar “aabc” mediante todas las secuencias de 4 estados.Septiembre, 2021 DSIC – UPV

Page 15: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.14

Index

1 Introduccion a los modelos graficos . 2

2 Redes bayesianas . 6

◦ 3 Independencia condicional . 14

4 Inferencia en redes bayesianas . 17

5 Campos de Markov aleatorios . 27

6 Aprendizaje de modelos graficos . 34

7 Bibliografıa y notacion . 46

Septiembre, 2021 DSIC – UPV

Page 16: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.15

Independencia condicional

Se dice que a es condicionalmente independiente de bdado c (o tambien que a esta D-separado de b por c, y sedenota como: a � b | c) si:

P (a, b | c) = P (a | c)P (b | c) ⇔ P (a | b, c) = P (a | c)

Se dice que a es incondicionalmente independiente de b(y se denota como: a � b | ∅) si:

P (a, b) = P (a)P (b)

Septiembre, 2021 DSIC – UPV

Page 17: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.16

Reglas de independencia condicional e incondicional

a bc

Direccion causal: a � b | c, a �/ b | ∅

P (a, b | c) =P (a)P (c | a)P (b | c)

P (c)= P (a | c)P (b | c)

pero en general P (a, b) 6= P (a)P (b)

c

a b

Causa comun: a � b | c, a �/ b | ∅

P (a, b | c) = �����

P (c)P (a | c)P (b | c)

�����

P (c)= P (a | c)P (b | c)

pero en general P (a, b) 6= P (a)P (b)

a b

c

Estructura en V: a �/ b | c, a � b | ∅En general P (a, b | c) 6= P (a | c)P (b | c)

pero P (a, b) =∑c

P (a)P (b)P (c | a, b) = P (a)P (b)

Septiembre, 2021 DSIC – UPV

Page 18: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.17

Index

1 Introduccion a los modelos graficos . 2

2 Redes bayesianas . 6

3 Independencia condicional . 14

◦ 4 Inferencia en redes bayesianas . 17

5 Campos de Markov aleatorios . 27

6 Aprendizaje de modelos graficos . 34

7 Bibliografıa y notacion . 46

Septiembre, 2021 DSIC – UPV

Page 19: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.18

Inferencia con redes bayesianas

• En general, el problema consiste en calcular la probabilidad a posteriori dealguna variable x a partir de las distribuciones conjuntas asociadas a una RB,dada alguna evidencia e (como valores dados de otras variables) y sin importarlos valores del resto de las variables f :

P (x | e) =P (x, e)

P (e)con: P (x, e) =

∑f

P (x, e, f), P (e) =∑x,f

P (x, e, f)

• El objetivo es calcular eficientemente P (x, e) y P (e)

Ejemplo: Calcular P (x3) a partir de una distribucion conjunta dada por:

P (x1, x2, x3, x4) = P (x2)P (x1 | x2)P (x3 | x2)P (x4 | x3)

Supongamos que cada xi, i = 1, 2, 3, 4 puede tomar n valores:

– P (x3) =∑

x1,x2,x4P (x2)P (x1 | x2)P (x3 | x2)P (x4 | x3) ⇒ O(n3) operaciones.

– P (x3) =∑

x2P (x2)P (x3 | x2)

∑x1P (x1 | x2)

∑x4P (x4 | x3)

=∑

x2P (x2)P (x3 | x2) ⇒ O(n) operaciones.

Septiembre, 2021 DSIC – UPV

Page 20: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.19

Inferencia con redes bayesianas

Situaciones donde es util calcular las probabilidades a-posteriori:

• Prediccion: ¿Cual es la probabilidad de observar un sıntomasabiendo que se tiene una determinada enfermedad?

• Diagnostico: ¿Cual es la probabilidad de que una determinadaenfermedad sea un diagnostico correcto dados algunos sıntomas?

En RB, la direccion de los enlaces entre variables no restringe el tipode preguntas que se pueden hacer.

Septiembre, 2021 DSIC – UPV

Page 21: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.20

Tipos de redes bayesianas

La estructura de una Red Bayesiana puede permitir ciertas factorizacionessistematicas en los calculos asociados a la inferencia.

Dos tipos de estructura admiten factorizaciones eficientes: cadena y (poli-)arbol.

Cadena

Árbol

Poli-árbolGrafo (DAG)

Septiembre, 2021 DSIC – UPV

Page 22: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.21

Inferencia en una cadena

x i x n-1 x n x n+1 x fx i+1 x f-1

+E x n -E x n

Supongamos que el ultimo xi ∈ E+xn

y el primer xf ∈ E−xnestan dados:

P (xn | xi, xf) =P (xn, xi, xf)

P (xi, xf)

=P (xn) P (xi | xn) P (xf | xn, ZZZxi)

P (xi, xf)(Indep. cond.: xf � xi | xn)

=���

���P (xn) P (xi) P (xn | xi) P (xf | xn)

�����

�P (xn) P (xi, xf)(Regla de Bayes)

= α P (xn | xi) P (xf | xn) (α = P (xi)/P (xi, xf))

• Ejercicio: ¿Que ocurre si tambien conocemos xi′ ∈ E+xn

con i′ < i?• Ejercicio: ¿Que ocurre si tambien conocemos xf ′ ∈ E−xn con f ′ > f?

Septiembre, 2021 DSIC – UPV

Page 23: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.22

Inferencia en una cadenaPropagacion de creencias (“Belief propagation”)

x i x n-1 x n x n+1 x fx i+1 x f-1

+E x n -E x n

λ (x ) nπ (x ) n

P (xn | xi, xf) = α P (xn | xi) P (xf | xn)def= α π(xn) λ(xn)

donde π(xn) y λ(xn) se calculan como:

π(xi) = 1 λ(xf) = 1

π(xn) =∑xn−1

P (xn | xn−1) π(xn−1) λ(xn) =∑xn+1

P (xn+1 | xn) λ(xn+1)

• Ejercicio: Obtener una expresion para P (xn)

Septiembre, 2021 DSIC – UPV

Page 24: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.23

Inferencia en una cadena (derivacion I)

x i x n-1 x n x n+1 x fx i+1 x f-1

+E x n -E x n

π (x ) nπ (x ) n-1

π(xn) = P (xn | xi) =∑xn−1

P (xn, xn−1 | xi)

=∑xn−1

P (xn−1 | xi) P (xn | ���xi, xn−1) =∑xn−1

P (xn−1 | xi) P (xn | xn−1)

=∑xn−1

π(xn−1) P (xn | xn−1)

π(xi) = 1

Septiembre, 2021 DSIC – UPV

Page 25: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.24

Inferencia en una cadena (derivacion II)

x i x n-1 x n x n+1 x fx i+1 x f-1

+E x n -E x n

λ (x ) nλ (x ) n+1

λ(xn) = P (xf | xn) =∑xn+1

P (xf , xn+1 | xn)

=∑xn+1

P (xn+1 | xn) P (xf | ���xn, xn+1) =∑xn+1

P (xn+1 | xn) P (xf | xn+1)

=∑xn+1

P (xn+1 | xn) λ(xn+1)

λ(xf) = 1

Septiembre, 2021 DSIC – UPV

Page 26: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.25

Inferencia en un arbol

u i

E-x j

E+x j

x j

λ (x )y j k

λ (u )x i j

π (x )y j k

π (u )x i j

y k

Para calcular P (xj | E+xj, E−xj

) = α π(xj) λ(xj)

λ(xj) =

m∏k=1

λyk(xj) con λyk(xj) =∑yk

λ(yk) P (yk | xj)

π(xj) =∑ui

P (xj | ui) πxj(ui) con πxj

(ui) = α∏j′ 6=j

λxj′(ui) π(ui)

Septiembre, 2021 DSIC – UPV

Page 27: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.26

Inferencia en otros tipos de grafos

• Poli-arboles (“Polytrees”). Los nodos pueden tener multiplespadres, pero solo puede existir un camino unico entre cualquierpar de nodos: una generalizacion del algoritmo sobre un arbol.

• Grafos generales. Inferencia aproximada:

– Metodos variacionales.– Metodos basados en muestreo.

Septiembre, 2021 DSIC – UPV

Page 28: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.27

Index

1 Introduccion a los modelos graficos . 2

2 Redes bayesianas . 6

3 Independencia condicional . 14

4 Inferencia en redes bayesianas . 17

◦ 5 Campos de Markov aleatorios . 27

6 Aprendizaje de modelos graficos . 34

7 Bibliografıa y notacion . 46

Septiembre, 2021 DSIC – UPV

Page 29: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.28

Campos de Markov aleatorios

Un campo de Markov aleatorio es un modelo grafico en la que se asumeun modelo simplificado de independencia condicional. Se define como:

• Un conjunto de variables aleatorias V = {X1, . . . , XD}• Un grafo no-dirigido R = (V,E)

• El conjunto Q de todos los cliques (maximos) † de R

• Una distribucion de probabilidad conjunta factorizada como:

P (x1, . . . , xD) =1

Z

∏C∈Q

ψC(VC)

donde VC es el subconjunto de variables del clique C y ψC :Q→R>0 esuna funcion llamada funcion potential y Z es un factor de normalizacion.

Ejemplo (3 cliques maximos, V1 = {A,B,C}, V2 = {C,D}, V3 = {D,E}):

A B

C D

EP (A,B,C,D,E) =

1

Zψ1(A,B,C) ·ψ2(C,D) ·ψ3(D,E)

†Un clique es un subgrafo totalmente conectado. Es maximo si no es subgrafo de algun otro clique.Septiembre, 2021 DSIC – UPV

Page 30: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.29

Campos de Markov aleatorios: potenciales exponenciales

Si las funciones de potencial son de la familia exponencial:

P (x1, . . . , xD) =1

Z

∏C∈Q

ψC(VC)

=1

Z

∏C∈Q

exp (−EC(VC))

=1

Zexp

(−∑C∈Q

EC(VC))

donde EC :Q→R es una funcion llamada funcion de energıa.

Un tipo de funcion de energıa simple puede definirse mediantefunciones lineales generalizadas:

EC(VC) = −∑k

θC,k fC,k(VC)

Septiembre, 2021 DSIC – UPV

Page 31: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.30

Un ejemplo(Bishop. Pattern Recognition and Machine Learning. 2006)

Imagen binaria original: x,xi ∈ {−1,+1}, 1 ≤ i ≤ D(D = numero de pıxeles de la imagen)

La imagen corrupta: y,yi ∈ {−1,+1}, 1 ≤ i ≤ D(se han alterado 10% de los pıxeles)

El objetivo es recuperar la imagen original a partir de la imagen corrupta

Septiembre, 2021 DSIC – UPV

Page 32: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.31

Un ejemplo(Bishop. Pattern Recognition and Machine Learning. 2006)

• Fuerte correlacion entre xi y yi

• Correlacion entre xi y xj si son pıxeles vecinos;es decir, si i ∈ N(j), j ∈ N(i).

xi

yi

• Cliques maximos: Ci = (xi, yi) ∀i; Cij = (xi, xj) ∀i, ∀j ∈ N(i)

• Funcion de energıa:

EC(VCij) = −β xi xj

EC(VCi) = −ν xi yi

}→

∑C∈Q

EC(VC) = −β∑i,j

xi xj − ν∑i

xi yi

• Distribucion conjunta:

P (x1, . . . , xD, y1, . . . , yD) =1

Zexp

(β∑i,j

xi xj + ν∑i

xi yi

)Septiembre, 2021 DSIC – UPV

Page 33: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.32

Un ejemplo(Bishop. Pattern Recognition and Machine Learning. 2006)

• A partir de la distribucion conjunta:

P (x,y) ≡ P (x1, . . . , xD, y1, . . . , yD) =1

Zexp

(β∑i,j

xixj + ν∑i

xiyi

)• Inferencia:

P (x | y) =P (x,y)

P (y)=

exp(β∑

i,j xixj + ν∑

i xiyi

)∑

x′1,...,x′D

exp(β∑

i,j x′ix′j + ν

∑i x′iyi

)• Explicacion mas probable:

x ≡ (x1, . . . , xD) = argmaxx

P (x | y) = argmaxx1,...,xD

(β∑i,j

xixj + ν∑i

xiyi

)

Esto es, x =

Septiembre, 2021 DSIC – UPV

Page 34: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.33

Inferencia con campos de Markov aleatorios

• En cadenas: Algoritmo adelante-atras (”Backward-Forward algorithm”)

• En arboles: Algoritmo suma-producto

• En grafos generales: Algoritmo de arbol de union (“Junction treealgorithms”), algoritmo suma-producto (“Loopy belief propagation”)

Septiembre, 2021 DSIC – UPV

Page 35: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.34

Index

1 Introduccion a los modelos graficos . 2

2 Redes bayesianas . 6

3 Independencia condicional . 14

4 Inferencia en redes bayesianas . 17

5 Campos de Markov aleatorios . 27

◦ 6 Aprendizaje de modelos graficos . 34

7 Bibliografıa y notacion . 46

Septiembre, 2021 DSIC – UPV

Page 36: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.35

Aprendizaje de redes bayesianas

• Dada la estructura, aprender las distribuciones de probabilidad apartir de un conjunto de entrenamiento.

– Metodos basados en la maximizacion de la verosimilitud(algoritmo EM -T3-).

– Aprendizaje bayesiano.

• Aprender la estructura a partir de un conjunto de entrenamiento.

– Un problema de seleccion de modelos: busqueda en el espaciode grafos.

Septiembre, 2021 DSIC – UPV

Page 37: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.36

Aprendizaje en redes bayesianas: ejemplo

• B es el estado de la baterıa (cargada B = 1 o descargada B = 0)• C es el estado del deposito de combustible (lleno C = 1 o vacıo C = 0)• I es el estado del indicador electrico del combustible (lleno I = 1 o vacıo I = 0)

Por simplicidad se asume que las distribuciones asociadas a las variables I y C sonfijas y conocidas y hay que estimar la distribucion de B a partir de observaciones.

P (B) = ?

P (C = 1) = 0.9

P (I = 1 | B = 0, C = 0) = 0.1

P (I = 1 | B = 0, C = 1) = 0.2

P (I = 1 | B = 1, C = 0) = 0.2

P (I = 1 | B = 1, C = 1) = 0.8

B C

I

P (B,C, I) = P (B) P (C) P (I | B,C)

P (B) viene dada por dos valores de probabilidad, p0 = P (B = 0), p1 = P (B = 1).Por tanto los parametros a estimar son:

Θ = (p0, p1), p0 + p1 = 1

Septiembre, 2021 DSIC – UPV

Page 38: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.37

Aprendizaje con observaciones completasSea S = {(b1, c1, i1), . . . , (bN , cN , iN), } un conjunto de observaciones de entrenamiento.Sean N0 y N1 = N − N0 los numeros de observaciones en las que b = 0 y b = 1,respectivamente. Se asume que S esta ordenado de forma que bn = 0, 1 ≤ n ≤ N0 ybm=1, NN0+1≤m≤N . La log-verosimilitud es:

LS(p0, p1) =

N∑n=1

logP (B = bn, C = cn, I = in)

=

N∑n=1

log(P (B = bn)P (C = cn)P (I = in | B = bn, C = cn))

=

N0∑n=1

log p0 +

N∑m=N0+1

log p1 + K = N0 log p0 + N1 log p1 + K

donde K incluye los terminos independientes de p0, p1. Maximizacion de LS mediante multipli-cadores de Lagrange, como en el ejemplo de estimacion de probs. a priori del Tema 3 · · ·→

p0 =N0

N, p1 =

N1

N

Ejemplos: S = {(0, 1, 1), (1, 1, 0)} → p0 = 12, p1 = 1

2

S = {(0, 0, 1), (1, 1, 0)} → p0 = 12, p1 = 1

2

S = {(0, 1, 1), (0, 0, 1), (1, 1, 0)} → p0 = 23, p1 = 1

3Septiembre, 2021 DSIC – UPV

Page 39: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.38

Algoritmo esperanza-maximizacion (EM) (Recordatorio)

Dada la muestra S = {x1, . . . ,xN} y variables latentes {z1, . . . ,zN}.

• Inicializacion: t = 1, Θ(1) = arbitrario.

• Iteracion hasta la convergencia:

– Paso E: A partir de Θ(t) y para todo 1 ≤ n ≤ N ,

qn(zn) , P (zn | xn;Θ(t))

– Paso M: Maximizacion de la funcion auxiliar Q′(Θ, q) con respecto a Θ

Θ(t+ 1) = argmaxΘ

Q′(Θ, q) = argmaxΘ

N∑n=1

∑zn

qn(zn) logP (xn, zn | Θ)

– t = t+ 1

Septiembre, 2021 DSIC – UPV

Page 40: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.39

Algoritmo esperanza-maximizacion (EM)

En el ejemplo, se dispone de observaciones del estado del deposito de combustibley de lo que marque el indicador del estado de baterıa, pero no del verdaderoestado de la baterıa, la muestra incompleta seran los datos observables, S ={(c1, i1), . . . , (cN , iN)}, (x = (c, i)), las variables latentes, {b1, . . . , bN} (z = b) y losparametros p0 y p1 (Θ = (p0, p1)).

• Inicializacion: t = 1, p0(1) = arbitrario y p1(1) = 1− p0(1).

• Iteracion hasta la convergencia

– Paso E. A partir de p0(t) y p1(t) y cada muestra 1 ≤ n ≤ N .

qn(b) , P (B = b | C = cn, I = in; p0(t), p1(t)) b ∈ {0, 1}

– Paso M.

(p0(t+ 1), p1(t+ 1)) = argmaxp0,p1

Q′(p0, p1, q)

= argmaxp0,p1

N∑n=1

1∑b=0

qn(b) logP (C = cn, I = in, B = b | p0, p1)

– t = t+ 1

Septiembre, 2021 DSIC – UPV

Page 41: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.40

Aprendizaje EM con observaciones incompletas: Paso E

En el paso E hay que calcular, para cada observacion incompleta, la distribucion deprobabilidad de la variable oculta o latente (B) dados los valores conocidos de lasotras dos variables (C e I) y de los parametros obtenido en la iteracion anterior t(p0(t), p1(t)).

qn(b) = P (B=b | C = cn, I = in; p0(t), p1(t))

=P (B=b, C = cn, I = in; p0(t), p1(t))

P (C = cn, I = in; p0(t), p1(t))

=P (B=b;p0(t),p1(t))

XXXXXXXXXP (C=cn)P (I=in|B=b,C=cn)

P (B=0)XXXXXXXXXP (C=cn)P (I=in|B=0,C=cn)+P (B=1)

XXXXXXXXXP (C=cn)P (I=in|B=1,C=cn)

=pb(t) kbn

p0(t) k0n + p1(t) k1npara b ∈ {0, 1}

Donde: k0n = P (I= in | B=0, C=cn) y k1n = P (I= in | B=1, C=cn)

Septiembre, 2021 DSIC – UPV

Page 42: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.41

Aprendizaje EM con observaciones incompletas: paso M

En el paso M hay que maximizar Q′(p0, p1, q), definida en base a las esperanzascalculadas en el paso E.

Q′(p0, p1, q) =

N∑n=1

1∑b=0

qn(b) logP (B = b, C = cn, I = in; p0, p1)

=

N∑n=1

1∑b=0

qn(b) log(P (B = b; p0, p1)P (C = cn)P (I = in | B = b, C = cn))

=

(N∑

n=1

qn(0) log p0 + qn(1) log p1

)+K = q0 log p0 + q1 log p1 +K

Donde,

K =

N∑n=1

1∑b=0

qn(b) log(P (C = cn)P (I = in | B = b, C = cn))

q0 =

N∑n=1

qn(0) y q1 =

N∑n=1

qn(1)

.Septiembre, 2021 DSIC – UPV

Page 43: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.42

Aprendizaje EM con observaciones incompletas: paso M

Maximizar Q′: similar a estimacion de probabilidades a priori por maximaverosimilitud (Tema 3):

• Funcion de Lagrange:

Λ(p0, p1, β) = Q′(p0, p1, q) + β(1− p0 − p1)= q0 log p0 + q1 log p1 +K + β(1− p0 − p1)

• Funcion dual: ∂Λ

∂p0= 0 ⇒ p?0 =

q0β

;∂Λ

∂p1= 0 ⇒ p?1 =

q1β

ΛD(β) = K ′ + β − (q0 + q1) log β = K ′ + β −N log β

Donde K ′ = K + q0 log q0 + q1 log q1

• Optimizando la funcion dual:dΛD

dβ= 1− N

β= 0 ⇒ β? = N

• Solucion final: p0(t+ 1) , p?0 =q0N

; p1(t+ 1) , p?1 =q1N

Septiembre, 2021 DSIC – UPV

Page 44: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.43

Algoritmo esperanza-maximizacion (EM)

Dado un conjunto de datos obervables S = {(c1, i1), . . . , (cN , iN)}, (x = (c, i)), lasvariables latentes, {b1, . . . , bN} (z = b) y los parametros p0 y p1 (Θ = (p0, p1))., elalgoritmo final queda:

• Inicializacion: t = 1, p0(1) = arbitrario y p1(1) = 1− p0(1).

• Iteracion hasta la convergencia

– Paso E. A partir de p0(t) y p1(t).

∗ Para cada muestra 1 ≤ n ≤ Nqn(b) =

pb(t) kbnp0(t) k0n + p1(t) k1n

para b ∈ {0, 1}

∗ Calcular: q0 =

N∑n=1

qn(0) q1 =

N∑n=1

qn(1)

– Paso M. Calcular: (p0(t+ 1), p1(t+ 1)) =( q0N,q1N

)– t = t+ 1

Septiembre, 2021 DSIC – UPV

Page 45: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.44

Aprendizaje EM con observaciones incompletas: ejemplos

Sea S = {(1, 1), (1, 0)} (N = 2):

Paso E: q1(0) = 0.2p0(t)/(0.2p0(t) + 0.8p1(t)), q1(1) = 0.8p0(t)/(0.2p0(t) + 0.8p1(t)),

q2(0) = 0.8p0(t)/(0.8p0(t) + 0.2p1(t)), q2(1) = 0.2p0(t)/(0.8p0(t) + 0.2p1(t)).

q0 = q1(0) + q2(0), q1 = q1(1) + q2(1) .

Paso M: p0(t+ 1) =q0N, p1(t+ 1) =

q1N

Inicializando con p1(1) = 0.9, p0(1) = 0.1:t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16p1(t) 0.90 0.83 0.75 0.68 0.62 0.58 0.55 0.53 0.52 0.51 0.51 0.51 0.50 0.50 0.50 0.50

Si ahora las observaciones son S = {(0, 1), (1, 0)}:t 1 2 3 4 5 10 20 25 30 35 36 37 38 39 40 41p1(t) 0.90 0.82 0.72 0.61 0.52 0.45 0.28 0.19 0.18 0.18 0.17 0.17 0.17 0.17 0.17 0.17

Septiembre, 2021 DSIC – UPV

Page 46: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.45

Algunos toolkits

• BNThttps://code.google.com/p/bnt

• GraphLabhttps://turi.com/

• PMTK3 probabilistic modeling toolkit for Matlab/Octavehttps://github.com/probml/pmtk

• Software Packages for Graphical Modelshttp://www.cs.ubc.ca/˜murphyk/Software/bnsoft.html

Septiembre, 2021 DSIC – UPV

Page 47: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.46

Index

1 Introduccion a los modelos graficos . 2

2 Redes bayesianas . 6

3 Independencia condicional . 14

4 Inferencia en redes bayesianas . 17

5 Campos de Markov aleatorios . 27

6 Aprendizaje de modelos graficos . 34

◦ 7 Bibliografıa y notacion . 46

Septiembre, 2021 DSIC – UPV

Page 48: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.47

Bibliografıa

Christopher M. Bishop: “Pattern Recognition and Machine Learning”. Springer, 2006.

Septiembre, 2021 DSIC – UPV

Page 49: fcn@dsic.upv.es) (evidal@dsic.upv

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.48

Notacion

• P (x): probabilidad de x

• P (x, y): probabilidad conjunta de x e y

• P (x | y): probabilidad condicional de x dado y

• Para un conjunto de variables VC en un clique C, ψC(VC) = exp (−E(VC))es una funcion potential donde E(VC) es una funcion de energıa.

• Una funcion de energıa lineal: E(VC) = −∑k

θC,k fC,k(VC) donde fC,k son

determinadas funciones que obtienen caracterısticas del clique C.

Septiembre, 2021 DSIC – UPV