24
2021-2022 Aprendizaje Autom ´ atico 6. Modelos gr ´ aficos Francisco Casacuberta Nolla Enrique Vidal Ruiz ([email protected]) ([email protected]) Departament de Sistemas Inform ` atics i Computaci ´ o (DSIC) Universitat Polit` ecnica de Val` encia (UPV) Septiembre, 2021 Aprendizaje Autom ´ atico. 2021-2022 Modelos gr ´ aficos: 6.1 Index 1 Introducci ´ on a los modelos gr ´ aficos 1 2 Redes bayesianas 6 3 Independencia condicional 14 4 Inferencia en redes bayesianas 18 5 Campos de Markov aleatorios 28 6 Aprendizaje de modelos gr ´ aficos 35 7 Bibliograf´ ıa y notaci ´ on 45 Septiembre, 2021 DSIC – UPV

2021-2022 - Technical University of Valencia

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 2021-2022 - Technical University of Valencia

2021-2022

Aprendizaje Automatico

6. Modelos graficos

Francisco Casacuberta Nolla Enrique Vidal Ruiz([email protected]) ([email protected])

Departament de Sistemas Informatics i Computacio (DSIC)

Universitat Politecnica de Valencia (UPV)

Septiembre, 2021

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.1

Index

◦ 1 Introduccion a los modelos graficos . 1

2 Redes bayesianas . 6

3 Independencia condicional . 14

4 Inferencia en redes bayesianas . 18

5 Campos de Markov aleatorios . 28

6 Aprendizaje de modelos graficos . 35

7 Bibliografıa y notacion . 45

Septiembre, 2021 DSIC – UPV

Page 2: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.2

Modelos graficos (MG)

• Los MGs y concretamente las redes bayesianas fundamentan la aproximacionprobabilıstica a los Sistemas Inteligentes. Uno de los mas famosos impulsoresfue Judea Pearl ganador del “ACM A.M. Turing Award” en 2011.

• Concepto: Representacion compacta de distribuciones de probabilidad conjuntamediante grafos dirigidos (redes bayesianas) y no dirigidos (campos aleatoriosmarkovianos) (teorıa de grafos + teorıa de la probabilidad). Los MGs generalizana las redes neuronales y a los modelos de Markov ocultos entre otros.

• Aspectos:– Inferencia: deducir distribuciones de probabilidad a partir de otras dadas.– Aprendizaje: obtener el modelo probabilıstico a partir de observaciones.

• Aplicaciones:– Diagnostico medico, de fallos, ...– Vision por computador: segmentacion de imagenes, reconstruccion 3D,

analisis de escenas– Procesado del lenguaje natural: reconocimiento del habla, extraccion de

informacion textual, traduccion automatica, ...– Robotica: planificacion, localizacion, ...

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.3

PAGINA INTENCIONADAMENTE EN BLANCO

Septiembre, 2021 DSIC – UPV

Page 3: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.4

Algunos conceptos sobre la teorıa de las probabilidades

Probabilidad P (x) :∑

x

P (x) = 1

Probabilidad conjunta P (x, y) :∑

x

y

P (x, y) = 1

Probabilidad condicional P (x | y) :∑

x

P (x | y) = 1 ∀y

Marginales P (x) =∑

y

P (x, y), P (y) =∑

x

P (x, y)

Regla de la probabilidad conjunta P (x, y) = P (x)P (y | x)

Regla de la cadena P (x1, x2, . . . , xN) = P (x1)

N∏

i=2

P (xi | x1, . . . , xi−1)

Regla de Bayes P (y | x) P (x) = P (y)P (x | y)

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.5

Factorizacion de distribuciones conjuntas

Una distribucion conjunta sobre tres variables puede expresarse exactamentemediante seis factorizaciones completas diferentes:

P (a, b, c) ≡ P (a, c, b) ≡ P (b, a, c) ≡ P (b, c, a) ≡ P (c, a, b) ≡ P (c, b, a)

= P (a) P (b | a) P (c | a, b) = P (a) P (c | a) P (b | a, c)= P (b) P (a | b) P (c | a, b) = P (b) P (c | b) P (a | b, c)= P (c) P (a | c) P (b | a, c) = P (c) P (b | c) P (a | b, c)

Cada factorizacion se puede representar mediante un grafo dirigido acıclico:

a

b

c

a

c

b

b

a

c

b

c

a

c

a

b

c

b

a

Septiembre, 2021 DSIC – UPV

Page 4: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.6

Index

1 Introduccion a los modelos graficos . 1

◦ 2 Redes bayesianas . 6

3 Independencia condicional . 14

4 Inferencia en redes bayesianas . 18

5 Campos de Markov aleatorios . 28

6 Aprendizaje de modelos graficos . 35

7 Bibliografıa y notacion . 45

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.7

Redes bayesianas: ejemplos

Si hay dependencias inexistentes (o despreciables), la factorizacion exacta(o aproximada) de una distribucion conjunta puede ser incompleta, lo quequeda reflejado en el grafo correspondiente. Ejemplos:

P (a, b, c) = P (a, b, c, d, e, f) =P (a) P (b) P (c | a, b) P (a) P (b) P (c) P (d | b, c) P (e | a, b, d) P (f | a, c)

a

b

c

a

bc

e

d

f

Septiembre, 2021 DSIC – UPV

Page 5: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.8

Redes bayesianas: un ejemplo detallado

P (A | L)

Aspersor (A)Lluvia (L) p f

n 0.60 0.40s 0.99 0.01

Aspersor

Lluvia

Césped

P (L)

Lluvia (L)n s

0.8 0.2

Aspersor p : paradof : funciona

Cesped r : resecom: mojado

Lluvia n : no llueves : sı llueve

P (C | A,L)

Cesped (C)Lluvia (L) Aspersor (A) r m

n p 1.00 0.00n f 0.10 0.90s p 0.20 0.80s f 0.01 0.99

Distribucion conjunta: P (L,A,C) = P (L) P (A | L)P (C | L,A)

Ejercicio: calcular P (L = l, A = a,C = c), l ∈ {n, s}, a ∈ {p, f}, c ∈ {r,m}.Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.9

Un ejemplo detallado (cont.)

• ¿Cual es la probabilidad de que llueva si el cesped esta mojado?

P (L = s | C = m) =P (L = s, C = m)

P (C = m)

=

∑a∈{p,f}P (L = s, A = a,C = m)

∑a∈{p,f},l∈{n,s}P (L = l, A = a,C = m)

=0.1584 + 0.00198

0.288 + 0.00198 + 0.0 + 0.1584

= 0.3577

• El cesped esta mojado. ¿Cual es la mejor prediccion: llueve o no llueve?

argmaxl∈{n,s}

P (L = l | C = m) = n

Ejercicio:a) Calcular P (A = a | L = l, C = c), a ∈ {p, f}, l ∈ {n, s}, c ∈ {r,m}.b) Llueve y el cesped esta mojado.¿Cual es la mejor prediccion sobre el estado del aspersor?

Septiembre, 2021 DSIC – UPV

Page 6: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.10

Redes bayesianas: otro ejemploP (P )

Polucion (P)b a

0.9 0.1

P (X | C)

Rayos X (X)Cancer (C) n d p

n 0.80 0.10 0.10p 0.10 0.20 0.70

Fumador

Cáncer de

pulmón

Polución

Rayos X Disnea

P (F )

Fumador (F)n s

0.7 0.3

P (D | C)

Disnea (D)Cancer (C) n s

n 0.70 0.30p 0.35 0.65

Polucion b: bajoa: alto

Fumador n: nos: sı

Disnea n: nos: sı

Rayos X n: negativod: dudosop: positivo

Cancer n: negativop: positivo

P (C | P, F )

Cancer (C)Polucion (P) Fumador (F) n p

b n 0.999 0.001b s 0.97 0.03a n 0.95 0.05a s 0.92 0.08

Ejercicio: ¿Cual es la probabilidad de que un pacienteno fumador no tenga cancer si la radiografıa ha dado unresultado negativo pero sufre de disnea?

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.11

Redes bayesianas

Una red bayesiana es un grafo dirigido y acıclico (“directed acyclic graph”-DAG-) donde:

• Los nodos representan:

– variables aleatorias (discretas o contınuas)– distribuciones de probabilidad condicional para cada variable xi dados

los valores de las variables asociadas a los nodos padres a(xi)

• Los arcos representan dependencias entre las variables

Una red bayesiana con nodos x1, . . . , xD define una distribucion deprobabilidad conjunta:

P (x1, . . . , xD) =

D∏

i=1

P (xi | a(xi))

Septiembre, 2021 DSIC – UPV

Page 7: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.12

Algunas redes bayesianas simples

• El clasificador de Bayes (x ∈ Rd y c ∈ {1, . . . , C}):

c

x

P (c)

P (x | c)

P (x, c) = P (c) P (x | c)

P (c | x) =P (x, c)

P (x)=

P (c)P (x | c)∑c′ P (c′)P (x | c′)

• Modelos naive-Bayes (xi ∈ R con 1 ≤ i ≤ d y c ∈ {1, . . . , C}):

c

x 1

x d

P (c)

P (x1 | c) P (xd | c)

P (x1, . . . , xd, c) = P (c)d∏

i=1

P (xi | c)

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.13

Otro ejemplo de red bayesiana: modelo oculto de Markov

P(q |q ) 1 1

P(x|q ) 1

X 1

q 1

q 2

Q 1

Q 2

Q 3

Q 4

P(Q ) 1

P(Q |Q ) 2 1

P(Q |Q ) 3 2

P(Q |Q ) 4 3

P(X |Q ) 1 1

P(q |q ) 2 2

P(q |q ) 2 1

X 2 X 3 X 4

P(X |Q ) 2 2

P(X |Q ) 3 3

P(X |Q ) 4 4

P(x|q ) 2

Σ = {a, b, c}, x ∈ ΣQ = {q1, q2}

Las variables aleatorias Qi toman valores en Q y las Xi en Σ, 1 ≤ i ≤ 4.

Probabilidad conjunta de la red bayesiana: P (X1 X2 X3 X4, Q1 Q2 Q3 Q4) =

P (Q1) P (X1 | Q1) P (Q2 | Q1) P (X2 | Q2) P (Q3 | Q2) P (X3 | Q3) P (Q4 | Q3) P (X4 | Q4)

Probabilidad de generar la cadena “aabc”: P (X1 = a,X2 = a,X3 = b,X4 = c) =∑

r1,r2,r3,r4∈QP (X1 = a,X2 = a,X3 = b,X4 = c, Q1 = r1, Q2 = r2, Q3 = r3, Q4 = r4)

O sea, la suma de probabilidades de generar “aabc” mediante todas las secuencias de 4 estados.Septiembre, 2021 DSIC – UPV

Page 8: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.14

Index

1 Introduccion a los modelos graficos . 1

2 Redes bayesianas . 6

◦ 3 Independencia condicional . 14

4 Inferencia en redes bayesianas . 18

5 Campos de Markov aleatorios . 28

6 Aprendizaje de modelos graficos . 35

7 Bibliografıa y notacion . 45

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.15

PAGINA INTENCIONADAMENTE EN BLANCO

Septiembre, 2021 DSIC – UPV

Page 9: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.16

Independencia condicional

Se dice que a es condicionalmente independiente de bdado c (o tambien que a esta D-separado de b por c, y sedenota como: a � b | c) si:

P (a, b | c) = P (a | c)P (b | c) ⇔ P (a | b, c) = P (a | c)

Se dice que a es incondicionalmente independiente de b(y se denota como: a � b | ∅) si:

P (a, b) = P (a)P (b)

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.17

Reglas de independencia condicional e incondicional

a bc

Direccion causal: a � b | c, a �/ b | ∅

P (a, b | c) =P (a)P (c | a)P (b | c)

P (c)= P (a | c)P (b | c)

pero en general P (a, b) 6= P (a)P (b)

c

a b

Causa comun: a � b | c, a �/ b | ∅

P (a, b | c) = �����P (c)P (a | c)P (b | c)

�����P (c)

= P (a | c)P (b | c)

pero en general P (a, b) 6= P (a)P (b)

a b

c

Estructura en V: a �/ b | c, a � b | ∅En general P (a, b | c) 6= P (a | c)P (b | c)

pero P (a, b) =∑

c

P (a)P (b)P (c | a, b) = P (a)P (b)

Septiembre, 2021 DSIC – UPV

Page 10: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.18

Index

1 Introduccion a los modelos graficos . 1

2 Redes bayesianas . 6

3 Independencia condicional . 14

◦ 4 Inferencia en redes bayesianas . 18

5 Campos de Markov aleatorios . 28

6 Aprendizaje de modelos graficos . 35

7 Bibliografıa y notacion . 45

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.19

Inferencia con redes bayesianas

• En general, el problema consiste en calcular la probabilidad a posteriori dealguna variable x a partir de las distribuciones conjuntas asociadas a una RB,dada alguna evidencia e (como valores dados de otras variables) y sin importarlos valores del resto de las variables f :

P (x | e) =P (x, e)

P (e)con: P (x, e) =

f

P (x, e, f), P (e) =∑

x,f

P (x, e, f)

• El objetivo es calcular eficientemente P (x, e) y P (e)

Ejemplo: Calcular P (x3) a partir de una distribucion conjunta dada por:

P (x1, x2, x3, x4) = P (x2)P (x1 | x2)P (x3 | x2)P (x4 | x3)

Supongamos que cada xi, i = 1, 2, 3, 4 puede tomar n valores:

– P (x3) =∑x1,x2,x4

P (x2)P (x1 | x2)P (x3 | x2)P (x4 | x3) ⇒ O(n3) operaciones.

– P (x3) =∑x2P (x2)P (x3 | x2)

∑x1P (x1 | x2)

∑x4P (x4 | x3)

=∑x2P (x2)P (x3 | x2) ⇒ O(n) operaciones.

Septiembre, 2021 DSIC – UPV

Page 11: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.20

Inferencia con redes bayesianas

Situaciones donde es util calcular las probabilidades a-posteriori:

• Prediccion: ¿Cual es la probabilidad de observar un sıntomasabiendo que se tiene una determinada enfermedad?

• Diagnostico: ¿Cual es la probabilidad de que una determinadaenfermedad sea un diagnostico correcto dados algunos sıntomas?

En RB, la direccion de los enlaces entre variables no restringe el tipode preguntas que se pueden hacer.

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.21

Tipos de redes bayesianas

La estructura de una Red Bayesiana puede permitir ciertas factorizacionessistematicas en los calculos asociados a la inferencia.

Dos tipos de estructura admiten factorizaciones eficientes: cadena y (poli-)arbol.

Cadena

Árbol

Poli-árbolGrafo (DAG)

Septiembre, 2021 DSIC – UPV

Page 12: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.22

Inferencia en una cadena

x i x n-1 x n x n+1 x fx i+1 x f-1

+E x n -E x n

Supongamos que el ultimo xi ∈ E+xn y el primer xf ∈ E−xn estan dados:

P (xn | xi, xf) =P (xn, xi, xf)

P (xi, xf)

=P (xn) P (xi | xn) P (xf | xn, ZZZxi)

P (xi, xf)(Indep. cond.: xf � xi | xn)

=���

���P (xn) P (xi) P (xn | xi) P (xf | xn)

������P (xn) P (xi, xf)

(Regla de Bayes)

= α P (xn | xi) P (xf | xn) (α = P (xi)/P (xi, xf))

• Ejercicio: ¿Que ocurre si tambien conocemos xi′ ∈ E+xn

con i′ < i?• Ejercicio: ¿Que ocurre si tambien conocemos xf ′ ∈ E−xn con f ′ > f?

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.23

Inferencia en una cadenaPropagacion de creencias (“Belief propagation”)

x i x n-1 x n x n+1 x fx i+1 x f-1

+E x n -E x n

λ (x ) nπ (x ) n

P (xn | xi, xf) = α P (xn | xi) P (xf | xn)def= α π(xn) λ(xn)

donde π(xn) y λ(xn) se calculan como:

π(xi) = 1 λ(xf) = 1

π(xn) =∑

xn−1

P (xn | xn−1) π(xn−1) λ(xn) =∑

xn+1

P (xn+1 | xn) λ(xn+1)

• Ejercicio: Obtener una expresion para P (xn)

Septiembre, 2021 DSIC – UPV

Page 13: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.24

Inferencia en una cadena (derivacion I)

x i x n-1 x n x n+1 x fx i+1 x f-1

+E x n -E x n

π (x ) nπ (x ) n-1

π(xn) = P (xn | xi) =∑

xn−1

P (xn, xn−1 | xi)

=∑

xn−1

P (xn−1 | xi) P (xn | ���xi, xn−1) =∑

xn−1

P (xn−1 | xi) P (xn | xn−1)

=∑

xn−1

π(xn−1) P (xn | xn−1)

π(xi) = 1

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.25

Inferencia en una cadena (derivacion II)

x i x n-1 x n x n+1 x fx i+1 x f-1

+E x n -E x n

λ (x ) nλ (x ) n+1

λ(xn) = P (xf | xn) =∑

xn+1

P (xf , xn+1 | xn)

=∑

xn+1

P (xn+1 | xn) P (xf | ���xn, xn+1) =∑

xn+1

P (xn+1 | xn) P (xf | xn+1)

=∑

xn+1

P (xn+1 | xn) λ(xn+1)

λ(xf) = 1

Septiembre, 2021 DSIC – UPV

Page 14: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.26

Inferencia en un arbol

u i

E-x j

E+x j

x j

λ (x )y j k

λ (u )x i j

π (x )y j k

π (u )x i j

y k

Para calcular P (xj | E+xj, E−xj) = α π(xj) λ(xj)

λ(xj) =m∏

k=1

λyk(xj) con λyk(xj) =∑

yk

λ(yk) P (yk | xj)

π(xj) =∑

ui

P (xj | ui) πxj(ui) con πxj(ui) = α∏

j′ 6=jλxj′(ui) π(ui)

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.27

Inferencia en otros tipos de grafos

• Poli-arboles (“Polytrees”). Los nodos pueden tener multiplespadres, pero solo puede existir un camino unico entre cualquierpar de nodos: una generalizacion del algoritmo sobre un arbol.

• Grafos generales. Inferencia aproximada:

– Metodos variacionales.– Metodos basados en muestreo.

Septiembre, 2021 DSIC – UPV

Page 15: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.28

Index

1 Introduccion a los modelos graficos . 1

2 Redes bayesianas . 6

3 Independencia condicional . 14

4 Inferencia en redes bayesianas . 18

◦ 5 Campos de Markov aleatorios . 28

6 Aprendizaje de modelos graficos . 35

7 Bibliografıa y notacion . 45

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.29

Campos de Markov aleatorios

Un campo de Markov aleatorio es un modelo grafico en la que se asumeun modelo simplificado de independencia condicional. Se define como:

• Un conjunto de variables aleatorias V = {X1, . . . , XD}• Un grafo no-dirigido R = (V,E)

• El conjunto Q de todos los cliques (maximos) † de R

• Una distribucion de probabilidad conjunta factorizada como:

P (x1, . . . , xD) =1

Z

C∈QψC(VC)

donde VC es el subconjunto de variables del clique C y ψC :Q→R>0 esuna funcion llamada funcion potential y Z es un factor de normalizacion.

Ejemplo (3 cliques maximos, V1 = {A,B,C}, V2 = {C,D}, V3 = {D,E}):

A B

C D

EP (A,B,C,D,E) =

1

Zψ1(A,B,C) ·ψ2(C,D) ·ψ3(D,E)

†Un clique es un subgrafo totalmente conectado. Es maximo si no es subgrafo de algun otro clique.Septiembre, 2021 DSIC – UPV

Page 16: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.30

Campos de Markov aleatorios: potenciales exponenciales

Si las funciones de potencial son de la familia exponencial:

P (x1, . . . , xD) =1

Z

C∈QψC(VC)

=1

Z

C∈Qexp (−EC(VC))

=1

Zexp

(−∑

C∈QEC(VC)

)

donde EC :Q→R es una funcion llamada funcion de energıa.

Un tipo de funcion de energıa simple puede definirse mediantefunciones lineales generalizadas:

EC(VC) = −∑

k

θC,k fC,k(VC)

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.31

Un ejemplo

(Bishop. Pattern Recognition and Machine Learning. 2006)

Imagen binaria original: x,xi ∈ {−1,+1}, 1 ≤ i ≤ D(D = numero de pıxeles de la imagen)

La imagen observada: y,yi ∈ {−1,+1}, 1 ≤ i ≤ D(se han alterado 10% de los pıxeles para simularcorrupcion y distorsiones del proceso de observacion)

El objetivo es recuperar la imagen original a partir de la imagen observada

Septiembre, 2021 DSIC – UPV

Page 17: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.32

Un ejemplo(Bishop. Pattern Recognition and Machine Learning. 2006)

• Fuerte correlacion entre xi y yi

• Correlacion entre xi y xj si son pıxeles vecinos;es decir, si i ∈ N(j), j ∈ N(i).

xi

yi

• Cliques maximos: Ci = (xi, yi) ∀i; Cij = (xi, xj) ∀i, ∀j ∈ N(i)

• Funcion de energıa:

EC(VCij) = −β xi xjEC(VCi) = −ν xi yi

}→

C∈QEC(VC) = −β

i,j

xi xj − ν∑

i

xi yi

• Distribucion conjunta:

P (x1, . . . , xD, y1, . . . , yD) =1

Zexp

(β∑

i,j

xi xj + ν∑

i

xi yi

)

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.33

Un ejemplo(Bishop. Pattern Recognition and Machine Learning. 2006)

• A partir de la distribucion conjunta:

P (x,y) ≡ P (x1, . . . , xD, y1, . . . , yD) =1

Zexp

(β∑

i,j

xixj + ν∑

i

xiyi

)

• Inferencia:

P (x | y) =P (x,y)

P (y)=

exp(β∑i,j xixj + ν

∑i xiyi

)

∑x′1,...,x

′D

exp(β∑i,j x

′ix′j + ν

∑i x′iyi

)

• Explicacion mas probable:

x ≡ (x1, . . . , xD) = argmaxx

P (x | y) = argmaxx1,...,xD

(β∑

i,j

xixj + ν∑

i

xiyi

)

Esto es, x =

Septiembre, 2021 DSIC – UPV

Page 18: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.34

Inferencia con campos de Markov aleatorios

• En cadenas: Algoritmo adelante-atras (”Backward-Forward algorithm”)

• En arboles: Algoritmo suma-producto

• En grafos generales: Algoritmo de arbol de union (“Junction treealgorithms”), algoritmo suma-producto (“Loopy belief propagation”)

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.35

Index

1 Introduccion a los modelos graficos . 1

2 Redes bayesianas . 6

3 Independencia condicional . 14

4 Inferencia en redes bayesianas . 18

5 Campos de Markov aleatorios . 28

◦ 6 Aprendizaje de modelos graficos . 35

7 Bibliografıa y notacion . 45

Septiembre, 2021 DSIC – UPV

Page 19: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.36

Aprendizaje de redes bayesianas

• Dada la estructura, aprender las distribuciones de probabilidada partir de un conjunto de entrenamiento.

– Metodos basados en la maximizacion de la verosimilitud

∗ Observables completas: estimacion directa∗ Observables incompletas (variables latentes y ocultas):· Aproximacion iterativa por “mejor prediccion”· Algoritmo EM (introducido en Tema 3)

– Aprendizaje bayesiano.

• Aprender la estructura a partir de datos de entrenamiento

– Un problema de seleccion de modelos: busqueda en elespacio de grafos.

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.37

Aprendizaje en redes bayesianas: ejemplo

• B es el estado de la baterıa (cargada B = 1 o descargada B = 0)• C es el estado del deposito de combustible (lleno C = 1 o vacıo C = 0)• I es el estado del indicador electrico del combustible (lleno I = 1 o vacıo I = 0)

Por simplicidad se asume que las distribuciones asociadas a las variables I y C sonfijas y conocidas y hay que estimar la distribucion de B a partir de observaciones.

P (B) = ?

P (C = 1) = 0.9

P (I = 1 | B = 0, C = 0) = 0.1

P (I = 1 | B = 0, C = 1) = 0.2

P (I = 1 | B = 1, C = 0) = 0.2

P (I = 1 | B = 1, C = 1) = 0.8

B C

I

P (B,C, I) = P (B) P (C) P (I | B,C)

P (B) viene dada por dos valores de probabilidad, p0 = P (B = 0), p1 = P (B = 1).Por tanto los parametros a estimar son:

Θ = (p0, p1), p0 + p1 = 1

Septiembre, 2021 DSIC – UPV

Page 20: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.38

Aprendizaje con observaciones completas: intuicion

Trivial en este ejemplo. Como la distribucion asociada a lavariable B no tiene dependencias, el problema es similar alde aprendizaje de probabilidades a priori del Tema3.

La estimacion de maxima verosimilitud es

pb =NbN

donde N es el numero total de observaciones y Nb es elnumero de observaciones en las que B = b, b ∈ {0, 1}.

Mas formalmente a continuacion . . .

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.39

Aprendizaje con observaciones completas

Sea S = {(b1, c1, i1), . . . , (bN , cN , iN), } un conjunto de observaciones de entrenamiento.Sean N0 y N1 = N − N0 los numeros de observaciones en las que b = 0 y b = 1,respectivamente. La log-verosimilitud es:

LS(p0, p1) =

N∑

n=1

logP (B = bn, C = cn, I = in)

=

N∑

n=1

log(P (B = bn)P (C = cn)P (I = in | B = bn, C = cn))

= N0 log p0 +N1 log p1 +K

donde K incluye los terminos independientes de p0, p1. Maximizacion de LS mediante multipli-cadores de Lagrange, como en el ejemplo de estimacion de probs. a priori del Tema 3 · · ·→

p0 =N0

N, p1 =

N1

N

Ejemplos: S = {(0, 1, 1), (1, 1, 0)} → p0 = 12, p1 = 1

2

S = {(0, 0, 1), (1, 1, 0)} → p0 = 12, p1 = 1

2

S = {(0, 1, 1), (0, 0, 1), (1, 1, 0)} → p0 = 23, p1 = 1

3

Septiembre, 2021 DSIC – UPV

Page 21: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.40

Aprendizaje con observaciones incompletas: intuicionEn este caso, las observaciones solo tienen los valores de las variables C y I.Una idea es suponer algun valor razonable para p0 y p1. Entonces, dada unaobservacion (c, i), se puede obtener cual es la mejor prediccion para b como:

b = argmaxb∈{0,1}

P (B = b | C = c, I = i) = argmaxb∈{0,1}

P (B = b, C = c, I = i)

P (C = c, I = i)

= argmaxb∈{0,1}

P (B = b)���

������

P (C = c)P (I = i | B = b, C = c)∑1

b′=0 P (B = b′)���

������

P (C = c)P (I = i | B = b′, C = c)

Por ejemplo, si suponemos p0 = 0.3, p1 = 0.7, para las observaciones (1, 0) y (1, 1):

P (B=1 | C=1, I=0) =p1 0.2

p1 0.2 + p0 0.8≈ 0.37 ; P (B=0 | C=1, I=0) ≈ 0.63 ⇒ b = 0

P (B=1 | C=1, I=1) =p1 0.8

p1 0.8 + p0 0.2≈ 0.90 ; P (B=0 | C=1, I=1) ≈ 0.10 ⇒ b = 1

Con esto podemos “completar” las muestras: (0, 1, 0) y (1, 1, 1), y reestimar p0, p1:p0 = 1/2 = p1. La iterarcion de este proceso se llama “reestimacion a la Viterbi”.

En vez de usar predicciones b ∈ {0, 1} serıa preferible usar valores esperados enel intervalo [0, 1] → metodo EM . . . a continuacion.

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.41

Aprendizaje EM con observaciones incompletas: Paso E

Suponemos que solo hay observaciones del estado real del deposito de combustible (valoresde C) y del indicador electrico de nivel de combustible (valores de I), pero no del estado de labaterıa (B). O sea: S = {(c1, i1), . . . , (cN , iN)}.

En el paso E del EM, para cada observacion incompleta hay que estimar las probabilidades aposteriori de la variable oculta o latente B = b, b∈{0,1}. En general:

P (B=b | C, I) =P (B=b, C, I)

P (C, I)=

P (B=b)XXXXXP (C)P (I |B=b, C)∑1

b′=0 P (B=b′)XXXXXP (C)P (I |B=b′, C), b ∈ {0, 1}

Para la observacion (cn, in), hay que calcular P (B = b | C = cn, I = in;Θ′)

def= qn(b;Θ

′),donde Θ′ = (p′0, p

′1) son los parametros obtenidos en la iteracion anterior del EM.

Obviamente, P (B=b; Θ′)=p′b y sea kbndef= P (I= in |B=b, C=cn) (indep. de Θ′), b∈{0,1}.

qn(0; p′0, p′1) =

p′0k0n

p′0k0n + p′1k1n

def= q0n

q0n + q1n = 1

qn(1; p′0, p′1) =

p′1k1n

p′0k0n + p′1k1n

def= q1n

Septiembre, 2021 DSIC – UPV

Page 22: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.42

Aprendizaje EM con observaciones incompletas: paso MEncontrar Θ?≡(p?0, p

?1) que maximice Q(Θ,Θ′), que depende de Θ′≡(p′0, p

′1) a traves de qn(b; p′0, p

′1), b∈{0,1}.

Q(Θ,Θ′) =

N∑

n=1

1∑

b=0

qn(b; p′0, p′1) logP (B = b, C = cn, I = in; p0, p1)

=

N∑

n=1

1∑

b=0

qbn log(

pb︷ ︸︸ ︷P (B = b)P (C = cn)

kbn︷ ︸︸ ︷P (I = in | B = b, C = cn) )

=

N∑

n=1

1∑

b=0

qbn log pb +

K︷ ︸︸ ︷N∑

n=1

1∑

b=0

qbn log(P (C = cn) kbn)

=

N∑

n=1

q0n log p0 +

N∑

n=1

q1n log p1 +K = q0 log p0 + q1 log p1 +K

donde: q0 =

N∑

n=1

q0n, q1 =

N∑

n=1

q1n, q0 + q1 = N, y K es independente de p0, p1.

Maximizar Q: similar a estimacion de probabilidades a priori por maxima verosimilitud (Tema 3):

Λ(p0, p1, β) = q0 log p0 + q1 log p1 +K + β(1− p0 − p1) →∂Λ

∂pb= 0 ⇒ p

?b =

qb

β, b∈{0,1}

ΛD(β) = K + q0 logq0β + q1 log

q1β + β − S

Sβq0+q1SSβ

= K ′ + β − (q0 + q1) log β = K ′ + β −N log β

dΛD

dβ= 1− N

β= 0 ⇒ β

?= N ⇒ p?0 =

q0

N, p?1 =

q1

NSeptiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.43

Aprendizaje EM con observaciones incompletas: ejemplos

Sea S = {(c1, i1), . . . , (cN , iN)} = {(1, 1), (1, 0)} (N = 2):A partir de la tabla P (I |B,C) y S, determinamos kbn: k01 =0.2, k11 =0.8, k02 =0.8, k12 =0.2

Paso E: q01 = 0.2p′0/(0.2p′0 + 0.8p′1), q11 = 0.8p′1/(0.2p

′0 + 0.8p′1),

q02 = 0.8p′0/(0.8p′0 + 0.2p′1), q12 = 0.2p′1/(0.8p

′0 + 0.2p′1).

Paso M: q0 = q01 + q02, p0 =q0

N, q1 = q11 + q12, p1 =

q1

N

Inicializando con p0 = 0.1, p1 = 0.9 :t 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15p1 0.90 0.83 0.75 0.68 0.62 0.58 0.55 0.53 0.52 0.51 0.51 0.51 0.50 0.50 0.50 0.50

Si ahora las observaciones son S = {(0, 1), (1, 0)}:t 0 1 2 3 4 5 10 15 20 25 30 35 37 38 39 40p1 0.90 0.82 0.72 0.61 0.52 0.45 0.28 0.22 0.19 0.18 0.18 0.17 0.17 0.17 0.17 0.17

Ejercicio:Realizar una traza del EM para este ejemplo, con S = {(0, 1), (1, 0), (1, 1)} y p0 = 0.4, p1 = 0.6

Septiembre, 2021 DSIC – UPV

Page 23: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.44

Algunos toolkits

• BNThttps://code.google.com/p/bnt

• GraphLabhttps://turi.com/

• PMTK3 probabilistic modeling toolkit for Matlab/Octavehttps://github.com/probml/pmtk

• Software Packages for Graphical Modelshttp://www.cs.ubc.ca/˜murphyk/Software/bnsoft.html

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.45

Index

1 Introduccion a los modelos graficos . 1

2 Redes bayesianas . 6

3 Independencia condicional . 14

4 Inferencia en redes bayesianas . 18

5 Campos de Markov aleatorios . 28

6 Aprendizaje de modelos graficos . 35

◦ 7 Bibliografıa y notacion . 45

Septiembre, 2021 DSIC – UPV

Page 24: 2021-2022 - Technical University of Valencia

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.46

Bibliografıa

Christopher M. Bishop: “Pattern Recognition and Machine Learning”. Springer, 2006.

Septiembre, 2021 DSIC – UPV

Aprendizaje Automatico. 2021-2022 Modelos graficos: 6.47

Notacion

• P (x): probabilidad de x

• P (x, y): probabilidad conjunta de x e y

• P (x | y): probabilidad condicional de x dado y

• Para un conjunto de variables VC en un clique C, ψC(VC) = exp (−E(VC))es una funcion potential donde E(VC) es una funcion de energıa.

• Una funcion de energıa lineal: E(VC) = −∑

k

θC,k fC,k(VC) donde fC,k son

determinadas funciones que obtienen caracterısticas del clique C.

Septiembre, 2021 DSIC – UPV