72
Aprendizaje de Similitudes Aprendizaje de Similitudes Emilio Parrado Hern´ andez MLG Departamento de Teor´ ıa de la Se˜ nal y Comunicaciones Universidad Carlos III de Madrid 1 de febrero de 2013 EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 1 / 31

Aprendizaje de Similitudes - UC3Mmiguel/MLG/adjuntos/MainMetric.pdf · Aprendizaje de Similitudes Planteamiento del problema Motivaci on I Comparar dos objetos es una tarea fundamental

Embed Size (px)

Citation preview

Aprendizaje de Similitudes

Aprendizaje de Similitudes

Emilio Parrado HernandezMLG

Departamento de Teorıa de la Senal y ComunicacionesUniversidad Carlos III de Madrid

1 de febrero de 2013

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 1 / 31

Aprendizaje de Similitudes

Vista General de la presentacion

Referencias

1. Learning Multimodal SimilarityB. McFee, G. LanckrietJMLR 12 (2011)

2. Metric and Kernel Learning Using a Linear TransformationP. Jain, B. Kulis, J. V. Davis, I. S. DhillonJMLR 13 (2012)

3. Large Scale Online Learning of Image Similarity ThroughRankingG. Chechik, V. Sharma, U. Shalit, S. BengioJMLR 11 (2010)

4. Learning Discriminative Metrics via Generative Models andKernel LearningY. Shi, Y.K. Noh, F. Sha, D. D. LeearXiv:1109.3940v1, 19 Sep. 2011.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 2 / 31

Aprendizaje de Similitudes

Vista General de la presentacion

Contenidos

Vista General de la presentacion

Planteamiento del problema

Aprendizaje de metricas desde informacion perceptual

Aprendizaje de metrica y kernel usando una transformacion lineal

OASIS

Aprendizaje de metricas discriminativas con modelos generativos yaprendizaje de kernels

Resumen

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 3 / 31

Aprendizaje de Similitudes

Planteamiento del problema

Motivacion

I Comparar dos objetos es una tarea fundamental en AprendizajeMaquina (AM).

I Relacion inmediata con clasificacion por similitudes (vecinos masproximos, metodos nucleo)

I Relacion con agrupamiento a traves de restricciones sobre parejas deejemplos que deberıan estar (o no) en el mismo grupo.

I ¿Similitud o metrica? Metrica implica imponer restricciones de PSD,lo que implica mayor coste computacional

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 4 / 31

Aprendizaje de Similitudes

Planteamiento del problema

Motivacion

I Comparar dos objetos es una tarea fundamental en AprendizajeMaquina (AM).

I Relacion inmediata con clasificacion por similitudes (vecinos masproximos, metodos nucleo)

I Relacion con agrupamiento a traves de restricciones sobre parejas deejemplos que deberıan estar (o no) en el mismo grupo.

I ¿Similitud o metrica? Metrica implica imponer restricciones de PSD,lo que implica mayor coste computacional

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 4 / 31

Aprendizaje de Similitudes

Planteamiento del problema

Motivacion

I Comparar dos objetos es una tarea fundamental en AprendizajeMaquina (AM).

I Relacion inmediata con clasificacion por similitudes (vecinos masproximos, metodos nucleo)

I Relacion con agrupamiento a traves de restricciones sobre parejas deejemplos que deberıan estar (o no) en el mismo grupo.

I ¿Similitud o metrica? Metrica implica imponer restricciones de PSD,lo que implica mayor coste computacional

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 4 / 31

Aprendizaje de Similitudes

Planteamiento del problema

Motivacion

I Comparar dos objetos es una tarea fundamental en AprendizajeMaquina (AM).

I Relacion inmediata con clasificacion por similitudes (vecinos masproximos, metodos nucleo)

I Relacion con agrupamiento a traves de restricciones sobre parejas deejemplos que deberıan estar (o no) en el mismo grupo.

I ¿Similitud o metrica? Metrica implica imponer restricciones de PSD,lo que implica mayor coste computacional

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 4 / 31

Aprendizaje de Similitudes

Planteamiento del problema

Metodos para comparar dos objetos en AM

1. Coger una metrica generica: coseno, euclıdea, etc.

2. Aprender una metrica de Mahalanobis para el problema concreto(equivale a buscar una transformacion lineal de los datos).

Pegas:I Numero de parametros cuadratico con la dimensionI Falla en escenarios no lineales. Se puede kernelizar, aunque tiene

limitaciones importantesI Limitado al escenario transductivoI Opciones para escenarios inductivos son muy restrictivas o de difıcil

optimizacion:Multiple kernel learning, hyperkernels.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 5 / 31

Aprendizaje de Similitudes

Planteamiento del problema

Metodos para comparar dos objetos en AM

1. Coger una metrica generica: coseno, euclıdea, etc.

2. Aprender una metrica de Mahalanobis para el problema concreto(equivale a buscar una transformacion lineal de los datos). Pegas:

I Numero de parametros cuadratico con la dimensionI Falla en escenarios no lineales. Se puede kernelizar, aunque tiene

limitaciones importantesI Limitado al escenario transductivoI Opciones para escenarios inductivos son muy restrictivas o de difıcil

optimizacion:Multiple kernel learning, hyperkernels.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 5 / 31

Aprendizaje de Similitudes

Planteamiento del problema

Metodos para comparar dos objetos en AM

1. Coger una metrica generica: coseno, euclıdea, etc.

2. Aprender una metrica de Mahalanobis para el problema concreto(equivale a buscar una transformacion lineal de los datos). Pegas:

I Numero de parametros cuadratico con la dimension

I Falla en escenarios no lineales. Se puede kernelizar, aunque tienelimitaciones importantes

I Limitado al escenario transductivoI Opciones para escenarios inductivos son muy restrictivas o de difıcil

optimizacion:Multiple kernel learning, hyperkernels.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 5 / 31

Aprendizaje de Similitudes

Planteamiento del problema

Metodos para comparar dos objetos en AM

1. Coger una metrica generica: coseno, euclıdea, etc.

2. Aprender una metrica de Mahalanobis para el problema concreto(equivale a buscar una transformacion lineal de los datos). Pegas:

I Numero de parametros cuadratico con la dimensionI Falla en escenarios no lineales.

Se puede kernelizar, aunque tienelimitaciones importantes

I Limitado al escenario transductivoI Opciones para escenarios inductivos son muy restrictivas o de difıcil

optimizacion:Multiple kernel learning, hyperkernels.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 5 / 31

Aprendizaje de Similitudes

Planteamiento del problema

Metodos para comparar dos objetos en AM

1. Coger una metrica generica: coseno, euclıdea, etc.

2. Aprender una metrica de Mahalanobis para el problema concreto(equivale a buscar una transformacion lineal de los datos). Pegas:

I Numero de parametros cuadratico con la dimensionI Falla en escenarios no lineales. Se puede kernelizar, aunque tiene

limitaciones importantesI Limitado al escenario transductivoI Opciones para escenarios inductivos son muy restrictivas o de difıcil

optimizacion:Multiple kernel learning, hyperkernels.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 5 / 31

Aprendizaje de Similitudes

Planteamiento del problema

Metodos para comparar dos objetos en AM

1. Coger una metrica generica: coseno, euclıdea, etc.

2. Aprender una metrica de Mahalanobis para el problema concreto(equivale a buscar una transformacion lineal de los datos). Pegas:

I Numero de parametros cuadratico con la dimensionI Falla en escenarios no lineales. Se puede kernelizar, aunque tiene

limitaciones importantesI Limitado al escenario transductivoI Opciones para escenarios inductivos son muy restrictivas o de difıcil

optimizacion:Multiple kernel learning, hyperkernels.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 5 / 31

Aprendizaje de Similitudes

Planteamiento del problema

Maneras de expresar una similitud implıcita

El aprendizaje de la metrica debe estar guiado por restricciones querecogen conocimiento a priori

I Etiquetas de clases: Los ejemplos pertenecientes a una misma clasedeben estar mas cerca entre sı que de los ejemplos de las otras clases

I Supervision en forma derestricciones por parejas de similitud odisimilitud

I Valor exacto de similitud entre ejemplos (no suele darse)

La similitud es una supervision mas debil que la clasificacion porque nohacen falta etiquetas.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 6 / 31

Aprendizaje de Similitudes

Planteamiento del problema

Distancia de Mahalanobis en el espacio de caracterısticas

I Datos X = {xi}ni=1 ∈ Rd

I Proyeccion no lineal a un espacio de caracterısticas φ(xi ) inducidamediante un kernel conocido κ0(xi , xj) = 〈φ(xi ), φ(xj)〉

I Distancia de Mahalanobis en el espacio de caracterısticas

dW (φ(xi ), φ(xj)) = φ(xi )TWφ(xj) = κ(xi , xj)

I Aprender dW (·, ·)/κ(·, ·) incorporando restricciones en forma desimilitudes entre pares de datos.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 7 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Vista General de la presentacion

Planteamiento del problema

Aprendizaje de metricas desde informacion perceptual

Aprendizaje de metrica y kernel usando una transformacion lineal

OASIS

Aprendizaje de metricas discriminativas con modelos generativos yaprendizaje de kernels

Resumen

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 8 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Extraccion de similitudes a partir de etiquetados humanos

La similitud puede ser un concepto subjetivo.Multiples etiquetadores pueden no estar de acuerdo.

Es mas robusto preguntar por ordenes que por cantidades absolutas

“¿Son i y j mas parecidos que k y l?”“¿el elemento i es mas parecido a j o a k?”

Multidimensional Scaling (MDS)

Encontrar un espacio euclıdeo de representacion de los datos que respetelas distancias “percibidas” por los etiquetadores

MDS No metricoEncontrar un espacio euclıdeo de representacion de los datos que respeteuna ordenacion parcial “percibida” por los etiquetadores

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 9 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Extraccion de similitudes a partir de etiquetados humanos

La similitud puede ser un concepto subjetivo.Multiples etiquetadores pueden no estar de acuerdo.

Es mas robusto preguntar por ordenes que por cantidades absolutas

“¿Son i y j mas parecidos que k y l?”“¿el elemento i es mas parecido a j o a k?”

Multidimensional Scaling (MDS)

Encontrar un espacio euclıdeo de representacion de los datos que respetelas distancias “percibidas” por los etiquetadores

MDS No metricoEncontrar un espacio euclıdeo de representacion de los datos que respeteuna ordenacion parcial “percibida” por los etiquetadores

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 9 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Extraccion de similitudes a partir de etiquetados humanos

La similitud puede ser un concepto subjetivo.Multiples etiquetadores pueden no estar de acuerdo.

Es mas robusto preguntar por ordenes que por cantidades absolutas

“¿Son i y j mas parecidos que k y l?”“¿el elemento i es mas parecido a j o a k?”

Multidimensional Scaling (MDS)

Encontrar un espacio euclıdeo de representacion de los datos que respetelas distancias “percibidas” por los etiquetadores

MDS No metricoEncontrar un espacio euclıdeo de representacion de los datos que respeteuna ordenacion parcial “percibida” por los etiquetadores

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 9 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Extraccion de similitudes a partir de etiquetados humanos

La similitud puede ser un concepto subjetivo.Multiples etiquetadores pueden no estar de acuerdo.

Es mas robusto preguntar por ordenes que por cantidades absolutas

“¿Son i y j mas parecidos que k y l?”“¿el elemento i es mas parecido a j o a k?”

Multidimensional Scaling (MDS)

Encontrar un espacio euclıdeo de representacion de los datos que respetelas distancias “percibidas” por los etiquetadores

MDS No metricoEncontrar un espacio euclıdeo de representacion de los datos que respeteuna ordenacion parcial “percibida” por los etiquetadores

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 9 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Orden Parcial Estricto

Relacion binaria R definida en un conjunto Z (R ⊆ Z 2) que satisface

I Irreflexiva: (a, a) /∈ R

I Transitiva: (a, b) ∈ R ∧ (b, c) ∈ R ⇒ (a, c) ∈ R

I Antisimetrica: (a, b) ∈ R ⇒ (b, a) /∈ R

Se puede capturar mediante un grafo acıclico dirigido (DAG) C dondecada nodo es un par de muestras y las aristas indican la relacion R

I Si hay ciclos, no hay una representacion que capture la relacion

I Si no hay ciclos, cualquier representacion que capture una reducciontransitiva de C captura al propio C .

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 10 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Simplificacion del grafo

La subjetividad y el desacuerdo entre etiquetadores provocan que el graforesultante de compilar todas las etiquetas presente ciclos.

Simplificacion del grafo

1. Romper ciclos. Algoritmo greedy de Berger and Shor, 1990

2. Eliminar aristas redundantes aplicando transitividad: Si dos nodosestan unidos a traves de un camino del grafo, se puede eliminar suconexion directa.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 11 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Simplificacion del grafo

La subjetividad y el desacuerdo entre etiquetadores provocan que el graforesultante de compilar todas las etiquetas presente ciclos.

Simplificacion del grafo

1. Romper ciclos. Algoritmo greedy de Berger and Shor, 1990

2. Eliminar aristas redundantes aplicando transitividad: Si dos nodosestan unidos a traves de un camino del grafo, se puede eliminar suconexion directa.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 11 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Partial Order Embedding

I Encontrar g : X −→ Rd tal que

∀(i , j , k , l) ∈ C : ‖g(i)− g(j)‖2 + 1 ≤ ‖g(k)− g(l)‖2

se da un margen unitario para estabilidad numerica

I Asumir que los datos ya estan en un cierto espacio RD y que lafuncion g es una proyeccion lineal

g(x) = Mx

I La matriz de Gram en el espacio imagen es K = XTMTMX

I Restricciones del grafo:(xi − xj)

TMTM(xi − xj) + 1 ≤ (xk − xl)TMTM(xk − xl)

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 12 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Partial Order Embedding

I Encontrar g : X −→ Rd tal que

∀(i , j , k , l) ∈ C : ‖g(i)− g(j)‖2 + 1 ≤ ‖g(k)− g(l)‖2

se da un margen unitario para estabilidad numerica

I Asumir que los datos ya estan en un cierto espacio RD y que lafuncion g es una proyeccion lineal

g(x) = Mx

I La matriz de Gram en el espacio imagen es K = XTMTMX

I Restricciones del grafo:(xi − xj)

TMTM(xi − xj) + 1 ≤ (xk − xl)TMTM(xk − xl)

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 12 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Partial Order Embedding

I Encontrar g : X −→ Rd tal que

∀(i , j , k , l) ∈ C : ‖g(i)− g(j)‖2 + 1 ≤ ‖g(k)− g(l)‖2

se da un margen unitario para estabilidad numerica

I Asumir que los datos ya estan en un cierto espacio RD y que lafuncion g es una proyeccion lineal

g(x) = Mx

I La matriz de Gram en el espacio imagen es K = XTMTMX

I Restricciones del grafo:(xi − xj)

TMTM(xi − xj) + 1 ≤ (xk − xl)TMTM(xk − xl)

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 12 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Partial Order Embedding

I Encontrar g : X −→ Rd tal que

∀(i , j , k , l) ∈ C : ‖g(i)− g(j)‖2 + 1 ≤ ‖g(k)− g(l)‖2

se da un margen unitario para estabilidad numerica

I Asumir que los datos ya estan en un cierto espacio RD y que lafuncion g es una proyeccion lineal

g(x) = Mx

I La matriz de Gram en el espacio imagen es K = XTMTMX

I Restricciones del grafo:(xi − xj)

TMTM(xi − xj) + 1 ≤ (xk − xl)TMTM(xk − xl)

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 12 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Optimizacion para encontrar M

1. slack variables ξijkl para que haya solucion al problema.

2. empirical hinge loss para las violaciones de las restricciones

3. Regularizacion con tr(MTM) para evitar sobreajuste

Optimizacion

mınM,ξijkl

tr(MTM) +β

|C |∑C

ξijkl

sujeto a (xi − xj)TMTM(xi − xj) + 1 ≤ (xk − xl)

TMTM(xk − xl) + ξijkl yξijkl ≥ 0

Resolver para W = MTM con W PSD, que es convexo

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 13 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Optimizacion para encontrar M

1. slack variables ξijkl para que haya solucion al problema.

2. empirical hinge loss para las violaciones de las restricciones

3. Regularizacion con tr(MTM) para evitar sobreajuste

Optimizacion

mınM,ξijkl

tr(MTM) +β

|C |∑C

ξijkl

sujeto a (xi − xj)TMTM(xi − xj) + 1 ≤ (xk − xl)

TMTM(xk − xl) + ξijkl yξijkl ≥ 0

Resolver para W = MTM con W PSD, que es convexo

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 13 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Version kernelizada

Asumir que la funcion g es una transformacion no lineal con dcomponentes

g(x) = M(φ(x)) = [〈wp, φ(x)〉H]dp=1

donde φ(·) es una proyeccion inducida por un kernel κ0(·, ·)No resoluble en dim. infinita...

Regularizar en un Espacio de Hilbert

‖M‖2HS =

d∑p=1

〈wp,wp〉H

Representer Theorem: M = NΦT → ‖M‖2HS = traza(NTNK )

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 14 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Version kernelizada

Asumir que la funcion g es una transformacion no lineal con dcomponentes

g(x) = M(φ(x)) = [〈wp, φ(x)〉H]dp=1

donde φ(·) es una proyeccion inducida por un kernel κ0(·, ·)No resoluble en dim. infinita... Regularizar en un Espacio de Hilbert

‖M‖2HS =

d∑p=1

〈wp,wp〉H

Representer Theorem: M = NΦT → ‖M‖2HS = traza(NTNK )

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 14 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Version kernelizada

Asumir que la funcion g es una transformacion no lineal con dcomponentes

g(x) = M(φ(x)) = [〈wp, φ(x)〉H]dp=1

donde φ(·) es una proyeccion inducida por un kernel κ0(·, ·)No resoluble en dim. infinita... Regularizar en un Espacio de Hilbert

‖M‖2HS =

d∑p=1

〈wp,wp〉H

Representer Theorem: M = NΦT → ‖M‖2HS = traza(NTNK )

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 14 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Version kernelizada

Asumir que la funcion g es una transformacion no lineal con dcomponentes

g(x) = M(φ(x)) = [〈wp, φ(x)〉H]dp=1

donde φ(·) es una proyeccion inducida por un kernel κ0(·, ·)No resoluble en dim. infinita... Regularizar en un Espacio de Hilbert

‖M‖2HS =

d∑p=1

〈wp,wp〉H

Representer Theorem: M = NΦT → ‖M‖2HS = traza(NTNK )

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 14 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Optimizacion con kernels

g(x) = M(φ(x)) = NΦTφ(x) = N[κ0(xi , x)]ni=1

Las restricciones impuestas por el grafo quedan:(Ki − Kj)

TNTN(Ki − Kj) + 1 ≤ (Kk − Kl)TNTN(Kk − Kl) donde Kx es

la columna x de K

Optimizar

mınN,ξijkl

tr(NTNK ) +β

|C |∑C

ξijkl

sujeto a (Ki −Kj)TNTN(Ki −Kj) + 1 ≤ (Kk −Kl)

TNTN(Kk −Kl) + ξijkly ξijkl ≥ 0

Resolver para W = NTN, W PSD que es convexo.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 15 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Optimizacion con kernels

g(x) = M(φ(x)) = NΦTφ(x) = N[κ0(xi , x)]ni=1

Las restricciones impuestas por el grafo quedan:(Ki − Kj)

TNTN(Ki − Kj) + 1 ≤ (Kk − Kl)TNTN(Kk − Kl) donde Kx es

la columna x de K

Optimizar

mınN,ξijkl

tr(NTNK ) +β

|C |∑C

ξijkl

sujeto a (Ki −Kj)TNTN(Ki −Kj) + 1 ≤ (Kk −Kl)

TNTN(Kk −Kl) + ξijkly ξijkl ≥ 0

Resolver para W = NTN, W PSD que es convexo.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 15 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Optimizacion con kernels

g(x) = M(φ(x)) = NΦTφ(x) = N[κ0(xi , x)]ni=1

Las restricciones impuestas por el grafo quedan:(Ki − Kj)

TNTN(Ki − Kj) + 1 ≤ (Kk − Kl)TNTN(Kk − Kl) donde Kx es

la columna x de K

Optimizar

mınN,ξijkl

tr(NTNK ) +β

|C |∑C

ξijkl

sujeto a (Ki −Kj)TNTN(Ki −Kj) + 1 ≤ (Kk −Kl)

TNTN(Kk −Kl) + ξijkly ξijkl ≥ 0

Resolver para W = NTN, W PSD que es convexo.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 15 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Optimizacion con kernels

g(x) = M(φ(x)) = NΦTφ(x) = N[κ0(xi , x)]ni=1

Las restricciones impuestas por el grafo quedan:(Ki − Kj)

TNTN(Ki − Kj) + 1 ≤ (Kk − Kl)TNTN(Kk − Kl) donde Kx es

la columna x de K

Optimizar

mınN,ξijkl

tr(NTNK ) +β

|C |∑C

ξijkl

sujeto a (Ki −Kj)TNTN(Ki −Kj) + 1 ≤ (Kk −Kl)

TNTN(Kk −Kl) + ξijkly ξijkl ≥ 0

Resolver para W = NTN, W PSD que es convexo.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 15 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas desde informacion perceptual

Consideraciones

I Equivale a aprender una metrica de Mahalanobis con ΦWΦT en HI Equivale a aprender un kernel KWK con W PSD

I K = I quiere decir que no hay conocimiento a priori sobre lasimilitud entre puntos. La regularizacion tr(W ) equivale a minimizaruna cota en el rango de W , denotando preferencia por proyeccionesde baja dimension

I Extension para Multiple Kernel Learning util en problemas condiversas modalidades. Se aprende una combinacion ponderada de losdistintos kernels.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 16 / 31

Aprendizaje de Similitudes

Aprendizaje de metrica y kernel usando una transformacion lineal

Vista General de la presentacion

Planteamiento del problema

Aprendizaje de metricas desde informacion perceptual

Aprendizaje de metrica y kernel usando una transformacion lineal

OASIS

Aprendizaje de metricas discriminativas con modelos generativos yaprendizaje de kernels

Resumen

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 17 / 31

Aprendizaje de Similitudes

Aprendizaje de metrica y kernel usando una transformacion lineal

Funcion de coste divergencia LogDet

Dl .d(W ,W0) = tr(WW−10 )− logdet(WW−1

0 )− d , con W ,W0 ∈ Rd

Si W0 = I , tenemos maximizacion de entropıa.

Optimizacion

mınW�0

Dl ,d(W , I ) s.t. dW (φ(xi ), φ(xj)) ≤ u, (i , j) ∈ S ,

dW (φ(xi ), φ(xj)) ≥ l , (i , j) ∈ D, (1)

I LogDet invariante a cambios de escalaI Algoritmo kernelizableI Extensiones a otras matrices PSD W0

I Extensiones a otro tipo de restricciones linealesEPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 18 / 31

Aprendizaje de Similitudes

Aprendizaje de metrica y kernel usando una transformacion lineal

Funcion de coste divergencia LogDet

Dl .d(W ,W0) = tr(WW−10 )− logdet(WW−1

0 )− d , con W ,W0 ∈ Rd

Si W0 = I , tenemos maximizacion de entropıa.

Optimizacion

mınW�0

Dl ,d(W , I ) s.t. dW (φ(xi ), φ(xj)) ≤ u, (i , j) ∈ S ,

dW (φ(xi ), φ(xj)) ≥ l , (i , j) ∈ D, (1)

I LogDet invariante a cambios de escalaI Algoritmo kernelizableI Extensiones a otras matrices PSD W0

I Extensiones a otro tipo de restricciones linealesEPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 18 / 31

Aprendizaje de Similitudes

Aprendizaje de metrica y kernel usando una transformacion lineal

Kernelizacion del aprendizaje de la metrica con LogDetDados un conjunto de n puntos con restricciones de (di)similitud quedefinen una matriz de kernels K0, K0(i , j) = κ0(xi , xj)El problema de encontrar K se puede escribir como:

mınK�0

Dl ,d(K ,K0) s.t. tr(K (ei − ej)(ei − ej)

T)≤ u, (i , j) ∈ S ,

tr(K (ei − ej)(ei − ej)

T)≥ l , (i , j) ∈ D (2)

Teorema 1Sea K0 � 0, K ∗ solucion de (2) y W ∗ solucion de (1). Entonces

K ∗ = ΦTW ∗Φ, W ∗ = I + ΦSΦT

con S = K−10 (K ∗ − K0)K−1

0 ,K0 = ΦTΦ,Φ = [φ(x1), . . . , φ(xn)]

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 19 / 31

Aprendizaje de Similitudes

Aprendizaje de metrica y kernel usando una transformacion lineal

Kernelizacion del aprendizaje de la metrica con LogDetDados un conjunto de n puntos con restricciones de (di)similitud quedefinen una matriz de kernels K0, K0(i , j) = κ0(xi , xj)El problema de encontrar K se puede escribir como:

mınK�0

Dl ,d(K ,K0) s.t. tr(K (ei − ej)(ei − ej)

T)≤ u, (i , j) ∈ S ,

tr(K (ei − ej)(ei − ej)

T)≥ l , (i , j) ∈ D (2)

Teorema 1Sea K0 � 0, K ∗ solucion de (2) y W ∗ solucion de (1). Entonces

K ∗ = ΦTW ∗Φ, W ∗ = I + ΦSΦT

con S = K−10 (K ∗ − K0)K−1

0 ,K0 = ΦTΦ,Φ = [φ(x1), . . . , φ(xn)]

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 19 / 31

Aprendizaje de Similitudes

Aprendizaje de metrica y kernel usando una transformacion lineal

Generalizacion a puntos nuevos

Supongase que K es la solucion al problema (2).

Distancia entre puntos del conjunto de entrenamiento

d(φ(xi ), φ(xj)) = K (i , i) + K (j , j)− 2K (i , j)

Distancia entre puntos del conjunto de test

d(φ(z1), φ(z2)) = φ(z1)TWφ(z2) = φ(z1)T (I + ΦSΦTφ(z2)

= κ0(z1, z2) + kT1 Sk2, conki = [κ0(x1, zi ), . . . , κ0(xn, zi )]T

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 20 / 31

Aprendizaje de Similitudes

Aprendizaje de metrica y kernel usando una transformacion lineal

Generalizacion a puntos nuevos

Supongase que K es la solucion al problema (2).

Distancia entre puntos del conjunto de entrenamiento

d(φ(xi ), φ(xj)) = K (i , i) + K (j , j)− 2K (i , j)

Distancia entre puntos del conjunto de test

d(φ(z1), φ(z2)) = φ(z1)TWφ(z2) = φ(z1)T (I + ΦSΦTφ(z2)

= κ0(z1, z2) + kT1 Sk2, conki = [κ0(x1, zi ), . . . , κ0(xn, zi )]T

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 20 / 31

Aprendizaje de Similitudes

Aprendizaje de metrica y kernel usando una transformacion lineal

Extension para conjuntos grandes de datosHemos presentado dos alternativas equivalentes:

I Aprender W , complejidad O(d2)I Aprender K , complejidad O(n2)

Se puede considerar queW = I + ULUT

con L = F − I de tamano k × k definida positiva y U conocida de tamanod × k (k << mın(d , n)).

Se resuelve para F un problema de tamano O(k2)

Elecciones para UI k primeros vectores singulares de ΦI Centroides de un clustering de las columnas de ΦI Centroides de un clustering de las medias de cada clase

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 21 / 31

Aprendizaje de Similitudes

Aprendizaje de metrica y kernel usando una transformacion lineal

Extension para conjuntos grandes de datosHemos presentado dos alternativas equivalentes:

I Aprender W , complejidad O(d2)I Aprender K , complejidad O(n2)

Se puede considerar queW = I + ULUT

con L = F − I de tamano k × k definida positiva y U conocida de tamanod × k (k << mın(d , n)).

Se resuelve para F un problema de tamano O(k2)

Elecciones para UI k primeros vectores singulares de ΦI Centroides de un clustering de las columnas de ΦI Centroides de un clustering de las medias de cada clase

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 21 / 31

Aprendizaje de Similitudes

Aprendizaje de metrica y kernel usando una transformacion lineal

Extension para conjuntos grandes de datosHemos presentado dos alternativas equivalentes:

I Aprender W , complejidad O(d2)I Aprender K , complejidad O(n2)

Se puede considerar queW = I + ULUT

con L = F − I de tamano k × k definida positiva y U conocida de tamanod × k (k << mın(d , n)).

Se resuelve para F un problema de tamano O(k2)

Elecciones para UI k primeros vectores singulares de ΦI Centroides de un clustering de las columnas de ΦI Centroides de un clustering de las medias de cada clase

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 21 / 31

Aprendizaje de Similitudes

Aprendizaje de metrica y kernel usando una transformacion lineal

Extension para conjuntos grandes de datosHemos presentado dos alternativas equivalentes:

I Aprender W , complejidad O(d2)I Aprender K , complejidad O(n2)

Se puede considerar queW = I + ULUT

con L = F − I de tamano k × k definida positiva y U conocida de tamanod × k (k << mın(d , n)).

Se resuelve para F un problema de tamano O(k2)

Elecciones para UI k primeros vectores singulares de ΦI Centroides de un clustering de las columnas de ΦI Centroides de un clustering de las medias de cada clase

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 21 / 31

Aprendizaje de Similitudes

OASIS

Vista General de la presentacion

Planteamiento del problema

Aprendizaje de metricas desde informacion perceptual

Aprendizaje de metrica y kernel usando una transformacion lineal

OASIS

Aprendizaje de metricas discriminativas con modelos generativos yaprendizaje de kernels

Resumen

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 22 / 31

Aprendizaje de Similitudes

OASIS

Motivacion

I Problemas de escalabilidad: recursos computacionales y de memoriacrecen cuadraticamente con el numero de datos

I Etiquetados basados en humanos pueden no ser apropiados enescenarios big data

I La similitud se puede inferir a traves de parejas de resultados que sondevueltas ante la misma query

I Inferir similitud de las etiquetas de clases

OASIS aprende similitud (no garantiza semidefinida positiva)independiente de las etiquetas de las clases

Esta basado en los algoritmos Passive-Aggressive para aprendizaje en lınea.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 23 / 31

Aprendizaje de Similitudes

OASIS

Motivacion

I Problemas de escalabilidad: recursos computacionales y de memoriacrecen cuadraticamente con el numero de datos

I Etiquetados basados en humanos pueden no ser apropiados enescenarios big data

I La similitud se puede inferir a traves de parejas de resultados que sondevueltas ante la misma query

I Inferir similitud de las etiquetas de clases

OASIS aprende similitud (no garantiza semidefinida positiva)independiente de las etiquetas de las clases

Esta basado en los algoritmos Passive-Aggressive para aprendizaje en lınea.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 23 / 31

Aprendizaje de Similitudes

OASIS

Motivacion

I Problemas de escalabilidad: recursos computacionales y de memoriacrecen cuadraticamente con el numero de datos

I Etiquetados basados en humanos pueden no ser apropiados enescenarios big data

I La similitud se puede inferir a traves de parejas de resultados que sondevueltas ante la misma query

I Inferir similitud de las etiquetas de clases

OASIS aprende similitud (no garantiza semidefinida positiva)independiente de las etiquetas de las clases

Esta basado en los algoritmos Passive-Aggressive para aprendizaje en lınea.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 23 / 31

Aprendizaje de Similitudes

OASIS

Motivacion

I Problemas de escalabilidad: recursos computacionales y de memoriacrecen cuadraticamente con el numero de datos

I Etiquetados basados en humanos pueden no ser apropiados enescenarios big data

I La similitud se puede inferir a traves de parejas de resultados que sondevueltas ante la misma query

I Inferir similitud de las etiquetas de clases

OASIS aprende similitud (no garantiza semidefinida positiva)independiente de las etiquetas de las clases

Esta basado en los algoritmos Passive-Aggressive para aprendizaje en lınea.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 23 / 31

Aprendizaje de Similitudes

OASIS

Motivacion

I Problemas de escalabilidad: recursos computacionales y de memoriacrecen cuadraticamente con el numero de datos

I Etiquetados basados en humanos pueden no ser apropiados enescenarios big data

I La similitud se puede inferir a traves de parejas de resultados que sondevueltas ante la misma query

I Inferir similitud de las etiquetas de clases

OASIS aprende similitud (no garantiza semidefinida positiva)independiente de las etiquetas de las clases

Esta basado en los algoritmos Passive-Aggressive para aprendizaje en lınea.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 23 / 31

Aprendizaje de Similitudes

OASIS

Algoritmo OASISSimilitud: SW (xi , xj) = xTi W xjRestricciones: dada una tripleta de datos xi , xj , xk tales quer(xi , xj) > r(xi , xk), se establece la restriccion

SW (xi , xj) > SW (xi , xk) + 1

Funcion de perdidas tipo hinge

lW (xi , xj , xk) = max{0, 1− SW (xi , xj) + SW (xi , xk)}

OASIS

W i = arg mınW

1

2‖W −W i−1‖2

F + Cξ

sujeto a lW (xi , xj , xk) ≤ ξ y ξ ≥ 0

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 24 / 31

Aprendizaje de Similitudes

OASIS

Algoritmo OASISSimilitud: SW (xi , xj) = xTi W xjRestricciones: dada una tripleta de datos xi , xj , xk tales quer(xi , xj) > r(xi , xk), se establece la restriccion

SW (xi , xj) > SW (xi , xk) + 1

Funcion de perdidas tipo hinge

lW (xi , xj , xk) = max{0, 1− SW (xi , xj) + SW (xi , xk)}

OASIS

W i = arg mınW

1

2‖W −W i−1‖2

F + Cξ

sujeto a lW (xi , xj , xk) ≤ ξ y ξ ≥ 0

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 24 / 31

Aprendizaje de Similitudes

OASIS

Algoritmo OASISSimilitud: SW (xi , xj) = xTi W xjRestricciones: dada una tripleta de datos xi , xj , xk tales quer(xi , xj) > r(xi , xk), se establece la restriccion

SW (xi , xj) > SW (xi , xk) + 1

Funcion de perdidas tipo hinge

lW (xi , xj , xk) = max{0, 1− SW (xi , xj) + SW (xi , xk)}

OASIS

W i = arg mınW

1

2‖W −W i−1‖2

F + Cξ

sujeto a lW (xi , xj , xk) ≤ ξ y ξ ≥ 0

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 24 / 31

Aprendizaje de Similitudes

OASIS

Algoritmo OASISSimilitud: SW (xi , xj) = xTi W xjRestricciones: dada una tripleta de datos xi , xj , xk tales quer(xi , xj) > r(xi , xk), se establece la restriccion

SW (xi , xj) > SW (xi , xk) + 1

Funcion de perdidas tipo hinge

lW (xi , xj , xk) = max{0, 1− SW (xi , xj) + SW (xi , xk)}

OASIS

W i = arg mınW

1

2‖W −W i−1‖2

F + Cξ

sujeto a lW (xi , xj , xk) ≤ ξ y ξ ≥ 0

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 24 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas discriminativas con modelos generativos y aprendizaje de kernels

Vista General de la presentacion

Planteamiento del problema

Aprendizaje de metricas desde informacion perceptual

Aprendizaje de metrica y kernel usando una transformacion lineal

OASIS

Aprendizaje de metricas discriminativas con modelos generativos yaprendizaje de kernels

Resumen

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 25 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas discriminativas con modelos generativos y aprendizaje de kernels

Aprendizaje de una metrica local discriminativa

Para cada punto de entrenamiento xi se obtienen dos conjuntos de datos:objetivos x+

i , cuya etiqueta coincide con la de xi e impostores x−i , cuyaetiqueta no coincide

Metrica local basada en NN

mınM,ξ≥0

∑i

∑j∈x+

i

d2M(xi , xj) + γ

∑ijl

ξijl

sujeto a 1 + d2M(xi , xj)− d2

M(xi , xl) ≤ ξijl , ∀j ∈ x+i , l ∈ x−i

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 26 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas discriminativas con modelos generativos y aprendizaje de kernels

Metrica Generativa

Cuando el numero de datos es finito, el error del 1-NN se desvıa del errorasimptotico un termino de sesgo que es independiente de la metrica.Si se asume una metrica basada en transformacion lineal, el termino desesgo se optimiza con

mın(tr(M−1i Φi )

2 sujeto a |Mi | = 1,MiPSD

El optimo es una matriz PSD cuyos autovectores sean los mismos que losde Φi

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 27 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas discriminativas con modelos generativos y aprendizaje de kernels

Aprendizaje discriminativo con multiples metricasgenerativasMetrica generativa local funciona pero hace falta una Mi por cada punto.

Resultados dependen de la pdf usada para el modelado generativo.

Mejora combinando metricas locales Ki (xm, xn) = xTmMixn

Cada Mi se aprende en la vecindad de xi y es una estimacion sesgada deun kernel global.

Promediar los kernels locales resulta en un estimador insesgado

κ(xm, xn) =∑i

αiκi (xm, xn) = xTm

(∑i

αiMi

)xn = xTmMxn

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 28 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas discriminativas con modelos generativos y aprendizaje de kernels

Aprendizaje discriminativo con multiples metricasgenerativasMetrica generativa local funciona pero hace falta una Mi por cada punto.

Resultados dependen de la pdf usada para el modelado generativo.

Mejora combinando metricas locales Ki (xm, xn) = xTmMixn

Cada Mi se aprende en la vecindad de xi y es una estimacion sesgada deun kernel global.

Promediar los kernels locales resulta en un estimador insesgado

κ(xm, xn) =∑i

αiκi (xm, xn) = xTm

(∑i

αiMi

)xn = xTmMxn

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 28 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas discriminativas con modelos generativos y aprendizaje de kernels

Aprendizaje discriminativo con multiples metricasgenerativasMetrica generativa local funciona pero hace falta una Mi por cada punto.

Resultados dependen de la pdf usada para el modelado generativo.

Mejora combinando metricas locales Ki (xm, xn) = xTmMixn

Cada Mi se aprende en la vecindad de xi y es una estimacion sesgada deun kernel global.

Promediar los kernels locales resulta en un estimador insesgado

κ(xm, xn) =∑i

αiκi (xm, xn) = xTm

(∑i

αiMi

)xn = xTmMxn

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 28 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas discriminativas con modelos generativos y aprendizaje de kernels

Aprendizaje discriminativo con multiples metricasgenerativasMetrica generativa local funciona pero hace falta una Mi por cada punto.

Resultados dependen de la pdf usada para el modelado generativo.

Mejora combinando metricas locales Ki (xm, xn) = xTmMixn

Cada Mi se aprende en la vecindad de xi y es una estimacion sesgada deun kernel global.

Promediar los kernels locales resulta en un estimador insesgado

κ(xm, xn) =∑i

αiκi (xm, xn) = xTm

(∑i

αiMi

)xn = xTmMxn

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 28 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas discriminativas con modelos generativos y aprendizaje de kernels

Aprendizaje discriminativo con multiples metricasgenerativasMetrica generativa local funciona pero hace falta una Mi por cada punto.

Resultados dependen de la pdf usada para el modelado generativo.

Mejora combinando metricas locales Ki (xm, xn) = xTmMixn

Cada Mi se aprende en la vecindad de xi y es una estimacion sesgada deun kernel global.

Promediar los kernels locales resulta en un estimador insesgado

κ(xm, xn) =∑i

αiκi (xm, xn) = xTm

(∑i

αiMi

)xn = xTmMxn

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 28 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas discriminativas con modelos generativos y aprendizaje de kernels

Consideraciones

I Caso sencillo αi = 1, entonces MUNI = 1N

∑i Mi

I Extension no lineal. Kernel local

Kil(xm, xn) = exp{−(xm − xn)TMi (xm − xn)/σ2l }

I Kernel como combinacion convexa de kernels locales

K (xm, xn) =∑i ,l

αilKil(xm, xn)

y los αil cumplen las restricciones de ser convexos.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 29 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas discriminativas con modelos generativos y aprendizaje de kernels

Consideraciones

I Caso sencillo αi = 1, entonces MUNI = 1N

∑i Mi

I Extension no lineal. Kernel local

Kil(xm, xn) = exp{−(xm − xn)TMi (xm − xn)/σ2l }

I Kernel como combinacion convexa de kernels locales

K (xm, xn) =∑i ,l

αilKil(xm, xn)

y los αil cumplen las restricciones de ser convexos.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 29 / 31

Aprendizaje de Similitudes

Aprendizaje de metricas discriminativas con modelos generativos y aprendizaje de kernels

Consideraciones

I Caso sencillo αi = 1, entonces MUNI = 1N

∑i Mi

I Extension no lineal. Kernel local

Kil(xm, xn) = exp{−(xm − xn)TMi (xm − xn)/σ2l }

I Kernel como combinacion convexa de kernels locales

K (xm, xn) =∑i ,l

αilKil(xm, xn)

y los αil cumplen las restricciones de ser convexos.

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 29 / 31

Aprendizaje de Similitudes

Resumen

Vista General de la presentacion

Planteamiento del problema

Aprendizaje de metricas desde informacion perceptual

Aprendizaje de metrica y kernel usando una transformacion lineal

OASIS

Aprendizaje de metricas discriminativas con modelos generativos yaprendizaje de kernels

Resumen

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 30 / 31

Aprendizaje de Similitudes

Resumen

Resumen

I Breve exposicion de cuatro artıculos sobre aprendizaje de metricas

I Incorporar restricciones sobre parejas, trıos o cuadruplas de elementosque contienen informacion de dominio del problema

I Poda de grafo para limpiar la supervision basada en etiquetadoshechos por humanos

I Aprendizaje de metrica es equivalente a un aprendizaje de kernel, loque permite extension a conjuntos de test

I Aprendizaje de similitud OASIS

I Aprendizaje de metricas globales a partir de metricas locales

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 31 / 31