74
MACHINE LEARNING MACHINE LEARNING EN SELECCIÓN GENÓMICA Oscar González-Recio Oscar González Recio [email protected]

MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN GENÓMICA

Oscar González-RecioOscar González [email protected]

Page 2: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

COLABORADORES y AGRADECIMIENTOS

• K. Broman • D. Gianola• C. Engelman • K.A. Weigel

• G.J.M. Rosa• N. Long• G. de los Campos

• P. Van Raden• K. Van Tassell p

• H. Naya• E. López de Maturana

• G. Wiggans

p

• S. Avendañoi

© O. González-Recio. 2009. Machine Learning en selección genómica.

• T. Vega • A. Kranis

Page 3: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

ÍNDICE• Introducción• Diseño de un sistema de aprendizajeDiseño de un sistema de aprendizaje• Teoría de la información• Regresiones no-paramétricas

– Regresion no-paramétrica simpleRegresion no paramétrica simple– RKHS

E bl h d (“Al i d j ”)• Ensemble methods (“Algoritmos de conjunto”)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 4: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

INTRODUCCIÓN• Aprendizaje Automático

– ¿Pueden pensar y aprender las máquinas?¿ p y p q

Aprendizaje– Aprendizaje = • a) realizar cambios útiles en nuestra mente

b) bi i i li• b) cambios en un sistema que nos permiten realizar una determinada tarea de forma más eficiente la próxima vez

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 5: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

INTRODUCCIÓN• Aprendizaje automático

– Algoritmos eficientes en ciertas tareas de aprendizaje• Ej: Reconocimiento de voz, juegos de estrategia (ajedrez),

tratamiento de imágenes, búsquedas web, clasificación de constelaciones, predicción meteorológica, conducción automática co ste ac o es, p ed cc ó eteo o óg ca, co ducc ó auto át cade vehículos.

• DATA MINING aplicadas a grandes bases de datos (bancarios, financieros médicos bio estadísticos)financieros, médicos, bio-estadísticos)

– No va en contra del ‘state of Nature’No va en contra del state of Nature– Sí puede ser Bayesiano

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 6: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

INTRODUCCIÓN• Aprendizaje automático

– Campo multidisciplinarp p– Aplicado a genética animal, incluye

• Bio Informática• Bio-Informática• Estadística• Genética cuantitativa• Genética cuantitativa• Genética molecular• Prod cción animal• Producción animal• …colaboración

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 7: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

INTRODUCCIÓN• Aprendizaje automático

– Evita modelos paramétricos, rígidos y estrictos que p , g y qpuedan estar alejados de la realidad de las observaciones

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 8: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

INTRODUCCIÓN• Aprendizaje automático (Mitchell)

E (datos) T (algoritmo) P (comportamiento)

Hay aprendizaje si Hay aprendizaje si TT mejora mejora PP al observar al observar EE

© O. González-Recio. 2009. Machine Learning en selección genómica.

Hay aprendizaje si Hay aprendizaje si TT mejora mejora PP al observar al observar EE

Page 9: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

INTRODUCCIÓN• Aprendizaje automático (Elementos básicos)

– Experiencias o ejemplos (Features or instances)p j p ( )– Tarea

Medida de comPortamiento– Medida de comPortamiento

E (datos) T (algoritmo) P (comportamiento)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 10: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

INTRODUCCIÓN• Dado: Una colección de Ejemplos de un

concepto, clase, categoría (…)p , , g ( )

P d i U d i ió ió (T)• Producir: Una descripción o ecuación (T) que cubra todos, o la mayoría de los ejemplos y que Prediga el valor, clase o categoría de futuros ejemplosfuturos ejemplos

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 11: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

ÍNDICE• Introducción• Diseño de un sistema de aprendizajeDiseño de un sistema de aprendizaje• Teoría de la información• Regresiones no-paramétricas

– Regresion no-paramétrica simpleRegresion no paramétrica simple– RKHS

E bl h d (“Al i d j ”)• Ensemble methods (“Algoritmos de conjunto”)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 12: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

DISEÑO DE UN SISTEMA DE APRENDIZAJE

• Training/tunning/testingDatos (E)

Validación cruzada

Datos (E)

tradicional

(3-fold CV)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 13: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

DISEÑO DE UN SISTEMA DE APRENDIZAJE

• Training/tuning/testingDatos (E)

TRAINING SET E (training set)Datos (E)

T (algoritmo)

unin

g se

t

TRAINING SET SE

T

TESTING SET P (comportamiento

tuTRAINING SETTE

STI

NG

TESTING SET en testing set)

El tuning set realiza tareas de

T

goptimización de variables y parámetros del algoritmo necesarios para realizar las predicciones

© O. González-Recio. 2009. Machine Learning en selección genómica.

p p

Page 14: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

DISEÑO DE UN SISTEMA DE APRENDIZAJE

• Antes de empezar:– Preguntarnos que queremos responderg q q p– Que situación cabe esperar

Diseñar el training y el testing set en consecuencia– Diseñar el training y el testing set en consecuencia

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 15: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

DISEÑO DE UN SISTEMA DE APRENDIZAJE

• Ejemplo (Weigel et al., JDS2009):– Vacuno de leche. Generaciones solapadas.p– Objetivo actual de la selección genómica:

• PREDECIR EL VALOR GENÉTICO DE ANIMALES• PREDECIR EL VALOR GENÉTICO DE ANIMALES JÓVENES CANDIDAT@S A REPRODUCTORES CON MAYOR FIABILIDAD

4703 toros genotipados (1952 2002) con Illumina– 4703 toros genotipados (1952-2002) con Illumina bovine 50K beadchip.

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 16: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

DISEÑO DE UN SISTEMA DE APRENDIZAJE

Ej l (W i l l JDS2009)• Ejemplo (Weigel et al., JDS2009):

E (3304 toros P (1398 torosE (3304 toros nacidos antes

de 1998)T (algoritmo)

P (1398 toros nacidos despues

de 1999)86% hijos de training set

– La disponibilidad de fenotipos y genotipos es continua (no

71% nietos del training set

p p y g p (se plantea número de generaciones sin fenotipar en las que la selección genómica es válida).S i f ió d t d l i ( l á– Se usa información de todas las generaciones (o las más cercana) disponibles para estimar GBV-PTA.

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 17: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

DISEÑO DE UN SISTEMA DE APRENDIZAJE

Ej l (W i l l JDS2009)• Ejemplo (Weigel et al., JDS2009):– Predicción del PTA futuro , en baja densidad de marcadores

(Utilizando Lasso Bayesiano-BL). )ˆ,( yy

( y )

– Selección de 300, 500, 750, 1000, 1250, 1500 y 2000 SNPa) Equidistantesa) Equidistantesb) Mayor efecto en valor absoluto (media posterior de la estima del

coeficiente de regresión) en un análisis previo usando BL con los 32518 SNPs.SNPs.

– BL con 32518 SNPs como referencia

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 18: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

DISEÑO DE UN SISTEMA DE APRENDIZAJE

Ej l (W i l t l JDS2009)• Ejemplo (Weigel et al., JDS2009):

– Altas fiabilidades incluso a lo largo de varias generaciones (fuerte LD, o

© O. González-Recio. 2009. Machine Learning en selección genómica.

Altas fiabilidades incluso a lo largo de varias generaciones (fuerte LD, o estructuras genómicas familiares que se mantienen a lo largo de varias generaciones).

Page 19: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

ÍNDICE• Introducción• Diseño de un sistema de aprendizajeDiseño de un sistema de aprendizaje• Teoría de la información• Regresiones no-paramétricas

– Regresion no-paramétrica simpleRegresion no paramétrica simple– RKHS

E bl h d (“Al i d j ”)• Ensemble methods (“Algoritmos de conjunto”)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 20: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Teoría de la información• Entropía

– Medida de incertidumbre asociada a variables aleatorias (C.E. Shannon, 1948)

∑H(Pr(Y )) = − Pr(y)log2 Pr(y)y∈A∑

Ver también Long et al (2007)Ver también Long et al. (2007)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 21: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Teoría de la informacióni d i f ió• Ganancia de información

– Diferencia en entropia de una distribución de probabilidad antes y después de observar los genotipos (i.e. cuanta incertidumbre de la di t ib i d l f ti d ldistribucion de los fenotipos se reduce al observar los genotipos de un SNP).

N+ y N- son el numero de individuos en cada categoria (casos/controles; mejores/peores; mejores/medios/peores)

© O. González-Recio. 2009. Machine Learning en selección genómica.

mejores/medios/peores)

Page 22: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Teoría de la informaciónEJEMPLO• EJEMPLO:

– Datos del Consorcio Norteamericano para la Artritis

Análisis de asociación con genoma completo en artritis reumatoide en humanos (Gonzalez-Recio et al., 2009)

– Datos del Consorcio Norteamericano para la Artritis Reumatoide (Plenge et al., 2007).

– 868 casos y 1.194 controlesy– Individuos genotipados con el chip 500K Illumina

(545.080 SNPs).

Obj ti R d ió d di i lid d d l ti dObjetivo: Reducción de dimensionalidad del genotipado para posterior analísis de interacción gen x gen

(250.000x106 interacciones potenciales)

© O. González-Recio. 2009. Machine Learning en selección genómica.

( p )

Page 23: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Teoría de la información

Análisis de asociación con genoma completo en artritis reumatoide en humanos

© O. González-Recio. 2009. Machine Learning en selección genómica.

artritis reumatoide en humanos

(Gonzalez-Recio et al., 2009)

Page 24: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Teoría de la información•100 SNPs fuera del HLA (Percentile 99.65)•En HLA seleccionamos SNPs (de 1.323) usando wrapper

•Wrapper: Realiza una selección de SNPs (Ejemplos, covariables) li d bú d t ó ti d SNP lrealizando una búsqueda para un set óptimo de SNPs para la

clasificación de la variable dependiente (Clasificador ‘Naïve Bayes’) (Long et al., 2007).

Ej l A áli i d i ió l t t iti

© O. González-Recio. 2009. Machine Learning en selección genómica.

Ejemplo: Análisis de asociación con genoma completo en artritis reumatoide en humanos (González-Recio et al., 2009)

Page 25: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Teoría de la informaciónEjemplo: Análisis de asociación con genoma completo en artritis reumatoide en humanos (Gonzalez-Recio et al., 2009)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 26: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Teoría de la información•100 SNPs fuera del HLA (Percentile 99.65)•6 HLA-SNPs seleccionados por el wrapper (de 1.323)

•Lasso Umbral Bayesiano: Efectos ‘mayores’ de los 106 SNPs e Interacciones HLA-nonHLA (2.560 efectos)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Ejemplo: Análisis de asociación con genoma completo en artritis reumatoide en humanos (Gonzalez-Recio et al., 2009)

Page 27: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Teoría de la información

Ej l A áli i d i ió l t t iti

© O. González-Recio. 2009. Machine Learning en selección genómica.

Ejemplo: Análisis de asociación con genoma completo en artritis reumatoide en humanos (Gonzalez-Recio et al., 2009)

Page 28: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Teoría de la información• Ejemplo 2: Predicción de la eficacia de

transformación de alimento en broilers (González-Recio et al., 2009).– Animales genotipados para 4505 SNPs– Selección de 400 SNPs utilizando ganancia de

información. FCR

– Clasificación de individuos según 2 o 3 clases y diferentes percentiles.

{0 025 0 10 0 125 0 15 0 175 0 20}• α= {0.025, 0.10, 0.125, 0.15, 0.175, 0.20}• Clase media: α= (0.40-0.60)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 29: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Teoría de la información• Ejemplo 2: Eficacia de transformación de alimento

en broilers (González-Recio et al., 2009)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 30: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Teoría de la información• Limitaciones

– Se considera únicamente la información de un SNP, sin tener en cuenta el resto.

• Se pueden inferir haplotipos (Chanda et al., 2009;Se pueden inferir haplotipos (Chanda et al., 2009; Schulz et al., 2009)

– Necesario clasificar fenotipos. A veces no esNecesario clasificar fenotipos. A veces no es fácil el “diagnostico”.

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 31: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

ÍNDICE• Introducción• Diseño de un sistema de aprendizajeDiseño de un sistema de aprendizaje• Teoría de la información• Regresiones no-paramétricas

– Regresion no-paramétrica simpleRegresion no paramétrica simple– RKHS

E bl h d (“Al i d j ”)• Ensemble methods (“Algoritmos de conjunto”)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 32: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Regresión no-paramétrica simple• Ejemplo:

regresion no paramétrica4

60

2y

-4 -3 -2 -1 0 1 2

-4-2

-4 -3 -2 -1 0 1 2

x

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 33: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Regresión no-paramétrica simple

),...,1()( niexgy iii ∈+=“Kernel regression”

ix codificación del genotipo del

animal i }{ ie=e residuos

función desconocida que )( ig x

relaciona la variable x (genotipo) del animal i, que representa el

valor fenotípico esperado de los

© O. González-Recio. 2009. Machine Learning en selección genómica.

animales con dicho genotipo33

Page 34: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Regresión no-paramétrica simple

),...,1()( niexgy iii ∈+=“Kernel regression”

g(x) =conditional expectation function

),()(

xx

dyyypg ∫=

g(x) conditional expectation function.

Nadaraya-Watson estimator(Nadaraya 1964; Watson 1964) )(

)(x

xp

g(Nadaraya, 1964; Watson, 1964)

∫ ∑≈n

xXKydyyp )(1)( yx∫ ∑=

−≈j

jhjqi xXKynh

dyyp1

)(),( yx

∑ −≈n

jhi xXKp )(1)(x=)( ixg

© O. González-Recio. 2009. Machine Learning en selección genómica.

∑=j

jhqi xXKnh

p1

)()(x

Page 35: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

KERNELs. El otro lado ...f i id i ili d d• Son ‘funciones’ que miden similitud entre dos

‘ejemplos’ K(xi, xj)j• Determina distancias no lineales en el espacio

de las características ‘feature space’p• Se pueden formular como el producto escalar

en un determinado espacioen un determinado espacio.

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 36: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

KERNELs. • Partes básicas de un kernel:

)),((),( 1jijih xxdisthfxxK −=

• f es una determinada funcióndi ( ) l di i i ili d l• dist(xi,xj) es la distancia o similitud entre los ejemplos xi y xj (genotipos)

• h es un parámetro optimizable ‘tuneable’ que regulariza la medida de similitud

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 37: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

KERNELs. Ej l d k l• Ejemplos de kernel:

– Kernel gaussiano

Kernel triangular

))(exp(),( 21jijih xxhxxK −−= −

1)1()( = xxhxxK– Kernel triangular

– Kernel Epanechnikov }1){(21 ))(1(

43),( ≤−

− −−=ji xxjijih xxhxxK 1

11)1(),(≤−

−−=ji xxjijih xxhxxK

– …• La regresion es lineal en los kernels, pero puede

4

no ser lineal en el espacio original si el kernel es una función NO lineal (Representación dual; ver Gi l V K 2008 W hb 1990 1999)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Gianola y Van Kaam, 2008; Wahba 1990,1999).

Page 38: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

KERNELs. • Optimización del parámetro h:

– Kernel gaussiano ))(

exp()(2xx

xxK ji −=g )exp(),(h

xxK jih −=

h= 100h= 0.01

2500

00

Freq

uenc

y

4e+0

48e

+04

Freq

uenc

y

050

000

1500

00

h= 3

0012

0000

K

0.4 0.5 0.6 0.7 0.8 0.9 1.0

0e+0

0

K

0.0 0.2 0.4 0.6 0.8 1.0

•Individuos emparentados

Freq

uenc

y

040

000

8000 Individuos emparentados,

valor próximo a 1.

•Individuos no emparentados valor próximo

© O. González-Recio. 2009. Machine Learning en selección genómica.

K

0.0 0.2 0.4 0.6 0.8 1.0

emparentados valor próximo a 0

Page 39: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Regresión no-paramétrica simple• Optimización del parámetro h

h= 0.01

y 0025

0000

“Over fitting”

Freq

uenc

y

0.0 0.2 0.4 0.6 0.8 1.0

050

000

1500

0

h= 100

quen

cy

048e

+04

K

“Over smooth”

h 3K

Freq

0.4 0.5 0.6 0.7 0.8 0.9 1.0

0e+0

04e

+0

“P á t h ti i d ”h= 3

Freq

uenc

y

0000

8000

012

0000 “Parámetro h optimizado”

© O. González-Recio. 2009. Machine Learning en selección genómica.K

0.0 0.2 0.4 0.6 0.8 1.0

040

Page 40: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Regresión NO-Paramétrica.RADIAL BASIS FUNCTIONS (RBF)

• Long et al. (2009)– Función de kernel radial, no lineal,– Regresión sobre mega-SNPs (clusters)

Diferente (RBF I) o igual (RBF II) peso– Diferente (RBF I) o igual (RBF II) peso (parámetro h) para el kernel de cada mega-SNP.

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 41: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

REPRODUCING KERNEL HILBERT SPACES

• Espacios de Hilbert con núcleo reproducible

(Gianola et al., 2006; Gianola and Van Kaam, 2008; González-Recio et al., 2008)

Espacios de Hilbert con núcleo reproducible.• RKHS

222

1 ||)(||)]([)]([]|)([ HggggJ xxβXyRxβXyx 1 λλ +−′−−′−= −

λ añade variablidad.

Es una norma en 2||)(|| Hg x

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 42: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

RKHS

⎤⎡ ′

222

1 ||)(||)]([)]([]|)([ HggggJ xxβXyRxβXyx 1 λλ +−′−−′−= −

αKαk

k

X h

h

hg ⎥⎥⎥⎤

⎢⎢⎢⎡

)(

)(

)|(

1

M ],...,,[ 10 ′= qαααααKα

k

kX hj

h

hhg =

⎥⎥⎥⎥⎥

⎦⎢⎢⎢⎢⎢

⎣ ′

=

)(

)()|(

M

⎥⎥⎤

⎢⎢⎡

= ...),(...),(),(),( 1111

jih

nhjhh

h xxKxxKxxKxxK KK

Kk q h ⎥⎦⎢⎣ )(⎥⎥⎦⎢

⎢⎣ ),(),(),(

),(

1 nnhjnhnh

jihh

xxKxxKxxK KK

),0(~,| 11 −− λλ hNh Kα222

221 ~ −−αυαα χυλ s

© O. González-Recio. 2009. Machine Learning en selección genómica.

),0(~ Re N222 ~ −eeee s υχυσ

Page 43: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

RKHS• Expresado en forma matricial

eKαXβ1y +++= µ eKαXβ1y +++µ

⎤⎡⎤⎡⎥⎤

⎢⎡ −−− yRXKRXXRX 1

λ hh 'ˆ'' 11 β

⎥⎥⎦

⎢⎢⎣

′=

⎥⎥⎦

⎢⎢⎣

⎥⎥⎦

⎢⎢⎣

+′′ −−−− yRK

yRXαKKRKXRK

KRXXRX1

hλ,h

λ,h

hhhh

h

ˆ1111

β

λ

K =matriz de kernels que mide similitud genómica entre individuos en un espacio no Euclideanoentre individuos en un espacio no Euclideano

α =vector de coeficientes no paramétricos

© O. González-Recio. 2009. Machine Learning en selección genómica.

λ-1 es la varianza de los coeficientes no paramétricos

Page 44: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

RKHS

Individuos (1 t)

Matriz de Kernels (K)

Individuos (1,t)(1

,n)

),( jih xxK

vidu

os

Indi

v

K debe ser semidefinida positiva

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 45: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

RKHS• Equivalencia (reparametrización) (De los Campos et al.,

2009) αKuGEBV ˆˆ ==

(1) (2)

⎥⎦

⎤⎢⎣

⎡′

=⎥⎥⎦

⎢⎢⎣

⎥⎥⎦

⎢⎢⎣

+′′ −− yZ

yXuKZZXZ

ZXXX 'ˆ

ˆ''1

1

2

λ,h

λ,h

he

β

λσ⎥

⎥⎦

⎢⎢⎣

′=

⎥⎥⎦

⎢⎢⎣

⎥⎥⎦

⎢⎢⎣

+′′ −

−−

−−

− yRKyRX

αKKRKXRK

KRXXRX1

1

hλ,h

λ,h

hhhh

h 'ˆ

ˆ''

1111

11 β

λ

(1) (2)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Por conveniencia se usa (1), ya que invertir K puede no ser trivial

Page 46: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Capacidad predictiva en el carácter mortalidad en broilers (González-Recio et al., GENETICS2008)

• Predicción del caracter mortalidad en broilers bajo condiciones sanitarias suboptimas.

• 24 SNPs seleccionados por Long et al. (2007)• MétodosMétodos

– BLUP Bayesiano (E-BLUP)– Regresión sobre marcadores (LR)Regresión sobre marcadores (LR)– “Kernel regression” (kernel trinomial)– RKHS (kernel exponencial similitud de secuencias)RKHS (kernel exponencial similitud de secuencias)– Regresión Bayesiana

• 5 fold CV en la misma población

© O. González-Recio. 2009. Machine Learning en selección genómica.

• 5-fold CV en la misma población

Page 47: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Capacidad predictiva en el carácter mortalidad en broilers (González-Recio et al., GENETICS2008)

• 24 SNPs seleccionados por Long et al. (2007)• 5-fold CV en la misma poblaciónp

•Mejor capacidad predictiva con RKHS

200% mayor fiabilidad que BLUP–200% mayor fiabilidad que BLUP–300% mayor fiabilidad que LR

•En general, los métodos no-paramétricos mejor comportamiento que la regresión lineal•Resultados más estables con laResultados más estables con la regresión Bayesiana.

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 48: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Capacidad predictiva en el carácter FCR en broilers (González-Recio et al., GSE2009)

• Ejemplo 2: Predicción de la eficacia de transformación de alimento en broilers (González-Recio et al., 2009).– Animales genotipados para 4505 SNPs– Predicción en futuras generaciones (2-fold CV)– Métodos

• Índice de pedigrí• Bayes A

RKHS• RKHS

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 49: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Capacidad predictiva en el carácter FCR en broilers (González-Recio et al., GSE2009)

• Ejemplo 2: Predicción de la eficacia deEjemplo 2: Predicción de la eficacia de transformación de alimento en broilers (González Recio et al 2009)(González-Recio et al., 2009).– Animales genotipados para 4505 SNPs– Selección de 400 SNPs utilizando ganancia de

información.• 2-fold CV en generaciones diferentes

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 50: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

ÍNDICE• Introducción• Diseño de un sistema de aprendizajeDiseño de un sistema de aprendizaje• Teoría de la información• Regresiones no-paramétricas

– Regresion no-paramétrica simpleRegresion no paramétrica simple– RKHS

E bl h d (“Al i d j ”)• Ensemble methods (“Algoritmos de conjunto”)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 51: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Algoritmos de conjunto (Ensemble methods)

bi ió d d l ( l• Combinación de modelos (generalmente sencillos). Forman un ‘comité’.

• Juntos poseen mayor capacidad predictiva que por separado. p p

• Poseen propiedades estadísticas conocidas. No son ‘cajas negras’son cajas negras .

• Más usados:– Bagging (Breiman, 1996)– Boosting (Freund and Schapire 1995, 1996)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 52: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Algoritmos de conjunto (Ensemble methods)

i ( i )• Bagging (Breiman, 1996)– Bootstrap aggregating

– Set de datos ),( Xy=Ψ1. Realizamos B muestreos con reposición,

generando B nuevos sets de datos.

),(y

g)b(Ψ b=(1,…,B)

2. Aplicamos el método de elección sobre los B sets.3 Promediamos las soluciones

© O. González-Recio. 2009. Machine Learning en selección genómica.

3. Promediamos las soluciones.

Page 53: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

BAGGING

• Reduce los errores de predicción en un factor 1/B al promediar errores p

Li i ió i d d i l• Limitación: se asume independencia entre los residuos.

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 54: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

BAGGING. Ejemplo.

id d i ( ) d l h• Vida productiva (PL PTA) en vacuno de lecheE (3304 toros P (1398 torosE (3304 toros nacidos antes

de 1998)T (algoritmo)

P (1398 toros nacidos despues

de 1999)86% hijos de training set

• LASSO Bayesiano utilizando 500, 1000, 1500 71% nietos del training set

o 2000 SNPs seleccionados por ganancia de información.

• Predicción en futuras generaciones• Bagging sobre LASSO Bayesiano

© O. González-Recio. 2009. Machine Learning en selección genómica.

• Bagging sobre LASSO Bayesiano

Page 55: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

BAGGING

• Correlación de Pearson en testing set)ˆ,( yy

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 56: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

BAGGING

– Ofrece mayores ventajas cuanto más ruido hay en y j ylos datos (reducido número de datos, baja densidad de marcadores, poblaciones pequeñas, , p p q ,…).

– Puede mejorar dificilmente empeorar lasPuede mejorar, dificilmente empeorar las predicciones.

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 57: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Algoritmos de conjunto (Ensemble methods)

• Boosting (Freund and Schapire, 1995, 1996)– Las predicciones se realizan a través de un p

conjunto de predictores o “learners” que ‘aprenden’ del comportamiento de los anterioresp p

– Originalmente se usó en problemas de clasificación (AdaBoost)clasificación (AdaBoost).

– Friedman lo extendió a problemas de regresión en 20012001.

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 58: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Algoritmos de conjunto (Ensemble methods)

• Boosting (Freund and Schapire, 1995, 1996)– Es uno de los métodos más potentes introducido p

en el campo del “machine learning“ en los últimos 20 años.

– Utiliza regresores débiles “weak learners”, que son aquellos cuyo comportamiento es algo mejorson aquellos cuyo comportamiento es algo mejor que la asignación aleatoria.

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 59: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

BOOSTINGC f i bl d ió• Como funciona en problemas de regresión:

)(xgE (datos)“Weak learner”

)(0 xgE (datos)

r1 (residuos) )(1 xg

r2 (residuos) )(2 xg Variable de contracción

)(xgm

( id )

…∑=

=m

iii xgwy

1)(ˆ

contracción

– En problemas de clasificación los residuos se sustituyen por una ponderación de las observaciones

rm+1 (residuos) =i 1

© O. González-Recio. 2009. Machine Learning en selección genómica.

ponderación de las observaciones

Page 60: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

BOOSTING• De gran utilidad para problemas de p>>n.

– Bühlmann y Yu (2003), con función L2 de y ( ),pérdidas y realizando selección de covariables

• Se pueden interpretar como técnicas de• Se pueden interpretar como técnicas de descenso de gradiente y también como

i d i d Hilbsecuencias de espacios de Hilbert.

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 61: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

BOOSTINGC f i bl d• Como funciona en problemas de gran dimensionalidad (Selección Genómica):

1 I i i li ió 0 D d i– 1. Inicialización. m=0. Dado y, asignamos rm=y– 2. Incrementamos m en 1 unidad. Ajustamos el “weak

learner” a r con cada uno de los SNPs por separadolearner a rm con cada uno de los SNPs por separadorm =gm(xp)+e

– 3. Búsqueda unidimensional del SNP p que mejor ajusta los datos (mejor predictor), donde

⎥⎦

⎤⎢⎣

⎡−= ∑

=

n

ipimi xrp

1

2,, )(minarg

– 4. Actualizamos rm+1= rm- gm(xp), y se repiten los pasos 2-4 hasta alcanzar un criterio de convergencia.

© O. González-Recio. 2009. Machine Learning en selección genómica.

g

Page 62: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

BOOSTING (González-Recio et al., en revisión)

• Vida productiva (PTA) en vacuno de leche

E (3304 toros P (1398 torosE (3304 toros nacidos antes

de 1998)T (algoritmo)

P (1398 toros nacidos despues

de 1999)86% hijos de training set

• Bayesian LASSO vs L2-Boosting71% nietos del training set

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 63: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

BOOSTING (González-Recio et al., en revisión)

• MSE en training set (Inferencia)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 64: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

BOOSTING (González-Recio et al., en revisión)

• MSE en testing set

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 65: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

BOOSTING (González-Recio et al., en revisión)

• MSE en testing set (Predicción)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 66: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

BOOSTING (González-Recio et al., en revisión)

• Correlación de Pearson )ˆ,( yy

)ˆ(corBL (32611) 0.66

)ˆ,( yy

OLS-Boost(1330) 0.63BL (1330) 0 59BL (1330) 0.59NP-Boost (92) 0.45BL (92) 0.39

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 67: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

BOOSTING• Gran capacidad predictiva• Prometedor método en estudios de asociación con

genoma completo y selección genómica• Eficiente en la selección de SNPs y reducción de laEficiente en la selección de SNPs y reducción de la

dimensionalidad del problema

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 68: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

RESUMEN

A tener en cuentaA tener en cuenta

Page 69: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Machine Learning• Puede usarse en GWAS y en selección

genómica.g• Permite tratar grandes cantidades de genotipos

de manera más flexible sin tener que hacerde manera más flexible, sin tener que hacer asunciones alejadas de la realidad.

• Alta capacidad predictiva para el comportamiento de futuras generaciones.comportamiento de futuras generaciones.

© O. Gonzalez-Recio. 2009. Machine Learning en selección genómica.

Page 70: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Machine Learning en SELECCIÓN GENÓMICA

• Centrarse en el comportamiento de los métodos:capacidad predictiva.

• Importancia del diseño del sistema de aprendizaje– Validación cruzada.– Diseño que se ajuste a la realidad y al problema que

queremos resolver.

• Importancia de usar fenotipos y genotipos de nuestras poblaciones. Conclusiones sacadas de problemas y p p ysistemas biológicos que nos ocupan.

© O. Gonzalez-Recio. 2009. Machine Learning en selección genómica.

Page 71: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

SELECCIÓN GENÓMICA• Genotipado de una población es caro. Diseño de genotipado

que optimice recursos.Genotipado secuencial– Genotipado secuencial.

– Enfásis en el diseño del primer genotipado (uso del chip más caro).

• Mucho por hacer (investigación y aplicación). – Genotipar poblaciones y aprender de ellas (colaboración y unión deGenotipar poblaciones y aprender de ellas (colaboración y unión de

recursos).– <1% del conocimiento¿? --> Necesitario seguir investigando para

j l i i t d l i t éti l ibilid dmejorar el conocimiento de los sistemas genéticos y las posibilidades de la selección genómica.

© O. Gonzalez-Recio. 2009. Machine Learning en selección genómica.

Page 72: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

SELECCIÓN GENÓMICAFUTURO• FUTURO– Prometedor

• Nutrigenómicag• Proteómica• Epigenética• Medicina personalizadaMedicina personalizada• Acoplamientos genómicos• Genomica aplicada a sistemas productivos•• …

– Otras nuevas tecnologías o conocimientos en unos años– Nuevas eras– Nuevos métodos– Nuevas estrategias– avanzar

© O. Gonzalez-Recio. 2009. Machine Learning en selección genómica.

… avanzar

Page 73: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Bibliografía• Breiman L 1996 Bagging predictors Machine Learning 24: 123 140• Breiman, L, 1996 Bagging predictors. Machine Learning 24: 123–140.• Bühlmann, P, B. Yu, 2003 Boosting with the L2 loss: regression and classification. J. Amer. Statist. Assoc. 98: 324-339.• Freund, Y., R. E. Schapire, 1996 Experiments with a new boosting algorithm. In L Saitta (Ed.) Thirteen International

conference on Machine Learning, pp. 158-156. Morgan Kaufmann.• Gianola, D., R.L. Fernando, A. Stella, 2006 Genomic-assisted prediction of genetic value with semiparametric procedures.

Genetics 173: 1761-1776Genetics 173: 1761 1776.• Gonzalez-Recio O., D. Gianola, N. Long, K.A. Weigel, G.J.M. Rosa, S. Avendaño, 2008 Nonparametric methods for

incorporating genomic information into genetic evaluations: An application to mortality in broilers. Genetics 178: 2305-2313.• Gonzalez-Recio O., D. Gianola, G.J.M. Rosa, K.A. Weigel, A. Kranis, 2009 Genome-assisted prediction of a quantitative

trait measured in parents and progeny: application to food conversion rate in chickens. Genetics Selection Evolution 41: 3.• Gonzalez-Recio O., K.A. Weigel, D. Gianola, H. Naya, G.J.M. Rosa, en revision L2 Boosting to reduce dimensionality inGonzalez Recio O., K.A. Weigel, D. Gianola, H. Naya, G.J.M. Rosa, en revision L2 Boosting to reduce dimensionality in

genomic selection. Genetics.• González-Recio O., E. Lopez de Maturana, T. Vega, K. Broman, C. Engelman, 2009 Detecting SNP by SNP interactions in

rheumatoid arthritis using a two step approach with Machine learning and a Bayesian Threshold LASSO model. BMC GENETICS, (Aceptado)

• Long, N., D. Gianola, GJM. Rosa, KA. Weigel, S. Avendaño, 2007 Machine learning classification procedure for selecting i i l i li i l li i b il i d ( )SNPs in genomic selection: Application to early mortality in broilers. J. Anim. Breed. Genet. 124 (6): 377-389.

• Long N, D. Gianola, GJM. Rosa, KA. Weigel, A. Kranis, O. Gonzalez-Recio. Radial basis function regression methods for predicting quantitative traits using SNP markers.(accepted)

• Nadaraya, E.A., 1964 On estimating regression. Theor. Probab. Appl. 9: 141-142.• Watson, G. S., 1964 Smooth regression analysis. Sankhya A 26: 359-372.• Weigel, K. A., G. de los Campos, O. González-Recio, H. Naya, X. L. Wu, N. Long, G.J.M. Rosa, D. Gianola, 2009

Predictive ability of genomic breeding values computed from selected subsets of single nucleotide polymorphism markers for lifetime net merit in Holstein cattle. J. Dairy Sci. 92: 5248-5257.

© O. González-Recio. 2009. Machine Learning en selección genómica.

Page 74: MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica Zaragoza/Machine... · 2016-09-12 · INTRODUCCIÓN • Aprendizaje automático – Algoritmos eficientes

Bibliografía• Libros:

Bishopp

Mitchell

Hastie,Tibshirani&Friedman

© O. González-Recio. 2009. Machine Learning en selección genómica.