MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN …acteon.webs.upv.es/docs/Genomica...

Preview:

Citation preview

MACHINE LEARNINGMACHINE LEARNING EN SELECCIÓN GENÓMICA

Oscar González-RecioOscar González Reciogonzalez.oscar@inia.es

COLABORADORES y AGRADECIMIENTOS

• K. Broman • D. Gianola• C. Engelman • K.A. Weigel

• G.J.M. Rosa• N. Long• G. de los Campos

• P. Van Raden• K. Van Tassell p

• H. Naya• E. López de Maturana

• G. Wiggans

p

• S. Avendañoi

© O. González-Recio. 2009. Machine Learning en selección genómica.

• T. Vega • A. Kranis

ÍNDICE• Introducción• Diseño de un sistema de aprendizajeDiseño de un sistema de aprendizaje• Teoría de la información• Regresiones no-paramétricas

– Regresion no-paramétrica simpleRegresion no paramétrica simple– RKHS

E bl h d (“Al i d j ”)• Ensemble methods (“Algoritmos de conjunto”)

© O. González-Recio. 2009. Machine Learning en selección genómica.

INTRODUCCIÓN• Aprendizaje Automático

– ¿Pueden pensar y aprender las máquinas?¿ p y p q

Aprendizaje– Aprendizaje = • a) realizar cambios útiles en nuestra mente

b) bi i i li• b) cambios en un sistema que nos permiten realizar una determinada tarea de forma más eficiente la próxima vez

© O. González-Recio. 2009. Machine Learning en selección genómica.

INTRODUCCIÓN• Aprendizaje automático

– Algoritmos eficientes en ciertas tareas de aprendizaje• Ej: Reconocimiento de voz, juegos de estrategia (ajedrez),

tratamiento de imágenes, búsquedas web, clasificación de constelaciones, predicción meteorológica, conducción automática co ste ac o es, p ed cc ó eteo o óg ca, co ducc ó auto át cade vehículos.

• DATA MINING aplicadas a grandes bases de datos (bancarios, financieros médicos bio estadísticos)financieros, médicos, bio-estadísticos)

– No va en contra del ‘state of Nature’No va en contra del state of Nature– Sí puede ser Bayesiano

© O. González-Recio. 2009. Machine Learning en selección genómica.

INTRODUCCIÓN• Aprendizaje automático

– Campo multidisciplinarp p– Aplicado a genética animal, incluye

• Bio Informática• Bio-Informática• Estadística• Genética cuantitativa• Genética cuantitativa• Genética molecular• Prod cción animal• Producción animal• …colaboración

© O. González-Recio. 2009. Machine Learning en selección genómica.

INTRODUCCIÓN• Aprendizaje automático

– Evita modelos paramétricos, rígidos y estrictos que p , g y qpuedan estar alejados de la realidad de las observaciones

© O. González-Recio. 2009. Machine Learning en selección genómica.

INTRODUCCIÓN• Aprendizaje automático (Mitchell)

E (datos) T (algoritmo) P (comportamiento)

Hay aprendizaje si Hay aprendizaje si TT mejora mejora PP al observar al observar EE

© O. González-Recio. 2009. Machine Learning en selección genómica.

Hay aprendizaje si Hay aprendizaje si TT mejora mejora PP al observar al observar EE

INTRODUCCIÓN• Aprendizaje automático (Elementos básicos)

– Experiencias o ejemplos (Features or instances)p j p ( )– Tarea

Medida de comPortamiento– Medida de comPortamiento

E (datos) T (algoritmo) P (comportamiento)

© O. González-Recio. 2009. Machine Learning en selección genómica.

INTRODUCCIÓN• Dado: Una colección de Ejemplos de un

concepto, clase, categoría (…)p , , g ( )

P d i U d i ió ió (T)• Producir: Una descripción o ecuación (T) que cubra todos, o la mayoría de los ejemplos y que Prediga el valor, clase o categoría de futuros ejemplosfuturos ejemplos

© O. González-Recio. 2009. Machine Learning en selección genómica.

ÍNDICE• Introducción• Diseño de un sistema de aprendizajeDiseño de un sistema de aprendizaje• Teoría de la información• Regresiones no-paramétricas

– Regresion no-paramétrica simpleRegresion no paramétrica simple– RKHS

E bl h d (“Al i d j ”)• Ensemble methods (“Algoritmos de conjunto”)

© O. González-Recio. 2009. Machine Learning en selección genómica.

DISEÑO DE UN SISTEMA DE APRENDIZAJE

• Training/tunning/testingDatos (E)

Validación cruzada

Datos (E)

tradicional

(3-fold CV)

© O. González-Recio. 2009. Machine Learning en selección genómica.

DISEÑO DE UN SISTEMA DE APRENDIZAJE

• Training/tuning/testingDatos (E)

TRAINING SET E (training set)Datos (E)

T (algoritmo)

unin

g se

t

TRAINING SET SE

T

TESTING SET P (comportamiento

tuTRAINING SETTE

STI

NG

TESTING SET en testing set)

El tuning set realiza tareas de

T

goptimización de variables y parámetros del algoritmo necesarios para realizar las predicciones

© O. González-Recio. 2009. Machine Learning en selección genómica.

p p

DISEÑO DE UN SISTEMA DE APRENDIZAJE

• Antes de empezar:– Preguntarnos que queremos responderg q q p– Que situación cabe esperar

Diseñar el training y el testing set en consecuencia– Diseñar el training y el testing set en consecuencia

© O. González-Recio. 2009. Machine Learning en selección genómica.

DISEÑO DE UN SISTEMA DE APRENDIZAJE

• Ejemplo (Weigel et al., JDS2009):– Vacuno de leche. Generaciones solapadas.p– Objetivo actual de la selección genómica:

• PREDECIR EL VALOR GENÉTICO DE ANIMALES• PREDECIR EL VALOR GENÉTICO DE ANIMALES JÓVENES CANDIDAT@S A REPRODUCTORES CON MAYOR FIABILIDAD

4703 toros genotipados (1952 2002) con Illumina– 4703 toros genotipados (1952-2002) con Illumina bovine 50K beadchip.

© O. González-Recio. 2009. Machine Learning en selección genómica.

DISEÑO DE UN SISTEMA DE APRENDIZAJE

Ej l (W i l l JDS2009)• Ejemplo (Weigel et al., JDS2009):

E (3304 toros P (1398 torosE (3304 toros nacidos antes

de 1998)T (algoritmo)

P (1398 toros nacidos despues

de 1999)86% hijos de training set

– La disponibilidad de fenotipos y genotipos es continua (no

71% nietos del training set

p p y g p (se plantea número de generaciones sin fenotipar en las que la selección genómica es válida).S i f ió d t d l i ( l á– Se usa información de todas las generaciones (o las más cercana) disponibles para estimar GBV-PTA.

© O. González-Recio. 2009. Machine Learning en selección genómica.

DISEÑO DE UN SISTEMA DE APRENDIZAJE

Ej l (W i l l JDS2009)• Ejemplo (Weigel et al., JDS2009):– Predicción del PTA futuro , en baja densidad de marcadores

(Utilizando Lasso Bayesiano-BL). )ˆ,( yy

( y )

– Selección de 300, 500, 750, 1000, 1250, 1500 y 2000 SNPa) Equidistantesa) Equidistantesb) Mayor efecto en valor absoluto (media posterior de la estima del

coeficiente de regresión) en un análisis previo usando BL con los 32518 SNPs.SNPs.

– BL con 32518 SNPs como referencia

© O. González-Recio. 2009. Machine Learning en selección genómica.

DISEÑO DE UN SISTEMA DE APRENDIZAJE

Ej l (W i l t l JDS2009)• Ejemplo (Weigel et al., JDS2009):

– Altas fiabilidades incluso a lo largo de varias generaciones (fuerte LD, o

© O. González-Recio. 2009. Machine Learning en selección genómica.

Altas fiabilidades incluso a lo largo de varias generaciones (fuerte LD, o estructuras genómicas familiares que se mantienen a lo largo de varias generaciones).

ÍNDICE• Introducción• Diseño de un sistema de aprendizajeDiseño de un sistema de aprendizaje• Teoría de la información• Regresiones no-paramétricas

– Regresion no-paramétrica simpleRegresion no paramétrica simple– RKHS

E bl h d (“Al i d j ”)• Ensemble methods (“Algoritmos de conjunto”)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Teoría de la información• Entropía

– Medida de incertidumbre asociada a variables aleatorias (C.E. Shannon, 1948)

∑H(Pr(Y )) = − Pr(y)log2 Pr(y)y∈A∑

Ver también Long et al (2007)Ver también Long et al. (2007)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Teoría de la informacióni d i f ió• Ganancia de información

– Diferencia en entropia de una distribución de probabilidad antes y después de observar los genotipos (i.e. cuanta incertidumbre de la di t ib i d l f ti d ldistribucion de los fenotipos se reduce al observar los genotipos de un SNP).

N+ y N- son el numero de individuos en cada categoria (casos/controles; mejores/peores; mejores/medios/peores)

© O. González-Recio. 2009. Machine Learning en selección genómica.

mejores/medios/peores)

Teoría de la informaciónEJEMPLO• EJEMPLO:

– Datos del Consorcio Norteamericano para la Artritis

Análisis de asociación con genoma completo en artritis reumatoide en humanos (Gonzalez-Recio et al., 2009)

– Datos del Consorcio Norteamericano para la Artritis Reumatoide (Plenge et al., 2007).

– 868 casos y 1.194 controlesy– Individuos genotipados con el chip 500K Illumina

(545.080 SNPs).

Obj ti R d ió d di i lid d d l ti dObjetivo: Reducción de dimensionalidad del genotipado para posterior analísis de interacción gen x gen

(250.000x106 interacciones potenciales)

© O. González-Recio. 2009. Machine Learning en selección genómica.

( p )

Teoría de la información

Análisis de asociación con genoma completo en artritis reumatoide en humanos

© O. González-Recio. 2009. Machine Learning en selección genómica.

artritis reumatoide en humanos

(Gonzalez-Recio et al., 2009)

Teoría de la información•100 SNPs fuera del HLA (Percentile 99.65)•En HLA seleccionamos SNPs (de 1.323) usando wrapper

•Wrapper: Realiza una selección de SNPs (Ejemplos, covariables) li d bú d t ó ti d SNP lrealizando una búsqueda para un set óptimo de SNPs para la

clasificación de la variable dependiente (Clasificador ‘Naïve Bayes’) (Long et al., 2007).

Ej l A áli i d i ió l t t iti

© O. González-Recio. 2009. Machine Learning en selección genómica.

Ejemplo: Análisis de asociación con genoma completo en artritis reumatoide en humanos (González-Recio et al., 2009)

Teoría de la informaciónEjemplo: Análisis de asociación con genoma completo en artritis reumatoide en humanos (Gonzalez-Recio et al., 2009)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Teoría de la información•100 SNPs fuera del HLA (Percentile 99.65)•6 HLA-SNPs seleccionados por el wrapper (de 1.323)

•Lasso Umbral Bayesiano: Efectos ‘mayores’ de los 106 SNPs e Interacciones HLA-nonHLA (2.560 efectos)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Ejemplo: Análisis de asociación con genoma completo en artritis reumatoide en humanos (Gonzalez-Recio et al., 2009)

Teoría de la información

Ej l A áli i d i ió l t t iti

© O. González-Recio. 2009. Machine Learning en selección genómica.

Ejemplo: Análisis de asociación con genoma completo en artritis reumatoide en humanos (Gonzalez-Recio et al., 2009)

Teoría de la información• Ejemplo 2: Predicción de la eficacia de

transformación de alimento en broilers (González-Recio et al., 2009).– Animales genotipados para 4505 SNPs– Selección de 400 SNPs utilizando ganancia de

información. FCR

– Clasificación de individuos según 2 o 3 clases y diferentes percentiles.

{0 025 0 10 0 125 0 15 0 175 0 20}• α= {0.025, 0.10, 0.125, 0.15, 0.175, 0.20}• Clase media: α= (0.40-0.60)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Teoría de la información• Ejemplo 2: Eficacia de transformación de alimento

en broilers (González-Recio et al., 2009)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Teoría de la información• Limitaciones

– Se considera únicamente la información de un SNP, sin tener en cuenta el resto.

• Se pueden inferir haplotipos (Chanda et al., 2009;Se pueden inferir haplotipos (Chanda et al., 2009; Schulz et al., 2009)

– Necesario clasificar fenotipos. A veces no esNecesario clasificar fenotipos. A veces no es fácil el “diagnostico”.

© O. González-Recio. 2009. Machine Learning en selección genómica.

ÍNDICE• Introducción• Diseño de un sistema de aprendizajeDiseño de un sistema de aprendizaje• Teoría de la información• Regresiones no-paramétricas

– Regresion no-paramétrica simpleRegresion no paramétrica simple– RKHS

E bl h d (“Al i d j ”)• Ensemble methods (“Algoritmos de conjunto”)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Regresión no-paramétrica simple• Ejemplo:

regresion no paramétrica4

60

2y

-4 -3 -2 -1 0 1 2

-4-2

-4 -3 -2 -1 0 1 2

x

© O. González-Recio. 2009. Machine Learning en selección genómica.

Regresión no-paramétrica simple

),...,1()( niexgy iii ∈+=“Kernel regression”

ix codificación del genotipo del

animal i }{ ie=e residuos

función desconocida que )( ig x

relaciona la variable x (genotipo) del animal i, que representa el

valor fenotípico esperado de los

© O. González-Recio. 2009. Machine Learning en selección genómica.

animales con dicho genotipo33

Regresión no-paramétrica simple

),...,1()( niexgy iii ∈+=“Kernel regression”

g(x) =conditional expectation function

),()(

xx

dyyypg ∫=

g(x) conditional expectation function.

Nadaraya-Watson estimator(Nadaraya 1964; Watson 1964) )(

)(x

xp

g(Nadaraya, 1964; Watson, 1964)

∫ ∑≈n

xXKydyyp )(1)( yx∫ ∑=

−≈j

jhjqi xXKynh

dyyp1

)(),( yx

∑ −≈n

jhi xXKp )(1)(x=)( ixg

© O. González-Recio. 2009. Machine Learning en selección genómica.

∑=j

jhqi xXKnh

p1

)()(x

KERNELs. El otro lado ...f i id i ili d d• Son ‘funciones’ que miden similitud entre dos

‘ejemplos’ K(xi, xj)j• Determina distancias no lineales en el espacio

de las características ‘feature space’p• Se pueden formular como el producto escalar

en un determinado espacioen un determinado espacio.

© O. González-Recio. 2009. Machine Learning en selección genómica.

KERNELs. • Partes básicas de un kernel:

)),((),( 1jijih xxdisthfxxK −=

• f es una determinada funcióndi ( ) l di i i ili d l• dist(xi,xj) es la distancia o similitud entre los ejemplos xi y xj (genotipos)

• h es un parámetro optimizable ‘tuneable’ que regulariza la medida de similitud

© O. González-Recio. 2009. Machine Learning en selección genómica.

KERNELs. Ej l d k l• Ejemplos de kernel:

– Kernel gaussiano

Kernel triangular

))(exp(),( 21jijih xxhxxK −−= −

1)1()( = xxhxxK– Kernel triangular

– Kernel Epanechnikov }1){(21 ))(1(

43),( ≤−

− −−=ji xxjijih xxhxxK 1

11)1(),(≤−

−−=ji xxjijih xxhxxK

– …• La regresion es lineal en los kernels, pero puede

4

no ser lineal en el espacio original si el kernel es una función NO lineal (Representación dual; ver Gi l V K 2008 W hb 1990 1999)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Gianola y Van Kaam, 2008; Wahba 1990,1999).

KERNELs. • Optimización del parámetro h:

– Kernel gaussiano ))(

exp()(2xx

xxK ji −=g )exp(),(h

xxK jih −=

h= 100h= 0.01

2500

00

Freq

uenc

y

4e+0

48e

+04

Freq

uenc

y

050

000

1500

00

h= 3

0012

0000

K

0.4 0.5 0.6 0.7 0.8 0.9 1.0

0e+0

0

K

0.0 0.2 0.4 0.6 0.8 1.0

•Individuos emparentados

Freq

uenc

y

040

000

8000 Individuos emparentados,

valor próximo a 1.

•Individuos no emparentados valor próximo

© O. González-Recio. 2009. Machine Learning en selección genómica.

K

0.0 0.2 0.4 0.6 0.8 1.0

emparentados valor próximo a 0

Regresión no-paramétrica simple• Optimización del parámetro h

h= 0.01

y 0025

0000

“Over fitting”

Freq

uenc

y

0.0 0.2 0.4 0.6 0.8 1.0

050

000

1500

0

h= 100

quen

cy

048e

+04

K

“Over smooth”

h 3K

Freq

0.4 0.5 0.6 0.7 0.8 0.9 1.0

0e+0

04e

+0

“P á t h ti i d ”h= 3

Freq

uenc

y

0000

8000

012

0000 “Parámetro h optimizado”

© O. González-Recio. 2009. Machine Learning en selección genómica.K

0.0 0.2 0.4 0.6 0.8 1.0

040

Regresión NO-Paramétrica.RADIAL BASIS FUNCTIONS (RBF)

• Long et al. (2009)– Función de kernel radial, no lineal,– Regresión sobre mega-SNPs (clusters)

Diferente (RBF I) o igual (RBF II) peso– Diferente (RBF I) o igual (RBF II) peso (parámetro h) para el kernel de cada mega-SNP.

© O. González-Recio. 2009. Machine Learning en selección genómica.

REPRODUCING KERNEL HILBERT SPACES

• Espacios de Hilbert con núcleo reproducible

(Gianola et al., 2006; Gianola and Van Kaam, 2008; González-Recio et al., 2008)

Espacios de Hilbert con núcleo reproducible.• RKHS

222

1 ||)(||)]([)]([]|)([ HggggJ xxβXyRxβXyx 1 λλ +−′−−′−= −

λ añade variablidad.

Es una norma en 2||)(|| Hg x

© O. González-Recio. 2009. Machine Learning en selección genómica.

RKHS

⎤⎡ ′

222

1 ||)(||)]([)]([]|)([ HggggJ xxβXyRxβXyx 1 λλ +−′−−′−= −

αKαk

k

X h

h

hg ⎥⎥⎥⎤

⎢⎢⎢⎡

)(

)(

)|(

1

M ],...,,[ 10 ′= qαααααKα

k

kX hj

h

hhg =

⎥⎥⎥⎥⎥

⎦⎢⎢⎢⎢⎢

⎣ ′

=

)(

)()|(

M

⎥⎥⎤

⎢⎢⎡

= ...),(...),(),(),( 1111

jih

nhjhh

h xxKxxKxxKxxK KK

Kk q h ⎥⎦⎢⎣ )(⎥⎥⎦⎢

⎢⎣ ),(),(),(

),(

1 nnhjnhnh

jihh

xxKxxKxxK KK

),0(~,| 11 −− λλ hNh Kα222

221 ~ −−αυαα χυλ s

© O. González-Recio. 2009. Machine Learning en selección genómica.

),0(~ Re N222 ~ −eeee s υχυσ

RKHS• Expresado en forma matricial

eKαXβ1y +++= µ eKαXβ1y +++µ

⎤⎡⎤⎡⎥⎤

⎢⎡ −−− yRXKRXXRX 1

λ hh 'ˆ'' 11 β

⎥⎥⎦

⎢⎢⎣

′=

⎥⎥⎦

⎢⎢⎣

⎥⎥⎦

⎢⎢⎣

+′′ −−−− yRK

yRXαKKRKXRK

KRXXRX1

hλ,h

λ,h

hhhh

h

ˆ1111

β

λ

K =matriz de kernels que mide similitud genómica entre individuos en un espacio no Euclideanoentre individuos en un espacio no Euclideano

α =vector de coeficientes no paramétricos

© O. González-Recio. 2009. Machine Learning en selección genómica.

λ-1 es la varianza de los coeficientes no paramétricos

RKHS

Individuos (1 t)

Matriz de Kernels (K)

Individuos (1,t)(1

,n)

),( jih xxK

vidu

os

Indi

v

K debe ser semidefinida positiva

© O. González-Recio. 2009. Machine Learning en selección genómica.

RKHS• Equivalencia (reparametrización) (De los Campos et al.,

2009) αKuGEBV ˆˆ ==

(1) (2)

⎥⎦

⎤⎢⎣

⎡′

=⎥⎥⎦

⎢⎢⎣

⎥⎥⎦

⎢⎢⎣

+′′ −− yZ

yXuKZZXZ

ZXXX 'ˆ

ˆ''1

1

2

λ,h

λ,h

he

β

λσ⎥

⎥⎦

⎢⎢⎣

′=

⎥⎥⎦

⎢⎢⎣

⎥⎥⎦

⎢⎢⎣

+′′ −

−−

−−

− yRKyRX

αKKRKXRK

KRXXRX1

1

hλ,h

λ,h

hhhh

h 'ˆ

ˆ''

1111

11 β

λ

(1) (2)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Por conveniencia se usa (1), ya que invertir K puede no ser trivial

Capacidad predictiva en el carácter mortalidad en broilers (González-Recio et al., GENETICS2008)

• Predicción del caracter mortalidad en broilers bajo condiciones sanitarias suboptimas.

• 24 SNPs seleccionados por Long et al. (2007)• MétodosMétodos

– BLUP Bayesiano (E-BLUP)– Regresión sobre marcadores (LR)Regresión sobre marcadores (LR)– “Kernel regression” (kernel trinomial)– RKHS (kernel exponencial similitud de secuencias)RKHS (kernel exponencial similitud de secuencias)– Regresión Bayesiana

• 5 fold CV en la misma población

© O. González-Recio. 2009. Machine Learning en selección genómica.

• 5-fold CV en la misma población

Capacidad predictiva en el carácter mortalidad en broilers (González-Recio et al., GENETICS2008)

• 24 SNPs seleccionados por Long et al. (2007)• 5-fold CV en la misma poblaciónp

•Mejor capacidad predictiva con RKHS

200% mayor fiabilidad que BLUP–200% mayor fiabilidad que BLUP–300% mayor fiabilidad que LR

•En general, los métodos no-paramétricos mejor comportamiento que la regresión lineal•Resultados más estables con laResultados más estables con la regresión Bayesiana.

© O. González-Recio. 2009. Machine Learning en selección genómica.

Capacidad predictiva en el carácter FCR en broilers (González-Recio et al., GSE2009)

• Ejemplo 2: Predicción de la eficacia de transformación de alimento en broilers (González-Recio et al., 2009).– Animales genotipados para 4505 SNPs– Predicción en futuras generaciones (2-fold CV)– Métodos

• Índice de pedigrí• Bayes A

RKHS• RKHS

© O. González-Recio. 2009. Machine Learning en selección genómica.

Capacidad predictiva en el carácter FCR en broilers (González-Recio et al., GSE2009)

• Ejemplo 2: Predicción de la eficacia deEjemplo 2: Predicción de la eficacia de transformación de alimento en broilers (González Recio et al 2009)(González-Recio et al., 2009).– Animales genotipados para 4505 SNPs– Selección de 400 SNPs utilizando ganancia de

información.• 2-fold CV en generaciones diferentes

© O. González-Recio. 2009. Machine Learning en selección genómica.

ÍNDICE• Introducción• Diseño de un sistema de aprendizajeDiseño de un sistema de aprendizaje• Teoría de la información• Regresiones no-paramétricas

– Regresion no-paramétrica simpleRegresion no paramétrica simple– RKHS

E bl h d (“Al i d j ”)• Ensemble methods (“Algoritmos de conjunto”)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Algoritmos de conjunto (Ensemble methods)

bi ió d d l ( l• Combinación de modelos (generalmente sencillos). Forman un ‘comité’.

• Juntos poseen mayor capacidad predictiva que por separado. p p

• Poseen propiedades estadísticas conocidas. No son ‘cajas negras’son cajas negras .

• Más usados:– Bagging (Breiman, 1996)– Boosting (Freund and Schapire 1995, 1996)

© O. González-Recio. 2009. Machine Learning en selección genómica.

Algoritmos de conjunto (Ensemble methods)

i ( i )• Bagging (Breiman, 1996)– Bootstrap aggregating

– Set de datos ),( Xy=Ψ1. Realizamos B muestreos con reposición,

generando B nuevos sets de datos.

),(y

g)b(Ψ b=(1,…,B)

2. Aplicamos el método de elección sobre los B sets.3 Promediamos las soluciones

© O. González-Recio. 2009. Machine Learning en selección genómica.

3. Promediamos las soluciones.

BAGGING

• Reduce los errores de predicción en un factor 1/B al promediar errores p

Li i ió i d d i l• Limitación: se asume independencia entre los residuos.

© O. González-Recio. 2009. Machine Learning en selección genómica.

BAGGING. Ejemplo.

id d i ( ) d l h• Vida productiva (PL PTA) en vacuno de lecheE (3304 toros P (1398 torosE (3304 toros nacidos antes

de 1998)T (algoritmo)

P (1398 toros nacidos despues

de 1999)86% hijos de training set

• LASSO Bayesiano utilizando 500, 1000, 1500 71% nietos del training set

o 2000 SNPs seleccionados por ganancia de información.

• Predicción en futuras generaciones• Bagging sobre LASSO Bayesiano

© O. González-Recio. 2009. Machine Learning en selección genómica.

• Bagging sobre LASSO Bayesiano

BAGGING

• Correlación de Pearson en testing set)ˆ,( yy

© O. González-Recio. 2009. Machine Learning en selección genómica.

BAGGING

– Ofrece mayores ventajas cuanto más ruido hay en y j ylos datos (reducido número de datos, baja densidad de marcadores, poblaciones pequeñas, , p p q ,…).

– Puede mejorar dificilmente empeorar lasPuede mejorar, dificilmente empeorar las predicciones.

© O. González-Recio. 2009. Machine Learning en selección genómica.

Algoritmos de conjunto (Ensemble methods)

• Boosting (Freund and Schapire, 1995, 1996)– Las predicciones se realizan a través de un p

conjunto de predictores o “learners” que ‘aprenden’ del comportamiento de los anterioresp p

– Originalmente se usó en problemas de clasificación (AdaBoost)clasificación (AdaBoost).

– Friedman lo extendió a problemas de regresión en 20012001.

© O. González-Recio. 2009. Machine Learning en selección genómica.

Algoritmos de conjunto (Ensemble methods)

• Boosting (Freund and Schapire, 1995, 1996)– Es uno de los métodos más potentes introducido p

en el campo del “machine learning“ en los últimos 20 años.

– Utiliza regresores débiles “weak learners”, que son aquellos cuyo comportamiento es algo mejorson aquellos cuyo comportamiento es algo mejor que la asignación aleatoria.

© O. González-Recio. 2009. Machine Learning en selección genómica.

BOOSTINGC f i bl d ió• Como funciona en problemas de regresión:

)(xgE (datos)“Weak learner”

)(0 xgE (datos)

r1 (residuos) )(1 xg

r2 (residuos) )(2 xg Variable de contracción

)(xgm

( id )

…∑=

=m

iii xgwy

1)(ˆ

contracción

– En problemas de clasificación los residuos se sustituyen por una ponderación de las observaciones

rm+1 (residuos) =i 1

© O. González-Recio. 2009. Machine Learning en selección genómica.

ponderación de las observaciones

BOOSTING• De gran utilidad para problemas de p>>n.

– Bühlmann y Yu (2003), con función L2 de y ( ),pérdidas y realizando selección de covariables

• Se pueden interpretar como técnicas de• Se pueden interpretar como técnicas de descenso de gradiente y también como

i d i d Hilbsecuencias de espacios de Hilbert.

© O. González-Recio. 2009. Machine Learning en selección genómica.

BOOSTINGC f i bl d• Como funciona en problemas de gran dimensionalidad (Selección Genómica):

1 I i i li ió 0 D d i– 1. Inicialización. m=0. Dado y, asignamos rm=y– 2. Incrementamos m en 1 unidad. Ajustamos el “weak

learner” a r con cada uno de los SNPs por separadolearner a rm con cada uno de los SNPs por separadorm =gm(xp)+e

– 3. Búsqueda unidimensional del SNP p que mejor ajusta los datos (mejor predictor), donde

⎥⎦

⎤⎢⎣

⎡−= ∑

=

n

ipimi xrp

1

2,, )(minarg

– 4. Actualizamos rm+1= rm- gm(xp), y se repiten los pasos 2-4 hasta alcanzar un criterio de convergencia.

© O. González-Recio. 2009. Machine Learning en selección genómica.

g

BOOSTING (González-Recio et al., en revisión)

• Vida productiva (PTA) en vacuno de leche

E (3304 toros P (1398 torosE (3304 toros nacidos antes

de 1998)T (algoritmo)

P (1398 toros nacidos despues

de 1999)86% hijos de training set

• Bayesian LASSO vs L2-Boosting71% nietos del training set

© O. González-Recio. 2009. Machine Learning en selección genómica.

BOOSTING (González-Recio et al., en revisión)

• MSE en training set (Inferencia)

© O. González-Recio. 2009. Machine Learning en selección genómica.

BOOSTING (González-Recio et al., en revisión)

• MSE en testing set

© O. González-Recio. 2009. Machine Learning en selección genómica.

BOOSTING (González-Recio et al., en revisión)

• MSE en testing set (Predicción)

© O. González-Recio. 2009. Machine Learning en selección genómica.

BOOSTING (González-Recio et al., en revisión)

• Correlación de Pearson )ˆ,( yy

)ˆ(corBL (32611) 0.66

)ˆ,( yy

OLS-Boost(1330) 0.63BL (1330) 0 59BL (1330) 0.59NP-Boost (92) 0.45BL (92) 0.39

© O. González-Recio. 2009. Machine Learning en selección genómica.

BOOSTING• Gran capacidad predictiva• Prometedor método en estudios de asociación con

genoma completo y selección genómica• Eficiente en la selección de SNPs y reducción de laEficiente en la selección de SNPs y reducción de la

dimensionalidad del problema

© O. González-Recio. 2009. Machine Learning en selección genómica.

RESUMEN

A tener en cuentaA tener en cuenta

Machine Learning• Puede usarse en GWAS y en selección

genómica.g• Permite tratar grandes cantidades de genotipos

de manera más flexible sin tener que hacerde manera más flexible, sin tener que hacer asunciones alejadas de la realidad.

• Alta capacidad predictiva para el comportamiento de futuras generaciones.comportamiento de futuras generaciones.

© O. Gonzalez-Recio. 2009. Machine Learning en selección genómica.

Machine Learning en SELECCIÓN GENÓMICA

• Centrarse en el comportamiento de los métodos:capacidad predictiva.

• Importancia del diseño del sistema de aprendizaje– Validación cruzada.– Diseño que se ajuste a la realidad y al problema que

queremos resolver.

• Importancia de usar fenotipos y genotipos de nuestras poblaciones. Conclusiones sacadas de problemas y p p ysistemas biológicos que nos ocupan.

© O. Gonzalez-Recio. 2009. Machine Learning en selección genómica.

SELECCIÓN GENÓMICA• Genotipado de una población es caro. Diseño de genotipado

que optimice recursos.Genotipado secuencial– Genotipado secuencial.

– Enfásis en el diseño del primer genotipado (uso del chip más caro).

• Mucho por hacer (investigación y aplicación). – Genotipar poblaciones y aprender de ellas (colaboración y unión deGenotipar poblaciones y aprender de ellas (colaboración y unión de

recursos).– <1% del conocimiento¿? --> Necesitario seguir investigando para

j l i i t d l i t éti l ibilid dmejorar el conocimiento de los sistemas genéticos y las posibilidades de la selección genómica.

© O. Gonzalez-Recio. 2009. Machine Learning en selección genómica.

SELECCIÓN GENÓMICAFUTURO• FUTURO– Prometedor

• Nutrigenómicag• Proteómica• Epigenética• Medicina personalizadaMedicina personalizada• Acoplamientos genómicos• Genomica aplicada a sistemas productivos•• …

– Otras nuevas tecnologías o conocimientos en unos años– Nuevas eras– Nuevos métodos– Nuevas estrategias– avanzar

© O. Gonzalez-Recio. 2009. Machine Learning en selección genómica.

… avanzar

Bibliografía• Breiman L 1996 Bagging predictors Machine Learning 24: 123 140• Breiman, L, 1996 Bagging predictors. Machine Learning 24: 123–140.• Bühlmann, P, B. Yu, 2003 Boosting with the L2 loss: regression and classification. J. Amer. Statist. Assoc. 98: 324-339.• Freund, Y., R. E. Schapire, 1996 Experiments with a new boosting algorithm. In L Saitta (Ed.) Thirteen International

conference on Machine Learning, pp. 158-156. Morgan Kaufmann.• Gianola, D., R.L. Fernando, A. Stella, 2006 Genomic-assisted prediction of genetic value with semiparametric procedures.

Genetics 173: 1761-1776Genetics 173: 1761 1776.• Gonzalez-Recio O., D. Gianola, N. Long, K.A. Weigel, G.J.M. Rosa, S. Avendaño, 2008 Nonparametric methods for

incorporating genomic information into genetic evaluations: An application to mortality in broilers. Genetics 178: 2305-2313.• Gonzalez-Recio O., D. Gianola, G.J.M. Rosa, K.A. Weigel, A. Kranis, 2009 Genome-assisted prediction of a quantitative

trait measured in parents and progeny: application to food conversion rate in chickens. Genetics Selection Evolution 41: 3.• Gonzalez-Recio O., K.A. Weigel, D. Gianola, H. Naya, G.J.M. Rosa, en revision L2 Boosting to reduce dimensionality inGonzalez Recio O., K.A. Weigel, D. Gianola, H. Naya, G.J.M. Rosa, en revision L2 Boosting to reduce dimensionality in

genomic selection. Genetics.• González-Recio O., E. Lopez de Maturana, T. Vega, K. Broman, C. Engelman, 2009 Detecting SNP by SNP interactions in

rheumatoid arthritis using a two step approach with Machine learning and a Bayesian Threshold LASSO model. BMC GENETICS, (Aceptado)

• Long, N., D. Gianola, GJM. Rosa, KA. Weigel, S. Avendaño, 2007 Machine learning classification procedure for selecting i i l i li i l li i b il i d ( )SNPs in genomic selection: Application to early mortality in broilers. J. Anim. Breed. Genet. 124 (6): 377-389.

• Long N, D. Gianola, GJM. Rosa, KA. Weigel, A. Kranis, O. Gonzalez-Recio. Radial basis function regression methods for predicting quantitative traits using SNP markers.(accepted)

• Nadaraya, E.A., 1964 On estimating regression. Theor. Probab. Appl. 9: 141-142.• Watson, G. S., 1964 Smooth regression analysis. Sankhya A 26: 359-372.• Weigel, K. A., G. de los Campos, O. González-Recio, H. Naya, X. L. Wu, N. Long, G.J.M. Rosa, D. Gianola, 2009

Predictive ability of genomic breeding values computed from selected subsets of single nucleotide polymorphism markers for lifetime net merit in Holstein cattle. J. Dairy Sci. 92: 5248-5257.

© O. González-Recio. 2009. Machine Learning en selección genómica.

Bibliografía• Libros:

Bishopp

Mitchell

Hastie,Tibshirani&Friedman

© O. González-Recio. 2009. Machine Learning en selección genómica.

Recommended