Genetic Improvement

Embed Size (px)

Citation preview

  • 1

    Los Mtodos Estadsticos en el Mejoramiento Gentico Statistical Methods in the Genetic Improvement of Farm Animals

    Daniel Gianola1

    Resumen: Se hace una revisin de los mtodos estadsticos que han sido usados para inferir los valores de cria. Las contribuciones claves incluyen los modelos de gentica estadstica; la prediccin insesgada lineal ptima (BLUP); las ecuaciones del modelo mixto de Henderson y las tcnicas de cmputo asociadas con esta tcnica; la estimacin de componentes de varianza y de covarianza, con nfasis en los mtodos basados en la verosimilitud; los procedimientos bayesianos; los mtodos para respuestas categricas, datos longitudinales, y para el anlisis de supervivencia. Se discuten las repercusiones de los efectos de seleccin sobre las inferencias. Se presenta un inventario de algunos de los paquetes de cmputo disponibles. Se ofrece una discusin sobre algunas reas que requerirn atencin en el futuro. Palabras claves: BLUP, genetica estadstica, metodos estadsticos, parmetros genticos, procedimientos bayesianos, verosimilitud

    1 Departaments of Animal Sciences, Biostatistics and Medical Informatics, and of Dairy Science, University of Wisconsin Madison, Madison, Wisconsin 53706, Estados Unidos de Amrica. Correo electrnico: [email protected]

  • 2

    Abstract: Statistical methods that have been applied for inferring breeding values in animal breeding are reviewed. Landmarks include statistical genetic models; best linear unbiased prediction; Henderson's mixed model equations and associated computing techniques; variance and covariance component estimation, with emphasis on likelihood-based methods; Bayesian procedures; methods for categorical responses, longitudinal data and survival analysis. The problem caused by the effects of selection on inferences is discussed. An inventory of some available computing software is presented. A discussion on some areas for future development is given. Key words: BLUP, Bayesian procedures, genetic parameters, likelihood, statistical genetics, statistical methods

  • 3

    Introduccin

    Introduction Los programas de seleccin gentica de ganado intentan maximizar la tasa de crecimiento

    de alguna funcin de mrito que se piensa tiene una base gentica. Tpicamente, los animales con el mrito esperado ms alto se conservan para ser los padres de la siguiente generacin, mientras que aquellos con el mrito ms bajo son desechados. El mrito puede representarse formalmente mediante una funcin lineal o no lineal de los valores genticos para varias caractersticas que se consideran importantes desde el punto de vista de generar ganancias econmicas o bien de aportar algn beneficio a la humanidad. El componente gentico del mrito no puede ser observado, as que tiene que inferirse a partir de las observaciones hechas en los candidatos a seleccin o en sus parientes. Esto presenta al menos tres problemas estadsticos: 1) determinar si las caractersticas que forman parte de la funcin de mrito tienen una base gentica; 2) obtener mtodos razonablemente precisos para inferir el mrito (evaluacin gentica), y 3) decidir qu hacer con los animales que tengan las mejores evaluaciones, por ejemplo, diseo de planes de cruzamiento que sean ptimos con respecto a algn criterio. El primer problema se conoce comnmente como estimacin de parmetros genticos. El segundo problema se conoce como estimacin (prediccin) de valores de cria, y es conceptualmente inseparable del primero. El tercer problema no ser tratado aqu.

    La informacin disponible para evaluar la base gentica de las caractersticas, y para

    inferir a partir de la misma el mrito, consiste de los registros de performance. Como ejemplo, pueden citarse los historiales de reproduccin, tasa de crecimiento, rendimiento y composicin de leche; registros sobre enfermedades tales como la mastitis en el ganado lechero; produccin de huevos en ponedoras, tamao de la camada en porcinos, dificultades de parto en ganado vacuno, y supervivencia o duracin de la vida productiva en vacas lecheras. Algunas caractersticas tienen una escala continua (por ejemplo, el rendimiento lechero), y algunas son discretas, tales como conteos (tamao de la camada) o la asignacin a categoras. Por lo tanto, el modelado probabilstico adecuado a menudo va ms all de la distribucin normal, si bien el hacer uso de este supuesto puede ser no solamente conveniente sino hasta til. Recientemente se ha obtenido informacin sobre marcadores moleculares, pero su uso para mejoramiento gentico mediante marcadores est an en etapas incipientes.

    Muchas caractersticas observables (ya sean continuas o discretas) parecen tener un modo de herencia polignico, y estn sometidos a influencias ambientales considerables. Tambin existen caractersticas ligadas al sexo, tales como la produccin lechera (la cual slo se observa en las hembras) y la circunferencia escrotal en sementales; se cree que esta ltima tiene una correlacin gentica positiva con la fertilidad de las vacas. En el ganado lechero es ms relevante inferir el mrito gentico de los machos, debido al impacto que pueden tener en la tasa de mejoramiento. Por ejemplo, como resultado de la inseminacin artificial y de la amplia disponibilidad de semen congelado, algunos sementales de ganado lechero producen miles de hijas en varios pases, creando as una oportunidad para la evaluacin internacional de sementales, si bien a un costo mayor en trminos de la complejidad del modelo estadstico y de implementacin (Schaeffer, 1985).

    Las bases de datos de la zootecnia pueden ser muy grandes (por ejemplo, millones de registros de lactacin en la cra de ganado lechero), multivariados (es posible que sea necesario modelar simultneamente varias caractersticas), a veces gaussiana (por ejemplo, el logaritmo de la concentracin de clulas somticas en la leche, un indicador de enfermedad de ubre), o definitivamente no-normal en otros, tal como es el caso con las caractersticas discretas mencionadas antes. La estructura de los datos puede ser de corte transversal o bien longitudinal (por ejemplo, las curvas de crecimiento en pollos parrilleros), extremadamente desbalanceadas, y posiblemente exhiba patrones de datos faltantes no aleatorios. Por ejemplo, no todas las vacas de primera lactacin producirn una segunda lactacin, debido a la eliminacin secuencial por

  • 4

    baja productividad, fallo reproductivo, o enfermedad. Tambin es posible que algunos sementales sean usados ms intensivamente que otros debido a diferencias percibidas en su valor gentico, por lo cual habr seleccin gentica como consecuencia de la variacin en su contribucin a la descendencia nacida en la siguiente generacin.

    Dado todo lo anterior, no es de extraar que la estadstica haya sido tan importante para la zootecnia. Las siguientes fuentes contienen ejemplos de algunos de los mtodos y problemas estadsticos ms relevantes que se han discutido en los congresos de zootecnia durante los ltimos 25 aos: Hill (1974, 1980); Henderson (1977); Thompson (1977, 1979, 1982); Dempfle (1982); Gianola, Foulley y Fernando (1986); Schaeffer y Kennedy (1986); Meyer (1990); Ducrocq (1990); Gianola y Hammond (1990); Sorensen et al. (1994); Foulley y Quaas (1994); Bidanel (1998); Tempelman y Firat (1998); y Wang (1998).

    Nuestro propsito es describir algunos de los mtodos estadsticos que han sido empleados en zootecnia para inferir valores de cria. Algunas contribuciones histricas claves se describen en la seccin 2. La seccin 3 trata varios problemas concretos, y ofrece conjeturas sobre posibles contribuciones futuras. Este trabajo esta dedicado al Prof. Ing. Agr. Jaime Rovira. Su brillante curso de Zootecnia, impartido en 1967 en la Facultad de Agronomia en Montevideo, Uruguay, fue una influencia decisiva en la carrera del autor.

    Contribuciones Claves Landmarks

    Modelos Genticos Estadsticos

    Statistical Genetic Models

    Los modelos para el anlisis gentico cuantitativo empleados en la zootecnia consisten de los siguientes componentes:

    1. Una funcin matemtica que relaciona a las observaciones con parmetros de

    localizacin y efectos aleatorios (los bayesianos consideran todas las cantidades desconocidas como aleatorias, en el sentido que tienen una distribucin subjetiva de incertidumbre). Los efectos aleatorios pueden incluir componentes genticas, como pueden ser los valores genticos aditivos (Falconer y Mackay, 1996), dominancia y desviaciones epistticas, as como efectos ambientales permanentes. Todos estos factores contribuyen a las correlaciones entre parientes o entre registros longitudinales de performance.

    2. Parmetros de dispersin gentica y ambiental, tales como componentes de varianza y

    covarianza (estos ltimos aparecen en modelos multivariados, o en aquellas situaciones en las cuales debe incorporarse una estructura mult ivariada a un modelo para una respuesta univariada).

    3. Supuestos sobre la forma de la distribucin conjunta de las observaciones y de los

    efectos aleatorios (en un contexto bayesiano, los supuestos se aplican a la distribucin conjunta de todos los parmetros desconocidos y los datos).

    Las formas funcionales ms comnmente empleadas en el punto 1 recin mencionado han

    sido lineales. A pesar de su conveniencia, esta no es siempre una especificacin razonable. Con respecto a 3, el supuesto ms ampliamente usado y abusado ha sido el de la normalidad multivariada. Esto se debe a que a menudo se propone que las caractersticas se heredan de

  • 5

    manera multifactorial, es decir, que hay un gran nmero de genes que actan de manera aditiva, y que los efectos de las sustituciones de genes son infinitesimalmente pequeos. La informacin molecular comienza a indicar que el supuesto que muchos genes acten juntos no es implausible, al menos en algunos casos. Por ejemplo, un estudio que emple marcadores genticos en ganado lechero (Zhang et al., 1998) sugiere la presencia de locus de caractersticas cuantitativas que afectan el porcentaje de grasa en leche en los cromosomas 2, 6, 14, 26, 28, y este tipo de investigacin an est en etapas tempranas. Si los alelos actan aditivamente y tienen efectos pequeos, su suma rpidamente produce un proceso normal. En este contexto, no est claro lo que se gana a partir de usar la informacin de los marcadores, al menos desde un punto de vista estadstico. Debe tenerse presente que un modelo estadstico para la evaluacin gentica basado en informacin proveniente de marcadores requiere conocer el mapa de distancias genticas. Este requisito introduce ms parmetros en el modelo, y fuentes adicionales de incertidumbre.

    Fisher (1918) estableci las bases para el modelo infinitesimal y se ocup de las consecuencias de la herencia Mendeliana a nivel fenotpico. El modelo que plante es:

    observacin = valor gentico + residual y obtuvo un precursor del anlisis de varianza al proponer una particin de la varianza gentica en componentes aditivos y de dominancia. A partir de stos pueden obtenerse ms o menos inmediatamente las correlaciones esperadas entre los distintos tipos de parientes. En particular, el modelo aditivo ha sido extremadamente til y ha resistido los embates del tiempo bastante bien. Ms an, ha constituido el punto de partida de la gentica estadstica para la obtencin de predictores de valores de cria, y ha conducido a una evaluacin bastante precisa de los sementales lecheros. El modelo sigue usndose, si bien de manera ms sofisticada, vectorial, tema que ser tratado prximamente.

    Independientemente de Fisher, Wright (1921) obtuvo resultados similares (al menos en lo que respecta a la parte aditiva) mediante un mtodo conocido como coeficientes de paso o de pista. El mtodo consiste en describir un sistema de correlaciones mediante modelos lineales de efectos estandarizados. Este procedimiento, si bien fue poderoso en las manos de Wright, dej de usarse en la zootecnia, excepto en los salones de clase, donde sobrevivi encarnado en los diagramas de paso, los cuales reflejan visualmente las relaciones de causalidad o de covarianza que un modelo supone. Sin embargo, el mtodo ha sobrevivido y ha sido generalizado en las ciencias sociales, en el contexto de lo que se llaman los modelos de ecuaciones estructurales (Fox, 1984).

    A pesar de que Fisher haba descrito cmo deben tomarse en cuenta las interacciones entre alelos en locus distintos, no fue sino hasta Cockerham (1954) y Kempthorne (1954) que la varianza total debida a dichas interacciones pudo partirse en lo que se llaman componentes epistticos, bajo el supuesto de una poblacin grande panmctica en equilibrio de ligamiento. Kempthorne (1954) emple el concepto de probabilidad de identidad por descendencia ideado por Malcot (1948), y descompuso la varianza episttica en varios componentes, dependiendo del nmero de loci involucrados en la expresin de la caracterstica. Por ejemplo, con dos loci, la varianza gentica episttica puede expresarse como la suma de los componentes de varianza aditiva x aditiva, aditiva x dominancia, y dominancia x dominancia. Su contribucin permiti expresar la covarianza entre caractersticas medidas en parientes en una poblacin que se aparea al azar en trminos de componentes genticos de varianza y covarianza. Estos resultados fueron aprovechados ms tarde por Henderson (1988) para inferir efectos genticos de dominancia y de epistasis mediante prediccin lineal insesgada ptima, un tema que ser tratado ms tarde.

    Otras extensiones adicionales de los modelos genticos estadsticos han incluido, por ejemplo, efectos maternales (Falconer, 1965; Willham, 1963; Koerkhuis y Thompson, 1997),

  • 6

    herencia citoplsmica y de clonacin (Kennedy y Schaeffer, 1990). El modelo de Willham es interesante estadsticamente porque subsume una estructura multivariada dentro de una univariada. Este modelo incluye covarianzas entre los efectos genticos directos (expresados en el individuo en el cual fueron medidos) y efectos genticos maternos (expresados si el individuo se convierte en la madre de cras que a su vez son medidas).

    Prediccin Lineal Insesgada ptima, o BLUP (Best Linear Unbiased Prediction) Best Linear Unbiased Prediction (BLUP)

    Generalidades General El problema de predecir o estimar el mrito gentico en los candidatos para la

    seleccin es muy importante en la zootecnia. Esta distincin semntica ha creado mucha confusin debido a que, hablando estadsticamente, no tiene sentido estimar un efecto aleatorio. Por otro lado, la prediccin tiene una connotacin futurstica, mientras que en la zootecnia uno suele estar interesado en el ordenamiento de candidatos (sementales, por ejemplo) de los que ya se dispone. Tiene ms sentido pensar en trminos de inferir el mrito gentico, porque el problema rebasa el de obtener meramente una estimacin de un parmetro de localizacin. Frecuentemente, el investigador est interesado en obtener una medida de la incertidumbre, o quiz, en calcular la probabilidad de eventos ordenados que involucran a los candidatos para seleccin.

    Lush (1931) emple coeficientes de paso para obtener frmulas para evaluar el mrito gentico de sementales lecheros, suponiendo que las medias y los componentes de varianza ambiental y gentico eran conocidos. Se descubri que se necesitaba cierta regresin a la media, o contraccin. Robertson (1955) demostr que la estadstica de Lush puede obtenerse a partir de un promedio ponderado entre la informacin poblacional y los datos, con lo cual se anticipa una interpretacin bayesiana. A modo de ejemplo, consideremos el modelo simple: yij = m + si + eij, (1) en el cual yij es una observacin realizada en la j-sima progenie del semental i, m es una constante comn a todas las observaciones, si ~ N (0, s) es la habilidad de transmisin del i-simo semental, y eij ~ N (0, e), distribuido independientemente, es un residual peculiar al individuo ij. Supongamos que m y los componentes de la varianza s (varianza entre sementales) y e (varianza dentro de sementales) son parmetros poblacionales conocidos. Hay dos fuentes de informacin respecto al i-simo semental: 1) lo que se sabe de la poblacin, y 2) el desempeo promedio iy de sus n vstagos. A primera vista, parecera natural combinar ambas fuentes en un promedio ponderado de la media poblacional, 0, y la desviacin media del grupo de progenie, m-iy , usando como pesos la precisin de la poblacin, (s

    -1) y la precisin aportada por los datos, (n/ e

    -1), respectivamente. En otras palabras,

    ( )

    ( )

    011

    1

    -+

    =

    -+

    +=

    -

    i

    s

    e

    i

    eses

    i

    yn

    n

    ynn

    s

    nn

    nnnn (2)

    De manera similar, una medida de la varianza es el recproco de la precisin total:

  • 7

    +-=

    +=

    -

    n

    n

    es

    ss

    es

    i nn

    nn

    nnn 1

    11

    (3)

    Puede demostrarse que is y in son la media y la varianza de la distribucin condicional [ ]iniiesi yyys ,,,,,,| 21 Lnnm , bajo el supuesto de normalidad. sta tambin es una distribucin posterior bajo un planteamiento bayesiano en el cual todos los parmetros se consideran conocidos sin error, lo cual es un supuesto inverosmil en la prctica. De cualquier manera, la inferencia probabilstica sobre la habilidad de transmisin del semental se completa usando la distribucin condicional con media is y varianza in . Por ejemplo, si uno tiene dos sementales no emparentados con datos representados por los vectores y1 y y2, posiblemente uno querr calcular la probabilidad

    Pr ( s1 > s2 | y1, , y2, , s , e ) = Pr ( z > 0 ), donde z es una variable aleatoria distribuida normalmente con media 21 ss - y varianza:

    .11

    2

    21

    ++

    +-=

    nne

    se

    s

    ssz nn

    nn

    nnn .

    Ntese que a medida que ni , z 0, lo cual indica que la incertidumbre desaparece asintticamente.

    Las Ecuaciones del Modelo Mixto The Mixed Model Equations

    El problema de la prediccin de los valores de cria no fue formulado de una manera

    general hasta que Henderson (por ejemplo 1950, 1963, 1973, 1984) deriv lo que despus fue conocido como BLUP (Best Linear Unbiased Prediction prediccin lineal insesgada ptima). Henderson et al. (1959) propusieron un modelo de efectos mixtos lineal (ya sea univariado o multivariado):

    y = Xbb + Zu + e , (4) donde bb es un vector fijo (en muestreo conceptual repetido), y u ~ N (0, G) y e ~ N (0, R) son vectores aleatorios no correlacionados; X y Z son matrices de incidencia, y G y R son matrices de varianza-covarianza, las cuales son funciones de parmetros de dispersin (conocidos). El vector de efectos aleatorios u puede incluir efectos de rebao, valores de cria, desviaciones ambientales permanentes comunes a todos los registros del mismo animal (o conjunto de animales), etc. La densidad conjunta de u y y est dada por:

    p(u, y|bb , G, R) p(y| u, bb , R) p(u|G)

    exp{-21

    [ (y - Xbb - Zu) R-1 (y - Xbb - Zu) + uG-1u ]}. (5)

  • 8

    La maximizacin simultnea de (5) con respecto a bb y u conduce a las ecuaciones de Henderson para el modelo mixto (MME Mixed Model Equations):

    ,

    =

    + -

    -

    ---

    --

    yRZ'

    yRX'

    u

    GZRZ'XRZ'

    ZRX'XRX'1

    1

    111

    11

    (6)

    Henderson pens que estaba maximizando una funcin de verosimilitud, por lo que llam a y

    a u los estimadores de mxima verosimilitud de bb y u respectivamente. Resulta que de hecho es el estimador de mxima verosimilitud de bb bajo el supuesto de normalidad y si tanto G como R son conocidas, pero tcnicamente u no puede estimarse por tratarse de un vector aleatorio. Hoy se sabe que la funcin objetivo maximizada por Henderson es una densidad posterior conjunta, bajo un planteamiento bayesiano, o bien una verosimilitud penalizada o extendida en un sentido ad hoc. Sin embargo, este error tiene un final feliz, pues tanto

    Henderson como Searle demostraron posteriormente que an sin el supuesto de normalidad, es el estimador de mnimos cuadrados generalizados de bb y que u es el mejor predictor lineal insesgado de u; la inversa de la matriz de coeficientes en (6) produce las matrices de covarianza de y de uu - . Este resultado es vlido tanto para el planteamiento univariado como para el multivariado. Goldberger (1962) deriv el BLUP independientemente de Henderson.

    Cuando bb es conocido, u es el mejor predictor lineal, y, bajo el supuesto de normalidad, u es el predictor que minimiza el error cuadrtico medio, es decir, el ptimo, con respecto a este criterio (Henderson, 1973; Searle, 1974). En un contexto multivariado, cuando bb es conocida, el predictor genera la evaluacin de ndice de seleccin derivado por Smith (1936) y por Hazel (1943) en contextos menos generales (Henderson, 1963).

    Bulmer (1980) apunt, atinadamente, que no quedaba claro si el ordenamiento de animales producido por BLUP maximizara el progreso gentico esperado en una sola iteracin de seleccin, y propuso un predictor alternativo. Gianola y Goffinet (1982) demostraron que este ltimo predictor era equivalente a BLUP; Fernando y Gianola (1986) contiene un tratamiento de algunas de estas cuestiones.

    Los criadores de animales a menudo malinterpretan la propiedad de insesgamiento del predictor BLUP. Nunca resulta superfluo repetir que el predictor BLUP es insesgado con respecto a muestreos repetidos conceptuales de la distribucin de [y, u | bb , G] pero no es insesgado respecto a [y | u, bb , G]. Esta ltima es la distribucin que los practicantes suelen considerar, es decir, aquella en la cual u es una realizacin de un vector de valores de cria. Es fcil demostrar que

    E( u | u) = (ZPZ + G-1)-1 ZPzu, donde P = I X(XX)-1X. Esto indica que BLUP produce predicciones sesgadas de valores de cria especficos, aunque el sesgo desaparece asintticamente (a medida que aumenta la informacin de cada animal). Paradjicamente, en el lmite, ya no es posible predecir valores de cria de manera nica, porque ocurre una degeneracin en el rango.

    Cmo Resolver las Ecuaciones del Modelo Mixto Solving the Mixed Model Equations El algoritmo MME para calcular el estimador BLUE y el predictor BLUP ha sido

    empleado en todo el mundo para la evaluacin gentica de ganado. El sistema lineal en (6)

  • 9

    puede ser de orden de varios millones de ecuaciones. Esto es particularmente cierto para modelos, sean univariados o multivariados, en los cuales un efecto gentico aditivo es ajustado para cada animal con un registro de produccin, as como para animales sin registros en la genealoga, pero que necesitan ser incluidos para reflejar adecuadamente la covarianza gentica entre parientes. Por estos motivos, deben usarse mtodos iterativos para resolver las ecuaciones MME (por ejemplo, Schaeffer y Kennedy, 1986; Misztal y Gianola, 1987), aunque se necesitan aproximaciones para evaluar la incertidumbre de las predicciones. El sistema MME ha sido tratado en la literatura estadstica algo parcamente (por ejemplo, Patterson y Thompson, 1971; Harville, 1977; Wolfinger, 1993; Lee y Nelder, 1996). Este hecho resulta sorprendente, porque las ecuaciones MME aportan varias ventajas al ser usadas como algoritmo para calcular varios mtodos de estimacin de componentes de varianza en modelos lineales generalizados de efectos mixtos (Harville y Mee, 1984; Gilmour, Anderson y Rae, 1985; Foulley et al., 1987a).

    Una dificultad obvia, al menos en la zootecnia, es la inversin de G (a menos que la matriz tenga un patrn que pueda aprovecharse, tal como podra ser una estructura de bloques en la diagonal) cuando el orden de u es de cientos de miles, o inclusive de millones, como es el caso en la evaluacin gentica rutinaria de las vacas lecheras en los Estados Unidos. De nuevo Henderson produce una innovacin radical. Sea u un vector de valores de cria, y sea G = G0 U A, donde G0 es de orden igual al nmero de caractersticas (una docena, por poner un caso) y A es una matriz de relaciones genticas aditivas (la cual refleja las probabilidades de que individuos emparentados porten copias idnticas del mismo alelo). El smbolo U significa producto matricial Kronecker . Henderson descubri que A-1 puede obtenerse directamente a partir de una lista de los progenitores de los animales. Esto permite usar todas las relaciones disponibles en la evaluacin gentica, lo cual produce inferencias ms precisas sobre los valores genticos y tambin permite la posibilidad de corregir sesgos debidos a que se desconocen muchas relaciones en anlisis de componentes de varianza que de otra manera seran ingenuos o una aproximacin cruda.

    Estimacin de Componentes de Varianza y Covarianza Variance and Covariance Component Estimation

    A partir de lo anterior, debe quedar claro que la prediccin de los valores de cria

    depende de una manera no trivial de los componentes de varianza y covarianza. Se han propuesto muchos mtodos, pero solamente unos cuantos han resistido la prueba del tiempo. Hofer (1998) realiz una revisin de prcticamente todos los mtodos que se han empleado hasta la actualidad. Debido a que las series de datos en zootecnia pueden ser enormes, desbalanceados, y que los modelos tienen un nmero considerable de parmetros de localizacin parsitos, los mtodos sencillos similares al ANOVA rara vez producen resultados satisfactorios. Henderson (1953) describi tres mtodos para datos desbalanceados. El ms general de ellos, el Mtodo 3, usa formas cuadrticas basadas en un ajuste de mnimos cuadrados de varios submodelos, y produce estimadores insesgados. Harvey (1960, 1970) incorpor este mtodo a un software de estimacin de componentes de varianza y covarianza, y este programa fue usado ampliamente en la zootecnia. Searle (1968, 1971) y sus estudiantes aclararon los mtodos de Henderson, y los presentaron en forma matricial.

    Las contribuciones subsecuentes incluyen la estimacin insesgada de norma mnima y su versin de varianza mnima (bajo normalidad) de Rao (1971) y La Motte (1973), respectivamente. Estos estimadores pueden plantearse en trminos de soluciones al sistema MME. Sin embargo, para alcanzar el punto ptimo con estos mtodos se requiere conocimiento del valor verdadero de los parmetros, y la distribucin de muestreo de estos estimadores genera valores negativos para los componentes de varianza con probabilidad no trivial. De hecho, en sus contrapartes multivariadas, pueden generar estimaciones embarazosas de matrices de covarianza (que no son positivas definidas). Por lo tanto, los genetistas recurrieron a la mxima verosimilitud (ML - Maximum Likelihood), y supusieron normalidad para evitar estos

  • 10

    problemas, al menos en la estimacin. Los artculos de Hartley y Rao (1968) y de Harville (1977) fueron muy influyentes. Muchos algoritmos para estimacin por mxima verosimilitud pueden derivarse usando MME ( (Harville, 1977; Henderson, 1984; Harville y Callanan, 1990). No queda claro si la migracin hacia mtodos basados en la verosimilitud fue consecuencia de la disponibilidad de algo nuevo que poda calcularse mediante el algoritmo MME (usado iterativamente, puesto que los estimadores de mxima verosimilitud no pueden escribirse explcitamente para la mayora de los modelos), o si el atractivo eran las propiedades asintticas del mtodo.

    Puesto que el sesgo que tiene el estimador de mxima verosimilitud de la varianza residual es bien conocido, el mtodo conocido como mxima verosimilitud restringida (REML Restricted Maximum Likelihood) recibi mucha atencin. Las ideas bsicas estn contenidas en Anderson y Bancroft (1952) y Thompson (1962). Sin embargo, Patterson y Thompson (1971) dan una descripcin ms general, adecuada para un modelo de efectos mixtos. REML puede considerarse un intento de tomar en cuenta la prdida de grados de libertad resultante de estimar los efectos fijos. Patterson y Thompson (1971) notaron que la maximizacin de la parte invariante con respecto a la localizacin de la verosimilitud conduce a ecuaciones de estimacin que son similares a las de ANOVA, en el contexto balanceado. Su objetivo era reducir el sesgo, pero es pertinente preguntar si esto ocurre sacrificando precisin. Patterson y Thompson (1971) y Harville (1977) argumentan que no se pierde informacin al usar tal verosimilitud restringida, aunque Foulley (1993) no est convencido.

    Exploremos esta cuestin un poco ms a fondo. Consideremos el modelo muestral:

    y ~ N [X, V()], (7) donde V() es la matriz de dispersin, la cual es una funcin de componentes de varianza y covarianza . La verosimilitud total o completa est dada por:

    l [,] |V()|-1/2 exp [-21

    SSE]

    |V()|-1/2 exp [-21

    ESS)

    ] exp {-21

    SSB}, (8)

    donde:

    SSE = (y - Xbb) V-1() (y - Xbb) ESS

    )= (y - X ) V-1() (y - X )

    y

    SSB = (bb - )[XV-1()X](bb - ) con

    = [XV-1()X]-1 XV-1()y. Harville (1974) demostr que el estimador REML es la moda de la distribucin posterior de los parmetros de varianza despus de integrar con respecto a los efectos fijos (con una distribucin a priori impropia uniforme) para eliminarlos de la distribucin posterior conjunta, la cual es proporcional a la funcin de verosimilitud total. El clculo de probabilidades incorpora

  • 11

    automticamente la incertidumbre acerca de los efectos fijos, al menos desde una perspectiva bayesiana. La verosimilitud integrada (o restringida) es entonces proporcional a:

    lI [] |V()|-1/2 exp[-21

    ESS)

    ]

    -

    d21

    exp SSB

    |V()|-1/2 exp[-21

    ESS)

    ] |XV-1()X|-1/2 (9)

    Esto es consecuencia de que el integral superior involucra una densidad gaussiana, por lo cual puede expresarse de manera exacta. La maximizacin de lI [] con respecto a produce los estimadores REML de los parmetros de dispersin (Harville, 1974). Si se ignoran las constantes que no dependen de los parmetros, tenemos:

    log lI [] = log l [,] + 21

    SSB - 21

    |XV-1()X|. (10)

    El siguiente paso es cuantificar la informacin. Supongamos que se usa la medida de informacin de Fisher, lo cual es una eleccin natural al hacer inferencias basadas en la verosimilitud. Recordemos que la informacin es el valor esperado en el modelo de muestreo (7) del negativo de la segunda derivada de la log-verosimilitud con respecto a los parmetros. A modo de ilustracin, consideremos una situacin sencilla, que se preste a tratamiento analtico. En un modelo de efectos fijos o de regresin con p parmetros de localizacin estimables y con varianza , la informacin de Fisher con respecto a es N/2 2 con la verosimilitud total, mientras que con la verosimilitud restringida es (N-p)/22. Esto era de esperarse, puesto que cuando la verosimilitud restringida se examina desde un punto de vista bayesiano se espera que haya menos informacin en una distribucin marginal que en una conjunta. Sin embargo, la diferencia desaparece asintticamente, al menos cuando p se mantiene fijo y n . El tratamiento terico es muy complicado cuando p aumenta con N, como suele ocurrir a menudo en la zootecnia (Jiang, 1996).

    En los modelos jerrquicos o de componentes de varianza tanto ML como REML generan estimadores sesgados, as que sera injusto centrar la cuestin del mrito de los estimadores exclusivamente en el sesgo. En general, cualquier factor que pueda darle la ventaja a REML en este sentido puede ser compensado por una prdida de precisin en el estimador. Las simulaciones de Corbeil y Searle (1976) produjeron resultados inconclusos. Searle, Casella y McCulloch (1992) discuten los mritos relativos de ambos mtodos, pero en nuestra opinin, omiten un argumento lgicamente slido para preferir al estimador REML sobre ML: su interpretacin bayesiana. Esta interpretacin indica claramente la manera en la cual la incertidumbre respecto a los parmetros fijos (los cuales son parmetros parsitos en este caso) puede eliminarse mediante la integracin, como se demostr antes.

    Debemos apuntar que existen representaciones alternativas de la verosimilitud restringida distintas de la presentada en (9). Si se usa la notacin del modelo de efectos mixtos (4), se tiene:

    lI []

    d][ ,l

    d)|( ,yp

    u

    ddu))(|())(,|( GuRu,y pp .

  • 12

    Una vez que se han hecho las simplificaciones algebraicas resultantes de combinar las formas cuadrticas dentro de las funciones exponenciales, y despus de haber integrado la densidad gaussiana, uno obtiene:

    lI [] |R()|-1/2 |G()|-1/2 exp[-21

    SSR] |C()|-1/2, (11)

    donde

    SSR = y R-1() y - XR-1() y ZR-1() y, y

    1

    )()()(

    )()()(

    -

    ---

    --

    +

    =GZRZ'XRZ'

    ZRX'XRX'C

    111

    11

    es la inversa de la matriz de coeficientes de las ecuaciones del modelo mixto. Las distintas representaciones de la verosimilitud restringida conducen a distintos algoritmos para el clculo de estimadores REML, cada uno de los cuales tiene sus ventajas y sus desventajas.

    BLUP con los Parmetros de Dispersin Desconocidos BLUP and Unknown Dispersion Parameters

    El predictor BLUP slo existe cuando los parmetros de dispersin son conocidos (al

    menos proporcionalmente en modelos de componentes de varianza), as que una pregunta importante es qu mtodo de estimacin de debe emplearse cuando el objetivo es predecir los valores de cria. Es concebible que un mtodo que se considere ptimo (con respecto a algn criterio) para estimar los componentes de varianza no sea ptimo en el contexto de inferir los valores de cria. Gianola y Fernando (1986) y Gianola, Foulley y Fernando (1986) emplearon una idea bayesiana para responder a esta pregunta. Argumentaron que usar BLUE y BLUP con los parmetros desconocidos de (co)varianza evaluados en los estimadores REML corresponda a una integracin aproximada que eliminaba los parmetros de dispersin de cierta distribucin posterior. Esto produce una solucin bayesiana aproximada para el problema de realizar inferencias sobre valores de cria cuando las varianzas genticas y ambientales son desconocidas. Sin embargo, es necesario que la verosimilitud restringida sea muy aguda para que esto funcione adecuadamente.

    Harville y Carriquiry (1992) estudiaron el problema con detenimiento. Encontraron que la aproximacin era excelente para un juego de datos consistente de los rendimientos de leche de ms de medio milln de vacas hijas de aproximadamente 1000 sementales, pero menos precisa para otro juego de datos con los pesos al nacer de 62 corderos, la progenie de 23 carneros. Este ltimo tipo de datos no es representativo de lo que un zootecnista encontrara en los registros de campo, pero bien podra toparse con ellos en un entorno experimental. Cmo, entonces, debe uno hacer inferencias sobre valores genticos a partir de muestras finitas, en la ausencia de un conocimiento preciso sobre los parmetros de dispersin? Lamentablemente, este problema no tiene una solucin conceptual frecuentista elegante, y el tratamiento algebraico es imposible o, en el mejor de los casos, engorroso (ver por ejemplo, Kackar y Harville, 1981).

    La norma de oro para el anlisis de datos de zootecnia es precisamente la combinacin del estimador REML con el predictor BLUP. Resulta interesante que, por un lado, REML tiene una justificacin desde el punto de vista de la verosimilitud, como se apunt, pero que, por el otro, carece de una justificacin frecuentista. Inversamente, BLUP tiene una

  • 13

    ascendencia frecuentista, pero no surge de ninguna formulacin de verosimilitud. Por lo tanto, la combinacin no corresponde a ninguna de las filosofas de inferencia clsicas. Significa esto que este recombinante corresponde al punto ms brillante de las posibilidades de la ciencia estadstica actual? La respuesta parecera ser negativa, como lo ilustra el estudio de Harville y Carriquiry (1992).

    Tcnicas Bayesianas Bayesian Procedures

    Generalidades General Las perspectivas frecuentista y de la verosimilitud dominaron el tratamiento estadstico

    de la zootecnia durante casi todo el siglo. Sin embargo, el rea no permaneci indiferente ante el renacimiento bayesiano de mediados de la dcada del sesenta. Artculos como el de Lindley y Smith (1972) aportaron una conexin clara entre los modelos mixtos y las tcnicas bayesianas jerrquicas, y Box y Tiao (1973) afinaron los detalles tcnicos. Parece ser que un seminario que Solomon imparti en Cornell (Henderson, comunicacin personal) fue la inspiracin para que Rnningen (1971) explorara las conexiones entre BLUP y las ideas bayesianas; el tema fue estudiado ms a fondo por Dempfle (1977).

    Consideremos primero la perspectiva bayesiana del predictor BLUP. Suponga el lector, como se hace en el contexto de BLUP, que las matrices de dispersin G y R asociadas con el modelo lineal de efectos mixtos (4) son conocidas. En un contexto bayesiano (Gianola y

    Fernando, 1986), si como distribucin a priori de bb se adopta una distribucin uniforme en p , donde p es el orden de bb , y la distribucin a priori de los efectos aleatorios es u ~ N (0, G), con los dos vectores de localizacin independientes a priori, entonces puede demostrarse que la distribucin posterior est dada por:

    .,

    ~|

    1

    +

    -

    ---

    --

    111

    11

    GZRZ'XRZ'

    ZRX'XRX'

    uNRG,y,

    u

    (12)

    Debido a que la distribucin posterior conjunta es gaussiana, tambin son gaussianas las distribuciones marginales o cualquier distribucin condicional inducida. As mismo, es cierto que cualquier combinacin lineal de bb y de u tambin tendr una distribucin posterior gaussiana. Por ejemplo, supongamos que deseamos inferir un vector de mritos o de valores genticos agregados (en la acepcin de Hazel, 1943) h = Mu, de un conjunto de candidatos. Aqu, M es una matriz constante que refleja la importancia econmica relativa de las caractersticas, y u es un vector de valores genticos de varias caractersticas. Entonces, la

    distribucin posterior de h es gaussiana, con media igual al vector uMh = y matriz de covarianza MCuM, donde Cu es la submatriz correspondiente a u en la inversa de (12).

    Un problema relacionado es el de inferir mrito no lineal. Para ilustrar, consideremos una funcin de mrito de segundo orden. Supongamos ahora que el valor gentico agregado del candidato es de la forma

    h = mu + uQu, donde m es un vector fila conocido y Q es una matriz conocida, la cual podemos suponer que es simtrica sin prdida de generalidad. La distribucin posterior de h no puede expresarse de forma cerrada, pero puede ser estimada mediante mtodos Monte Carlo, obteniendo muestras de u segn la distribucin normal posterior (12) para de esa manera obtener muestras de h

  • 14

    empleando la expresin anterior. Sin embargo la media y la varianza de la distribucin posterior de h pueden obtenerse analticamente:

    E(h|y, G, R) = m + Q + tr(QCu) y

    var(h|y, G, R) = var(mu) + var(uQu) + 2mcov(u, uQu) = mCum + 2 tr(QCu)

    2 + 4 QCuQ + 4 mCuQ. Bulmer (1980) y Fernando y Gianola (1986) demostraron que la media condicional o la media posterior son una regla ptima de ordenamiento cuando todos los parmetros son conocidos. Al contrario del caso de una funcin de mrito lineal, como se mencion arriba, la precisin posterior del candidato, o bien, equivalentemente, la confiabilidad de su evaluacin, es un componente no trivial de la media posterior al inferir el mrito de segundo orden. De hecho, para algunas formas sencillas de la funcin de mrito puede demostrarse que si dos candidatos tienen la misma media posterior (evaluacin gentica), uno escogera aquel que tuviera la varianza posterior ms grande. Para formas ms complicadas de la funcin de mrito, la prediccin de valores de cria prcticamente slo puede hacerse recurriendo a mtodos de Monte Carlo.

    Tcnicas de Cadenas de Markov Monte Carlo, o MCMC (Markov Chain Monte Carlo) Markov Chain Monte Carlo Techniques

    Gianola y Fernando (1986) propusieron usar el enfoque bayesiano como mtodo general de inferencia para resolver un gran nmero de problemas de zootecnia, lineales o no lineales, an en situaciones en las cuales existe incertidumbre sobre todos los parmetros de localizacin y de dispersin. Las primeras aplicaciones de este paradigma se basaban en aproximaciones gaussianas a la distribucin posterior conjunta o a las distribuciones posteriores marginalizadas parcialmente, debido a las dificultades tcnicas que se encontraban. Sin embargo, no fue sino hasta que las Cadenas de Markov Monte Carlo (MCMC Markov Chain Monte Carlo ) surgieron que pudo aprovecharse el podero y la flexibilidad del enfoque bayesiano sin limitacin alguna. Hay muchos mtodos MCMC, como el algoritmo Metropolis-Hastings, el muestreo Gibbs, el salto reversible, el templado simulado simulated tempering , el muestreo del pasado sampling from the past, etc. Para una revisin de algunos de los algoritmos, consulte Robert (1996). Sin lugar a dudas, el ms popular de ellos ha sido el muestreo Gibbs, a pesar de que solamente puede usarse bajo ciertas condiciones.

    La idea bsica del muestreo Gibbs es la siguiente (para una introduccin al tema, consulte Gianola, Rodrguez-Zas y Shook, 1994). Supongamos que se desea hacer inferencias sobre un parmetro ll , el cual puede ser un escalar o un vector (como los valores de cria, por ejemplo), a partir de su distribucin posterior. Supongamos adicionalmente que el modelo estadstico requiere tambin que se especifiquen algunos parmetros adicionales parsitos, dd ; por ejemplo, en un modelo lineal de efectos mixtos, estos seran los efectos fijos y los componentes de dispersin. La densidad posterior conjunta est dada por:

    p(ll ,dd |y) Tpicamente, las densidades marginales p(ll |y) y p(dd |y) son muy difciles o imposibles de derivar analticamente. Una alternativa es estimar algunas caractersticas salientes de la distribucin posterior de valores de cria con densidad p(ll |y) mediante mtodos muestrales. El muestreo Gibbs es uno de esos procedimientos y en este caso necesitamos obtener las distribuciones totalmente condicionales, [dd |ll , y] y [ll |dd , y]. Entonces se obtiene una muestra a

  • 15

    partir de [dd |ll , y], y el valor resultante se usa para actualizar los parmetros parsitos en [ll |dd , y]; en seguida, se obtiene un valor de ll de la distribucin recin actualizada, y se usa ese valor para actualizar [dd |ll , y], y el proceso se repite un gran nmero de veces, digamos m. Si ciertas condiciones se cumplen, estas iteraciones crean una cadena de Markov cuya distribucin de equilibrio es la distribucin posterior [ll ,dd |y]. En algn punto m (en el cual decimos que el muestreo convergi) cualquier valor nuevo pertenece a la distribucin posterior, con la consecuencia de que el componente correspondiente a ll proviene de la distribucin posterior marginal de inters. Si uno acumula un nmero razonablemente grande de muestras, de manera tal que las inferencias tengan un error de simulacin pequeo, uno puede estimar, por ejemplo, la media, mediana, varianza o estadsticas de orden posteriores, o bien la densidad posterior marginal de cualquier valor de crianza en regiones de inters en el espacio de ll. Un par de caractersticas cruciales del muestreo Gibbs es que las distribuciones totalmente condicionales sean reconocibles y que sea fcil obtener muestras a partir de ellas. De lo contrario, necesitaremos recurrir a otros mtodos de muestreo para generar la muestra, tales como Metropolis-Hastings o muestreo de rechazo.

    Las primeras aplicaciones del muestreo Gibbs a la zootecnia fueron las de Wang, Rutledge y Gianola (1993, 1994), y desde entonces ha habido muchos artculos que han empleado MCMC. Una aportacin importante fue la introduccin de medidas bayesianas para cuantificar la incertidumbre en respuesta a la seleccin gentica (Sorensen et al., 1994; Wang et al., 1994), el cual es un problema en zootecnia en el cual la combinacin de los enfoques de verosimilitud y frecuentista apenas puede considerarse como una aproximacin cruda, an bajo el supuesto de normalidad. El mtodo bayesiano reside en estimar la distribucin posterior de las medidas de cambio gentico, las cuales son funciones de los valores de cria no observables. Estos ltimos se obtienen a partir de sus distribuciones posteriores mediante MCMC, y con estas muestras uno obtiene muestras de la distribucin posterior de la respuesta a la seleccin, por ejemplo. La distribucin posterior del cambio gentico no observable se estima a partir de la coleccin entera de muestras. Recientemente, Sorensen, Fernando y Gianola (2001) propusieron un mtodo para seguir la evolucin de la varianza gentica aditiva durante el transcurso de la seleccin.

    Modelos No Lineales, Modelos Lineales Generalizados, y Respuestas Longitudinales Nonlinear, Generalized Linear Models and Longitudinal Responses

    Datos Categricos Categorical Data

    Las variables dependientes de informacin limitada son muy comunes en el anlisis de datos de fertilidad y de enfermedad. Los criadores animales no dudaron (y an no dudan) en emplear modelos lineales para dichas variables, a pesar de causar preocupacin entre los estadsticos. Thompson (1979), por ejemplo, expres: Me siento un poco incmodo al usar modelos lineales para estas caractersticas dicotmicas. (I have some unease at using linear models for these dichotomous traits.), y sugiri algunas alternativas que intuitivamente son atractivas para el anlisis de modelos mixtos de datos binarios.

    Gianola y Foulley (1983) se ocuparon de la inferencia sobre los efectos fijos y aleatorios en modelos lineales mixtos generalizados para respuestas categricas ordenadas, problema que tambin fue estudiado por Harville y Mee (1984). Ambos mtodos obtienen la misma respuesta para predecir los valores de cria y para estimar los efectos fijos, y producen predictores BLUP cuando los datos son gaussianos, en lugar de discretos. Su enfoque es similar a la primera derivacin de Henderson de BLUP, cuando se le considera desde un punto de vista bayesiano. Para datos categricos, los mtodos postulan que hay un variable subyacente no observable, llamada susceptibilidad, la cual puede modelarse mediante un modelo lineal de efectos mixtos. Consideremos un ejemplo sencillo: supongamos que se registra una variable

  • 16

    aleatoria binaria, por ejemplo, presencia o ausencia de mastitis en una vaca lechera. Si la responsabilidad es mayor a un umbral conceptual, se observa la mastitis; de lo contrario, la vaca est sana. Debido a que no puede observarse la responsabilidad, se toma como respuesta la desviacin estndar residual en la escala subyacente. Para simplificar, supongamos que la distribucin subyacente de la responsabilidad es logstica, de manera que la probabilidad condicional de que la i-sima observacin se registre como mastitis es:

    ,)''exp(1

    )''exp(

    ii

    i

    uzxuzx

    +++

    = iiP

    donde xi y zi son las i-simas filas de X y de Z, respectivamente. El logit se define como:

    .''1

    ln ii uzx +=

    - i

    i

    PP

    Al igual que en el modelo lineal de efectos mixtos, sea u ~ N (0, G) la distribucin previa de los efectos aleatorios, con una distribucin previa uniforme para bb. Si la varianza de los efectos aleatorios es conocida, la moda de la distribucin posterior conjunta de bb y de u puede encontrarse iterando mediante:

    [ ]

    [ ]

    =

    + +

    +

    - [t][t]

    [t][t]

    1t

    1t

    [t][t]

    [t][t]

    yWZ'

    yWX'

    u

    GZWZ'XWZ'

    ZWX'XWX'1

    , (13)

    donde el superndice indica el nmero de iteracin, W = { Pi (1 - Pi) } es una matriz diagonal de orden igual al nmero de observaciones, y:

    y[t] = Xbb [t] + Zu[t] + (W[t])-1(y-P[t]) es un vector de pseudo-datos. Si se adopta una distribucin normal con varianza unitaria en lugar de la distribucin logstica, las ecuaciones de estimacin son las mismas que las dadas en (13), excepto que W es ligeramente ms difcil de calcular. Las inferencias se completan mediante el uso de una aproximacin gaussiana centrada en el valor modal y con matriz de dispersin igual a la inversa de la matriz de coeficientes (13), evaluada en todos los valores modales.

    Este mtodo fue extendido por Foulley, Gianola y Thompson (1983) para el caso de modelos con respuestas gaussianas y categricas, por Hoeschele et al. (1986) para respuestas binarias multivariadas, y por Foulley et al. (1987b) para modelos en los cuales las variables categricas de respuesta dependen de un conteo que tiene una distribucin condicional de Poisson. Harville y Mee (1984), Foulley et al. (1987a, 1990), Tempelman y Gianola (1996, 1999) y Tempelman y Firat (1998) se ocuparon de estimar los componentes de dispersin en estos casos. En concreto, Harville y Mee (1984) y Foulley et al. (1987a) hicieron uso de una aproximacin gaussiana, con el algoritmo obtener esperanzas-maximizar (EM Expectation-Maximization) usado para calcular estimadores cuasi-REML, o, quiz empleando una terminologa ms apropiada, estimadores de mxima verosimilitud cuasi-marginal. Gilmour et al. (1985) emplean un procedimiento ligeramente diferente para datos categricos; basan su propuesta en la cuasi-verosimilitud, y, si bien sus estimadores de los componentes de la varianza y sus predictores de los efectos aleatorios carecen de justificacin formal, se reducen a BLUP y REML cuando las respuestas son gaussianas. Sorensen et al. (1995) presentaron una solucin puramente bayesiana para respuestas policotmicas ordenadas basada en muestreo Gibbs. En vista de los recursos de cmputo disponibles hoy en da, no hay mucha justificacin para seguir usando modelos lineales ni aproximaciones en el anlisis de datos categricos. Sin embargo, los

  • 17

    modelos alternativos deben usarse con cuidado porque pueden surgir cuestiones sutiles de identificacin de parmetros.

    Modelos Lineales y No Lineales para Datos Longitudinales Linear and Non-linear Models for Longitudinal Data

    Ha habido un resurgimiento del inters por el anlisis de los registros longitudinales de performance en las ciencias animales. Esto puede ser una consecuencia de los sistemas de registro ms intensivos (por ejemplo, en la produccin del ganado lechero es posible obtener el flujo instantneo de leche) y de la disponibilidad de mejores mtodos estadsticos para el anlisis de modelos longitudinales de efectos mixtos. En particular, los modelos de regresin lineal aleatoria y tcnicas similares han sido empleados en la zootecnia, en la cual hay un nmero considerable de referencias relacionadas con el tema de rendimientos del da de control en el ganado lechero. Ha habido aplicaciones similares en las especies que producen carne.

    El problema de analizar datos longitudinales puede explicarse brevemente de esta manera: consideremos una situacin en la cual cada individuo de una muestra obtenida al azar se mide longitudinalmente. Por ejemplo, los conejos machos y hembras de varias especies pueden ser pesados durante varias fases de su desarrollo, desde cerca de su nacimiento hasta su etapa adulta. Supongamos que el objetivo es estudiar los patrones de crecimiento de ambos sexos para cada especie, tomando en cuenta la variabilidad entre individuos. Tpicamente, hay variacin en el nmero de mediciones por individuo, lo cual causa desbalanceo longitudinal. Un modelo jerrquico o de etapas mltiples puede ajustarse. Este modelo consiste de una serie de especificaciones funcionales anidadas, junto con una serie de supuestos sobre las distribuciones asociadas. En el contexto de datos longitudinales, en la primera fase del modelo se usa una funcin matemtica para describir la trayectoria esperada dentro de individuos, y un residuo estocstico captura las discrepancias entre dicha trayectoria y las observaciones. En una segunda etapa, se usa un submodelo para describir la variacin de los parmetros entre individuos en la primera etapa de la especificacin. El residual de la segunda etapa refleja la incapacidad del submodelo para explicar completamente la variacin de los parmetros. En un contexto bayesiano, pueden imponerse etapas subsecuentes para describir la incertidumbre en los parmetros.

    En la primera etapa uno de los supuestos es que las trayectorias (los pesos del mismo individuo, por ejemplo) pueden ser descritas mediante el siguiente modelo paramtrico:

    yi = fi(i, ti) + i , i = 1, 2, ..., M, (14) donde yi = {yij} (i = 1, 2, ..., M; j = 1, 2, ..., ni) es un vector ni 1 de registros de la trayectoria del individuo i, fi(i, ti) es su trayectoria esperada (por ejemplo, la curva de crecimiento esperada) dados un vector de parmetros particular a cada individuo i, de orden r 1, y ti, un vector ni 1 con los tiempos conocidos de medicin. En (14), el vector ni 1 de residuos i representa la incapacidad de la funcin fi(i, ti) para reproducir los pesos observados yi de manera exacta. La relacin entre los pesos observados y los parmetros puede ser lineal o no lineal. Es muy comn suponer que los residuos de la primera etapa son independientes entre individuos, pero que puede haber dependencias entre las trayectorias. Algunas dependencias posibles entre individuos, como similaridad gentica o ambiental, pueden introducirse en la segunda etapa del modelo. Si suponemos que los residuos tienen una distribucin normal (si bien a veces es ms razonable usar una distribucin con colas ms pesadas, tal como la distribucin t de Student), la densidad de la primera etapa puede expresarse como sigue:

    yi | i, ~ N [ fi(i, ti), Ri() ], i = 1, 2, ..., M, (15)

  • 18

    donde yi es condicionalmente independiente de yj para cualquier par concebible. En (15), Ri() es una matriz ni ni de varianza-covarianza de la primera etapa, la cual depende de , un vector de parmetros de dispersin. Por ejemplo, si los residuos estn independiente e idnticamente distribuidos dentro de los individuos, entonces Ri() = inI , donde es la varianza alrededor de la trayectoria esperada, por lo cual es un escalar en este caso. La forma de la matriz Ri() depende de los supuestos que se hagan sobre la dispersin.

    La segunda etapa del modelo define de qu manera varan los parmetros especficos de cada individuo con respecto a variables independientes, las cuales posiblemente representan fuentes genticas de variacin. Para facilitar su definicin, puede ser conveniente suponer que la segunda etapa del modelo es lineal con respecto a los efectos de las variables independientes. Sin embargo, al menos en teora, no existe razn que impida que tal especificacin sea no lineal, particularmente si as lo sugieren consideraciones tericas. Si se adopta un modelo lineal, la estructura es la siguiente:

    i = Xi + ui + ei, i = 1, 2, ..., M. (16) El vector representa los efectos de las p variables independientes contenidas en la matriz Xi, de tamao r p; ui son los efectos especficos de cada individuo en cada uno de los r parmetros, y e i es un vector de residuos de la segunda etapa. De manera similar a los residuos de la primera etapa, estos residuos capturan las discrepancias entre el modelo de la segunda etapa Xi + ui y los valores reales i. En aplicaciones en zootecnia, por ejemplo, el vector ui puede consistir de efectos genticos aditivos sobre los parmetros de la trayectoria, y stos pueden o no ser identificables por separado del vector de residuos e i, dependiendo de la estructura de relaciones genticas.

    Los supuestos sobre distribuciones de la segunda etapa se hacen con respecto a la incertidumbre ocasionada por la presencia de ei en el modelo (16), dados y ui. A menudo resulta conveniente suponer que

    i | , ui, e ~ N (Xi + ui, e), (17) lo cual implica que e i | e ~ N (0, e). Los elementos en la diagonal de e son las varianzas de los residuos de la segunda etapa, y los trminos fuera de la diagonal corresponden a las covarianzas. En algunos casos, uno puede optar por asignar una distribucin con colas pesadas o robusta para los residuos, como puede ser una distribucin t multivariada, con r componentes. En este caso, uno escribira ei | e , e ~ tr (0, e, e) para denotar una distribucin t r-dimensional, con un vector de ceros como media, matriz de varianza-covarianza e y e grados de libertad. Debemos hacer mencin que para una distribucin t multivariada, e = (e /(e - 2)) Se, donde Se es la matriz de escala, por lo cual e > 2 es una condicin necesaria para que exista la matriz de varianza-covarianza (Zellner, 1971). Suele suponerse que los residuos de la segunda etapa son mutuamente independientes entre individuos. Los parmetros pueden expresarse de manera compacta como sigue:

    M r1 = X M rp p1 + u M r1 + e M r1. Esto quiere decir que la distribucin de la segunda etapa para todos los parmetros de todos los individuos est dada por:

    | , u, e ~ N (X + u, Ie), (18)

    En un modelo bayesiano, deben definirse distribuciones a priori para todas las cantidades desconocidas del sistema estadstico propuesto. Por lo tanto, deben definirse distribuciones a priori para , u, e, y . Si el vector u representa los efectos genticos aditivos

  • 19

    de los parmetros de trayectoria, un supuesto comn (y conveniente) en la gentica cuantitativa es:

    u | G0 ~ N (0, AG0), (19) donde queda implcito que los parmetros estn ordenados dentro de los individuos, que A es la matriz aditiva gentica entre los M individuos, y que G0, es la matriz gentica aditiva de varianza-covarianza de los parmetros, de tamao r r. Si G0 es desconocida, tambin debe proponerse una distribucin a priori para la misma. La incertidumbre sobre todas las cantidades desconocidas se introducira en la densidad previa conjunta

    p( , u, G0, e, ). (20) Una vez que los datos se hayan combinado con la distribucin a priori mediante el uso del teorema de Bayes, pueden obtenerse inferencias. La distribucin a priori recin mencionada puede estar acotada, de acuerdo con conocimientos previos sobre los valores de los parmetros, o bien debido a consideraciones tericas. Debemos enfatizar que una ventaja del enfoque bayesiano reside en la posibilidad de incorporar al anlisis informacin externa estocstica.

    Antes del advenimiento de MCMC era necesario usar mtodos aproximados. Por ejemplo, Gianola y Kachman (1983) y Kachman y Gianola (1984) propusieron emplear mtodos bayesianos empricos y variantes de REML para obtener estimaciones de valores de cria y de componentes de (co)varianza, respectivamente, para funciones no-lineales (el modelo lineal era un caso particular) que describan trayectorias longitudinales, como por ejemplo la lactacin o el crecimiento. Estos estimadores son idnticos a los que obtuvieron posteriormente Lindstrom y Bates (1990) y Laird (1990), empleando lo que se ha llamado modelos de regresin aleatoria. Rekaya (1997), Rodrguez-Zas (1998) y Chang (1999) describieron implementaciones totalmente bayesianas de curvas de lactacin no lineales mediante MCMC (muestreo por rechazo, Metropolis-Hastings) incluyendo distribuciones con colas pesadas. Un enfoque aparentemente distinto ha sido el de las funciones de covarianza (Kirkpatrick y Lovsfold, 1989), donde la covarianza entre registros de individuos se considera una funcin continua del tiempo. Meyer (1998) describe una implementacin REML de las funciones de covarianza, pero no queda clara como puede extenderse el paradigma que ella emplea a una situacin en la cual la trayectoria requiere de un modelo intrnsicamente no lineal.

    Anlisis de Supervivencia Survival Analysis

    Un rea que ha recibido cada vez ms atencin en la zootecnia ha sido el anlisis de

    supervivencia aplicado a la vida productiva o longevidad productiva (Smith y Allaire, 1986; Ducrocq y Casella, 1996; Sorensen, Gianola y Korsgaard , 1998, y Korsgaard et al., 1999). Al igual que en las ciencias mdicas, tambin se han empleado modelos de riesgos proporcionales en la gentica animal. Aqu, los conceptos bsicos son: 1) la funcin de supervivencia, la cual modela la probabilidad que un individuo sobreviva hasta el tiempo t, y 2) la funcin de riesgo, es decir, la probabilidad instantnea que un individuo que ha sobrevivido hasta el tiempo t muera poco despus. Una caracterstica prevaleciente en los modelos de supervivencia es la presencia de observaciones censuradas. Por ejemplo, puede saberse que una vaca estaba presente en el rebao en cierto momento, pero que fue vendida a otro rebao por motivos de produccin, pero no hay informacin sobre la fecha en la cual termin su carrera. La densidad de todas las observaciones, dados los parmetros, consiste de dos componentes: una para las observaciones censuradas, la cual depende de los parmetros a travs de la funcin de supervivencia, y otra (para los datos no censurados) en la cual los parmetros entran a travs de la funcin de riesgo. En estos modelos el riesgo de muerte de un individuo se expresa como el producto de un riesgo basal y un riesgo multiplicativo que depende de efectos fijos y aleatorios.

  • 20

    En esta rea se han empleado tcnicas bayesianas empricas para inferir valores de cria (por ejemplo, Ducrocq y Casella, 1996), aunque tcnicamente son factibles los tratamientos bayesianos puros. Un punto que queda por resolver es cmo incorporar un anlisis de supervivencia al caso de varias caractersticas. Este problema es de fcil solucin si se usa un modelo lineal censurado (Korsgaard et al., 1999), si bien esto sacrifica la flexibilidad y el realismo de los supuestos. Similarmente, hay situaciones en las cuales puede ser necesario modelar una funcin de riesgo multivariada. Guo (1999), por ejemplo, estudi la longevidad productiva y la prolificidad vitalicia en cerdas. Ambas caractersticas pueden estar sujetas a truncamiento, y se requerira un modelo de supervivencia bivariado para hacer inferencias sobre la correlacin gentica y ambiental entre las caractersticas.

    Efectos de la Seleccin Sobre las Inferencias Effects of Selection on Inferences

    Tal como mencionamos antes, los datos de zootecnia rara vez se originan a partir de un

    mecanismo genuinamente aleatorio. Excepto en experimentos diseados, la historia del proceso de seleccin se conoce parcialmente. Una cuestin de importancia es hasta qu punto se distorsionan las inferencias cuando, por ejemplo, se ignoran la seleccin o el apareamiento selectivo. Algunas contribuciones importantes han sido las de Kempthorne y von Krosigk que aparecen en Henderson et al. (1959), Curnow (1961) y, notablemente, Henderson (1975). Im, Fernando y Gianola (1989) estudiaron los problemas inferenciales desde un punto de vista de datos faltantes, mientras que Gianola y Fernando (1986) y Fernando y Gianola (1990) dan el tratamiento bayesiano.

    Kempthorne y von Krosigk (Henderson et al., 1959), y Curnow (1961), usan supuestos de normalidad y demuestran que el estimador de mxima verosimilitud es el mismo con y sin seleccin, siempre y cuando toda la informacin empleada para tomar decisiones con respecto a la seleccin sea usada en el anlisis. Im, Fernando y Gianola (1989) presentan el resultado de manera ms general, para cualquier distribucin. Esto no implica que la distribucin asinttica del estimador de mxima verosimilitud no se vea afectada por la seleccin. Para obtener la matriz de informacin cuando hay seleccin uno necesita obtener esperanzas con respecto a la distribucin marginal de las observaciones bajo seleccin, en lugar de hacerlo bajo muestreo aleatorio. De lo contrario, resulta interesante que el estimador puntual es vlido, mientras que las inferencias respecto a intervalos son invlidas al considerar muestreo conceptual repetido. Por lo tanto la seleccin no es completamente ignorable si uno desea ir ms all de un estimador puntual. Gianola, Fernando, Im y Foulley (1989) hacen una revisin de algunas de estas cuestiones.

    Henderson (1975) deriv los mejores predictores lineales insesgados del valor de cria bajo un modelo concreto de seleccin, dando por hecho que los parmetros de dispersin son conocidos. En esta instancia, bajo muestreo repetido, las matrices de incidencia y la matriz de parentesco deben permanecer constantes de replicacin a replicacin. El modelo de Henderson es vlido slo si los animales son intercambiables, en el sentido que cualquier permutacin de componentes produce la misma distribucin y la misma matriz de relacin. Esto es inverosmil en la prctica. Sea cual fuere el caso, y considerando estas restricciones, l dio condiciones para insesgamiento, las cuales han sido citadas y respetadas en el rea de zootecnia. Una de ellas, por ejemplo, dice que si la seleccin est basada en funciones lineales de valores de cria inobservables, algunos factores aleatorios del modelo (como podran ser los rebaos) deben ser tratados como fijos para obtener predictores insesgados de los valores de cria. En primer lugar, es obvio que si uno pudiera observar los valores de cria para construir las funciones lineales a partir de las cuales se basar la seleccin, no tendra caso predecir cosa alguna, pues el estado real de la naturaleza sera conocido. En segundo lugar, esto no describe el tipo de seleccin que uno encontrara en la prctica. Sin embargo, resulta interesante que sus derivaciones fueron recibidas sin crtica alguna por los zootecnistas, con la excepcin notable de Thompson (1979).

  • 21

    En cualquier caso, Henderson (1975) probablemente constituye el mejor intento frecuentista para obtener prediccin insesgada de efectos aleatorios bajo seleccin.

    En el marco bayesiano, Gianola y Fernando (1986) demostraron que la seleccin puede ignorarse si se usan todos los datos para construir la distribucin conjunta posterior de los parmetros desconocidos. Fernando y Gianola (1990) elaboraron el resultado, y ste fue extendido por Gianola, Piles y Blasco (1999). Esta conclusin es vlida al nivel de las distribuciones marginales posteriores para cualquier cantidad desconocida, sin importar si es un valor de cria, una correlacin gentica en un modelo multivariado de umbral, o los grados de libertad de una distribucin t. Sin embargo, estos resultados no deben interpretarse desde un punto de vista frecuentista. Por ejemplo, bajo supuestos de normalidad y de estructura de dispersin conocida, la media de la distribucin posterior de los valores de cria bajo este tipo de seleccin es igual al predictor BLUP sin tomar en cuenta la seleccin. Sin embargo, el BLUP ordinario es sesgado bajo seleccin variable ante localizacin (Henderson, 1975). En este caso tenemos una situacin en la cual una solucin bayesiana no puede curar una enfermedad frecuentista.

    Existen situaciones en las cuales la seleccin no puede ser ignorada. Por ejemplo, es de esperarse que en un anlisis de las caractersticas de la carcasa en ganado vacuno que ignorara la seleccin concomitante por tasa de crecimiento conducira a inferencias invlidas. Aqu es esencial el intentar modelar los datos faltantes o el procedimiento de seleccin, o bien, quiz considerar adoptar mtodos robustos de inferencia. Por ejemplo, si la seleccin (natural o artificial) desplaza a una poblacin hacia algn punto ptimo intermedio, esto debe ser tomado en cuenta de alguna manera. Si tal seleccin se realiza de acuerdo a funciones gaussianas de aptitud (fitness), la distribucin resultante posterior a la seleccin sigue siendo gaussiana, pero los parmetros son distintos (ver, por ejemplo, Bulmer, 1980). En trminos generales, el problema de obtener inferencias bajo seleccin puede plantearse como sigue: (Sorensen, Fernando y Gianola, 2001). Supongamos que la seleccin est basada en un vector aleatorio z, y que una funcin de seleccin s(z) produce datos mutuamente exclusivos y exhaustivos yi (i = 1, 2, ..., S). Cada uno de los vectores de datos yi consta de datos que seran observados si un conjunto especfico de animales resultase seleccionado, por ejemplo, para producir registros adicionales o bien para convertirse en padres de la siguiente generacin. Debemos resaltar que la funcin de seleccin es discreta, de tal manera que s(z) = i, con i = 1, 2, ..., S. Por ejemplo, supongamos que una vaca de una par de hembras ser escogida para producir un segundo registro de lactacin, de acuerdo con la produccin de una primera lactacin. Sea yjk el k-simo registro de la vaca j (j = 1, 2). Aqu, z = [y11, y21]. Si y11 > y21, el registro adicional observado es y12 y s(z) = 1, lo cual produce y1 = [y11, y21,, y12]. A la inversa, si y11 y21, la observacin adicional es y22, s(z) = 2, y entonces y2 = [y11, y21,, y22]. Por lo tanto, la variable aleatoria s(z) tiene por espacio muestral a todos los patrones posibles (diseos). De manera ms general, s(z) puede referirse a los diseos de un experimento de seleccin multigeneracional. Supongamos que z(t) tiene una distribucin con parmetro . El vector de datos observados es yi, y estos datos se usan para inferir un vector de parmetros i; el vector de parmetros es especfico para cada vector de datos porque, por ejemplo, los valores de cria desconocidos de individuos asociados con y1, por poner un caso, sern distintos de los que estn asociados con y2. Bajo seleccin, la densidad posterior de i y de puede expresarse de la siguiente manera:

    psel( i, | yi ) p( i, ) =

    S

    j 1

    p[ yi, s(z) = j | i, ] ( i j) (21)

    En la ecuacin (21), p( i, ) es la densidad conjunta a priori de i y de , y (0) = 1 (es decir, cuando s(z) = i y se escoge el i-simo diseo de cria) y cero para cualquier otra . De aqu se desprende que:

    psel( i, | yi ) p(i, ) p[ yi, s(z) = i | i, ]

  • 22

    = p( i, ) p(yi | i ) Pr [ s(z) = i | yi , i, ] La densidad posterior de i se obtiene integrando sobre :

    psel(i | yi) p(yi | i) p(i, ) Pr [s(z) = i | yi , i, ]d (22) Si i y son independientes, a priori, y si la probabilidad condicional de escoger el diseo i no depende de los parmetros a inferir (i), la expresin anterior se reduce a:

    psel(i | yi) p(yi | i) p(i) (23) que es la densidad posterior sin seleccin. Si las dos condiciones antecitadas se cumplen, la seleccin es ignorable y el proceso de inferencia prosigue como si no hubiera habido seleccin. Un caso especial de inters es aquel en el que todos los datos o bien un subconjunto de ellos se ha usado para tomar decisiones de seleccin y tales datos han sido incluidos en el anlisis. En este caso Pr[s(z) = i | i, , yi ] = 1, porque s(z) queda completamente especificado si yi est dado. De aqu sigue que la seleccin es ignorable cuando est basada total o parcialmente en los datos usados para obtener inferencias. En conclusin, cuando todos los registros se usan para construir la distribucin posterior de una incgnita , todas las distribuciones, sean conjuntas, condicionales, y marginales son iguales a las que se obtendran si no hubiera habido seleccin.

    Software de Cmputo Computing Software

    Debido al tamao de las series de datos de zootecnia, se han dedicado muchos esfuerzos

    para hacer BLUP y REML computacionalmente factibles, incluso en modelos multivariados. Misztal (1998) compara los distintos paquetes de cmputo; Hofer (1998) contiene discusin adicional. Los paquetes ms ampliamente usados para modelos lineales de efectos mixtos son DFREML (Meyer, 1991), DMU (Jensen y Madsen, 1994), MTDFREML (Kriese et al., 1994), VCE (Groeneveld, 1994) y ASREML (Gilmour y Thompson, 1998). Algunos paquetes incluyen implementaciones de MCMC (Van Tassell y Van Vleck, 1996; Groeneveld y Garca Corts, 1998; Janss, 1998). Janss y de Jong (1999) ajustaron un modelo univariado de efectos mixtos a aproximadamente 1,4 millones de efectos de localizacin, con 700,000 valores genticos adicionales (con una matriz de relacin, A , del orden correspondiente) de rendimiento lechero de ganado holands, y usaron muestreo Gibbs. Estimaron las distribuciones posteriores de heredabilidad de manera precisa. Este caso es un ejemplo en el cual MCMC permite estimar una distribucin completamente, mientras que clculos determinsticos basados en la verosimilitud no son factibles. Hay algunos programas para modelos no lineales, de anlisis de supervivencia, y de variables dependientes limitadas, pero no son generales. Un ejemplo es SURVIVAL KIT, til para el anlisis de modelos de supervivencia (Ducrocq y Slkner, 1998).

    Desarrollos Futuros Future Developments

    Los zootecnistas han adoptado las nuevas ideas y tecnologa estadsticas a un ritmo

    bastante acelerado. Pueden esperarse avances adicionales? Una primera rea que requiere trabajo adicional es la de especificacin y crtica de modelos. No es razonable esperar que todas las caractersticas cuantitativas puedan ser adecuadamente descritas con un modelo lineal con una especificacin universal rebao-ao+animal+efectos permanentes+ambiente+residual bajo supuestos gaussianos. Dado el crecimiento constante en el podero computacional y los algoritmos, existe flexibilidad para ajustar tanto formas funcionales como distribuciones ms

  • 23

    realistas, as como para cuestionar los modelos de manera ms estricta, siendo esta ltima un rea que no ha recibido la atencin que se merece. Una medida relativa de la bondad del modelo, al menos en un marco bayesiano, consiste en evaluar las probabilidades posteriores de cada uno de un conjunto de modelos alternativos. Esto requiere calcular los factores de Bayes o bien emplear mtodos de salto reversible para estimar la distribucin de probabilidad posterior de los modelos. Strandn y Gianola (1997), por ejemplo, encontraron fuerte evidencia en contra de un modelo con errores gaussianos. Una especificacin con una distribucin t para los residuos era al menos 105 ms probable que su contraparte gaussiana; esta diferencia correspondera a una diferencia de aproximadamente 23 en la escala de una prueba de cociente de verosimilitudes.

    El anlisis de residuos de un modelo constituye una importante herramienta de diagnstico. Por ejemplo, en un modelo jerrquico de etapas mltiples para datos longitudinales (para rendimiento lechero, por ejemplo) uno puede examinar el ajuste de distintas especificaciones a varios niveles: el de la trayectoria, el de la variacin de los parmetros que describen la trayectoria, y el de las distintas subpoblaciones incorporadas en el anlisis. Strandn (1996) realiz un anlisis bayesiano de los residuos de los modelos para datos de produccin lechera de corte transversal. Examin las distribuciones posteriores de los residuos, detect observaciones aberrantes, y encontr que una distribucin robusta produca un mejor ajuste. De manera similar, Rodrguez-Zas (1998) emple MCMC para criticar varios modelos longitudinales empleados para describir el conteo de clulas somticas en Holsteins, y detect varias observaciones aberrantes dentro de los individuos. Adems, examin las distribuciones posteriores de las medidas de distancia de Mahalanobis para observaciones aberrantes multivariadas, para detectar aquellos individuos cuyos parmetros de regresin al azar diferan de lo que el modelo predeca. Este anlisis puede extenderse de manera natural a datos discretos bajo un marco bayesiano, y debe estar incluido en la agenda de trabajos futuros.

    Una segunda rea de inters est relacionada con los riesgos inherentes de adoptar supuestos demasiado fuertes respecto a la dimensionalidad de un modelo. Algunos zootecnistas parecen creer que un anlisis de un modelo con un gran nmero de dimensiones es necesariamente mejor (o que proporciona una norma de oro) que un modelo basado en supuestos menos ambiciosos. Si el estado real de la naturaleza es desconocido, no existe razn para esperar que un modelo con ms parmetros aporte una descripcin ptima de la realidad (Malcot, 1947). Supongamos, por ejemplo, que disponemos de las caractersticas A, B,C, ..., Z, y que se ajusta un modelo gaussiano para caractersticas mltiples, con tantas dimensiones como hay letras en el abecedario, para predecir los valores de cria y estimar los parmetros genticos. Esto es equivalente a construir un modelo probabilstico del siguiente tipo:

    Pr(A) Pr(B|A) Pr(Z|Y, X, ..., B, A) Podemos hacer la analoga de que esta expresin es como una escalera, pero qu pasa si algunos de los peldaos son falsos? Puede haber razones vlidas para creer que haya normalidad aproximada en los mrgenes. Lamentablemente, esto no es una condicin suficiente para definir un proceso conjunto gaussiano, puesto que todas las distribuciones condicionales deben ser gaussianas para que esto sea verdad. Strandn y Gianola (1997), por ejemplo, usaron factores de Bayes y hallaron que los modelos de repetibilidad univariados (ya fuera con errores gaussianos o con distribucin t) eran mucho ms plausibles que los modelos bivariados que describan el rendimiento lechero durante la primera y segunda lactaciones en ganado Ayrshire. An si uno adopta un modelo de varias dimensiones, Rekaya, Weigel y Gianola (1999) demuestran cmo una parametrizacin ms parsimoniosa de una matriz de varianza-covarianza puede producir inferencias dramticamente ms precisas sobre las correlaciones genticas, cuando se compara con un modelo estndar para mltiples caractersticas. Un problema relacionado en el rea de zootecnia, y tambin importante, es el de describir varianzas heterogneas de manera parsimoniosa empleando modelos estructurales (Foulley, et al., 1992; San Cristbal et al., 1993).

  • 24

    Una tercera rea de inters es la de disponer de robustez ante violaciones a los

    supuestos, tal como mencionamos anteriormente. Hay trabajos en marcha que ajustan distribuciones con colas pesadas (Strandn y Gianola, 1998; Rodrguez-Zas, 1998; Rodrguez-Zas, Gianola y Shook, 1998; Rosa, 1998), modelos no paramtricos bayesianos (Saama, 1999) y el uso de splines (White, Thompson y Brotherstone, 1999). Respecto a distribuciones con colas pesadas, Strandn (1996) y Strandn y Gianola (1999) describen la manera en la cual los modelos lineales de efectos mixtos, tanto univariados como para mltiples caractersticas, pueden extenderse para acomodar distribuciones t, para as obtener un anlisis ms robusto. Strandn y Gianola (1997) encontraron que los modelos con errores independiente e idnticamente t-distribuidos, univariados o bivariados, eran ms plausibles que sus contrapartes bayesianas para caracterizar el rendimiento lechero en ganado. En este estudio, la distribucin posterior de los grados de libertad estaba concentrada entre los valores de 6 y 10, lo cual invalida el supuesto gaussiano. Por otra parte, Rodrguez-Zas (1998) encontr que las medias posteriores de los grados de libertad fluctuaban entre 20 y 24 al usar regresiones al azar no lineales para describir los conteos de clulas somticas en vacas Holstein. En este caso los factores de Bayes no fueron decisivos en contra del supuesto gaussiano. Rosa (1998) apunt que los modelos t podan extenderse fcilmente (al menos desde un punto de vista bayesiano) para reflejar asimetras en la distribucin de los efectos aleatorios. Esto ya haba sido sugerido por Fernndez y Steel (1998a,b) para la primera etapa de un modelo jerrquico. Rosa, Gianola y Padovani (1998, 1999) ajustaron siete distribuciones (Gaussiana, t univariada y multivariada, slash univariada y multivariada, normal contaminada univariada y multivariada) a datos de peso al nacer de ratones. Las distribuciones gaussianas y la s tres distribuciones robustas multivariadas resultaron ser las de menor plausibilidad. Entre las tres distribuciones robustas univariadas, la slash y la normal contaminada produjeron modelos que eran entre 5 y 6 veces ms probables (a posteriori) que la t-univariada. El modelo gaussiano era unas 10-26 veces menos factible que otro modelo con una distribucin normal contaminada univariada. Esto indica que los anlisis basados en los supuestos gaussianos pueden ser peligrosos para la inferencia probabilstica en su totalidad. Si bien la normalidad puede no causar problemas serios desde el punto de visto de la prediccin puntual de valores de cria, puede crear dificultades para calcular las probabilidades de eventos ordenados. Por ejemplo, Heringstad, Rekaya y Gianola (1999, sin publicar), usaron datos noruegos binarios de mastitis para estimar, mediante MCMC en un modelo bayesiano de umbral, la probabilidad posterior de que al menos 10 de los mejores 25 sementales (ordenamiento basado en medias posteriores) fueran aquellos con las habilidades de transmisin ms grandes en la escala de responsabilidad; el anlisis involucr a 257 sementales jvenes y unos 12.000 registros. Este tipo de clculo probabilstico puede usarse para distinguir entre varios modelos, escogiendo aquellos que tengan la probabilidad ms alta de que el ordenamiento de los valores reales corresponda al ordenamiento de la evaluacin, dados los datos. Claramente, el usar un supuesto gaussiano para datos binarios 0-1 generara probabilidades espurias. El clculo de la probabilidad de ordenar correctamente un conjunto de variables aleatorias que ni son independientes ni se distribuyen idnticamente es un problema viejo en la zootecnia (Henderson, 1973).

    Uno de los mayores retos en la zootecnia es cmo tratar los datos resultantes de procesos de seleccin crpticos. Por lo tanto, el proponer modelos de seleccin es un rea que debe recibir ms atencin, ms all de las simulaciones ad hoc que suelen generarse para estudiar lo que ocurre bajo condic iones muy concretas. Por ejemplo, Gianola y Hill (1999) derivaron prediccin lineal insesgada ptima para seleccin estabilizante. Las inferencias dependen de conocer el valor ptimo hacia el cual se est moviendo la poblacin, y de una matriz de parmetros. En principio, estos parmetros puede estimarse al comparar los datos antes y despus de la seleccin. Sin embargo, si uno hubiera observado los datos antes de que ocurriera la seleccin, dicha seleccin sera ignorable, al menos desde un punto de vista bayesiano o de verosimilitud. Tal como mencionamos, Sorensen, Fernando y Gianola (2001) propusieron una tcnica que permite inferir la trayectoria de la varianza gentica aditiva (bajo un modelo infinitesimal) durante el transcurso de la seleccin. Empleando datos simulados,

  • 25

    mostraron que la distribucin posterior de la varianza gentica aditiva para cualquier generacin cubra adecuadamente el valor real. Su anlisis bayesiano es mucho ms preciso que ajustar una regresin de los hijos sobre los padres, lo cual ha sido una forma de inferencia de verosimilitud condicional que se ha recomendado para algunos tipos de datos. Una extensin obvia consiste en estudiar la dinmica de la correlacin gentica entre caractersticas.

    Un rea de inters actual y futuro es la del uso estadstico de la informacin molecular en inferencias sobre valores genticos y en mapeo QTL (Quantitative Trait Loci - locus de caractersticas cuantitativas). Un artculo clave para la seleccin basada en marcadores es Fernando y Grossman (1989); Hoeschele et al. (1997) contiene resultados adicionales.

    Agradecimientos Acknowledgements

    El autor agradece los comentarios hechos por David Balding, Jean-Louis Foulley,

    Daniel Sorensen y Robin Thompson en relacion a una versin (en ingls) publicada en Handbook of Statistical Genetics, Wiley&Sons, Buffins Lane, Gran Bretaa (2001, ISBN O-471-86094-8). Este trabajo fue financiado por la Estacin Agrcola Experimental Wisconsin (Wisconsin Agriculture Experiment Station) y por los fondos para investigacin NRICGP/USDA 99-35205-8162, y NSF DEB-0089742.

    Referencias Bibliogrficas References

    Anderson, R. L. y Bancroft, T. A. (1952), Statistical Theory in Research, New York: McGraw-Hill. Balding, D.J. et al. (Eds.) (2001), Handbook of Statistical Genetics. Nueva York: John Wiley & Sons, Ltd. Bidanel, J. P (1998), Benefits and Limits of Increasingly Sophisticated Models for Genetic Evaluation: the Example of Pig Breeding, Proceedings of the Sixth World Congress on Genetics Applied to Livestock Production, 25, 577-584, Armidale: Animal Genetics and Breeding Unit. Box, G. E. P. y Tiao, G. C. (1973), Bayesian Inference in Statistical Analysis, Reading: Addison-Wesley. Bulmer, M. G. (1980), The Mathematical Theory of Quantitative Genetics, Oxford: Oxford University Press. Chang, Y. M. (1999), Bayesian Analysis of Lactation Curves in Dairy Sheep, Tsis de Maestra, University of Wisconsin-Madison. Cockerham, C. Clark (1954), An Extension of the Concept of Partitioning Hereditary Variance for the Analysis of Covariances Among Relatives when Epistasis is Present, Genetics, 39, 859-882. Corbeil, R. R. y Searle, S. R. (1976), A Comparison of Variance Component Estimators, Biometrics, 32, 779-791.

  • 26

    Curnow, R. N. (1961), The Estimation of Repeatability and Heritability from Records Subject to Culling, Biometrics, 17, 553-566. Dempfle, L. (1977), Relation Entre BLUP (Best Linear Unbiased Prediction) et Estimateurs Bayesiens, Annales de Gnetique et de Slction Animale, 9, 27-32. Dempfle, L. (1982), Problems in Estimation of Breeding Values, Proceedings of the Second World Congress on Genetics Applied to Livestock Production V, 104-118, Madrid: Neografis. Ducrocq, V. (1990), Estimation of Genetic Parameters Arising in Nonlinear Models, Proceedings of the Fourth World Congress on Genetics Applied to Livestock Production, XII, 419-428, Penicuik: Joyce Darling. Ducrocq, V. y Casella, G. (1996), Bayesian Analysis of Mixed Survival Models, Genetics, Selection, Evolution, 28, 505-529. Ducrocq, V. y Slkner, J. (1998), The Survival Kit: a Fortran Package for the Analysis of Survival Data, Proceedings of the Sixth World Congress on Genetics Applied to Livestock Production, 22, 51-52, Armidale: Animal Genetics and Breeding Unit. Falconer, D. S. (1965), Maternal Effects and Selection Response, Genetics Today, 763-774 (Geerts, S.J., Ed.), Oxford: Pergamon. Falconer, D. S. y Mackay T. F. C. (1996), Introduction to Quantitative Genetics, Essex: Longman. Fernndez, C. y Steel, M. F. J. (1998a), On Bayesian Modelling of Fat Tails and Skewness, Journal of the American Statistical Association, 93, 359-371. Fernndez, C. y Steel, M. F. J. (1998b), On the Dangers of Modelling through Continuous Distributions: a Bayesian Perspective, Bayesian Statistics 6, 1-19 (Bernardo, J. M. , Berger, J. O, Dawid, A. P. y Smith, A. F. M Eds.), Oxford: Oxford University Press Fernando, R. L. y Gianola, D.(1986), Optimal Properties of the Conditional Mean as a Selection Criterion, Theoretical and Applied Genetics, 72, 822-825. Fernando, R. L. y Gianola, D.(1990), Statistical Inferences in Populations Undergoing Selection or Non-random Mating, Advances in Statistical Methods for Genetic Improvement of Livestock , 437-453 (Gianola, D., y Hammond, K. Eds.), Berlin: Springer-Verlag. Fernando, R. L. y Grossman, M. (1989), Marker Assisted Selection Using Best Linear Unbiased Prediction, Genetics, Selection, Evolution, 21, 467-477. Fisher, R. A. (1918), The Correlation Between Relatives on the Supposition of Mendelian Inheritance, Royal Society (Edinburgh) Transactions, 52, 399-433. Foulley, J. L. (1993), A Simple Argument Showing How to Derive Restricted Maximum Likelihood, Journal of Dairy Sciences, 76, 2320-2324. Foulley, J. L., Gianola, D. y Im. S. (1990), Genetic Evaluation for Discrete Polygenic Traits in Animal Breeding, Advances in Statistical Methods for Genetic Improvement of Livestock , 361-409 (Gianola, D., y Hammond, K. Eds.), Berlin: Springer-Verlag.

  • 27

    Foulley, J.. L., Gianola, D. y Thompson, R. (1983), Prediction of Genetic Merit from Data on Categorical and Quantitative Variates with an Application to Calving Difficulty, Birth Weight and Pelvic Opening, Genetics, Selection, Evolution, 15, 407-424. Foulley, J. L., Im, S., Gianola, D. y Hschele, I. (1987a), Empirical Bayes Estimation of Parameters for n Polygenic Binary Traits, Genetics, Selection, Evolution, 19, 197-224. Foulley, J. L., Gianola, D., y Im. S. (1987b), Genetic evaluation for traits distributed as Poisson-Binomial with reference to reproductive traits, Theoretical and Applied Genetics, 73, 870-877. Foulley, J.L., San Cristbal, M.., Gianola D., y Im, S. (1992), Marginal likelihood and Bayesian approaches to the analysis of heterogeneous residual variances in mixed linear Gaussian models,. Computational Statistics and Data Analysis, 13, 291-305. Foulley, J. L., y Quaas, R.L. (1994), Statistical Analysis of Heterogeneous Variances in Gaussian Linear Mixed Models, Proceedings of the Fifth World Congress on Genetics Applied to Livestock Production, 18, 341-348, Guelph: University of Guelph. Fox, J. (1984), Linear Statistical Models and Related Methods, New York: Wiley. Gianola, D. y Fernando, R. L. (1986), Bayesian Methods in Animal Breeding Theory, Journal of Animal Science, 63, 217-244. Gianola, D., Fernando, R. L., Im, S. y Foulley, J. L. (1989), Likelihood estimation of quantitative genetic parameters when selection occurs: models and problems, Geno