24
Análisis de un diseño de apareamiento Factorial utilizando “R” Contenido 1. Anexo: Modelo de Libro de Campo del diseño (Factorial Mating Design_LTVRB1_R.xls) 2. Sentencias para bajar el Programa “R” 3. Procedimientos y Sentencias para analizar el diseño de apareamiento Factorial utilizando “R”: A. Instalación del Programa “R” v.2.10.0 1. Bajar R de http://www.r-project.org/ 2. Seleccionar CRAN del menú “Download, Packages” 3. Seleccionar un país 4. Seleccionar Windows (El programa funciona con Windows ’95 y versiones posteriores) 1

Manual for Analysis of Factorial Mating Design in R

Embed Size (px)

DESCRIPTION

Estadística

Citation preview

Page 1: Manual for Analysis of Factorial Mating Design in R

Análisis de un diseño de apareamiento Factorial utilizando “R”

Contenido 1. Anexo: Modelo de Libro de Campo del diseño (Factorial Mating Design_LTVRB1_R.xls)2. Sentencias para bajar el Programa “R”3. Procedimientos y Sentencias para analizar el diseño de apareamiento Factorial utilizando “R”:

A. Instalación del Programa “R” v.2.10.0

1. Bajar R de http://www.r-project.org/2. Seleccionar CRAN del menú “Download, Packages”

3. Seleccionar un país

4. Seleccionar Windows (El programa funciona con Windows ’95 y versiones posteriores)

1

Page 2: Manual for Analysis of Factorial Mating Design in R

5. Seleccionar base

6. Seleccionar Download R 2.10.0 for Windows

7. Una ventana le preguntará si desea almacenar (save) o correr (run) el archive R. Seleccionar “Save” y almacenarlo en sus Archivos de Programas (Program Files) (Esto tomará 8 o más minutos, dependiendo de su computador)

2

Page 3: Manual for Analysis of Factorial Mating Design in R

8. Una vez culminado el proceso de bajar el programa, le preguntará para correr (RUN), abrir la carpeta (OPEN FOLDER) o cerrarlo (CLOSE). Por favor, seleccionar “Run” para ejecutar el programa bajado.

9. La consola del “R” se abrirá para Usted.

Deberá cerrar el programa hacienda click con el mouse en la opción “File” del menú y seleccionando “Exit”

B. Instalación de paquetes en el programa “R”.

Usted necesitará el paquete RODBC para realizar la lectura de sus datos de cualquier programa, tal como Excel. Bien hagámoslo…(Ud no requiere instalar este paquete si anteriormente ya lo bajó a su computador )

3

Page 4: Manual for Analysis of Factorial Mating Design in R

1. Haciendo doble click con el mouse en el ícono de R abrir el programa.

2. Del menu, hacer click en “Packages” (Paquetes, en español) y seleccionar la opción “Install package (s)..” (Instalar Paquete (s) , en español)

3. Una ventana aparecerá para que Usted seleccione un país depositario. Seleccionar un país del cual Usted desea bajar el paquete. Ejemplo: Argentina. Usted preferirá seleccionar uno cercano a su país.

4

Page 5: Manual for Analysis of Factorial Mating Design in R

4. Enseguida, luego de seleccionar el país, una ventana aparecerá en su consola de R mostrándole la lista de paquetes. Seleccione “ROBDC” y haga click en OK

5. En su consola de R aparecerá un mensaje notificándole que el paquete fue instalado satisfactoriamente

Usted tiene ahora el paquete “ROBDC” disponible en “ R”en su computador . Usted no requerirá instalarlo más sino simplemente llamarlo, como se le explicará más adelante . Ahora, tiene que cerrar el programa “R” seleccionando “File” y la opción “Exit” dentro del menu “File”.

5

> utils: : :menuInstallPkgs()trying URL 'http://cran.patan.com.ar/bin/windows/contrib/2.10/RODBC_1.3-1.zip'Content type 'application/zip' length 664454 bytes (648 Kb)opened URLdownloaded 648 Kb

package 'ROBDC' successfully unpacked and MD5 sums checked

The downloaded packages are in C:\Documents and Settings\emihovilovich\Local Settings\Temp\RtmpXDrKnl\downloaded_packages

Page 6: Manual for Analysis of Factorial Mating Design in R

C. Preparación de sus datos en “Excel” para que puedan ser cargados en “R”

1. Prepare sus datos en un archivo de “Excel”. A Usted se le proporcionará un archivo de excel con nombre “Factorial Mating Design_LTVRB1_R.xls” como Demo que contendrá 120 observaciones con las siguientes 3 fuentes de variación: REPLICATION (3 repeticiones) , FEMALE (8 hembras) , MALE (5 machos) y las siguientes variables a analizar: TUBNUM (número de tubérculos), TUBYIELD (rendimiento/planta) TUBWEIGHT (peso promedio de tubérculo).

Figura 1. Datos en excel “Factorial Mating Design_LTVRB1_R.xls”

6

Page 7: Manual for Analysis of Factorial Mating Design in R

2. Grabe el archivo en su computador antes de abrirlo, y recuerde la ruta y el directorio donde lo ha almacenado. Abra el archivo y con el mouse seleccione todos los datos y asígneles el nombre DATA a la selección en el casillero que se muestra en la ventana a continuación

7

Page 8: Manual for Analysis of Factorial Mating Design in R

3.Salve o grabe el archivo nuevamente. Recuerde la ruta y directorio donde grabó el archivo en su computador

8

Page 9: Manual for Analysis of Factorial Mating Design in R

D. Analizando el diseño de apareamiento factorial utilizando el “R”

1. A Usted se le proporcionará un archivo con extensión .R que es el script (guión) con las sentencias preparadas de antemano para analizar cualquier diseño de apareamiento factorial que conste de cualquier número de machos y hembras. Recuerde que en un experimento factorial un grupo de hembras son cruzadas con un mismo grupo de machos, y no deben faltar datos en alguna cruza. Es decir si se cruzaron 8 hembras con 5 machos deben existir datos para las 40 cruzas. El archivo se llama “Script_Factorial Mating Design.R” bájelo a su computador y grábelo en el mismo directorio donde grabó su archivo de datos de Excel “Factorial Mating Design_LTVRB1_R.xls”

2. Haciendo doble click con el mouse en el ícono del “R” abra el programa

3. Seleccione el directorio donde trabajará. (Este deberá ser el directorio donde se encuentran sus datos en el archivo excel, y será el mismo lugar donde almacenará sus resultados).

Pasos a seguir:1) Seleccione “Change dir …” del menu “File”

2) Busque y seleccione el directorio donde almacenó su archivo de datos y haga click en OK . (Usted habrá cambiado el directorio al lugar donde se encuentran sus datos )

3) Para confirmar este procedimiento, tipee o escriba: dir() en la consola del “R” y presione la tecla ‘enter’. Usted verá el nombre de su archivo de datos en la lista. El ejemplo muestra resaltado el archivo de datos “Factorial Mating Design_LTVRB1_R.xls”.

9

Page 10: Manual for Analysis of Factorial Mating Design in R

En ese mismo directorio estará el archivo con las sentencias para el análisis del diseño factorial con nombre “Script_Factorial Mating Design.R” (ver fila 11 en la ventana)

4) Para correr su script, en el menú seleccione “File” y escoja la opción “Open script….” (Seleccione su script, en nuestro caso es “Script-Factorial Mating Design”. El script se abrirá en el editor del “R”).

5) Usted deseará correr todos los comandos para ver los resultados de los Análisis de Variancia , estimados de GCA (Habilidad combinatoria general o HCG) de FEMALE (hembras) y MALE (machos), y efectos de SCA (habilidad combinatoria específica o HCE) de las cruzas, y los errores estándares (S.E.) de estos estimados. Por lo tanto, seleccione con el mouse todas las líneas del script, como se muestra a continuación:

10

Page 11: Manual for Analysis of Factorial Mating Design in R

6) Luego vaya al menú “Edit” de la Consola del R y seleccione la opción “Run line or selection”.

7) Para observar sus resultados, deberá regresar a la consola del “R” ya que sus comandos han sido ejecutados en ese lugar. Esto se realiza dirigiéndose a “Windows” del menú, y seleccionando la opción “R console”

8) Una vez que haya terminado de observar sus resultados en la consola de “R”, Usted deseará almacenar o salvar los resultados. Para ello, haga click en el menu File, y seleccione la opción “Save to File...”. Una ventana se le abrirá inmediatamente preguntándole por un nombre para el archivo. Colóquele un nombre “Factorial-output.txt” y luego haga click en save”. Usted podrá acceder a este archivo texto en su directorio de trabajo.

9) Una vez grabado el análisis, cierre el archivo del script, seleccionando la “x” en la barra del menú (como se indica en la figura de abajo) También puede cerrarlo desde la consola del R

11

Page 12: Manual for Analysis of Factorial Mating Design in R

desde la opción del menú “File” y eligiendo la opción “Close script” .

10) Finalmente, tipee en la consola del “R” las siguiente sentencia para cerrar el programa (solo lo de color azul)

> quit() (para cerrar el programa). Usted no requiere almacenar o guardar el espacio de trabajo, por lo tanto responda no, en la ventana en la que se le hace esta consulta).

NOTA: El script proporcionado corre para un diseño factorial con cualquier número de machos y hembras, siempre y cuando todas las hembras se hayan cruzado con los mismos machos y no falten valores en alguna celda para la variable analizada. Para que sus datos en Excel corran perfectamente deberá siempre identificar la columna de las repeticiones con la palabra REPLICATION, las hembras con la palabra FEMALE y los machos con la palabra MALE, como se indica, todas las letras en mayúscula. Sin embargo, sus variables medidas pueden ser otras a las proporcionadas en el archivo Excel del demo “Factorial Mating Design_LTVRB1_R.xls”. Si usted usa otras variables, nómbrelas como desee, pero tendrá que corregir el archivo del script “Script_Factorial Mating Design.R” que contiene las sentencias para el R . Abra este archivo en cualquier programa de texto, puede ser el Notepad y corrija la sentencia que indica el Modelo del análisis Factorial que se encuentra en las últimas líneas del archivo. Este aparece así:

model<- FACTORIAL(REPLICATION,FEMALE,MALE,TUBYIELD)

12

Page 13: Manual for Analysis of Factorial Mating Design in R

Si su nueva variable es por ejemplo : Altura de Planta, identifíquela con una abreviatura, ejemplo ALTPL en su archivo Excel, y en el archivo del script corrija la sentencia del modelo así

Model<- FACTORIAL(REPLICATION,FEMALE,MALE,ALTPL)

Grabe el archivo con el cambio realizado y ya puede Ud. correr su análisis con la variable altura de planta sin ningún problema

Por último, si Ud está usando un archivo Excel con extensión .xlsx (Windows 2007) deberá modificar la siguiente sentencia del script del archivo “Script_Factorial Mating Design.R” :

canal<-odbcConnectExcel("Factorial Mating Design_LTVRB1_R.xls")

Esta se encuentra también casi al final del archivo. Modifíquela de la siguiente manera para que corra con el Excel del Windows 2007:

canal <- odbcConnectExcel2007("Factorial Mating Design_LTVRB1_R.xlsx")

En esta sentencia Ud también podrá cambiar el nombre del archivo Excel Ejemplo

canal <- odbcConnectExcel2007("Factorial Mating Design_LTVRB1_R.xlsx")

por el nombre de su propio archive de datos:

canal <- odbcConnectExcel2007("Mi Archivo de Datos.xlsx")

E. Interpretación de Resultados

Los resultados en la Figura 1 muestran para el análisis de variancia de peso promedio de tubérculo, diferencias altamente significativas para los tratamientos (cruzas)..

Habiendo resultado las cruzas (Treatments) altamente significativas, éstas se descomponen en Female (Hembras con 7 grados de libertad del total de 8 que se usaron en el diseño), Male (Machos con 4 grados de libertad del total de 5 que se usaron en el diseño) y en Female x Male (interacción de cada hembra con un macho o en otras palabras la desviación del valor de una cruza del promedio de sus dos progenitores, lo que se conoce como habilidad combinatoria específica)

En el análisis de variancia de descomponer los tratamientos (cruzas) en Female (Hembras), Male (Machos) y la interacción Female x Male (Hembras por Machos) encontramos diferencias altamente significativas solo para los machos (Male) más no para las hembras (Female), ni para la interacción hembras por machos (Female x Male), indicando en este último caso que no

13

Page 14: Manual for Analysis of Factorial Mating Design in R

hay una desviación estadísticamente significativa del comportamiento de las cruzas con respecto al promedio de sus progenitores, es decir ninguna cruza presentará significación en su efecto de habilidad combinatoria específica a pesar que el programa estimará éstas.

Figura 1 Análisis de Variancia del Diseño Factorial 8x5 (8 hembras y 5 machos)

En la figura 2 se muestran los efectos de Habilidad Combinatoria General (HCG, GCA en inglés) de las hembras (Female), de los Machos (Male), y la habilidad combinatoria específica de las cruzas (HCE, SCA en inglés) y los errores estándar para determinar la significación de estos valores y de las comparaciones. Recuerde que debido a que el análisis de variancia indicó no significación para hembras y tampoco para la interacción Hembras por Machos, a pesar que el programa haya estimado los efectos de habilidad combinatoria general de hembras y específica de las cruzas, estos valores no deben tomarse en cuenta.

14

ANALYSIS Factorial Mating Design: TUBWEIGHT

ANOVA General ============= Df Sum Sq Mean Sq F value Pr(>F)Replications 2 967.8894 483.9447 2.487 0.0897Treatments 39 18303.1580 469.3117 2.412 0.0005Error 78 15177.2256 194.5798 Total 119 34448.2729

ANOVA for female X male analysis ================================ Df Sum Sq Mean Sq F value Pr(>F)Female 7 1901.362 271.6232 1.068 0.4092Male 4 9281.697 2320.4242 9.125 0.0001Female X Male 28 7120.099 254.2893 1.307 0.1785Error 78 15177.226 194.5798

ANOVA general for female X male analysis ======================================== Df Sum Sq Mean Sq F value Pr(>F)Replications 2 967.8894 483.9447 2.487 0.0897Treatments 39 18303.1580 469.3117 2.412 0.0005Female 7 1901.3622 271.6232 1.068 0.4092Male 4 9281.6967 2320.4242 9.125 0.0001Female X Male 28 7120.0991 254.2893 1.307 0.1785Error 78 15177.2256 194.5798 Total 119 34448.2729

Grados de libertad del error

Altamente significativo

Altamente significativo

NO significativo

Page 15: Manual for Analysis of Factorial Mating Design in R

Figura 2 Efectos de Habilidad Combinatoria General (GCA) de Hembras (Female) y Machos (Male) y Habilidad Combinatoria Específica (SCA) de las cruzas

15

GCA Effects: ===========Female Effects:

B1C5004.11 B1C5004.7 B1C5005.16 B1C5009.12 B1C5019.22 B1C5026.23 B1C5027.7 5.312 3.532 -4.859 -0.964 -1.951 0.549 -6.106

B1C5029.22 4.487

Male Effects:

141.28 C93.154 C95.276 C99.551 NT91.002 -1.188 -4.170 16.024 -10.543 -0.122

SCA Effects: =========== malefemale 141.28 C93.154 C95.276 C99.551 NT91.002 B1C5004.11 7.097 10.781 -2.894 -9.413 -5.571 B1C5004.7 -6.997 17.025 -11.168 5.423 -4.283 B1C5005.16 1.338 -6.580 -8.643 14.502 -0.617 B1C5009.12 -0.387 -9.668 12.415 -8.926 6.565 B1C5019.22 1.488 -1.614 1.657 4.949 -6.480 B1C5026.23 0.562 -3.463 0.335 -0.953 3.519 B1C5027.7 5.259 -8.683 -7.256 8.442 2.238 B1C5029.22 -8.360 2.201 15.554 -14.024 4.629

Standard Errors for Combining Ability Effects: =============================================S.E. (gca for female): 3.601665 (Error estándar para HCG de hembras)S.E. (gca for male) : 2.847366(Error estándar (E.S.)para HCG de machos)S.E. (sca effect) : 8.053567 (E.S. para HCE de cruzas)S.E. (gi - gj)female : 5.093523 (E.S. para comparar HCG entre dos hembras)S.E. (gi - gj)male : 4.026783(E.S. para comparar HCG entre dos machos)S.E. (sij - skl) : 11.38946 (E.S.para comparar HCE entre dos cruzas

Page 16: Manual for Analysis of Factorial Mating Design in R

En la figura 2 , se puede ver que las hembras con más altos valores de HCG (GCA) para rendimiento comercial son B1C5004.11 y B1C5029.22 con efectos de 5.312 y 4.487, respectivamente.

Al error estándar de HCG (GCA) de hembras que es igual a 3.60 hay que multiplicarlo por el valor de t-student, buscado en una tabla t-student para 76 grados de libertad del error y un valor de significación (α) de 0.025 (porque es una prueba de dos colas) . Este para 80 gl que es lo que conseguimos en la tabla es igual a 1.99 . Por lo tanto 1.99 x 3.6= 7.16. Si al valor de HCG de B1C5004.11 le restamos o sumamos el valor 7.16 , es decir 5.312 ±7.16 , el intervalo de confianza de este valor sería 12.472 y -1.848. Debido a que en el intervalo construido se encuentra el valor “0” se puede concluir que la HCG de esta hembra no es significativamente diferente de cero, y por lo tanto no presenta HCG para el carácter peso promedio de tubérculo. Lo mismo pasará con la HCG de la otra hembra. En el caso de la hembra B1C5027.7 cuyo valor de HCG es negativo e igual a -6.106, el intervalo de confianza sería -6.106±7.16 es decir estaría en el rango de 1.054 y -13.266 como este rango incluye también al valor “0” , esta hembra a pesar de su valor de HCG negativo , no contribuye estadísticamente a un efecto negativo sobre el peso promedio de tubérculo. Estos resultados eran de esperarse considerando que el Análisis de Variancia indicó que no existían diferencias significativas entre las HCG de las hembras

Utilizando el error estándar de HCG de los machos (ES=2.85), puede Ud construir los intervalos de confianza para los machos, multiplicando previamente el ES(2.85) x 1.99=5.67 , y ver si éstos incluyen o no el valor “0”, y de esta manera concluir sobre la significancia de los valores de HCG de éstos. Por ejemplo, en la figura 2, se puede ver que el macho con más alta HCG (GCA) y positiva para peso promedio de tubérculo es C95.276 con un efecto igual a 16.024 y aquel con mayor HCG pero negativa es C99.551 con un valor de -10.543. El intervalo de confianza para el primero sería 16.024 ±5.67 , es decir de 21.694 a 10.354 . Al no estar el valor “0” en este rango podemos decir que el clon C95.276 tiene una HCG significativa contribuyendo positivamente al incremento del peso promedio de tubérculo en cruzas con progenitores de la población B1 (todas las hembras en el diseño son una muestra al azar de la Población de Mejoramiento B1 desarrollada para resistencia al tizón tardío) . El intervalo de confianza para el segundo sería de -10.543± 5.67 , es decir de -16.213 a -4.873. Este rango no incluye el valor “0” entonces podemos decir que el clon C99.551 contribuye significativamente pero de manera negativa al peso promedio de tubérculo en cruzas con progenitores de la Población B1.

Bien, a pesar que las HCG de las hembras no contribuyen significativamente al carácter peso promedio de tubérculo, podríamos comparar a manera de práctica las HCG de cualquiera de dos hembras para usar el error estándar para la comparación de las HCG entre dos hembras, aunque está demás hacer este análisis, y no debe reportarse en los resultados, porque al no contribuir ninguna hembra significativamente al peso promedio de tubérculo, éstas comparaciones no vienen al caso, pero hagamos una. Comparemos la HCG de la hembra B1C5004.11 (HCG= 5.312) con la de la hembra B1C5027.7 (HCG= -6.106). La diferencia entre las dos HCG = 5.312 –(-6.106) = 11.418. Utilizando el error estándar de la diferencia entre dos hembras (Figura 2, S.E. (gi - gj) female : 5.093523) lo multiplicamos previamente por el valor tabular de t α=0.025, 80 gl =1.99 , el valor resultante es 10.129. Ahora calculamos el intervalo de confianza de la diferencia entre las HCG de las dos hembras, 11.418 ± 10.129 sería 21.547 y 1.289. Como el intervalo no incluye al valor cero, concluimos que las dos

16

Page 17: Manual for Analysis of Factorial Mating Design in R

hembras se diferencian significativamente en su HCG para peso promedio de tubérculo, sin embargo, dado que ambas hembras tienen una HCG estadísticamente no diferente de 0, no tiene sentido haber hecho esta comparación.

Si a manera de práctica queremos probar la significación de la habilidad combinatoria específica (SCE) de la cruza con mayor SCE procederemos de la siguiente manera:

NOTA Debido a que el Análisis de Variancia no mostró diferencias significativa para Female x Male (interacción de hembras con machos) , no debe realizarse este análisis.

Escogeremos la cruza con mayor efecto de SCE, ésta corresponde al cruce de B1C5004.7 con C93.154 que alcanzó un valor de 17.025. Al error estándar de HCE (ver figura 2) S.E. (sca effect) : 8.054, le multiplicamos el valor de t-student, que ya lo teníamos y era de 1.99 . Por lo tanto 1.99 x 8.054= 16.027. Si al valor de HCE de la cruza elegida le restamos o sumamos el valor 16.027, es decir 17.025 ±16.027, el intervalo de confianza de este valor sería 0.998 y 33.052. Como el rango no incluye al valor “0” podemos decir que esta cruza tiene una SCA significativamente diferente de cero y que su rendimiento comercial va a ser ligeramente mejor que el promedio de sus dos progenitores. Viendo que para construir los intervalos de confianza para cada valor de SCA de las cruzas deberá sumársele y restársele 16.027 y observando que los valores de SCA de todas las demás cruzas con valores positivos están por debajo de 16.027 y aquellas con valores negativos por encima de -16.027 podemos concluir que fuera de la cruza B1C5004.7 x C93.154, las demás no serán significativamente diferentes de cero, pues su intervalo de confianza incluirá este valor. Por lo tanto comparar la diferencia entre las HCE de la cruza B1C5004.7 x C93.154 con las demás no viene al caso. El hecho que no se encontrara diferencia significativa para la interacción hembras x machos en el análisis de variancia , pero sí se encontrara una cruza con HCE significativa, se debería al hecho que el valor estadístico de HCE si bien fue diferente de cero , el valor inferior de su intervalo de confianza indicó que el valor de HCE de la cruza estaba cercano a cero (0.998) y por ello no fue detectado en el análisis de variancia.

A manera de práctica se comparará la diferencia entre las HCE (SCA) de dos cruzas. Tomemos las cruzas con los valores más distantes y éstas corresponde a la cruza B1C5004.7 X C93.154 (SCA=17.025) y a la cruza B1C5029.22 X C99.551 (-14.024). La diferencia entre los dos valores de SCA= 17.025- (-14.024)= 31.049. Utilizando el error estándar de la diferencia entre las SCA de dos cruzas (Figura 2, S.E. (sij - skl) : 11.38946) lo multiplicamos previamente por el valor tabular de t α=0.025, 80 gl =1.99 , el valor resultante es 22.664.Ahora calculamos el intervalo de confianza de la diferencia entre las SCA de las dos cruzas, 31.049 ± 22.664 sería 53.713 y 8.385. Como el intervalo no incluye al valor cero, concluimos que las dos cruzas se diferencian significativamente en su HCE para peso promedio de tubérculo. Esto es cierto dado que la primera si presenta una HCE significativa aunque pequeña y la otra una HCE no significativamente diferente de cero. Sin embargo este resultado no debe reportarse porque solo deben compararse dos valores que son estadísticamente significativos, para comparar quien tiene un mejor efecto.

17