Modelode de Regresion y Correl

Embed Size (px)

Citation preview

  • 7/29/2019 Modelode de Regresion y Correl

    1/39

    AO DE LAS CUMBRES MUNDIALES EN EL PERU

    UNIVERSIDAD NACIONAL DE PIURAFACULTAD DE MEDICINA HUMANA

    TRABAJO DE INVESTIGACION N 7

    Modelos de Regresin y Correlacin

    ALUMNOS: Nima Urbina DavidRamos Marcelo YvnSurez Loro Mercedes AmnelyUra Len Ronald Ivn

    ESPECIALIDAD: Medicina Humana

    DOCENTE: Alfredo Sulln Len

    PIURA- PERUIII SEMESTRE- 2008

  • 7/29/2019 Modelode de Regresion y Correl

    2/39

    Universidad Nacional de PiuraBioestadstica

    Modelos de Regresin Lineal y

    Correlacin

    Generalizacin del concepto de fdp a variables multidimensionales

    La funcin densidad de probabilidad ( fdp ) para una variable aleatoria es unafuncin a partir de la cual se puede calcular la probabilidad de los distintosvalores de la variable.

    En el caso discreto:

    en el caso continuo:

    Esto se puede generalizar a ms de una variable. Para n variables aleatorias X 1, X 2 , ..., X n se llama fdp conjunta a una funcin n-dimensional f(x 1,x2,...,x n) apartir de la cual se puede calcular la probabilidad de los distintos valores de las

    variables.

    En el caso discreto:

    en el caso continuo:

    Del mismo modo que en el caso unidimensional estas funciones estnsometidas a las condiciones:

    discreta

    continua

    Facultad de Medicina Humana2

  • 7/29/2019 Modelode de Regresion y Correl

    3/39

    Universidad Nacional de PiuraBioestadstica

    Ejemplo 1: En una cierta poblacin se definen dos variables discretas: X 1= hipertensinarterial y X 2= consumo excesivo de sal, ambas con los valores 0=no y 1=s. La fdpconjunta podra ser

    X 1 X 2 0 10 0,4 0,11 0,3 0,2

    f(0,0)=0,4 quiere decir que la probabilidad de que un individuo no seahipertenso ( X 1=0) y no tenga un consumo excesivo de sal (X 2=0) es 0,4.Obsrvese que la suma de los valores de la fdp es 1.

    A partir de esta fdp se puede calcular p.e. la probabilidad de que un individuosea hipertenso como 0,1+0,2=0,3.

    En general dada una fdp conjunta (para simplificar la notacin consideremosslo dos variables X e Y ) se pueden calcular las denominadas fdp marginalescomo

    Caso discreto

    Caso continuo

    y simtricamente para la variable Y .

    En el ejemplo anterior:

    X 1 X 1 0 1 f 2(X2) 0 0,4 0,1 0,5 1 0,3 0,2 0,5 f 1(X1) 0,7 0,3

    Se definen tambin las fdp condicionadas

    que permiten calcular las respectivas probabilidades condicionadas.

    Facultad de Medicina Humana

    3

  • 7/29/2019 Modelode de Regresion y Correl

    4/39

    Universidad Nacional de PiuraBioestadstica

    En el ejemplo anterior se puede construir, p.e., la fdp de la hipertensin ( X 1)condicionada al consumo no excesivo de sal ( X 2 =0).

    X1

    0 0,4/0,5=0,81 0,1/0,5=0,2

    Obsrvese que como esto es una fdp, la suma de sus valores debe ser 1.

    0,8 es la probabilidad de que un individuo no sea hipertenso dado que no tieneun consumo excesivo de sal.

    Independencia de dos variables aleatorias

    Dos v.a. X e Y se dice que son estocsticamente independientes si y slo sif(x,y)=f 1(x).f 2(y). En caso contrario se dice que estn correlacionadas .

    Son independientes las variables del ejemplo anterior ? Como f 1(0)=0,7 yf 2(0)=0,5 f 1(0). f 2(0)=0,35 no es igual a f(0,0)=0,4 no son independientes.

    Segn la definicin de fdp condicionada, si X e Y son independientes

    que coincide ms con la idea intuitiva de independencia.

    Cundo diramos que la hipertensin es independiente del consumo de sal?

    Cuando la probabilidad de ser hipertenso es la misma en los consumidores desal: f(x 1|X2=1), en los no consumidores: f(x 1|X2=0) y en la poblacin general:f 1(x1).

    En el ejemplo, la probabilidad de ser hipertenso en la poblacin generalf 1(1)=0,3 y en los consumidores de sal f(X 1=1|X 2=1)=0,2/0,5=0,4 por lo tantotampoco son independientes desde esta perspectiva (evidentemente, ya queambas son equivalentes).

    Diramos que el consumo de sal y la hipertensin estn correlacionados oasociados, o que la hipertensin depende del consumo de sal o, enterminologa epidemiolgica, que el consumo de sal es un factor de riesgo para

    Facultad de Medicina Humana4

    http://www.hrc.es/bioest/Reglin_1.html#ejem1http://www.hrc.es/bioest/Reglin_1.html#ejem1
  • 7/29/2019 Modelode de Regresion y Correl

    5/39

    Universidad Nacional de PiuraBioestadstica

    la hipertensin. En cualquier caso, la correlacin no implica dependenciacausal.

    El problema, en la prctica, es que no se suelen conocer las fdp's . A partir deuna muestra slo se puede obtener una estimacin de la misma, ademstambin se desean obtener estimaciones de la fuerza de la asociacin.

    Los modelos de regresin son modelos matemticos de dependencia entrevariables que permiten resolver ambos problemas. Hay tantos modelos comofunciones matemticas de dependencia se puedan concebir, los ms usadosson lineal, polinmico, logstico, de Poisson,

    Funcin lineal

    Se llama funcin lineal de unavariable, a una funcin de la forma

    0: ordenada en el origen (valor de Y cuando X=0)

    1: pendiente (cambio de Y alaumentar X en 1)

    Modelo de regresin lineal simple

    Es un modelo de regresin lineal entre dos variables

    es un modelo probabilstico, que tambin se puede escribir

    A la variable Y se la denomina variable dependiente y a X independiente.

    Modelo I de regresin lineal se asume que

    Facultad de Medicina Humana

    5

  • 7/29/2019 Modelode de Regresion y Correl

    6/39

    Universidad Nacional de PiuraBioestadstica

    i) X no es una variable aleatoria.

    ii) para cada valor x i de X existeuna v.a. Y|x i cuya media est dadapor el modelo.

    iii) todas las variables Y|x i sonnormales, independientes y conigual varianza.

    Ejemplo 2: Se quiere estudiar la asociacin entre consumo de sal y tensinarterial. A una serie de voluntarios se les administra distintas dosis de sal en sudieta y se mide su tensin arterial un tiempo despus.

    Variable X: gr. de sal diarios (no aleatoria)Variable Y: presin arterial en mm. De Hg

    Asumimos que para cada valor de X, Y no est determinada, sino que

    H0 presin arterial media de los que no toman nada de sal.H1 cambio de la media de presin arterial por aumentar 1 gr el consumo de sal,asumiendo que es constante. Si fuera 0, quiere decir que la presin no cambiacon el consumo de sal, por tanto ambas variables son independientes, un valor distinto de cero indica que estn correlacionadas y su magnitud mide la fuerzade la asociacin.

    A partir de una muestra aleatoria, la teora estadstica permite:

    i) estimar los coeficientes H1 del modelo (hay dos procedimientos:mnimos cuadrados y mxima verosimilitud que dan el mismo resultado).

    ii) estimar la varianza de las variables Y|x i llamada cuadrados medios del error y representada por s 2 o MSE. A su raz cuadrada se le llama error estndar de la estimacin .

    iii) conocer la distribucin muestral de los coeficientes estimados, tantosu forma ( t ) como su error estndar, que permite hacer estimacin por intervalos como contrastes de hiptesis sobre ellos.

    Facultad de Medicina Humana

    6

  • 7/29/2019 Modelode de Regresion y Correl

    7/39

    Universidad Nacional de PiuraBioestadstica

    Ejemplo 3 : Para el diseo del ejemplo 2 una muestra produce los siguientesdatos:

    X (sal) Y (Presin)1,8 1002,2 983,5 1104,0 1104,3 1125,0 120

    La "salida" de un paquete estadstico es:

    86,371 presin arterial media sin nada de sal.

    6,335 aumento de presin por cada gr de sal; como es distinto de 0 indicacorrelacin. La pregunta es podra ser 0 en la poblacin? En trminos decontrastes de hiptesis

    H0 : 1 = 0H1 : 1 0

    segn iii)

    aqu t=7,546 con un valor p=0,002

    Se rechaza H 0.

    Para hacer estimacin por intervalos de la fuerza de la asociacin o el efecto

    En este ejemplo para 1 al 95%

    6,335 2,776x0,840 = (4,004 8,666)

    Facultad de Medicina Humana

    7

    http://www.hrc.es/bioest/Reglin_4.html#ejem2%23ejem2http://www.hrc.es/bioest/Reglin_4.html#ejem2%23ejem2
  • 7/29/2019 Modelode de Regresion y Correl

    8/39

    Universidad Nacional de PiuraBioestadstica

    y del mismo modo se ha calculado en la salida anterior , aunque en generaltiene menos inters, para 0

    Interpretacin del contraste 1 = 0

    Si no se puede rechazar esta hiptesis, puede ocurrir que:i) el modelo sea inapropiado, bien porque las variables son independientes,bien porque la dependencia no sea lineal. Hay que investigar otros modelos.ii) se cometa error tipo II, el modelo es adecuado, pero el tamao de la muestraes insuficiente. Hay que calcular la potencia.

    Si se rechaza la hiptesis puede ocurrir que:i) el modelo es adecuado

    ii) se cometa error tipo Iiii) exista una relacin no lineal, pero los datos son compatibles con un modelolineal. Anlisis de residuos.

    Inferencias sobre la regresin

    A veces interesa hacer inferencias sobre la propia regresin, es decir sobre Y|xi para cualquier valor de x i. Si a los valores x i de la muestra se les aplica laecuacin estimada, se obtiene una estimacin de Y|xi

    Cuya distribucin muestral tambin es conocida. A veces se representan losintervalos de confianza para la regresin en la denominada banda de confianzade la regresin . En la figura se presenta la banda de confianza para los datosdel ejemplo 3

    Facultad de Medicina Humana

    8

    http://www.hrc.es/bioest/Reglin_4.html#sal3%23sal3http://www.hrc.es/bioest/Reglin_8.html#potenciahttp://www.hrc.es/bioest/Reglin_4.html#ejem3http://www.hrc.es/bioest/Reglin_4.html#sal3%23sal3http://www.hrc.es/bioest/Reglin_8.html#potenciahttp://www.hrc.es/bioest/Reglin_4.html#ejem3
  • 7/29/2019 Modelode de Regresion y Correl

    9/39

  • 7/29/2019 Modelode de Regresion y Correl

    10/39

    Universidad Nacional de PiuraBioestadstica

    le administra y al otro no. Se sacrifica a los animales y se mide la concentracinde lpidos en el hgado.

    Grupo control(=0)

    Tratado(=1)

    23,8 13,815,4 9,321,7 17,218,0 15,1

    Se podra plantear un contraste sobre medias con la t de Student.

    Tambin se puede plantear un modelo de regresin entre la variable grupo(X=0 control y X=1 tratado) y la variable lpido (Y)

    Facultad de Medicina Humana10

  • 7/29/2019 Modelode de Regresion y Correl

    11/39

    Universidad Nacional de PiuraBioestadstica

    Modelo II de regresin lineal

    Se asume que las variables X e Y son ambas variables aleatorias y que su fdpconjunta es normal bivariante.

    La normal bivariante esuna extensin a dosdimensiones de la normalunivariante. Surepresentacin grfica esuna campanatridimensional. Dependede 5 parmetros: x, y,

    x, y y que son

    respectivamente lasmedias, las desviacionestpicas de X e Y, y sucoeficiente decorrelacin . Dichocoeficiente se define

    como

    Siendo el numerador la llamada covarianza

    Facultad de Medicina Humana

    11

  • 7/29/2019 Modelode de Regresion y Correl

    12/39

    Universidad Nacional de PiuraBioestadstica

    Las propiedades de la normal bivariante son:i) las fdp s marginales son ambas normales con medias x, y y desviacionestpicas x, y respectivamente.ii) las fdp s condicionadas f(y|x) son tambin normales con medias y varianzas

    obsrvese que la media depende linealmente de x, es decir, tambin se puedeescribir

    iii) simtricamente las fdp s f(x|y)

    A partir de una muestra aleatoria se pueden estimar los coeficientes por losmismos procedimientos que en el modelo I y se obtienen los mismosresultados!! Ahora, sin embargo, tambin se obtiene un estimador para elcoeficiente de correlacin (la "famosa" r ) que no tiene sentido en el modelo I.

    Propiedades del coeficiente de correlacin

    i) nmero sin dimensiones entre -1 y 1.ii) si las variables son independientes =0. La inversa no es necesariamentecierta, aunque si las variables son normales bivariantes s.iii) si las variables estuvieran relacionadas linealmente =1

    Un contraste que interesa realizar en un modelo II es H 0: =0. Como

    este contraste es totalmente equivalente al realizado sobre dicho coeficiente,aunque tambin hay tablas basadas en que una cierta transformacin (deFisher) de r se distribuye aproximadamente como una normal.

    Qu mide r ?

    Se puede demostrar una relacin algebraica entre r y el anlisis de la varianzade la regresin de tal modo que su cuadrado ( coeficiente de determinacin) esla proporcin de variacin de la variable Y debida a la regresin. En estesentido, r 2 mide el poder explicatorio del modelo lineal.

    Facultad de Medicina Humana

    12

  • 7/29/2019 Modelode de Regresion y Correl

    13/39

    Universidad Nacional de PiuraBioestadstica

    Qu no mide r ?

    - no mide la magnitud de la pendiente ("fuerza de la asociacin")

    - tampoco mide lo apropiado del modelo lineal

    Potencia de los contrastes en regresin

    Los contrastes se realizan en base al conocimiento de la distribucin muestral

    del estadstico usado. En el caso de la regresin, las distribuciones usadas sonla normal (para r ) y la t de Student (para los coeficientes). Slo para la normales fcil el clculo de la potencia, pero sabemos que la t tiende asintticamenta(para muestras grandes (>30 en la prctica) a la normal. Usaremos esto.

    1- = p(rechazar H o| H o falsa)

    Supongamos que

    Facultad de Medicina Humana

    13

  • 7/29/2019 Modelode de Regresion y Correl

    14/39

    Universidad Nacional de PiuraBioestadstica

    asumamos normalidad qu potencia tiene el contraste si 1 fuera 5 (recordar que se necesita concretar H 1)?

    Cundo rechazamos H 0 al 95%?

    Cuando

    en nuestro caso mayor que 4,92. Como no lo es, no rechazamos H 0. Hay quecalcular la probabilidad de encontrar

    si 1 fuera 5. Calculamos

    y lo miramos en la tabla de la normal 1- =0,512=51,2%

    Modelo de regresin lineal mltiple

    Las variables biolgicas suelen presentar multicorrelaciones. P.e. para estudiar el efecto del consumo de grasas saturadas en el nivel del colesterol en sangre,se puede plantear un modelo de RLS, sin embargo el nivel de colesterol puededepender tambin de otras variables: consumo de otras substancias, ejerciciorealizado, edad, factores metablicos genticos, etc.

    Si, para cada valor del consumo de grasas, las dems variables se distribuyenaleatoriamente, la estimacin por RLS es adecuada y la variacin "debida" alas otras variables estara incluida en la variacin aleatoria alrededor de laregresin, pero en caso contrario la estimacin sera incorrecta, si p.e., las

    costumbres dietticas variaran con la edad y sta influyera en el colesterol, unaparte no cuantificada de la variacin del colesterol que el modelo atribuye alconsumo de grasas sera "debida" a la edad.

    La regresin lineal mltiple (RLM) es un modelo que permite estudiar estosefectos. El modelo es

    0: media de Y cuando todas las X i son cero (cuando no tiene sentido X i =0,

    p.e. edad, se interpreta como la media de Y que no depende de las X i ).

    Facultad de Medicina Humana

    14

  • 7/29/2019 Modelode de Regresion y Correl

    15/39

    Universidad Nacional de PiuraBioestadstica

    i: cambio en la media de Y cuando X i aumenta una unidad permaneciendo

    constantes las dems.

    Las asunciones del modelo son una generalizacin de las de RLS y dado elresultado de RLS no vamos a distinguir entre modelo I y II.

    La estimacin de los coeficientes tambin se hace por mnimos cuadrados omxima verosimilitud y se obtienen los mismos resultados. Estos resultados,usando notacin matricial, son (incluyen como caso particular la RLS):

    siendo la matriz columna de coeficientes estimados, Y la matriz columna deobservaciones de la variable dependiente y X la denominada matriz de diseo

    es decir la matriz de datos con una primera columna de 1's. Estos coeficientesse distribuyen como una normal multivariante cuya matriz de medias son losverdaderos coeficientes y matriz de varianzas-covarianzas

    un buen estimador de 2 es

    que se distribuye como una 2 con n - (k+1) grados de libertad.

    Estas frmulas ponen de manifiesto unas limitaciones al resolver estosmodelos. Para ello hay que invertir una matriz y no todas las matrices puedeninvertirse ( singulares ). En dos situaciones no se puede:

    1. El nmero de observaciones (n), es menor o igual que el nmero devariables independientes (k).

    2. Una variable independiente es combinacin lineal de otra(s) o constante(colinealidad ).

    Estimacin y contrastes de hiptesis:

    Facultad de Medicina Humana

    15

    http://www.hrc.es/bioest/Reglin_4.html#asunIhttp://www.hrc.es/bioest/Reglin_4.html#modsimhttp://www.hrc.es/bioest/Reglin_7.htmlhttp://www.hrc.es/bioest/Reglin_4.html#asunIhttp://www.hrc.es/bioest/Reglin_4.html#modsimhttp://www.hrc.es/bioest/Reglin_7.html
  • 7/29/2019 Modelode de Regresion y Correl

    16/39

  • 7/29/2019 Modelode de Regresion y Correl

    17/39

    Universidad Nacional de PiuraBioestadstica

    13 230 40 20 114 227 30 35 015 440 30 80 116 318 23 40 217 212 35 40 118 340 18 80 019 195 22 15 020 223 41 34 0

    La salida del programa de ordenador es

    Anlisis de la varianza de la regresin

    De un modo similar a RLS se puede descomponer la variacin de la variable Y de dos componentes: uno la variacin de Y alrededor de los valores predichospor la regresin y otro con la variacin de los valores predichos alrededor de lamedia. Si el modelo lineal no es adecuado, ambos estimadores estimaran lavarianza de Y y si es adecuado no. Comparando ambos estimadores con laprueba de la F se contrasta lo adecuado del modelo. Para el ejemplo 5

    Obsrvese que, a diferencia de la RLS, este contraste no es equivalente alrealizado sobre los coeficientes.

    Facultad de Medicina Humana

    17

    http://www.hrc.es/bioest/Reglin_6.htmlhttp://www.hrc.es/bioest/Reglin_10.html#salcomhttp://www.hrc.es/bioest/Reglin_6.htmlhttp://www.hrc.es/bioest/Reglin_10.html#salcom
  • 7/29/2019 Modelode de Regresion y Correl

    18/39

    Universidad Nacional de PiuraBioestadstica

    Se define tambin el coeficiente de determinacin como el cociente entre lasuma de cuadrados de la regresin y la suma de cuadrados total ( R 2 =SSR/SST ) y a su raz cuadrada ( R ) se le denomina coeficiente de correlacinmltiple.

    Adems de esta prueba global del modelo basada en el anlisis de la varianza,se pueden plantear pruebas parciales sobre si una variable, o un grupo de

    variables, aadidas a un modelo previo lo mejoran.Se tiene un modelo

    y se aade una nueva variable X* , con el primer modelo se tiene unaSSR( Y,X 1,...,X k ) y con el nuevo otra SSR( Y,X 1,...,X k ,X* ), la diferencia entreambas ser lo que ha mejorado la suma de cuadrados por aadir la variable X *y tendr 1 grado de libertad.

    SSR( Y,X*|X 1,...,X k ) = SSR( Y,X 1,...,X k ,X *) - SSR( Y,X 1,...,X k ) = SSE( Y,X 1,...,X k ) -SSE( Y,X 1,...,X k ,X* )

    y el cociente

    llamado F parcial, tendr una distribucin F con 1 y n-(k+2) grados de libertaden la hiptesis nula de que la nueva variable X* no mejore el modelo.Evidentemente este contraste es totalmente equivalente a contrastar que elcoeficiente * de la nueva variable es cero con la prueba basada en la t.

    Del mismo modo, si al modelo original se le aaden p variables X 1*,...,X p*, sepuede definir

    SSR( Y,X 1*,...,X p*|X 1,...,X k ) = SSR( Y,X 1,...,X k ,X 1*,...,X p*) - SSR( Y,X 1,...,X k ) =SSE( Y,X 1,...,X k ) - SSE(Y,X 1,...,X k,X1*,...,X p*)

    que tiene p grados de libertad, y el cociente

    Facultad de Medicina Humana18

  • 7/29/2019 Modelode de Regresion y Correl

    19/39

    Universidad Nacional de PiuraBioestadstica

    se distribuye como una F p,n-(k+p+1) en la hiptesis nula de que las nuevas pvariables X 1*, ..., X p* no mejoren el modelo con respecto a las k variablesoriginales y permite contrastar dicha hiptesis.

    Ejemplo 6

    Con los datos del ejemplo 5 , realizar el contraste de la F parcial para aadir lavariable ejercicio a un modelo que slo contenga la edad y las grasasconsumidas.

    La tabla de anova correspondiente al modelo con EDAD y GRASAS es

    Por lo tanto, comparando esta tabla con la del modelo completo

    SSR(COLEST,EJERC|GRASAS,EDAD) =SSR(COLEST,GRASAS,EDAD,EJERC) - SSR(COLEST,GRASAS,EDAD) =

    49275,94 - 48940,18 = 335,76

    por tanto F pa r =335,76/3381,83=0,099

    que se distribuye como una F 1,16 . Como F 0,05(1,16) = 4,49 no se puede rechazar lahiptesis de que EJERC no mejora el modelo. Obsrvese que esta F par esexactamente el cuadrado del valor de t correspondiente al coeficiente de EJERC en el modelo con las tres variables independientes.

    Facultad de Medicina Humana

    19

    http://www.hrc.es/bioest/Reglin_10.html#EJEM5http://www.hrc.es/bioest/Reglin_11.html#tablacom%23tablacomhttp://www.hrc.es/bioest/Reglin_10.html#salcomhttp://www.hrc.es/bioest/Reglin_10.html#salcomhttp://www.hrc.es/bioest/Reglin_10.html#EJEM5http://www.hrc.es/bioest/Reglin_11.html#tablacom%23tablacomhttp://www.hrc.es/bioest/Reglin_10.html#salcomhttp://www.hrc.es/bioest/Reglin_10.html#salcom
  • 7/29/2019 Modelode de Regresion y Correl

    20/39

    Universidad Nacional de PiuraBioestadstica

    Variables indicadoras (" dummy ")

    En los modelos de RLM la linealidad se asume. Esto, p.e. para la variableEJERC del ejemplo anterior , quiere decir que el efecto sobre el colesterol dehacer ejercicio intenso (EJERC=2) con respecto a no hacerlo (EJERC=0) es eldoble que el del ejercicio moderado (EJERC=1).

    Es razonable esta asuncin? y para la variable FUMA codificada como 0: nofuma, 1:fumador y 2:ex-fumador?

    Una solucin podra ser crear tantas variables como categoras. No sirveporque seran combinacin lineal y el modelo es irresoluble.

    La solucin es crear tantas variables como categoras menos 1 (en los

    ejemplos anteriores 2) denominadas variables indicadoras con el siguienteesquema

    X 1 X2 No-fumador 0 0Fumador 1 0Ex-fumador 0 1

    Las variables X 1 y X 2 ya no son combinacin lineal y, por tanto, el modelo esresoluble. El modelo quedara

    0 es Y cuando X 1 y X 2 son ambas cero, es decir, para los no-fumadores; 0 + 1 es Y cuando X 1 es 1 y X 2 es 0, es decir fumadores, por lo tanto

    1 es lo que cambia Y entre fumadores y no-fumadores y del mismo modo2 es lo que cambia Y entre ex-fumadores y no-fumadores.

    Con este esquema de codificacin los coeficientes tienen una clarainterpretacin cuando, como en este caso, una de las categoras (no-fumador)se quiere usar como referencia para las dems.

    A dicha categora se le asigna el valor cero para todas las variablesindicadoras. Sin embargo, para variables en las que no haya una categora quesea natural usarla como referencia, por ejemplo genotipos, lugar de residencia,etc., es ms til otro esquema de codificacin. Para discutirlo supngase lavariable lugar de residencia con cuatro lugares: A, B, C y D. Se crearn tresvariables indicadoras (siempre una menos que categoras) con el siguienteesquema

    X 1 X 2 X 3

    A -1 -1 -1

    Facultad de Medicina Humana20

    http://www.hrc.es/bioest/Reglin_10.html#EJEM5http://www.hrc.es/bioest/Reglin_10.html#EJEM5
  • 7/29/2019 Modelode de Regresion y Correl

    21/39

    Universidad Nacional de PiuraBioestadstica

    B 1 0 0

    C 0 1 0

    D 0 0 1

    El modelo quedar

    y por lo tanto

    Y = 0 - 1 - 2 - 3 = Y|A para los residentes en AY = 0 + 1 = Y|B para los residentes en BY = 0 + 2 = Y|C para los residentes en CY = 0 + 3 = Y|D para los residentes en D

    si se suman las 4 ecuaciones:

    0 = ( Y|A + Y|B + Y|C + Y|D)/4 por lo tanto

    0 es la media de Y en los cuatro lugares de residencia1 la diferencia de los residentes en B con respecto a la media

    2 la diferencia de los residentes en C con respecto a la media y3 la diferencia de los residentes en D con respecto a la media y,

    evidentemente, - 1 - 2 - 3 la diferencia de los residentes en A con respectoa la media. De modo que a diferencia del esquema anterior, se usa como nivelde referencia la media en todas las categoras en lugar de una de ellas.

    Otro posible esquema de codificacin que a veces se usa en la literatura es

    X 1 X 2 X 3

    A 1 1 1

    B 0 1 1

    C 0 0 1

    D 0 0 0

    y queda para el lector, a modo de ejercicio, la interpretacin de los coeficientesde regresin en este caso.

    Facultad de Medicina Humana21

  • 7/29/2019 Modelode de Regresion y Correl

    22/39

    Universidad Nacional de PiuraBioestadstica

    Conviene destacar que estas variables indicadoras no tienen ningn sentidopor s solas y por, lo tanto, deben figurar en los modelos y se debe contrastar su inclusin siempre en bloque, usando la F del modelo completo si slo estndichas variables en el modelo, o la F parcial correspondiente a las mismas sihay ms variables.

    Ejercicio propuesto : Para los datos del Ejemplo 5 , crear "dummys" para elejercicio (con qu esquema?) y contrastar (con la F parcial) si estas variablesmejoran el modelo que slo contiene edad y grasas. Interpretar loscoeficientes.

    Ejemplo 7: Considrense los siguientes datos, procedentes de una muestrahipottica, sobre presin arterial en cm de Hg y "status" de fumador, codificadocomo 0: no-fumador, 1: fumador y 2: ex-fumador. Discutir el modelo de

    regresin entre presin arterial y "status" de fumador y estimar por intervalos lapresin arterial media segn el "status" de fumador, a partir de los resultadosdel modelo ms adecuado.

    Paciente Presin arte. Fumador 1 15,0 02 19,0 23 16,3 14 22,0 15 18,0 26 19,8 0

    7 23,2 18 14,4 09 20,3 210 22,0 111 20,5 212 19,0 213 12,7 014 14,0 015 11,8 016 11,2 217 14,0 018 19,5 119 22,3 120 15,0 021 12,6 222 16,4 023 13,5 224 13,7 1

    Los resultados de un modelo entre presin arterial y "status" de fumador tal ycomo est codificado en la tabla son:

    Facultad de Medicina Humana

    22

    http://www.hrc.es/bioest/Reglin_10.html#EJEM5http://www.hrc.es/bioest/Reglin_10.html#EJEM5
  • 7/29/2019 Modelode de Regresion y Correl

    23/39

    Universidad Nacional de PiuraBioestadstica

    En este caso de una nica variable independiente, el contraste sobre el modeloglobal con la F es equivalente al realizado con la t sobre el coeficiente 1 y conninguno se puede rechazar la hiptesis nula ( p =0,250) de no dependencia. Esdecir, analizado de este modo no hay dependencia entre ambas variables.

    Si se crean dos variables indicadoras (FUMA y EX_FUMA) con el primer esquema discutido antes la tabla de datos queda

    PACIEN PRE_AR FUMADOR FUMA EX_FUMA1 15.0 0 0 02 19.0 2 0 13 16.3 1 1 04 22.0 1 1 05 18.0 2 0 16 19.8 0 0 07 23.2 1 1 0

    8 14.4 0 0 09 20.3 2 0 110 22.0 1 1 011 20.5 2 0 112 19.0 2 0 113 12.7 0 0 014 14.0 0 0 015 11.8 0 0 016 11.2 2 0 117 14.0 0 0 018 19.5 1 1 019 22.3 1 1 020 15.0 0 0 0

    Facultad de Medicina Humana23

    http://www.hrc.es/bioest/Reglin_12.html#1esq%231esqhttp://www.hrc.es/bioest/Reglin_12.html#1esq%231esqhttp://www.hrc.es/bioest/Reglin_12.html#1esq%231esqhttp://www.hrc.es/bioest/Reglin_12.html#1esq%231esq
  • 7/29/2019 Modelode de Regresion y Correl

    24/39

    Universidad Nacional de PiuraBioestadstica

    21 12.6 2 0 122 16.4 0 0 023 13.5 2 0 124 13.7 1 1 0

    y el modelo entre PRE_AR y FUMA y EX_FUMA

    Para contrastar si la presin arterial depende del "status" de fumador, deberusarse el contraste basado en la F (p=0,018) y por lo tanto al nivel designificacin habitual =0,05 se rechaza la hiptesis nula de no dependencia.

    A pesar de que el coeficiente para EX_FUMA no es significativamente distintode 0 (p=0,220), se mantiene en el modelo porque FUMA no tiene sentido por ssola.

    Obsrvese que usando las variables indicadoras se ha encontrado unadependencia que antes no se haba puesto de manifiesto, debido a la falta delinealidad para los cdigos usados.

    La estimacin puntual de la presin arterial media de los no-fumadores ( 0 enel modelo) es 14,789 con un error estndar estimado de 1,07 y, como t 0,025(21) =2,08, su intervalo de confianza al 95% es 14,789 2,08x1,07 = (12,563 17,014).

    La estimacin del aumento medio de la presin arterial en los fumadores ( 1)es 5,068 que es significativamente distinto de cero (p=0,005) y la estimacindel aumento medio de la presin arterial en los ex-fumadores ( 2) es 1,974pero no es significativamente distinto de cero (p=0,220).

    Facultad de Medicina Humana24

  • 7/29/2019 Modelode de Regresion y Correl

    25/39

    Universidad Nacional de PiuraBioestadstica

    Para realizar la estimacin por intervalos de la presin media en fumadores( 0+ 1) y ex-fumadores ( 0 + 2) se necesita estimar sus respectivasvarianzas

    var( 0 + 1) = var( 0) + var( 1) + 2cov( 0 , 1) = 1,145 + 2,618 - 2 x 1,145= 1,473

    EE( 0 + 1) = 1,214

    var( 0 + 2) = var( 0) + var( 2) + 2cov( 0 , 2) = 1,145 + 2,434 - 2 x 1,145= 1,289

    EE( 0 + 2) = 1,135

    Por lo tanto los intervalos de confianza al 95% para la presin arterial media defumadores y ex-fumadores son

    fumadores: (14,789+5,068) 2,08x1,214 = (17,332 22,382)ex-fumad : (14,789+1,974) 2,08x1,135 = (14,402 19,124)

    recordemos que para no-fumadores se haba obtenido

    no-fumad : 14,789 2,08x1,07 = (12,563 17,015)

    y que la diferencia entre no-fumadores y ex-fumadores no es significativa,mientras que la diferencia entre no-fumadores y fumadores s lo es.

    Interaccin y confusin en la regresin

    Los modelos de regresin pueden usarse con dos objetivos:

    1) predictivo en el que el inters del investigador es predecir lo mejor posible lavariable dependiente, usando un conjunto de variables independientes y

    2) estimativo en el que el inters se centra en estimar la relacin de una o msvariables independientes con la variable dependiente. En el ejemplo desarrollado en los apartados anteriores, el inters podra ser encontrar elmodelo que mejor prediga el nivel de colesterol en sangre, en funcin de lasotras variables (objetivo 1) o simplemente cuantificar la relacin entre elconsumo de grasas y dicho nivel de colesterol (objetivo 2).

    El resultado de un modelo predictivo es el modelo mismo, mientras que en unmodelo estimativo es la estimacin del coeficiente de la variable de inters. El

    Facultad de Medicina Humana25

    http://www.hrc.es/bioest/Reglin_10.html#EJEM5http://www.hrc.es/bioest/Reglin_10.html#EJEM5
  • 7/29/2019 Modelode de Regresion y Correl

    26/39

    Universidad Nacional de PiuraBioestadstica

    segundo objetivo es el ms frecuente en estudios etiolgicos en los que setrata de encontrar factores determinantes de una enfermedad o un proceso.

    La interaccin y la confusin son dos conceptos importantes cuando se usanlos modelos de regresin con el segundo objetivo, que tienen que ver con lainterferencia que una o varias variables pueden realizar en la asociacin entreotras.

    Existe confusin cuando la asociacin entre dos variables difieresignificativamente segn que se considere, o no, otra variable, a esta ltimavariable se le denomina variable de confusin para la asociacin.

    Existe interaccin cuando la asociacin entre dos variables vara segn losdiferentes niveles de otra u otras variables. Aunque en una primera lectura

    pueden parecer similares, conviene distinguir claramente entre ambosfenmenos. En el ejemplo 5 la edad no presenta una correlacin significativacon el nivel de colesterol si no se considera el consumo de grasas, mientrasque si se considera dicho consumo, s lo presenta, en este caso el consumo degrasas es una variable de confusin para la asociacin entre colesterol y edad.Para que exista confusin no es necesario que exista un cambio tan drstico (lacorrelacin es significativa en un caso y no lo es en el otro), tambin puedeocurrir que, an siendo significativa en ambos casos, cambie el coeficiente deregresin. Evidentemente la mejor estimacin del coeficiente es la que seobtiene del modelo en que figura la variable de confusin, en el ejemplo, lamejor estimacin del coeficiente correspondiente a la edad es la del modelo

    con edad y consumo de grasas.

    En el mismo ejemplo, si la asociacin entre la edad y el nivel de colesterol fueradiferente para los individuos que realizan ejercicio que para los que no lorealizan, se dira que, para el nivel de colesterol, existe interaccin entre laedad y el ejercicio realizado. En este caso no existe una nica estimacin delcoeficiente de la variable de inters, sino que habra una estimacin para cadanivel de la otra variable, es decir y en el ejemplo, una estimacin de la relacinentre el nivel de colesterol y la edad para los individuos que realizan ejercicio yotra distinta para los que no lo realizan.

    Veamos estos conceptos sobre los modelos. El modelo ms sencillo paraestudiar la asociacin entre una variable Y y otra variable X 1 es

    Y = 0 + 1 X1

    donde 1 cuantifica la asociacin: es el cambio en Y por unidad de cambioen X 1. Se dice que X 2 es una variable de confusin para esta asociacin, si elmodelo

    Y = 0 + 1 X1 + 2 X2

    Facultad de Medicina Humana

    26

    http://www.hrc.es/bioest/Reglin_10.html#EJEM5http://www.hrc.es/bioest/Reglin_10.html#EJEM5
  • 7/29/2019 Modelode de Regresion y Correl

    27/39

    Universidad Nacional de PiuraBioestadstica

    produce una estimacin para 1 diferente del modelo anterior. Evidentementeesta definicin se puede ampliar a un conjunto de variables, se dice que lasvariables X 2 , ..., X k son variables de confusin si la estimacin de 1 obtenidapor el modelo

    Y = 0 + 1 X1 + 2 X2 + ... + k Xk

    es diferente de la obtenida en el modelo simple. En ambos casos se dice que laestimacin de 1 obtenida en los modelos mltiples est controlada o ajustadapor X 2 o por X 2 ,..., X k

    Contrastar la existencia de confusin requiere, por lo tanto, comparar loscoeficientes de regresin obtenidos en dos modelos diferentes y si haydiferencia, existe la confusin, en cuyo caso la mejor estimacin es la ajustada.

    Para dicha comparacin no se precisa realizar un contraste de hiptesisestadstico ya que aunque la diferencia encontrada sea debida al azar,representa una distorsin que la estimacin ajustada corrige. Ser elinvestigador quin establezca el criterio para decidir cuando hay diferencia.Ntese que se est hablando de diferencia en la estimacin, que puede afectar tanto al propio coeficiente como a su error estndar (lo habitual es considerar que existe confusin cuando el coeficiente o su error estndar cambian en msdel 10%).

    El modelo ms sencillo que hace explcita la interaccin entre dos variables X 1y X 2 es

    Y = 0 + 1 X1 + 2 X2 + 3 X1 X2

    En este modelo, el valor de Y para unos valores determinados x 1, x 2 de X 1, X 2 es

    Y = 0 + 1 x1+ 2 x2+ 3 x1x2

    y para los valores x 1 + 1 y x 2

    Y = 0 + 1(x1+ 1) + 2 x2+ 3 (x1+ 1) x 2 = 0 + 1 x1+ 1 + 2 x2 + 3x1x2 + 3 x2

    restando ambas se encuentra el cambio en Y por una unidad de cambio en X 1 manteniendo fijo X 2

    1 + 3 x2

    que es diferente para cada valor x 2 de X 2 . Del mismo modo, el cambio en Ypor una unidad de cambio en X 2 manteniendo fijo X 1 es

    2 + 3 x1

    Facultad de Medicina Humana

    27

  • 7/29/2019 Modelode de Regresion y Correl

    28/39

    Universidad Nacional de PiuraBioestadstica

    Por lo tanto, contrastar la existencia de interaccin entre X 1 y X 2 es contrastar siel coeficiente 3 es cero (no hay interaccin), o distinto de cero (existeinteraccin).

    En caso de que exista interaccin los coeficientes 1 y 2 por s solos nosignifican nada y la asociacin de las variables X 1 y X 2 con Y estarcuantificada por las expresiones anteriores.

    Es obvio que primero debe contrastarse la interaccin y despus, en caso deque no exista, la confusin.

    Ejemplo 8

    En un trabajo para estudiar la relacin de la presin arterial sistlica con el

    consumo de tabaco y caf, codificadas ambas como 0: no y 1: s, se hanobtenido los siguientes datos de una muestra aleatoria hipottica

    Paciente Presin arte. Tabaco Caf1 15,0 0 12 11,0 1 13 26,3 1 04 13,0 1 15 18,0 0 16 19,8 1 17 23,2 1 0

    8 14,4 0 09 13,3 1 110 12,0 1 111 22,5 1 012 23,5 1 013 12,7 0 114 14,0 0 115 11,8 0 016 21,2 1 017 14,0 0 018 15,5 1 119 12,3 1 120 15,0 0 021 22,6 1 022 16,4 0 123 23,5 1 024 13,7 1 1

    Contrastar la existencia de interaccin y confusin y obtener la mejor estimacin por intervalos para el efecto de ambos factores.

    Facultad de Medicina Humana28

  • 7/29/2019 Modelode de Regresion y Correl

    29/39

    Universidad Nacional de PiuraBioestadstica

    Para contrastar la existencia de interaccin se crea una nueva variable(TABXCA) que sea el producto de la variables TABACO y CAFE y se hace unmodelo de regresin con las 3 variables. El resultado es

    Segn la tabla de anova, el modelo completo es muy significativo (p=0,000). El

    coeficiente de correlacin mltiple es muy alto, ya que la proporcin de sumade cuadrados explicada por la regresin (R 2) es aproximadamente del 82%. Elcoeficiente del trmino de interaccin es significativamente distinto de cero(p=0,000), y aunque el del trmino del CAFE no lo sea (p=0,332) se mantieneen el modelo en aplicacin del principio jerrquico .

    Hay interaccin entre CAFE y TABACO y no puede hablarse, por lo tanto, deun efecto del tabaco, sino que hay un efecto del tabaco para los consumidoresde caf y otro distinto para los no consumidores de caf y, del mismo modo,hay un efecto del caf para los consumidores de tabaco y otro efecto para losno consumidores de tabaco.

    Vamos a estimar el efecto del tabaco.

    Facultad de Medicina Humana

    29

  • 7/29/2019 Modelode de Regresion y Correl

    30/39

    Universidad Nacional de PiuraBioestadstica

    La presin arterial media en la muestra es 16,86 y la estimacin de la presinarterial de los no-fumadores y no consumidores de caf ( 0 ) es 13,8.

    Segn vimos antes la estimacin del efecto del tabaco (cambio en la presinarterial media por ser fumador) es para los no consumidores de caf 1 y paralos consumidores de caf 1 + 3. La varianza estimada de esta ltimaestimacin es

    var( 1 + 3) = var( 1) + var( 3) + 2cov( 1 , 3) = 1,779 + 3,251 + 2x(-1,779) = 1,472

    por lo tanto EE( 1 + 3) = 1,213. Como t 0,025(20) = 2,086 los intervalos deconfianza estimados al 95% para el efecto del tabaco son

    no consumidores de caf: 9,457 2,086x1,334 = ( 6,675 12,240)

    consumidores: 9,457-10,852 2,086x1,213 = (-3,925 1,135)

    para los no consumidores de caf, el tabaco aumenta la presin arterial mediaen 9,457 unidades y este aumento es significativamente distinto de cero,mientras que para los consumidores de caf la disminuye en -1,395 unidades,si bien esta disminucin no es significativamente distinta de cero (su intervalo

    de confianza incluye el cero).Estrategias de modelizacin

    El problema es cmo usamos todo esto?. Debido a los dos objetivos distintosque un anlisis de regresin puede tener es difcil establecer una estrategiageneral para encontrar el mejor modelo de regresin, es ms, el mejor modelosignifica cosas distintas con cada objetivo.

    En un anlisis predictivo el mejor modelo es el que produce predicciones msfiables para una nueva observacin, mientras que en un anlisis estimativo el

    mejor modelo es el que produce estimaciones ms precisas para el coeficientede la variable de inters.

    Facultad de Medicina Humana

    30

  • 7/29/2019 Modelode de Regresion y Correl

    31/39

    Universidad Nacional de PiuraBioestadstica

    En ambos casos se prefiere el modelo ms sencillo posible (a este modo deseleccionar modelos se le denomina parsimonia ), de modo que en un anlisisestimativo, se puede excluir del modelo una variable que tenga un coeficientesignificativamente distinto de cero y que su contribucin a la prediccin de lavariable dependiente sea importante, porque no sea variable de confusin parala variable de inters (el coeficiente de dicha variable no cambia), en un anlisispredictivo esa variable no se excluira.

    Sin embargo, hay una serie de pasos que deben realizarse siempre:i) Especificacin del modelo mximo.ii) Especificacin de un criterio de comparacin de modelos y definicin de unaestrategia para realizarla.iii) Evaluacin de la fiabilidad del modelo.

    i) Especificacin del modelo mximoSe trata de establecer todas las variables que van a ser consideradas.Recurdese que el modelo saturado (el mximo que se puede considerar) tienen - 1 variables pero que, con este modelo, los grados de libertad para SSE soncero, y R 2=1, de modo que, en general, el modelo saturado no tiene inters y elmodelo mximo deber tener menos variables independientes que el modelosaturado (un criterio habitual es incluir como mximo una variable cada 10casos).

    El criterio para decidir qu variables forman el modelo mximo lo establece el

    investigador en funcin de sus objetivos y del conocimiento terico que tengasobre el problema, evidentemente cuanto menor sea el conocimiento previomayor tender a ser el modelo mximo.

    Un modelo mximo grande minimiza la probabilidad de error tipo II oinfraajuste , que en un anlisis de regresin consiste en no considerar unavariable que realmente tiene un coeficiente de regresin distinto de cero.

    Un modelo mximo pequeo minimiza la probabilidad de error tipo I osobreajuste (incluir en el modelo una variable independiente cuyo coeficientede regresin realmente sea cero).

    Debe tenerse en cuenta tambin que un sobreajuste, en general, no introducesesgos en la estimacin de los coeficientes (los coeficientes de las otrasvariables no cambian), mientras que un infraajuste puede producirlos, pero queun modelo mximo grande aumenta la probabilidad de problemas decolinealidad.

    En el modelo mximo deben considerarse tambin los trminos de interaccinque se van a introducir (en un modelo estimativo slo interesan interaccionesentre la variable de inters y las otras) y la posibilidad de incluir trminos nolineales. En Biologa son muy frecuentes relaciones no lineales, que pueden

    Facultad de Medicina Humana31

  • 7/29/2019 Modelode de Regresion y Correl

    32/39

    Universidad Nacional de PiuraBioestadstica

    modelizarse con trminos cuadrticos o de mayor orden o contransformaciones tales como la exponencial o el logaritmo.

    En el ejemplo 5 podra considerarse que la dependencia del nivel de colesterolen sangre con las grasas consumidas puede no ser lineal y presentar, por ejemplo, saturacin: por encima de un cierto nivel de grasas ingeridas elcolesterol en sangre ya no sube ms, o un punto umbral: las grasasconsumidas elevan el colesterol, slo si sobrepasan un cierto valor. Cada unode estos fenmenos puede modelarse satisfactoriamente con un trminocuadrtico o una transformacin logartmica o exponencial (introducir en elmodelo junto con, o en lugar de, la variable GRASAS, la variable (GRASAS) 2; olog(GRASAS) o EXP(GRASAS)) y ambos juntos, con un trmino cbico((GRASAS) 3).

    ii) Comparacin de modelosDebe establecerse cmo y con qu se comparan los modelos. Si bien hayvarios estadsticos sugeridos para comparar modelos, el ms frecuentementeusado es la F parcial, recordando que cuando los dos modelos slo difieren enuna variable, el contraste sobre la F parcial es exactamente el mismo que elrealizado con la t sobre el coeficiente de regresin, pero a veces interesacontrastar varias variables conjuntamente mejor que una a una (por ejemplotodos los trminos no lineales) o, incluso, es necesario hacerlo (por ejemplopara variables indicadoras).

    Hay que hacer notar que en un anlisis estimativo el criterio para incluir oexcluir variables distintas a las de inters, es sobre todo los cambios en loscoeficientes y no los cambios en la significacin del modelo.

    Los distintos modelos a comparar se pueden construir de dos formas: por eliminacin o hacia atrs (" backward ") y por inclusin o hacia adelante("forward ").

    Con la primera estrategia, se ajusta el modelo mximo y se calcula la F parcialpara cada variable como si fuera la ltima introducida (que es equivalente a la tpara esa variable), se elige la menor de ellas y se contrasta con el nivel designificacin elegido. Si es mayor o igual que el valor crtico se adopta estemodelo como resultado del anlisis y si es menor se elimina esa variable y sevuelve a repetir todo el proceso hasta que no se pueda eliminar ningunavariable.

    Con la estrategia hacia adelante, se empieza con un modelo de una variable,aquella que presente el mayor coeficiente de correlacin simple. Se calcula la Fparcial para la inclusin de todas las dems, se elige la mayor de ellas y secontrasta con el nivel de significacin elegido. Si es menor que el valor crtico,se para el proceso y se elige el modelo simple como mejor modelo, y si esmayor o igual que dicho valor crtico, esa variable se incluye en el modelo y se

    Facultad de Medicina Humana32

    http://www.hrc.es/bioest/reglin_10.html#EJEM5http://www.hrc.es/bioest/reglin_10.html#EJEM5
  • 7/29/2019 Modelode de Regresion y Correl

    33/39

    Universidad Nacional de PiuraBioestadstica

    vuelve a calcular la F parcial para la inclusin de cada una de todas lasrestantes, y as sucesivamente hasta que no se pueda incluir ninguna ms.

    Una modificacin de esta ltima estrategia es la denominada " stepwise " queconsiste en que, cada vez que con el criterio anterior se incluye una variable,se calculan las F parciales de todas las incluidas hasta ese momento como sifueran las ltimas y la variable con menor F parcial no significativa, si lahubiera, se elimina. Se vuelven a calcular las F parciales y se continuaaadiendo y eliminando variables hasta que el modelo sea estable.

    Las variaciones a estas estrategias consisten en que, con cualquiera de ellas,se puede contrastar varias variables en lugar de una sola y que, en aplicacindel principio jerrquico, cuando se contrasta un trmino de interaccin, elmodelo debe incluir todos los trminos de orden inferior y, si como resultado del

    contraste, dicho trmino permanece en el modelo, tambin ellos debenpermanecer en el mismo, aunque no se pueda rechazar que los coeficientescorrespondientes no son distintos de cero.

    En cualquier caso, puede ser peligroso aplicar cualquiera de estas estrategiasautomticamente (con un paquete estadstico, por ejemplo) por lo que se hacomentado ms arriba sobre los distintos criterios dependiendo del objetivo delestudio, los trminos de interaccin y las variables indicadoras.

    Ejemplo 9

    Encontrar el mejor modelo para los datos del ejemplo 5 , con el objetivo deestimar el efecto del consumo de grasas sobre el nivel del colesterol y usandola estrategia hacia atrs.

    El modelo mximo estara formado por EDAD, GRASAS, EJERC (teniendo encuenta que est codificado en 3 niveles podra ser conveniente analizarlo atravs de 2 variables indicadoras, pero no se va a hacer por simplicidad delejemplo), se considerar tambin el trmino (GRASAS) 2 para analizar relaciones no lineales y los trminos de interaccin entre GRASAS y EDAD yentre GRASAS y EJERC. La interaccin entre EDAD y EJERC en este caso nointeresa, puesto que la variable de inters es GRASAS.

    En el archivo de datos, habr que crear 3 variables nuevas: GRASA2 =(GRASAS) 2, GRAXED = GRASAS x EDAD y GRAXEJ = GRASAS x EJERC yel resultado del anlisis del modelo mximo es

    Facultad de Medicina Humana

    33

    http://www.hrc.es/bioest/Reglin_10.html#EJEM5http://www.hrc.es/bioest/Reglin_10.html#EJEM5
  • 7/29/2019 Modelode de Regresion y Correl

    34/39

    Universidad Nacional de PiuraBioestadstica

    Recordando que la F parcial de una variable dadas todas las dems es elcuadrado del valor de t para el coeficiente de la misma, la variable que tienemenor F parcial no significativa es GRAXEJ, por lo tanto esta variable seelimina y se ajusta ahora un modelo excluyndola.

    Facultad de Medicina Humana

    34

  • 7/29/2019 Modelode de Regresion y Correl

    35/39

    Universidad Nacional de PiuraBioestadstica

    Obsrvese que R apenas ha disminuido (R siempre disminuye al quitar variables y su disminucin es otro de los estadsticos propuestos paracomparar modelos) pero la F global ha mejorado (p=0,018 frente a 0,040).

    En este modelo la menor F parcial no significativa corresponde a EDAD, sinembargo, en el modelo todava est el trmino de interaccin entre EDAD y

    GRASAS (GRAXED) en consecuencia EDAD no se puede quitar ( principio jerrquico ), la siguiente F parcial corresponde a EJERCI y no es significativa,en consecuencia se quita EJERCI. El nuevo modelo es

    Facultad de Medicina Humana

    35

  • 7/29/2019 Modelode de Regresion y Correl

    36/39

    Universidad Nacional de PiuraBioestadstica

    No hay cambios en los coeficientes de GRASAS, ni GRASA2, ni GRAXED

    (EJERCI no es variable de confusin, por lo tanto se puede eliminar definitivamente. Si hubiera habido cambios no se podra eliminar a pesar de noser significativa).

    La variable con menor F parcial sigue siendo EDAD y la siguiente GRAXED. Sequita y el nuevo modelo es

    La menor F parcial no significativa es, ahora, la de GRASAS, pero GRASA2debe contrastarse antes y como tampoco es significativa (obsrvese, noobstante, que est en el borde y podra tratarse de un problema de falta depotencia) se quitara GRASA2. El modelo finalmente queda

    Facultad de Medicina Humana

    36

  • 7/29/2019 Modelode de Regresion y Correl

    37/39

    Universidad Nacional de PiuraBioestadstica

    Donde la F global es significativa siendo tambin significativas las F parcialesde las dos variables que permanecen, de modo que ste podra ser el modelofinal.

    No obstante, como el objetivo del estudio es estimar el efecto de las grasas, se

    debera probar un modelo sin la edad y si en ste ltimo modelo no hubieracambios en la estimacin del efecto de las grasas, podra quitarse la edad, enaplicacin del principio de parsimonia.

    Como el cambio en el coeficiente es mayor que el 10%, concluimos que EDADes variable de confusin y el modelo final es el que comntoene GRASAs yEDAD.

    iii) Evaluacin de la fiabilidad del modelo

    Una vez encontrado el mejor modelo hay que evaluar su fiabilidad, es decir,evaluar si se comporta igual en otras muestras extradas de la mismapoblacin. Evidentemente, el modo ms completo de evaluarlo ser repetir elestudio con otra muestra y comprobar que se obtienen los mismos resultados,aunque generalmente esta aproximacin resulta excesivamente costosa. Facultad de Medicina Humana

    37

  • 7/29/2019 Modelode de Regresion y Correl

    38/39

    Universidad Nacional de PiuraBioestadstica

    Otra aproximacin alternativa consiste en partir aleatoriamente la muestra endos grupos y ajustar el modelo con cada uno de ellos y si se obtienen losmismos resultados se considera que el modelo es fiable. Esta aproximacin esdemasiado estricta ya que, en la prctica, casi nunca se obtienen los mismosresultados.

    Una validacin menos estricta consiste en ajustar el modelo sobre uno de losgrupos (grupo de trabajo) y calcular su R 2, que se puede interpretar como elcuadrado del coeficiente de correlacin simple entre la variable dependiente ylas estimaciones obtenidas en la regresin.

    Despus, y con el modelo obtenido en el grupo de trabajo, calcular lasestimaciones de la variable dependiente en el otro grupo (grupo de validacin)y calcular el coeficiente de correlacin simple al cuadrado entre estas

    estimaciones y la variable dependiente (R2

    *), a este coeficiente se le denominacoeficiente de correlacin de validacin cruzada . A la diferencia R 2-R 2* se ledenomina reduccin en la validacin cruzada y, aunque no hay reglas firmes alrespecto, se considera que una reduccin superior a 0,90 indica un modelo nofiable y una reduccin inferior a 0,10 indica un modelo muy fiable.

    Facultad de Medicina Humana

    38

  • 7/29/2019 Modelode de Regresion y Correl

    39/39

    Universidad Nacional de PiuraBioestadstica

    Bibliografia

    Bioestadistica, base para el analisis de las ciencias de la salud.Wayne w. Daniel. 4yta edicion en espaol. Editorial limusa wiley.

    Introduccin a la estadstica para las ciencias sociales. Pea, d., romo, j. Ed. Mcgraw-hill. Madrid, 1999

    PAGINAS CONSULTADAS: http://www.hrc.es/bioest/Reglin_16.html

    http://descartes.cnice.mec.es/eda2007/practicas_profesores/P3/laureano

    _p3/estadistica_unidimensional/esta4.htm

    http://www.eumed.net/libros/2007a/239/4a.htm

    http://descartes.cnice.mec.es/eda2007/practicas_profesores/P3/laureano_p3/estadistica_unidimensional/esta4.htmhttp://descartes.cnice.mec.es/eda2007/practicas_profesores/P3/laureano_p3/estadistica_unidimensional/esta4.htmhttp://www.eumed.net/libros/2007a/239/4a.htmhttp://descartes.cnice.mec.es/eda2007/practicas_profesores/P3/laureano_p3/estadistica_unidimensional/esta4.htmhttp://descartes.cnice.mec.es/eda2007/practicas_profesores/P3/laureano_p3/estadistica_unidimensional/esta4.htmhttp://www.eumed.net/libros/2007a/239/4a.htm