Analisis de Regresion

Embed Size (px)

DESCRIPTION

Texto de análisis de regresión

Citation preview

  • Anlisis de Regresin

    Alfonso NovalesDepartamento de Economa Cunatitativa

    Universidad Complutense

    20 de Septiembre de 2010@Copyright Alfonso Novales

    Contents

    1 Momentos poblacionales: momentos de una distribucin de probabilidad. 41.1 Distribuciones marginales y condicionadas: Un ejemplo . . . . . . . . . . . . . . . . 81.2 Media, Varianza, Desviacin Tpica, Covarianza y Coeciente de correlacin muestrales: 81.3 Distribuciones condicionales e incondicionales en procesos temporales: El caso del

    proceso autoregresivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2 El modelo de regresin lineal 112.1 El modelo de regresin lineal simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2 Componentes del modelo de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . 132.3 Supuestos del modelo de regresin lineal . . . . . . . . . . . . . . . . . . . . . . . . . 16

    3 El estimador de Mnimos Cuadrados Ordinarios 193.1 Estimador de Mnimos Cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    3.1.1 Ecuaciones normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.1.2 Expresiones para el estimador de Mnimos Cuadrados . . . . . . . . . . . . . 243.1.3 Regresin inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.1.4 Interpretacin del estimador de Mnimos Cuadrados . . . . . . . . . . . . . . 25

    3.2 Ejemplo: Peso de bebs recin nacidos1 . . . . . . . . . . . . . . . . . . . . . . . . . 253.2.1 Descripcin del ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2.2 Caractersticas muestrales de las variables (archivo bwght.wf1) . . . . . . . . 273.2.3 Asociacin con la variable dependiente, peso del recin nacido. . . . . . . . . 283.2.4 Anlisis de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    3.3 Ejemplo: Discriminacin salarial2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.3.1 Descripcion de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.3.2 Estadsticos descriptivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.3.3 Anlisis de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    1Fichero de trabajo de EVIEWS: Bwght.wf12Fichero de trabajo: Bwages.wf1. La base de datos Bwages.txt est tomada de los archivos que acompaan a

    Kuleuven

    1

  • 4 Medidas de bondad de ajuste del modelo de regresin 354.1 Error Estndar de la Regresin (EER) . . . . . . . . . . . . . . . . . . . . . . . . . . 364.2 El coeciente de determinacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.3 Correlacin en el modelo de regresin lineal . . . . . . . . . . . . . . . . . . . . . . . 39

    4.3.1 Propiedades de los residuos de Mnimos Cuadrados . . . . . . . . . . . . . . . 434.4 Esperanza matemtica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    4.4.1 Ausencia de sesgo del estimador de mnimos cuadrados . . . . . . . . . . . . 444.5 Matriz de covarianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    4.5.1 Varianza del estimador de mnimos cuadrados de la pendiente del modelo deregresin lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    4.6 Estimacin de la varianza del trmino de error o perturbacin aleatoria del modelo . 464.7 El modelo de regresin lineal en desviaciones respecto de la media . . . . . . . . . . 474.8 El modelo constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.9 Eciencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.10 Cambios de escala y de origen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    4.10.1 Cambios de escala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.10.2 Cambios de origen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    4.11 Apndice: Varianza del estimador de mnimos cuadrados de la constante del modelode regresin lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.11.1 Covarianza entre los estimadores de mnimos cuadrados de la constante y la

    pendiente del modelo de regresin lineal simple . . . . . . . . . . . . . . . . . 554.11.2 Argumento alternativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    5 Contrastacin de hiptesis 565.1 Contrastes de hiptesis acerca del valor numrico de un slo coeciente . . . . . . . 57

    5.1.1 Contrastes de dos colas (bilaterales) acerca del valor numrico de un solocoeciente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

    5.1.2 Contrastes de una cola (unilaterales) acerca del valor de un solo coeciente . 595.2 Signicacin estadstica versus relevancia econmica: . . . . . . . . . . . . . . . . . . 615.3 Apndice: Contrastacin de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    6 El estimador de Mnimos Cuadrados del modelo de regresin mltiple 646.1 Ejemplo: Ventas de un bien en funcin del precio propio y del gasto en publicidad3 . 67

    6.1.1 Algunas caractersticas de las variables . . . . . . . . . . . . . . . . . . . . . . 676.1.2 Qu variable explicativa es ms relevante? . . . . . . . . . . . . . . . . . . . 69

    6.2 Grado de ajuste del modelo de regresin lineal mltiple . . . . . . . . . . . . . . . . 716.3 Coeciente de determinacin ajustado . . . . . . . . . . . . . . . . . . . . . . . . . . 73

    6.3.1 Ejemplo: peso de bebs recin nacidos . . . . . . . . . . . . . . . . . . . . . . 736.4 Ejemplo: Discriminacin salarial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

    6.4.1 Capacidad explicativa adicional . . . . . . . . . . . . . . . . . . . . . . . . . . 766.4.2 Aporta la variable Experiencia informacin acerca de la determinacin salar-

    ial, adicional a la que continen el nivel educativo y el sexo del trabajador? . . 776.5 Ejemplo 15.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 776.6 Relacin entre estimadores de Mnimos Cuadrados en la regresin simple y la regre-

    sin mltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    3Fichero de trabajo: Ventas.wf1. Fichero de Excel: Ventas.xls.

    2

  • 6.7 Coecientes de correlacin (o de determinacin) y estadsticos t . . . . . . . . . . . . 796.7.1 Aplicacin: Adicin de variables a un modelo de regresin . . . . . . . . . . . 80

    6.8 Estimacin de efectos individuales en una regresin mltiple . . . . . . . . . . . . . . 806.9 Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

    6.9.1 Extraccin de tendencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 836.9.2 Desestacionalizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

    6.10 Correlacin parcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 846.11 Relacin entre coecientes de correlacin (y de determinacin) simple y parcial . . . 856.12 Ejemplo: Ventas de un bien en funcin del precio y del gasto en publicidad . . . . . 86

    7 Colinealidad entre variables explicativas en el modelo de regresin 887.1 Consecuencias de la colinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 897.2 Deteccin de la colinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 897.3 Qu hacer en presencia de colinealidad? . . . . . . . . . . . . . . . . . . . . . . . . . 907.4 Ejemplo: Ventas de un bien en funcin del precio y del gasto en publicidad . . . . . 90

    7.4.1 Regresiones simples cruzadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 907.4.2 Tratamiento de la colinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    8 Efectos individuales y efectos globales 938.1 Omisin de variables relevantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 938.2 Inclusin de variables irrelevantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 958.3 Estimacin insesgada de efectos parciales y totales . . . . . . . . . . . . . . . . . . . 958.4 Ejemplo: Ventas de un bien en funcin del precio propio y del gasto en publicidad . 96

    9 Contrastes de restricciones generales 989.1 Contraste de signicacin global del modelo (Anlisis ANOVA) . . . . . . . . . . . . 101

    10 Contrastes de cambio estructural 10110.1 Test de estabilidad estructural de Chow . . . . . . . . . . . . . . . . . . . . . . . . . 10210.2 Variables cticias en la modelizacin del cambio estructural . . . . . . . . . . . . . . 10310.3 Variables cticias y cambio estructural . . . . . . . . . . . . . . . . . . . . . . . . . . 10410.4 Estadsticos CUSUM y CUSUMSQ4 . . . . . . . . . . . . . . . . . . . . . . . . . . . 10510.5 Ejemplo: Discriminacin salarial: contraste de discriminacin salarial mediante vari-

    ables cticias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10610.5.1 Aspectos concretos de discriminacin salarial . . . . . . . . . . . . . . . . . . 10710.5.2 Existe evidencia de desigual remuneracin de la educacin entre hombres y

    mujeres? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10910.5.3 Discriminacin salarial como cambio estructural . . . . . . . . . . . . . . . . 11110.5.4 Especicaciones con variables cticias: contrastes de homogeneidad salarial

    entre grupos de trabajadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 11210.5.5 Homogeneidad del modelo de salarios para distintos niveles educativos . . . . 11210.5.6 Variables cticias y colinealidad perfecta . . . . . . . . . . . . . . . . . . . . . 116

    4En el caso de una regresin mltiple, las expresiones de la varianza del residuo recursivo que aparecen en estaseccin son ms complejas. Sin embargo, la construccin de los estadsticos, su interpretacin y la resolucin de loscontrastes de estabilidad son iguales a los que aqu se presentan.

    3

  • 1 Momentos poblacionales: momentos de una distribucinde probabilidad.

    Toda variable aleatoria est caracterizada por su distribucin de probabilidad, que no es sino elconjunto de valores posibles de la variable aleatoria, acompaados de sus respectivas probabilidades.El modo en que se representa la distribucin de probabilidad depende de que la variable aleatoriaen cuestin sea de naturaleza discreta o continua.Si denotamos por P (xi) la masa de probabilidad en cada punto xi del soporte de la distribucin

    de probabilidad de una variable aleatoria X; (conjunto de valores posibles de la variable aleatoriaX), y por f(xi) la funcin de densidad que la representa, cuando sta existe (distribuciones de tipocontinuo), la esperanza matemtica de la variable X se dene:

    E(X) = x =

    Z 11

    xf(x)dx;

    si la medida de probabilidad es continua, o:

    E(X) = x =Xxi

    xidP (xi)

    si la medida de probabilidad es discreta. En este ltimo caso, xi denota cada uno de los valoresposibles de la variable aleatoria X, en nmero nito o no.La mediana m est denida por el punto del soporte valor numrico para el cual se cumple:Z m

    1f(x)dx =

    1

    2

    en el caso de una variable aleatoria o distribucin de probabilidad continuas, y:

    Med(X) = inf

    (m j

    mXxi

    dP (xi) =1

    2

    )en el caso de una variable discreta. Esta formulacin de la denicin se debe a que en distribu-

    ciones discretas puede aparecer alguna ambigedad en su clculo.La moda es el valor ms probable de una distribucin, es decir, el punto xM del soporte de

    la distribucin, tal que:

    P (X = xM ) P (X = x) 8x 2 ;La moda puede no ser nica. No existen condiciones bajo las cuales la mediana o la moda deban

    preferirse a la esperanza matemtica como medida representativa de la distribucin, pero hay queconsiderar tal posibilidad, dependiendo de las caractersticas de la distribucin de probabilidad.La esperanza matemtica [suma de los valores numricos ponderada por probabilidades] de las

    desviaciones entre los valores del soporte de la distribucin y su esperanza matemtica es igual acero:

    E(X x) = E(X) E(x) = x x = 0

    4

  • El valor numrico que minimiza la expresin: Eh(X a)2

    ies: a = x. El valor minimizado es

    la varianza de X.El valor numrico que minimiza la expresin: E(j X a j) es: a = m.La varianza de una variable aleatoria (cuando existe), es la esperanza matemtica del cuadrado

    de las desviaciones entre los valores de la variable y su esperanza matemtica:

    2x = E (X x)2 =Z 11

    (x x)2 f(x)dx

    2x =Xxi

    (xi x)2 dP (xi)

    en distrib uciones continuas y discretas, respectivamente.La varianza puede escribirse tambin:

    2x = Eh(X )2

    i= E

    X2 2X + 2 = E X2 2

    2x =Xxi

    (xi x)2 dP (xi) =Xxi

    x2i dP (xi) 2Xxi

    xixdP (xi) +Xxi

    2xdP (xi) =

    =Xxi

    x2i dP (xi) 2xXxi

    xidP (xi) + 2x

    Xxi

    dP (xi) = E(x2i ) 22x + 2x = E(x2i ) 2x

    Como en muchas ocasiones se quiere poner dicho indicador en relacin con el valor medio de lavariable, se preere un indicador que tenga unidades comparables a las de la rentabilidad por loque, cuando hablamos de volatilidad solemos referirnos a la desviacin tpica: raz cuadrada de lavarianza, tomada con signo positivo:

    DT (X) = x =p2x

    Otros momentos poblacionales son:

    Coeficiente de variacion = 100xx

    que considera la desviacin tpica (volatilidad) como porcentaje del nivel alrededor del cualucta la variable, lo cual es til al comparar la volatilidad de variables que tienen una esperanzamatemtica diferente; por ej., al comparar la volatilidad de dos ndices burstiles distintos.

    Coeficiente de asimetr{a =Eh(x x)3

    i3x

    que es positivo cuando la distribucin es asimtrica hacia la derecha, en cuyo caso la moda esinferior a la mediana, y sta es, a su vez, inferior a la media aritmtica. El coeciente de asimetraes negativo cuando la distribucin es asimtrica hacia la izquierda, en cuyo caso la moda es mayorque la mediana, y sta es, a su vez, superior a la media aritmtica. Toda distribucin simtricatiene coeciente de asimetra igual a cero.

    Coeficiente de curtosis =Eh(x x)4

    i4x

    5

  • tambin llamado coeciente de apuntamiento, es un indicador del peso que en la distribucintienen los valores ms alejados del centro. Toda distribucin Normal tiene coeciente de curtosisigual a 3. Un coeciente de curtosis superior a 3 indica que la distribucin es ms apuntada que lade una Normal teniendo, en consecuencia, menos dispersin que dicha distribucin. Se dice entoncesque es leptocrtica, o apuntada. Lo contrario ocurre cuando el coeciente de curtosis es superior a3, en cuyo caso la distribucin es platicrtica o aplastada. A veces se utiliza el Coeciente de excesode curtosis, que se obtiene restando 3 del coeciente de curtosis.La covarianza entre dos variables mide el signo de la asociacin entre las uctuaciones que

    experimentan ambas. Esencialmente, nos dice si, cuando una de ellas est por encima de su valorde referencia, p.ej., su media, la otra variable tiende a estar por encima o por debajo de su respectivamedia:

    Cov(X;Y ) = E [(X EX)(Y EY )] = E(XY ) E(X)E(Y )Siempre se cumple que:

    Cov(X;Y ) = E [X(Y EY )] = E [(X EX)Y ]Cuando alguna de las dos variables tiene esperanza cero, entonces:

    Cov(X;Y ) = E (XY )

    El coeciente de correlacin lineal entre dos variables es el cociente entre su covarianza, y elproducto de sus desviaciones tpicas:

    Corr(X;Y ) =Cov(X;Y )p

    V ar(X)pV ar(Y )

    Mientras que la covarianza puede tomar cualquier valor, positivo o negativo, el coeciente decorrelacin solo toma valores numricos entre -1 y +1. Esto ocurre porque, por la desigualdad deSchwarz, la covarianza est acotada en valor absoluto por el producto de las desviaciones tpicas delas dos variables.Un caso importante es el de la covariacin entre los valores de una variable con sus propios

    valores pasados. As, tenemos, para cada valor entero de k:

    k = Cov(Xt; Xtk); k = 0; 1; 2; 3; :::

    sucesin de valores numricos que congura la funcin de autocovarianza de la variable Xt, ascomo su funcin de autocorrelacin:

    k =Cov(Xt; Xtk)V ar(Xt)

    =

    k

    0

    El primer valor de la funcin de autocovarianza, 0; es igual a la varianza de la variable. Elprimer valor de su funcin de autocorrelacin, 0, es siempre igual a 1.Dos variables aleatorias son independientes si su funcin de densidad conjunta es igual al pro-

    ducto de sus funciones de densidad marginales:

    f(x; y) = f1(x):f2(y)

    6

  • dentro del rango de variacin de ambas variables.En el caso de distribuciones discretas (aqullas en las que la variable en estudio toma valores en

    un conjunto discreto de puntos, que puede ser innito), dos distribuciones son independientes si:

    P (X = x; Y = y) = P (X = x):P (Y = y)

    En general, en el caso continuo, la funcin de densidad de una variable Y , condicionada en otravariable X viene dada por:

    f(y=x) =f(x; y)

    f2(x)

    pudiendo denirse de modo similar la funcin de densidad de la variable X, condicionada porla variable Y .En el caso discreto, se tiene:

    P (Y = y=X = x) =PXY (X = x; Y = y)

    PY (Y = y)

    Ver Ejemplo 1.Es fcil probar que si dos variables aleatorias son independientes, entonces su covarianza es cero.La varianza de una suma o de una diferencia de dos variables aleatorias es:

    V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X;Y )

    V ar(X Y ) = V ar(X) + V ar(Y ) 2Cov(X;Y )de modo que solo si ambas variables son independientes se tiene que la varianza de su suma es

    igual a la varianza de su diferencia:

    V ar(X + Y ) = V ar(X) + V ar(Y )

    En tal caso, el riesgo (medido por la desviacin tpica) de una cartera sera funcin de lasponderaciones con que entran en ella cada uno de los activos que la conguran y del riesgo de cadauno de dichos activos, pero no dependera de si la posicin adoptada en cada activo es corta o larga,es decir, de si estamos comprados o vendidos en cada uno de ellos.Estas expresiones pueden extenderse anlogamente a cualquier combinacin lineal den variables.

    Un ejemplo sera la suma de dichas n variables.Desigualdad de Chebychev:

    E [g(X)] =

    Z 11

    g(x)f(x)dx "2ZS

    f(x)dx

    siendo S el conjunto de puntos del soporte de X donde la funcin g es superior o igual a "2: Portanto,

    E [g(X)] "2ZS

    f(x)dx = "2Pg(X) "2

    y, nalmente:

    Pg(X) "2 E [g(X)]

    "2

    7

  • 1.1 Distribuciones marginales y condicionadas: Un ejemplo

    Consideremos la distribucin de probabilidad bivariante,X12 1 0 1 2

    X2 1 2=24 0 2=24 4=24 00 0 1=24 2=24 0 2=242 0 3=24 2=24 0 6=24

    donde X1 puede tomar valores -2,-1,0,1,2, mientras que X2 puede tomar valores -1, 0,2. Elcuadro recoge probabilidades; por ejemplo, P [X1 = 1; X2 = 0] = 1=24: Las 15 probabilidades delcuadro suman 1.La distribucin marginal de X1 es,V alores de X1 2 1 0 1 2Pr obabilidades 2=24 4=24 6=24 4=24 8=24con E(X1) = 1=2; V ar(X1) = 1=28;siendo la distribucin de X2;V alores de X2 1 0 2Pr obabilidades 8=24 5=24 11=24con E(X2) = 7=12; V ar(X2) = 263=144:La distribucin d eprobabilidad de X1 condicional en un valor numrico de X2 es,V alores de X1 2 1 0 1 2Si X2 = 1 1=4 0 1=4 1=2 0Si X2 = 0 0 1=5 2=5 0 2=5Si X2 = 2 0 3=11 2=11 0 6=11con E(X1=X2 = 1) = 0; E(X1=X2 = 0) = 3=5; E(X1=X2 = 2) = 9=11:Luego E(X1=X2) es una variable aleatoria que toma valores 0, 3/5, 9/11, con probabilidades

    respectivas: 8/24, 5/24, 11/24. Por tanto, su esperanza matemtica es 1/2, que coincide con E(X):Este es un resultado general, pues siempre se tiene,

    E [E (X1=X2)] = E(X1)

    Las dos variables que hemos analizado no son independientes, pues ninguna de ellas satisface lacondicin de que su distribucin marginal coincida con su distribucin condicionada en cualquiervalor de la otra. Dicho de otro modo, el valor que toma una variable X2 es informativo acerca delos posibles valores de la otra variable X1:

    1.2 Media, Varianza, Desviacin Tpica, Covarianza y Coeciente decorrelacin muestrales:

    En general, contamos con observaciones histricas acerca de una o varias variables (precios, rentabil-idades, etc.) y queremos calcular medidas de posicin central, de dispersin y de correlacin con elobjeto de resumir las propiedades bsicas de dichos datos.El conjunto de datos observados dene un histograma de frecuencias, o distribucin muestral

    de frecuencias, que contiene toda la informacin disponible acerca de la variable considerada. Unhistograma de frecuencias es similar a una distribucin de frecuencias, pero es diferente de ella.Para entender la diferencia entre ambos, hemos de comprender el concepto de proceso estocstico,y el modo de utilizarlo en el anlisis de datos de series temporales.

    8

  • Un proceso estocstico Xt; t = 1; 2; 3; :::es una sucesin de variables aleatorias, indexadas por lavariable tiempo. Las variables aleatorias pueden ser independientes entre s o no, y pueden tenerla misma distribucin de probabilidad, o una distribucin de probabilidad diferente.Cada dato de una serie temporal debe interpretarse como una muestra de tamao 1 de la

    distribucin de probabilidad correspondiente a la variable aleatoria de ese instante. Por ej., eldato de cierre del IBEX35 (suponiendo que disponemos de datos de cierre diarios) de hoy es unarealizacin, es decir, una muestra de tamao 1 de la variable aleatoria precio de la cesta IBEX35(como ndice) el da de hoy. La distribucin de probabilidad de esta variable puede ser diferentede la variable aleatoria IBEX35 hace un ao por tener, por ejemplo, una esperanza matemticamenor, una volatilidad mayor, o no ser Normal, mientras que hace un ao s lo era.Vamos a suponer inicialmente que las variables Xt tienen todas la misma distribucin de prob-

    abilidad, y son independientes entre s. Este es el caso ms sencillo, y constituye un proceso deruido blanco. Slo en este caso est totalmente justicado la utilizacin de momentos muestralescomo caractersticas de la variable X. Esta observacin debe servir como llamada de atencinal lector, dada la excesiva frecuencia con que se calculan estadsticos muestrales, calculados condatos histricos, para representar caractersticas de una variable; por ej., la desviacin tpica de larentabilidad burstil de un determinado mercado.Las medidas de posicin central y dispersin anlogas a la esperanza, varianza y desviacin

    tpica son:

    x =

    Pni=1 xin

    ; S2x =

    Pni=1 (xi x)2n 1 ; DTx = S

    2x

    mientras que la covarianza y coeciente de correlacin muestrales son:

    Cov(X;Y ) =1

    T

    TXt=1

    (xt x) (yt y) = 1T

    TXt=1

    xtyt xy

    La media, varianza, mediana, covarianza y coeciente de correlacin muestrales satisfacenpropiedades similares a las ya mencionadas para sus anlogos poblacionales. Entre ellas:

    La suma de las desviaciones de la variable respecto de su media, es igual a cero:nXi=1

    (xi x) =nXi=1

    xi nXi=1

    x = nx nx = 0

    Como consecuencia de lo anterior, la media muestral de las diferencias xi x; i = 1; 2; :::; n esigual a cero.

    Si una de las dos variables, X o Y tiene esperanza cero, tenemos:

    Cov(X;Y ) =1

    T

    TXt=1

    xtyt = E(XY )

    La varianza de X puede escribirse:1

    n

    nXi=1

    (xi x)2 = 1n

    nXi=1

    x2i 21

    n

    nXi=1

    xix+1

    n

    nXi=1

    x2 =1

    n

    nXi=1

    x2i x2

    9

  • Al igual que en el caso de una distribucin de probabilidad, otras medidas utilizadas en larepresentacin de una muestra son:

    Coeficiente de variacion = 100DTxx

    Coeficiente de asimetr{a =1T

    PTt=1 (xt x)3DT 3x

    Coeficiente de curtosis =1T

    PTt=1 (xt x)4DT 4x

    siendo T el tamao muestral.El recorrido o rango es la diferencia entre el mayor y el menor valor observados de una variable.

    Los cuartiles son los datos que dividen a la muestra, una vez ordenada crecientemente, en cuatrosubmuestras de igual tamao (aproximadamente). El segundo cuartil es la mediana. El rangointercuartlico es la distancia entre los cuartiles primero y tercero. Estos estadsticos tienen lavirtud de no verse afectados por la presencia de valores atpicos. De modo anlogo se denen losdeciles y percentiles.En una variable temporal, las funciones de autocovarianza y autocorrelacin muestrales se de-

    nen:

    k = Cov(Xt; Xtk) =1

    T

    TXt=k+1

    (xt x) (xtk x)

    k = Corr(Xt; Xtk) =Cov(Xt; Xtk)p

    S2xpS2x

    =1T

    PTt=k+1 xtxtk x2

    S2x

    siendo siempre: 0 = V ar(Xt) y 0 = 1.

    1.3 Distribuciones condicionales e incondicionales en procesos tempo-rales: El caso del proceso autoregresivo

    Especialmente interesante en el anlisis de datos nancieros es el modelo autoregresivo,

    yt = 0 + 1yt1 + ut; 1 < 1 < 1donde suponemos que ut es un proceso sin autocorrelacin (correlacin temporal consigo mismo).

    Es decir, Corr(ut; utk) = 0 8k:En estas condiciones, si ut sigue una distribucin Normal ut N(0; 2u), entonces yt sigue una

    distribucin

    yt N( 01 1

    ;2u

    1 21)

    Esta es la distribucin marginal o incondicional, de yt:Por otra parte, condicional en la historia pasada de yt; sin incluir el dato de fecha t; la dis-

    tribu8in de probabilidad condicional de yt es,

    10

  • yt N(0 + 1yt1; 2u)que tiene una menor varianza. De hecho, la varianza incondicional de yt es tanto mayor cuanto

    ms se acerque el parmetro 1 a 1, creciendo dicha varianza sin lmite. Sin embargo, la varianzacondicional es siempre 2u; con independencia del valor numrico del parmetro 1:La varianza condicional de yt es igual a la varianza de ut, 2u; mientras que la varianza incondi-

    cional de yt es siempre mayor que 2u:Adems,

    E(yt=yt1) = 0 + 1yt1; E(yt) =0

    1 1

    2 El modelo de regresin lineal

    El objeto bsico de la Econometra consiste en especicar y estimar un modelo de relacinentre las variables econmicas relativas a una determinada cuestin conceptual. Por ejemplo, paraconocer en profundidad el comportamiento del consumo privado agregado de un pas, ser precisoespecicar y estimar un modelo de relacin entre observaciones temporales de consumo privadoy renta disponible. De modo similar, para analizar si la expansin monetaria en un pas ha sidoinacionista, ser preciso especicar y estimar un modelo de relacin entre las tasas de inacin ylas tasas de crecimiento histricas de algn agregado monetario. En su forma ms general y, portanto, ms abstracta, tal modelo de relacin puede representarse como:

    Y = f(X1; X2; X3; :::; Xk;)

    donde Y es la variable cuyo comportamiento se pretende explicar, y X1; X2; :::; Xk son las dis-tintas variables que se suponen potencialmente relevantes como factores explicativos de la primera.El vector denota una lista de parmetros que recogen la magnitud con que las variaciones en losvalores de las variables Xi se transmiten a variaciones en la variable Y .

    Vamos a limitarnos aqu al estudio de modelos de relacin o modelos de regresin lineales,es decir, del tipo:

    Y = 0 + 1X1 + 2X2 + 3X3 + :::+ kXk

    en el que resulta evidente que los parmetros transmiten directamente efectos inducidos por losvalores de las variables Xi sobre la variable Y , que se pretende explicar.

    La estimacin de tales relaciones se efecta a partir de informacin muestral acerca de losvalores tomados por Y;X1; X2; :::; Xk, y trata de cuanticar la magnitud de la dependencia entreellas.Con objeto de ganar precisin y aprender ms acerca del proceso de relacin entre las variables

    consideradas querremos evaluar crticamente la validez de las hiptesis propuestas por la TeoraEconmica acerca de las relaciones estimadas que, en ocasiones, consistirn en si determinadavariable explicativa entra o no en la relacin que se analiza, o si aparece con un determinadocoeciente, por ejemplo, 1 -1. Ejemplos del primer tipo son las cuestiones:1) Inuye el dcit sobre los tipos de inters?2) Afecta el precio de la competencia a la demanda de nuestro producto?mientras que ejemplos del segundo tipo son:

    11

  • 3) Es el crecimiento monetario neutral, es decir, incide con coeciente unitario sobre lainacin?4) Tiene la demanda de nuestro producto elasticidad-precio unitaria? es decir, el efecto

    de un aumento de un 10% en el precio es una cada del 10% en la demanda?Estos son problemas de inferencia estadstica, similares a los que resolvimos para contrastar

    hiptesis acerca de la esperanza o la varianza, desconocidas, de una determinada distribucin deprobabilidad. Por ltimo, especialmente en cuestiones macroeconmicas, estaremos interesados enefectuar un ejercicio de seguimiento coyuntural y de previsin de las variables analizadas. Todoello puede realizarse de modo riguroso mediante la utilizacin de procedimientos economtricos quevamos a estudiar en ste y en los dos prximos captulos.

    As, mediante mtodos economtricos, el analista econmico puede tratar de responder apreguntas como:1) cules son los determinantes de la tasa de inacin?2) sobre la base de la informacin histrica disponible, cul es la importancia cuantitativa

    de cada uno de dichos determinantes?3) podemos contrastar algunas de las implicaciones de la Teora Econmica acerca del efecto

    que variables como el crecimiento monetario tienen sobre la tasa de inacin?4) qu sugiere el modelo que hemos estimado para la tasa de inacin acerca del compor-

    tamiento de esta variable durante el prximo ao?Es crucial que el analista econmico:

    a) comience delimitando muy claramente la cuestin terica que va a ser el centro de suejercicio emprico,b) a continuacin, debe tratar de identicar cul es la variable cuyo comportamiento pre-

    tende explicar, y cules son sus determinantes potenciales. Denominamos a este proceso especi-cacin de un modelo de relacin entre variables econmicas. Como parte del proceso de especi-cacin, el investigador toma posicin acerca de qu variable inuye sobre cul, es decir, proponeuna relacin causal. A diferencia del anlisis que pudo efectuarse mediante un coeciente de cor-relacin, que no descansa en una determinada direccin en la relacin entre dos variables, un anlisisde regresin en Econometra supone que una variable X inuye sobre otra variable Y , y no al revs;c) luego, el analista debe escoger cuidadosamente la informacin estadstica relevante para

    cuanticar tal relacin, yd) debe proceder a su cuanticacin, es decir, debe estimar los parmetros desconocidos que

    aparecen en la relacin antes especicada;e) por ltimo, utilizar el modelo de relacin estimado, ya sea a efectos de contrastacin de

    algn supuesto terico, mediante un proceso de inferencia, o como elemento de anlisis y seguimientode la variable cuyo comportamiento escogi explicar.

    2.1 El modelo de regresin lineal simple.

    Vamos a limitarnos inicialmente al estudio del denominado modelo de regresin lineal simple,que considera una sola variable explicativa X:

    Y = 0 + 1X (1)

    En aplicaciones prcticas disponemos de una muestra de observaciones de ambas variables,y el modelo anterior sugiere que la relacin entre las dos variables se satisface para cada unade las observaciones correspondientes. En algunas ocasiones especicaremos modelos de relacin

    12

  • como (1) con el objeto de estimar el comportamiento de determinados agentes econmicos. Unejemplo importante consiste en entender la evolucin del consumo agregado del sector privado deuna economa real. En algunos casos se tratar de una muestra de datos temporales, y tendremosuna relacin del tipo (1) para cada instante de tiempo. Para ello, consideraramos el modelo:

    Ct = 0 + 1Yt; t = 1; 2; :::; T

    donde Yt denota el PIB del pas, o la renta disponible del sector privado (renta total, menosimpuestos, ms transferencias), segn el alcance que se quiera dar al anlisis. Los subndices t hacenclara referencia al hecho de que ste ser un modelo a estimar con datos de series temporales. Elcoeciente 1 indica la variacin que experimenta el consumo privado del pas al variar, a lo largodel ciclo econmico, la variable renta que hayamos incorporado como variable explicativa en (1).

    En otros casos se dispondr de una muestra de seccin cruzada o de datos transversales, ytendremos una relacin como (1) para cada una de las unidades muestrales que, en datos transver-sales, estn constituidas por familias, empresas, pases, comunidades autnomas, etc.. Por ejemplo,si disponemos de datos de observaciones de consumo y renta disponible de un conjunto de familias,podramos especicar:

    Ci = 0 + 1Yi; i = 1; 2; :::; n (2)

    siendo ste un modelo en que la interpretacin del coeciente 1 sera ahora diferente de laque hicimos con datos de series temporales; en tal caso, 1 nos proporciona el incremento que seproduce en el gasto en consumo de una familia cuando aumenta su renta. No tendra ningunaconnotacin temporal, pues no hemos utilizado datos de tal tipo. De hecho, si dispusisemos de dosmuestras de seccin cruzada, de las mismas familias, pero obtenidas en distintos momentos de unciclo econmico, bien podra ocurrir que la estimacin del coeciente 1 variase signicativamenteentre ambas muestras.

    En otras ocasiones, se pretende estimar una relacin que no es de comportamiento, sinoque reeja, ms bien, un determinado proceso econmico, como pueda ser la produccin de bienes.As, un modelo como:

    Ct = 0 + 1Kt + 2Lt; t = 1; 2; :::; T

    podra interpretarse como la linealizacin de una funcin de produccin agregada del tipo Cobb-Douglas para una determinada economa real, en la que los coecientes 1 y 2 seran las elastici-dades de produccin de ambos inputs. En este caso, necesitaramos un modelo de regresin algoms complejo que el modelo de regresin simple, que incluya varias variables explicativas.

    El problema que nos interesa en economa estriba en la estimacin de los valores numricosde los dos coecientes del modelo de regresin, por ejemplo, 0 y 1 en (2), as como en la posibilidadde contrastar hiptesis acerca de sus verdaderos valores numricos, que son desconocidos.

    2.2 Componentes del modelo de regresin

    Por razones de exposicin, y sin prdida alguna de generalidad, suponemos en lo sucesivo quedisponemos de una muestra de seccin cruzada, y mantenemos el criterio notacional que venimosutilizando, designando con maysculas las variables genricas con las que trabajamos: Y;X, ypor minsculas las observaciones numricas incluidas en las muestras: y1; y2; :::; yn; x1; x2; :::; xn.Denotamos el modelo de regresin, como relacin entre las variables: Y = 0 + 1X, mientras que

    13

  • denotamos la relacin entre cada par de observaciones por: yi = 0 + 1xi: Resulta evidente quees imposible que una relacin como (1) se satisfaga para todas y cada una de las observaciones:i = 1; 2; :::; n. Si ello ocurriese, podramos sustituir las dos primeras observaciones muestrales deambas variables en (1), y determinar exactamente los valores de los coecientes 0 y 1:

    y1 = 0 + 1x1

    y2 = 0 + 1x2

    obteniendo las estimaciones de dichos coecientes con tan slo estas dos observaciones mues-trales. Sin embargo, no debe sorprendernos que al incorporar los valores numricos de amboscoecientes, junto con los de las variables Y y X correspondientes a la tercera observacin en (1),y3 = 0 + 1x3; la relacin no se cumpla, salvo por una enorme casualidad.

    Queda claro, por tanto, que no es obvio cmo obtener estimaciones de los coecientesdel modelo lineal simple a partir de una determinada muestra de T observaciones temporales, on observaciones de seccin cruzada. A ello dedicaremos algunas de las siguientes secciones. Encualquier caso, nos enfrentamos a una aparente paradoja: el modelo (1) no se satisfar para todaslas observaciones muestrales, no importa qu valores numricos asignemos a sus coecientes 0 y1. Por ello, no consideramos exactamente el modelo (1), sino una variante del mismo:

    yi = 0 + 1xi + ui; i = 1; 2; 3; :::; n

    donde la ltima variable, ui, denominada perturbacin estructural o trmino de error del modelode regresin no es observable, y permite explicar las diferencias entre los dos miembros de la igualdaden (1). El problema de inters estriba en la estimacin de los dos coecientes en el modelo (2),cuando se dispone de una muestra de observaciones para las variables Yi y Xi, aunque sin disponerde observaciones de la variable ui.

    La variable cuyo comportamiento se pretende explicar, Yi, recibe el nombre de variabledependiente, mientras que la variable Xi recibe el nombre de variable independiente. En ocasiones,tambin se denomina a Yi variable endgena o variable a explicar, mientras que a Xi se le denominavariable exgena o explicativa. Los coecientes 0 y 1 se denominan trmino constante y pendientedel modelo de regresin simple, respectivamente.

    La perturbacin aleatoria o trmino de error del modelo economtrico es una variableno observable para la que, en consecuencia, no dispondremos nunca de observaciones muestrales.Suponemos que su distribucin de probabilidad, que puede ser diferente para distintas observacionesmuestrales, es independiente de los valores tomados por la variable Xi. Su interpretacin es diversa:a) en primer lugar, puede contener otras variables explicativas que, aun siendo relevantes,

    no acertamos a especicar;b) tambin pudiera ser que, aun siendo conscientes de la existencia de tales variables, no

    dispusiramos de observaciones muestrales para las mismas;c) por ltimo, el trmino de error puede estar reejando errores de medida en la variable

    dependiente Yi, que suelen surgir porque las variables que utilizamos en la estimacin reejanaproximadamente, pero no exactamente, los conceptos que querramos incorporar en el modelo.

    En el caso de la funcin de consumo anterior, es difcil en la prctica disponer de datosprecisos acerca de los gastos en consumo de una determinada familia: en primer lugar, el consumoes un ujo, y la recogida de datos en un determinado instante de tiempo puede producir todo tipode distorsiones en dicha variable. Para evitar este tipo de dicultades, en ocasiones, se utiliza como

    14

  • variable de consumo el resultado de sustraer de los ingresos declarados por la familia, el ahorrorealizado durante el perodo.

    Una vez estimados los coecientes 0 y 1 en (2), tendramos una ecuacin lineal, una recta,entre el gasto en consumo y la renta de un conjunto de familias, denominada recta de regresin.

    La recta de regresin proporciona la mejor relacin existente entre las variables Y y X;en el caso de una regresin simple, o entre la variable dependiente, Y y el conjunto de variablesexplicativas, en una regresin lineal mltiple. Es tentador interpretar la recta de regresin comosi nos proporcionase el valor esperado de Y condicional en los valores que pueda tomar la variableX: El concepto de esperanza condicional es, desde luego, muy importante en el anlisis estadsticode datos econmicos. Por ejemplo, un banco central puede estar interesado en un determinadomomento en estimar la trayectoria que seguira la tasa de inacin condicional a que dicho bancosiga una poltica monetaria restrictiva. Querra asimismo caracterizar la trayectoria esperada de lainacin condicional a que se ponga en prctica una poltica monetaria expansiva, y as compararambas trayectorias esperadas, y escoger la poltica monetria acorde a la senda de inacin preferible.De modo simple, este es un ejemplo del importante problema de diseo de poltica monetaria.Los modelos economtricos pueden ayudar en este tipo de situaciones. Una vez estimados los

    coecientes ; disponemos de valores numricos para ellos, y jando una senda numrica para X(tasa de crecimiento monetario) podemos calcular una senda numrica para Y (tasa de inacin).Este ejercicio tambin se conoce como prediccin por escenarios. Se trata de establecer sendas oescenarios alternativos para X; cuyos efectos se quieren comparar entre s, estimar la senda de Ybajo cada uno de dichos escenarios, y calcular el resultado econmico o de cualquier otro tipo.

    El mismo esquema aplica a la gestin de la empresa, o en muchos contextos nancieros. Porejempo, una empresa se est planteando la conveniencia de dos polticas de publicidad alternativa,una de bajo y otra de alto coste. Si, utilizando datos histricos, estima un modelo de regresin queexplique las cifras de ventas (Y ) utilizando el gasto en publicidad (X) durante los ltimos 40 aos,puede utilizar el modelo estimado para calcular aproximadamente las ventas que puede esperarbajo cada una de las dos polticas de publicidad. A continuacin, un sencillo clculo, aplicandolos mrgenes con que opera a las cifras de ventas estimadas y sustrayendo el coste de la campaapublicitaria, podr decidir la preferencia por una u otra de las dos campaas.Existe una limitacin, sin embargo, y es que si recordamos el concepto de esperanza condicional,

    sabemos que dicha esperanza condicional es, en general, una funcin no lineal. Es decir, paracalcular el valor esperado de Y para un determinado valor numrico de X; deberamos utilizar laesperanza de la distribucin de Y condicional en X , y sta es, en general, una funcin no lineal.Cuando ambas variables, Y y X; tienen una distribucin conjunta Normal, entonces, la esperanzacondicional es una funcin lineal, pero no lo es en cualquier caso. Si no aceptamos la Normalidadde la distribucin conjunta, entonces la regresin slo se puede entender como una aproximacin ala esperanza condicional de Y; dado X:Por tanto, en este captulo imponemos una forma funcional lineal para la dependencia de Y

    respecto de X y no hay ningn razn para pensar que la recta de regresin es una esperanzacondicional. Para cada nivel de renta concreto como Yi = y, la recta estimada nos proporcionauna estimacin o prediccin de gasto en consumo, Ci = c. Si hay alguna familia en la muestracon dicha renta, su gasto en consumo observado no coincidir, salvo por casualidad, con el nivelprevisto por la recta estimada. La diferencia:

    u^i = Ci (^0 ^1Yi);

    15

  • que puede ser positiva, si el gasto en consumo excede del estimado por la recta, o negativa, siel gasto observado es inferior al estimado, se conoce como residuo de dicha observacin muestral,denotado por u^i y, como veremos en la seccin 2, juega un papel fundamental en la estimacindel modelo de regresin. Es importante observar que la recta de regresin estimada proporciona elnivel de consumo que deberamos prever para cualquier nivel de renta, incluso si y no coincide conel de ninguna familia en la muestra. En tal caso tenemos un verdadero ejercicio de prediccin.

    En resumen, cuando se lleva a cabo un ejercicio emprico como la estimacin del modelo deconsumo (2), se tiene en mente un argumento del siguiente tipo: con el modelo (2) no se pretendeexplicar el comportamiento de la renta disponible de las familias, sino de su nivel de gastos enconsumo. Para ello, consideramos las observaciones de la variable explicativa, la renta Yi, comojas: es decir, creemos que si hubisemos entrevistado a otras n familias, hubiramos generadolos mismos datos para dicha variable. Sin embargo, las observaciones muestrales de la variabledependiente, el consumo Ci, habran sido diferentes, como consecuencia de: a) aspectos especcos,no observables, de las familias encuestadas, b) errores de medida de diferente cuanta a aquellosen los que hemos incurrido en la muestra actualmente disponible, etc., y que aparecen recogidosen la perturbacin aleatoria. El trmino de error es una variable aleatoria, diferente para cadaobservacin muestral, y su realizacin no es observable. Por el contrario, el residuo es observable,puesto que se construye a partir de las estimaciones y de los datos de las variables dependiente eindependiente. Trmino de error y residuo son entes de diferentes naturaleza.

    Desde el punto de vista puramente estadstico, el modelo de regresin no tiene necesaria-mente una connotacin de causalidad en la relacin entre variables. Del mismo modo que podemosestimar una regresin de una variable Y sobre otra variable X, podemos estimar una regresin en elorden inverso. Sin embargo, el anlisis de este modelo elemental no trata a ambas variables de igualmodo: las variables explicativas se consideran deterministas, mientras que la variable dependientese considera de naturaleza aleatoria. El papel que juega cada una de las variables debe decidirse enfuncin del aspecto terico que est siendo objeto de estudio. En el ejemplo de consumo y renta,es evidente que queremos explicar los gastos en consumo en funcin de la renta, y no al revs; elconsumo es la variable dependiente, y la renta es la variable independiente. Por eso, el investigadordebe decidir de antemano el papel que juega cada una de estas dos variables, porque el tratamientoestadstico del modelo de regresin no concluye nada a este respecto. Sin embargo, su utilizacinen Econometra se efecta condicional en una determinada hiptesis acerca de la direccin de larelacin, y no al revs.

    El modelo de regresin presupone que los valores numricos de la variable dependiente gastosde consumo, Ci, se generan, en la realidad, a partir de los valores tomados por la variable renta Yi yprecisamente a travs de la relacin (2). En general, creemos que los procesos econmicos son algoms complejos, y que se precisa ms de una causa para explicar adecuadamente el comportamientode una variable como el consumo, Ci, o bien formas funcionales ms complicadas que la lineal. Sinembargo, el modelo de regresin simple es tambin una herramienta til, al menos en una primeraaproximacin, desde la que no es muy complejo pasar al anlisis del modelo de regresin linealmltiple, cuyo estudio en profundidad dejamos para temas posteriores.

    Comentemos un poco ms en detalle estos aspectos:

    2.3 Supuestos del modelo de regresin lineal

    1. Linealidad en las variables: en algunos casos, el supuesto de que la determinacin de los valoresdel gasto en consumo, Ci, a partir de los de la renta, Yi, se produce a travs de un modelo lineal

    16

  • es excesivamente restrictiva, pues creemos que el modelo de relacin es ms bien no lineal.Examinaremos en el prximo captulo una variedad de modelos alternativos al lineal que aquanalizamos. Sin embargo, en la mayora de estos casos, el modelo lineal es nuevamente unabuena aproximacin al verdadero modelo, no lineal, de relacin entre variable dependiente eindependiente. El caso quiz ms paradigmtico de no linealidad, surge cuando se cree que elporcentaje de aumento en renta disponible que se transmite a consumo, no es constante, sinoque decrece con el nivel de renta. Ntese que el modelo lineal tiene la propiedad de que elcociente de incrementos consumo/renta disponible o, si se preere, la derivada del consumocon respecto a la renta disponible, es 1, constante y, por ello, independiente del nivel de renta.Se tendra una relacin muy distinta con un modelo del tipo:

    Ci = 0 + 1Yi 2Y 2 + ui; i = 1; 2; :::; n

    Este tipo de no linealidad en las variables puede incorporarse al anlisis sin gran dicultad,del modo que veremos en el prximo captulo,

    2. Linealidad en los parmetros: muy diferente es la situacin en que los parmetros entran enla relacin entre variable dependiente e independientes de modo no lineal. El tratamientoque requieren tales modelos, con excepcin de algunos casos sencillos, es sustancialmente mscomplejo, por lo que no es discutido en este texto,

    3. Esperanza matemtica nula: suponemos que la esperanza matemtica del trmino de error uidel modelo es cero: E(ui) = 0; i = 1; 2; :::; n. Si, por el contrario, tuvisemos: E(ui) = a 6= 0, ste sera un efecto constante sobre Yi y, por ello, determinista, y debera incluirse comoparte del trmino constante 0 en (1). Una situacin en que este supuesto no se cumplira escuando el investigador, por error, omite del modelo una variable explicativa relevante. As,supongamos que en vez de especicar el modelo:

    yt = 0 + 1xt + 2x2t + ut; t = 1; 2; 3; :::; T

    se especica el modelo:yt = 0 + 1xt + vt; t = 1; 2; 3; :::; T

    en el que, inadvertidamente, se ha omitido la variable explicativa X2. En este ltimo modelo,errneamente especicado, el trmino de error vt sera igual a: vt = 2x2t+ut, y su esperanzamatemtica: E(vt) = E(2x2t+ut) = E(2x2t)+E(ut) = 2E(x2t)+0, donde E(X2) denotala esperanza matemtica de los valores que toma la variable omitida, X2, que suponemosconstante a travs del tiempo. Como consecuencia, E(vt)ser distinta de cero en general,

    4. Varianza constante del trmino de error (Homocedasticidad): suponemos que la varianza deltrmino de error, que denotamos por V ar(ui) = 2u para todo i = 1; 2; :::; n, es la misma paratodas las observaciones muestrales, ya sean stas de naturaleza temporal o de seccin cruzada,

    5. Ausencia de autocorrelacin: adems, suponemos que los trminos de error correspondientesa dos observaciones muestrales cualesquiera, que son dos variables aleatorias diferentes, sonestadsticamente incorrelacionadas (autocorrelacin espacial en un corte transversal de datosordenados geogrcamente).

    17

  • 6. Estabilidad temporal: otro supuesto incorporado en el modelo es que sus coecientes, 0 y1, son constantes en el tiempo; igualmente, creemos que el modelo es el mismo para todas lasobservaciones muestrales. Si disponemos de datos de series temporales, no hay submuestrasde tiempo en las cuales los modelos sean diferentes; si estamos explicando los hbitos deconsumo de las familias espaolas, creemos que la dependencia consumo/renta es igual parafamilias de renta alta y renta baja, o para familias que habitan en un medio rural y para lasque viven en un medio urbano,

    7. Causalidad unidireccional: tambin suponemos que existe una relacin causal desde la variableexplicativa X hacia la variable endgena Y , es decir, cambios en X inuyen sobre cambios enY , pero no al revs. Ello debe basarse en la naturaleza de la cuestin conceptual que se estanalizando, y el investigador siempre debe tener buenos argumentos al respecto, pues sta noes una cuestin emprica, sino terica. De aqu surge la denominacin de variable exgenapara X, es decir, determinada fuera del modelo, y variable endgena, es decir, determinadadentro del modelo, para Y .

    En el ejemplo de relacin entre inacin y crecimiento monetario, si durante el perodo mues-tral se ha seguido una poltica monetaria consistente en jar un determinado crecimientoanual para la cantidad de dinero y seguirlo estrictamente, el crecimiento monetario ser unavariable exgena en el modelo que pretende explicar la tasa de inacin. Si, por el contrario,se ha seguido una poltica monetaria en la que el crecimiento monetario se ha decidido en cadaperodo como funcin de las tasas de inacin que hasta entonces se han registrado, entonces,no estara justicado calicar de exgeno al crecimiento monetario a la inacin de endgena;quiz ambas deberan ser consideradas variables endgenas, para cuyo necesitaramos otrotipo de modelos con varias ecuaciones.

    8. Variables explicativas deterministas: el modelo incorpora el supuesto, claramente restrictivo,acerca de que la variable explicativa X es determinista. La variable endgena Y no lo es, puesdepende de la evolucin de una variable aleatoria: el trmino de error del modelo, u.

    En el ejemplo de relacin entre expansin monetaria e inacin, este supuesto signica lacreencia de que, si pudisemos volver al ao inicial en las mismas condiciones econmicasentonces existentes, y recoger otra muestra para el mismo perodo, obtendramos los mismosvalores del crecimiento monetario. Desde este punto de vista, las tasas de crecimiento dela oferta monetaria que se han observado en este perodo son las nicas que pudieron haberocurrido, con independencia de la informacin de que dispuso la autoridad monetaria, y de losobjetivos de poltica econmica que se trazaron. Sin embargo, ntese que, en esta hipotticasituacin, las tasas de inacin observadas para el perodo seran diferentes entre distintasmuestras, debido a su componente estocstica ut.

    En un anlisis ms general (y ms realista) del modelo de regresin, que precisa de un in-strumental tcnico ms complejo que el que presentamos en este texto, se considera que lasvariables explicativas son tambin estocsticas, como sin duda queremos creer en la realidad.En estas condiciones ms generales, el modelo de regresin lineal simple est plenamentejusticado bajo el supuesto de que las dos variables que en l aparecen, X e Y , tienen unadistribucin de probabilidad conjunta de carcter Normal o Gaussiano. En efecto, ya vimosal estudiar esta familia de distribuciones que la esperanza de la variable Y condicional en lavariable X, es una expresin del tipo (1), donde las constantes 0 y 1 estn relacionadas conlos momentos de primer y segundo orden de la distribucin bivariante Normal. De hecho, en

    18

  • tal caso, trabajamos generalmente bajo el supuesto de distribucin Normal conjunta de todaslas variables que aparecen en el modelo de regresin, e interpretamos ste como la esperanzacondicional ya mencionada, lo cual puede extenderse al caso de varias variables explicativas.

    3 El estimador de Mnimos Cuadrados Ordinarios

    Supongamos que queremos estimar el modelo:

    yi = 0 + 1xi + ui; i = 1; 2; 3; :::; n

    donde suponemos que: 1) ui es una variable aleatoria con E(ui) = 0 y V ar(ui) = 2u paratodo i, 2) los valores xi son jos, 3) 0 y 1 son constantes desconocidas. Esta es la especicacindel modelo de regresin lineal simple. Para ello, el investigador dispone de una muestra de 16observaciones acerca de dos variables X e Y , la ltima de las cuales queremos explicar por mediode la primera:

    Cuadro 1Producto de

    Desviaciones DesviacionesValor Residuo en X al en X e Y respecto

    explicado Residuo cuadrado cuadrado de sus medias

    n Y X X2 XY Y-ajustada u Xu u2 (X-mX)2 (Y-mY)(X-mX)

    1 16 15 225 240 16.3 -0.33 -5.0 0.11 20.8 15.12 18 13 169 234 14.7 3.26 42.4 10.66 6.6 13.63 8 11 121 88 13.1 -5.14 -56.5 26.39 0.3 -2.64 9 8 64 72 10.7 -1.74 -13.9 3.03 5.9 9.05 9 6 36 54 9.1 -0.14 -0.9 0.02 19.7 16.46 10 8 64 80 10.7 -0.74 -5.9 0.55 5.9 6.67 12 9 81 108 11.5 0.46 4.1 0.21 2.1 1.08 14 12 144 168 13.9 0.06 0.8 0.00 2.4 2.19 13 10 100 130 12.3 0.66 6.6 0.44 0.2 -0.110 10 5 25 50 8.3 1.66 8.3 2.75 29.6 14.611 7 9 81 63 11.5 -4.54 -40.9 20.60 2.1 8.212 15 12 144 180 13.9 1.06 12.8 1.13 2.4 3.613 16 13 169 208 14.7 1.26 16.4 1.60 6.6 8.514 18 18 324 324 18.7 -0.73 -13.1 0.53 57.2 40.215 15 10 100 150 12.3 2.66 26.6 7.09 0.2 -1.016 13 8 64 104 10.7 2.26 18.1 5.11 5.9 -0.8

    Sumas : 203 167 1911 2253 203.00 0.00 0.00 80.22 167.94 134.19Medias : 12.69 10.44 119.44 140.81 12.69 0.00 0.00 5.01 10.50 8.39Varianzas: 11.71 10.50 6.70 5.01

    11

    As, tenemos un sistema de ecuaciones:

    19

  • 16 = ^0 + 15^1 + u^1;

    18 = ^0 + 13^1 + u^2;

    8 = ^0 + 11^1 + u^3;

    :::

    13 = ^0 + 8^1 + u^16

    que no puede resolverse, pues contiene 18 incgnitas, 0 y 1, junto con los 16 residuos u^ipero slo 16 ecuaciones. Podramos jar los residuos igual a cero en dos ecuaciones y utilizarlaspara obtener estimaciones ^0 y ^1. Pero dichas estimaciones dependern del par de ecuacionesseleccionadas, por lo que tal procedimiento no es adecuado. El mtodo apropiado consiste enobtener valores numricos para 0 y 1 que satisfagan de la manera ms aproximada posible,simultneamente, las 16 ecuaciones del sistema anterior.

    Una vez estimados los coecientes, se puede calcular para cada observacin i:

    y^i = ^0 + ^1Xi (3)

    en el que las estimaciones ^0 y ^1 han sustituido a los verdaderos valores, desconocidos. Laexpresin (3) representa la estimacin, de acuerdo con el modelo economtrico, del valor que debahaber tomado la variable dependiente Y . Habr siempre una discrepancia entre el valor realmenteobservado yi y la estimacin anterior, el residuo correspondiente a dicha observacin muestral:

    u^i = yi (^0 + ^1xi);

    20

  • Grco 1

    Nube de puntos, recta de regresin,valores ajustados, residuos

    0Y0 0 0 0

    ( )u Y Y Y Xa b= - = - +

    0 0( , )Y X

    *

    **

    * *

    *

    *

    *

    X

    Y

    0Y

    0X

    ( )Y Xa b= +

    0Y

    *

    *

    *

    *

    Hay muchos modos posible sde utilizar la informacin muestral para asignar valores numricosa los dos parmetros desconocidos del modelo, 0 y 1: Parece razonable que queramos utilizar unprocedimiento que genere unos residuos o errores de ajuste que sean reducidos, en algn sentido quehemos de denir. Pero tenemos tantos residuos como observaciones muestrales, y no cabe pensarque podamos conseguir que todos y cada uno de ellos sea pequeo. Generalmente, preferiremosno tener ningn residuo muy grande, sea positivo o negativo, por lo que supondra de tener unimportante error de ajuste para la observacin muestral correspondiente. Entonces, la posibilidadms inmediata sera utilizar un estimador que consiga que la suma de los residuos sea igual a cero.Pero enseguida vemos que esta idea no funciona:

    21

  • Grco 2

    *

    *

    X

    Y

    X1 X2

    Y1

    Y2

    A

    B

    BA

    un posible criterio que dena a un estimador sea la minimizacin de la magnitud de los residuosque dicho estimador genera. Tal idea es correcta, pero hay varias dicultades para hacerla prctica:en primer lugar, tenemos no un residuo, sino un conjunto de n residuos, por lo que no se trata deminimizar un residuo determinado, sino una medida conjunta del tamao global de todos ellos.

    Una vez obtenidas unas estimaciones numricas de los coecientes, podra pensarse ensumar los n residuos generados:

    Pni=1 u^i, y escoger como estimacin el par de valores ^0 y ^1

    que produce la menor suma de residuos. Una dicultad con tal procedimiento es la cancelacinde residuos negativos con residuos positivos. Adems, si realmente se pretendiese minimizar lasuma de residuos, bastara generar residuos de tamao muy grande, pero negativos, lo cual no esadecuado.

    3.1 Estimador de Mnimos Cuadrados

    El estimador de mnimos cuadrados que introducimos en esta seccin utiliza como criterio laminimizacin de la Suma de los Cuadrados de los Residuos (SCR), o tambin Suma Residual,aunque hay que recordar que es una suma de cuadrados. Se trata, por tanto, de seleccionar valoresde los coecientes 0 y 1 que resuelvan el problema:

    Minimizar^0;^1

    SCR =

    nXi=1

    u^2i

    Ntese que el residuo asociado a cada observacin i; i = 1; 2; :::; n; depende de los valores de loscoecientes escogidos, porque:

    22

  • u^i = yi (^0 + ^1xi)de modo que el problema anterior puede escribirse:

    Minimizar^0;^1

    SCR =nXi=1

    yi ^0 ^1xi

    2La solucin a este problema de optimizacin se denota por: ^0; ^1, y se denomina estimador

    de Mnimos Cuadrados Ordinarios (que abreviaremos como MCO) de los coecientes del modelode regresin lineal simple. El estimador MCO escoge, de entre todas las posibles, la recta queminimiza la suma de los cuadrados de las distancias entre cada punto de la nube generada por lasobservaciones muestrales y el asignado por la recta.

    Derivando SCR con respecto a ambas variables (0 y 1) e igualando dichas derivadas acero, tenemos:

    @SCR

    @0= 2

    nXi=1

    yi ^0 ^1xi

    = 0 (4)

    @SCR

    @1= 2

    nXi=1

    yi ^0 ^1xi

    xi = 0 (5)

    con matriz de derivadas segundas:

    @2SCR

    @0@1=

    2n 2Pn

    i=1 xi2Pn

    i=1 xi 2Pn

    i=1 x2i

    que tiene por determinante:

    DET = 4

    0@n nXi=1

    x2i

    nXi=1

    xi

    !21A = n2Pni=1 x2in

    x2= n2

    Pni=1 (xi x)2

    n= n2S2x

    siendo S2x la varianza muestral de X : S2x =

    Pni=1 (xi x)2 =n: Como el primer menor, el

    elemento (1,1) de esta matriz, que es 2n, es tambin positivo, podemos armar que la solucinal sistema de ecuaciones (4) y (5) sern, los valores numricos de los coecientes 0 y 1 que,efectivamente, alcanzan un mnimo de la Suma Residual.

    3.1.1 Ecuaciones normales

    Si resolvemos dicho sistema, obtenemos:

    nXi=1

    yi = n^0 + ^1

    nXi=1

    xi (6)

    nXi=1

    yixi = ^0

    nXi=1

    xi + ^1

    nXi=1

    x2i (7)

    23

  • que constituyen un par de ecuaciones simultneas en las incgnitas, ^0; ^1. Este sistema seconoce como sistema de ecuaciones normales.

    Utilizando los estadsticos que aparecen en la ltima la del Cuadro 1, tendramos:

    203 = 160 + 1671

    2253 = 1670 + 19111

    que resuelto, proporciona las estimaciones MCO:

    ^0 = 4; 348; ^1 = 0; 799

    con dichos datos. La sexta columna del cuadro presenta los valores previstos por el modelo parala variable dependiente. La columna siguiente muestra los residuos, es decir, la diferencia entre losvalores de Y y los valores previstos por el modelo.

    3.1.2 Expresiones para el estimador de Mnimos Cuadrados

    En general, si primero despejamos ^0 en (6), tenemos:

    ^0 =

    Pni=1 yi ^1

    Pni=1 xi

    n= y ^1x (8)

    que podremos utilizar para obtener el estimador MCO de 0, una vez que tengamos el estimadorde 1. Substituyendo en (7), tenemos:

    ^1 =

    Pni=1 yixi 1n (

    Pni=1 xi) (

    Pni=1 yi)Pn

    i=1 x2i 1n (

    Pni=1 xi)

    2 =

    Pni=1 (xi x) (yi y)Pn

    i=1 (xi x)2=nSxynS2x

    = xySySx

    (9)

    donde Sxy, S2x, S2y ; Sx; Sy; denotan, respectivamente, la covarianza, varianzas y desviaciones

    tpicas muestrales de X e Y . Las expresiones (8) y (9) son tiles, pues proporcionan directamentelas estimaciones MCO como funcin de estadsticos muestrales, sin necesidad de resolver el sistemade ecuaciones normales. Primero se calcula ^1 y, luego, se obtiene: ^0 = y ^1x: Ello demuestrauna propiedad del estimador MCO: la recta estimada pasa por el punto (y; x).

    3.1.3 Regresin inversa

    Supongamos ahora que estimamos la regresin lineal inversa de la anterior, es decir, la regresinque tiene a Y como variable explicativa, y a X como variable dependiente:

    xi = 0 + 1yi + vi

    El estimador de mnimos cuadrados de la pendiente en este modelo es:

    ^1 =SxyS2y

    que es distinta de la que estimamos en la primera regresin. Sin embargo, el estimador dela pendiente de esta regresin no es el inverso del estimador de la pendiente en el modelo de

    24

  • regresin original. Sin embargo, existe una relacin entre ambos. En efecto, si multiplicamosambos estimadores, tenemos:

    ^1^1 =SxyS2x

    SxyS2y

    =(Sxy)

    2

    S2xS2y

    =xy2

    luego el producto de ambos estimadores es igual al cuadrado del coeciente de correlacin linealentre ambas variables.

    3.1.4 Interpretacin del estimador de Mnimos Cuadrados

    Podemos ahora deducir la relacin que existe entre el estimador MCO de la pendiente 1 del modelode regresin lineal simple y el coeciente de correlacin de X e Y :

    ^1 =SxyS2x

    =SxySxSy

    SySx

    = xySySx

    Es decir, el estimador de 1, el coeciente que proporciona la relacin entre la variables X e Ydel modelo de regresin lineal simple, est muy relacionado con el coeciente de correlacin entreambas variables, siendo una modicacin del mismo por el cociente de las desviaciones tpicas.Como la desviacin tpica es una medida del tamao de la uctuacin que experimenta una

    variable a lo largo de la muestra, si X e Y tienen igual desviacin tpica, experimentan uctuacionesde igual tamao. En tal caso, una variacin de una unidad en X se traducir, de acuerdo con ^1en una variacin en Y igual a xy. Si, a lo largo de la muestra, las uctuaciones en Y son deun tamao aproximadamente doble del de las uctuaciones en X, entonces el modelo de regresinimplicar que una variacin unitaria en esta ltima variable se traducir en una variacin de dosveces xy en Y . Por ejemplo, si ambas variables tienen igual varianza, y xy = 0; 50;entonces unaelevacin de 2 unidades en X vendr acompaada, en media, de una elevacin de 1 unidad en Y:Si la varianza (o volatilidad) de X es doble de la volatilidad de Y; entonces la elevacin de dosunidades en X slo generar, en media, una elevacin de 0; 5 unidades en Y: Evidentemente, si elsigno de la correlacin fuese negativo, entonces una elevacin en una de las dos variables vendraacompaada de un desenso (no una elevacin) en la otra variable.

    3.2 Ejemplo: Peso de bebs recin nacidos5

    Analizamos en este ejemplo datos tomados de Wooldridge, Introduccin a la Econometra: unenfoque moderno, primera edicin. Partiendo de un modelo de regresin estimado en dicho texto,

    discutimos el modo de llevar a cabo un anlisis descriptivo, tanto de tipo grco como de tipoestadstico, acerca de la capacidad explicativa que un conjunto de variables tiene sobre unadeterminada variable dependiente, y

    describimos cmo el habitual uso mecnico de los estadsticos tipo t de Student y F puede con-ducir a conclusiones errneas sobre la capacidad explicativa de una variable o de un conjuntode ellas.

    5Fichero de trabajo de EVIEWS: Bwght.wf1

    25

  • 3.2.1 Descripcin del ejemplo

    Consideramos en este ejemplo la especicacin de un modelo de regresin para tratar de caracterizarfactores que pueden afectar al peso de bebs al nacer. La base de datos6 , tomada de Wooldridge(2001), contiene informacin sobre el peso de los bebs, recogido en 1.388 nacimientos, la rentade la familia en la que se produce el nacimiento (rentai), el nmero medio de cigarrillos fumadosdiariamente por la madre durante el embarazo (cigarrillosi), el nmero medio de cajetillas detabaco fumados diariamente por la madre durante el embarazo, el nmero de orden que ocupa elrecin nacido dentro de los hijos de la familia (ordenaci), los aos de educacin del padre (educpi) yde la madre (educmi), el sexo del beb y si ste es blanco o de otra raza. Estas dos ltimas variablesson cticias, y aparecen en el archivo como variables dicotmicas, es decir, tomando dos valoresnicamente. La variable sexo ha sido denida mediante Sexo = 1 si el recin nacido es varn,Sexo = 0 en caso contrario, mientras que la variable que recoge el grupo tnico se ha denidoRaza = 1 si el beb es de raza blanza, Raza = 0 en caso contrario. Falta informacin acerca delnivel educativo del padre del reci nacido en 196 nacimientos, faltando informacin acerca del niveleducativo de la madre en un caso ms, por lo que las regresiones que incluyen estas variables comoexplicativas utilizan un mximo de 1191 observaciones.En Wooldridge (2001) se estima el modelo de regresin,

    Pesoi = 114; 52(3;73)

    0; 596(0;110)

    cigarillosi + 0; 056(0;037)

    rentai + 1; 788(0;659)

    ordenaci +

    +0; 472(0;283)

    educpi 0; 370(0;320)

    educmi + ui; i = 1; 2; :::; N

    R2 = 0; 035; ^u = 19; 789

    donde se muestran entre parntesis las desviaciones tpicas estimadas de cada uno de los co-ecientes. El autor contrasta la signicacin conjunta de los niveles educativos de ambos padresmediante el estadstico F , en la forma del R2, no rechazando la hiptesis nula de ausencia de ca-pacidad explicativa de ambas variables, conjuntamente consideradas. Por tanto, el nivel educativode los padres no parece ser un condicionante signicativo del peso de los bebs al nacer.La discusin que llevamos a cabo en la Seccin XX ya sugiere que, en cualquier caso, la inter-

    pretacin de este resultado no debe hacerse con carcter absoluto. El investigador debera decirque una vez incluidas considerados como posibles factores explicativas del peso del recin nacido larenta de la familia, el nmero de cigarrillos fumados por la madre durante el embarazo y el nmerode orden del recin nacido entre sus hermanos, los indicadores educativos de los padres no aportaninformacin adicional relevante.El segundo matiz que hemos de hacer es que podra darse el caso de que los indicadores educativos

    contengan informacin relevante incluso una vez que ya se ha tenido en cuenta la informacinaportada por las variables mencionadas pero, por alguna razn, la informacin muestral disponibleno permite medir con suciente precisin el impacto que sobre el peso del beb tiene el niveleducativo de los padres. Una reducida precisin podra conducir a un estadstico-t reducido y, conello, a no rechazar la hiptesis nula de ausencia de relacin entre nivel educativo de los padres ypeso del beb.

    6El archivo Bwght.des contiene la descripcin de las variables incluidas en el archivo Bwght.raw, algunas de lascuales se han utilizado en el ejemplo.

    26

  • La tercera consideracin a efectuar es que el contraste tipo F efectuado para analizar conjunta-mente la informacin proporcionada por las dos variables educativas descansa sobre el supuesto deNormalidad del trmino de error del modelo de regresin, cuestin que habramos de analizar.Comenzamos nuestro anlisis indagando la informacin que cada una de las potenciales variables

    explicativas contiene sobre el peso del recin nacido. Al hacerlo individualmente, estamos ignorandoel hecho de que distintas variables pueden contener informacin comn; debemos interpretar que setrata de un anlisis que trata de detectar la ausencia de capacidad explicativa en alguna variable.Si, como es habitual, nos limitsemos al anlisis de los estadsticos tipo t, diramos que, entre lasvariables consideradas, el nmero de cigarrillos fumados por la madre afecta al peso del recinnacido, habiendo asimismo un efecto estadsticamente signicativo en relacin con el nmero deorden que el recin nacido ocupa entre los hijos de la familia. Los indicadores de educacin noparecen aportar informacin relevante, al igual que tampoco parece haber relacin con la renta dela familia en la que se produce el nacimiento.

    3.2.2 Caractersticas muestrales de las variables (archivo bwght.wf1)

    Los histogramas7 de las variables revelan caractersticas interesantes (ver HIS_nombre variable enel chero bwght.wf1): la variable dependiente peso es una variable continua, cuyo exceso de curto-sis genera un comportamiento no Normal en la muestra, rechazndose claramente dicha hiptesismediante el test de Jarque-Bera. Este resultado despierta dudas acerca del uso de las distribu-ciones habituales tipo t de Student y F de Fisher-Sendecor para los estadsticos utilizados en lacontrastacin de hiptesis.Las variables cigarrillos y paquetes tienen una correlacin exactamente igual a 1,0. Esto signica

    que se han construido una a partir de la otra, pues si se hubiera encuestado sobre ambas existira unarelacin algo menos que perfecta entre ellas. Examinando sus valores, vemos que la primera es iguala 20 veces el valor numrico de la segunda en todos los casos, por lo que utilizaremos nicamente lavariable cigarrillos. Esta es una variable discreta, con un valor mnimo de 0 y un valor mximo de50; la mediana es 0, reejando el hecho de que en casi un 85% de los 1.388 nacimientos recogidos enla muestra, la madre declar no haber fumado durante el embarazo8 . Slo en 212 casos, la madredel recin nacido declar haber fumado un nmero medio de cigarrillos por da mayor que cero. Estosugiere que disponemos de una informacin relativamente reducida para estimar la contribucin alpeso del beb de un cigarrillo adicional, lo que podra hacer que dicha estimacin se obtenga conuna precisin no muy alta, salvo si la diferencia entre el peso de los bebs de madres fumadoras yno fumadoras es muy sistemtica.La educacin de la madre toma valores entre 2 y 18 aos, con una mediana de 12 aos; sta es

    tambin la moda, recogiendo el 40,5% de las observaciones muestrales. La educacin del padre tomavalores entre 1 y 18 aos, tambin con una mediana y moda igual a 12 aos; valor que aparece en un37,2% de los nacimientos. El elevado nmero de observaciones en el nivel educativo correspondientea 12 aos segmenta la muestra de padres y madres entre los que alcanzan el grado medio y los quecontinan con estudios superiores.La informacin numrica sobre la renta familiar, en miles de dlares, tiene el aspecto de haber

    sido redondeada, apareciendo nicamente valores numricos entre 0,5 y 19,5, adems de 22,5, 27,5,32,5, 37,5, 42,5, 47,5, 65,0. Por tanto, la variable renta tiene naturaleza discreta, tomando unnmero relativamente alto de valores igualmente espaciados en el primer rango mencionado, para

    7Los nombres en cursivas, entre parntesis, denotan elementos del archivo de trabajo Bwght.wf1.8Por tanto, la moda de esta variable es cero.

    27

  • pasar a tomar valores ms dispersos posteriormente. Un 38% de las observaciones estn en elrango (0; 5; 19; 5) de renta, estando el 62% restante en niveles de renta superiores, por lo que elproceso de redondeo afecta a un alto nmero de observaciones. Si hubiera una relacin continuaentre la renta de la familia y el peso del recin nacido, tal proceso de simplicacin numrica podradicultar notablemente su estimacin. Aunque ignoramos el modo en que la concentracin de valoresnumricos ha sido hecha, imaginemos que se ha asignado un dato de renta de 65,0 a las familias conrenta en (56; 75; 65; 0) ; asignando renta de 47,5 a aquellas familias con renta en (47; 5; 56; 75) : Elpeso del recn nacido podra crecer suavemente con la renta, pero sta se ha colapsado en los dosextremos del intervalo, generando una importante cantidad de errores en cualquier relacin linealentre peso y renta. Por tanto, tenderamos apensar que dicha relacin no existe.La variable ordenaci i, que recoge el orden del recin nacido entre los hijos de la familia, toma

    valores entre 1 y 6, siendo la moda igual a 1, con una frecuencia relativa de 57,3%. Por tanto, lamediana de esta variable es asimismo igual a 1.El 48% de los recin nacidos (665) son mujeres y el 52% (723) varones, por lo que la muestra

    est bastante equilibrada en este sentido; por el contrario, el 78% son de raza blanca y el 22%restante de otras razas. Los posibles efectos del sexo y la raza del recin nacido sobre su peso nohan sido considerados en la regresin anterior, pero los consideraremos ms adelante. Es asimismointeresante observar que de las 212 madres que declararon haber fumado durante el embarazo, 165eran de raza blanca, mientras que de las 1089 madres que declararon no haber fumado duranteel embarazo, 924 eran de raza blanca.9 Como se muestra en Bwght.xls, haber fumado durante elembarazo es independiente de la raza de la madre.

    3.2.3 Asociacin con la variable dependiente, peso del recin nacido.

    Los coecientes de correlacin habituales son reducidos (Tabla correlaciones), siendo el ms ele-vado numricamente (-0,16) el del nmero de cigarrillos fumados, que es de signo negativo, comoesperaramos. Recurdese que una desviacin tpica aproximada del coeciente de correlacin es elinverso de la raz cuadrada del tamao muestral, que estara en torno a 0,027. Ello hara que lacorrelacin mencionada, aun siendo reducida, fuese estadsticamente signicativa. Sin embargo, elresto de las correlaciones recogidas en la tabla sugiere que la bsqueda de capacidad explicativa delpeso del recin nacido en las variables disponibles puede resultar poco fructfera. Entre las variablesexplicativas, la renta de la familia tiene coecientes de correlacin superiores a 0,40 con los niveleseducativos del padre y la madre que, a su vez, muestran una correlacin de 0,64 entre ellos.Sin embargo, las variables explicativas tienen naturaleza discreta, por lo que los coecientes de

    correlacin habituales no estn plenamente justicados. Esto mismo hace que las nubes de puntoscon la variable dependiente no sean tan informativas como en otros casos; como muestra, recogemosen el chero de trabajo la nube de puntos entre el peso y el orden que el recen nacido ocupa entrelos hijos. Un efecto negativo, por ejemplo, vendra dado por una reduccin del peso al aumentarel valor de la variable ordenaci: La nube de puntos nos da un intervalo de pesos observados entrelos recin nacidos que comparten un mismo valor de la variable ordenaci, y se tratara de ver si elvalor representativo de cada intervalo de pesos es decreciente al aumentar ordenaci.

    9Esto se muestra en Bwght.xls, multiplicando las columnas de variables dicotmicas {0,1} Fumay Blanco, yhallando la suma de dicho producto, y repitiendo el clculo con Blancoy 1-Fuma. Suponemos aqu que la razade la madre y del recin nacido son las mismas. De modo anlogo, puede verse que de las 212 madres que declararonhaber fumado, 100 tuvieron un hijo varn. Esta divisin aproximada entre hijos varones y mujeres es, por supuesto,muy razonable.

    28

  • Esto nos dirige a estimar la asociacin entre variables mediante tablas de clasicacin de susvalores, as como contrastando la igualdad de medias y medianas entre clases. Por ejemplo, paraanalizar la posible asociacin entre el peso del beb y la educacin de la madre, calculamos lamediana del peso de los bebs para cada uno de los posibles niveles educativos de la madre, con-trastando la igualdad de dichos valores mediana. Si estas dos variables no estuvieran relacionadas,las medidas de posicin central (mediana o media) de la variable peso seran similares para losdistintos niveles educativos; si existe una asociacin positiva entre ambas variables, esperaramosque la media o mediana de peso fuese creciente con el nivel educativo, y lo contrario ocurrira siexistiera una relacin negativa entre ambas. En ambos casos se rechazara la hiptesis nula deigualdad de medias as como la de igualdad de medianas. Para ello, debe calcularse la media omediana de la variable dependiente para cada uno de los distintos rangos de valores numricos dela variable explicativa que se considera. Nos centramos en las medianas y no en las medias debidoa la fuerte desviacin que muestran las distribuciones de estas variables respecto de la Normalidad,tanto por razn de la muy elevada frecuencia observada en el valor modal, como de su asimetra. Ellector interesado puede reproducir nuestro anlisis contrastando la igualdad de medias muestralesdel peso para los distintos niveles educativos de la madre o el padre.Al comparar las variables peso y educm, los contrastes Kruskal-Wallis y van der Waerden de

    igualdad de medianas rechazan la igualdad de medianas, sugiriendo asociacin entre ambas vari-ables (MEDN_PESO_EDUCM). Repetimos el contraste llevando a cabo cierta agrupacinde los niveles educativos, para eliminar el problema de que algunos niveles educativos recogen unnmero muy reducido de observaciones: para algunos niveles educativos hay una sla observacinmuestral. La agrupacin proporciona indicios an ms claros en contra de la igualdad de medianas.Los valores numricos de las medianas por clases de niveles educativos10 despus de la agregacin,recogidas en (MEDN_PESO_EDUCM2) sugiere cierta asociacin positiva entre ambas vari-ables, puesto que la mediana del peso parece ser creciente con el nivel educativo de la madre. Aslo sugieren asimismo los valores p de los contrastes de la chi-cuadrado, de Kruskal-Wallis y de vander Waerden que aparecen en la tabla. Tal asociacin podra reejarse en un grco de barrasque mostrase los pesos medianas que aparecen debajo del rtulo Category Statistics en la tablaMEDN_PESO_EDUCM2 como funcin de los valores centrales de los intervalos que aparecenpara la variable educmi. Sin embargo, tal como muestra el grco de barras de Med_peso_educm2,la asociacin, si existe, es dbil.Tambin en la relacin con el nivel educativo del padre, hemos efectuado dos veces el contraste

    de igualdad de medianas: una, sin agrupar los niveles educativos (MEDN_PESO_EDUCP ), yotra, agrupndolos (MEDN_PESO_EDUCP2); la segunda es preferible, a pesar de que el nivelde agrupacin es relativamente arbitrario. En casos como los que estamos analizando, 15 clasesparece un nmero razonable, pues permite que aore cierta disparidad entre medianas, a la vez quepermite recoger una mnima frecuencia dentro de cada clase. Si juzgamos por los valores p de loscontrastes, la evidencia contraria a la hiptesis nula de igualdad de medianas, lo que sugerira unaposible asociacin entre las variables peso y educp, es claramente menor que en el caso del nivel

    10Para obtener una clasicacin de la variable Peso utilizando como clasicador los niveles educativos de la madre,seleccionar Peso y entrar en Descriptive Statistics/Stats by Classication escribiendo EDUCM en la ventanaSeries/Group for Classify. Para contrastar la igualdad de medianas entre grupos a la vez que se lleva a cabo laclasicacin, entrar en Tests for Descriptive Statistics/ Equality Tests by Classication, escribiendo EDUCM enSeries/Group for Classify, y marcando Mediana, en vez de Media bajo Test Equality of. Para obteneruna clasicacin con agrupacin de niveles educativos, a la derecha, donde aparece Group into Bins if marcarun nmero reducido (por ej., 10) en la ventana # of values, que se reere al nmero de rangos de valores que sequieren utilizar para la variable que se utiliza como clasicador, en este caso, EDUCM.

    29

  • educativo de la madre, sugiriendo que el nivel educativo del padre podra no ser muy relevante paraexplicar el peso del beb. Sin embargo, no hemos de olvidar que estamos comparando nicamenteuna medida de posicin central de la variable peso para los distintos grupos denidos para educmo educp; no examinamos el conjunto de todos los valores de peso observados dentro de cada niveleducativo, lo que podra arrojar ciertas diferencias entre distintos niveles de educmi. Por ejemplo,podramos observar que los rangos observados para pesoi se amplan o se estrechan al aumentareducmi; sugiriendo que la varianza de la variable pesoi es funcin del nivel educativo de la madre.Una evolucin creciente de los pesos mnimo y mximo sugerira asimismo una relacin positiva,siendo negativa si si se observase la evolucin contraria; esto podra ocurrir sin observar variacionessignicativas en los valores mediana.La evidencia a favor de asociacin es bastante ms clara en la comparacin de peso y renta

    (MEDN_PESO_RENTA), y todava ms clara en el caso de peso y cigarrillos (MEDN_PESO_CIGS2).Un diagrama de barras de las medianas de peso por clases de renta sugiere una asociacin posi-tiva (MED_PESO_RENTA), mientras que un diagrama de medianas de peso por clases devalores de cigarrillos sugiere una asociacin negativa (MED_PESO_CIGS2), si bien esta ltimaclasicacin est contaminada por el elevado porcentaje muestral con un valor cero de la variablecigarrillos. En el chero de trabajo se incluye asimismo la variable FUMA, que hemos denido demodo que el valor 0 si la madre no fum durante el embarazo, y el valor 1 si lo hizo. El valor medi-ana de los pesos de los bebs fue de 111 y 120 onzas, respectivamente, en cada caso, lo que sugierecierta dependencia negativa entre el peso y el hbito de fumar. Los valores p de los contrastes enMED_PESO_FUMA son bastante concluyentes respecto a la existencia de tal dependencia.La igualdad de medianas no se rechaza cuando se clasica la variable peso de acuerdo con los

    valores de la variable ordenac, sugiriendo que el orden del recin nacido entre sus hermanos podrano ser informacin relevante para explicar su peso. Este anlisis descriptivo es preliminar, habiendorelacionado, alternativamente, cada una de las variables explicativas, con la variable dependiente.No hemos considerado, por tanto, la posible colinealidad entre variables explicativas, es decir,que stas puedan proporcionar informacin comn. A ttulo preliminar, podramos concluir conuna ordenacin de variables por niveles de capacidad explicativa, comenzando con el nmero decigarrillos y la renta familiar, junto con una posible dependencia dbil respecto del nivel educativode la madre, mientras que el orden del recin nacido dentro de los hijos de la familia parece noaportar informacin relevante acerca de su peso. Esta evidencia es coherente con la obtenida en laregresin mostrada al inicio en lo relativo al efecto del nmero de cigarrillos fumados, pero no encuanto a los posibles efectos de las variables rentai; ordenaci; o educmi.

    3.2.4 Anlisis de regresin

    Nuevamente hay que hacer notar que aunque esta seccin debera comenzar presentando las nubesde puntos de las variables de la regresin pero, debido a la naturaleza de las variables explicativas,no lo hacemos. Si lo desea, el lector puede utilizar el chero de trabajo para construir dichosgrcos. Estimamos regresiones individuales sobre las dos variables aparentemente ms relevantes,cigarrillos y renta, obteniendo,

    30

  • Pesoi = 119:77(0;57)

    (209:3)

    0; 514(0;090)

    (5;68)

    cigarrillosi + u^i; (10)

    R2 = 0; 022; ^u = 20; 13; Ratio = 0; 011 (11)

    Pesoi = 115; 27(1;00)

    (115:0)

    + 0; 118(0;029)

    (4;08)

    rentai + u^i; (12)

    R2 = 0; 011; ^u = 20; 24; Ratio = 0; 005 (13)

    donde Ratio denota el cociente entre la desviacin tpica muestral de los residuos, y la de lavariable peso, que es de 20,35.Estos modelos de regresin simple puedan estar incorrectamente especicados por omitir algn

    efecto signicativo. Si as fuese, el coeciente estimado (la pendiente del modelo de regresin) enla primera estara sesgado, en el sentido de no medir el efecto que sobre el peso tiene la nicavariable explicativa includa en la regresin, cigarrillos; la estimacin de dicho coeciente estararecogiendo asimismo los efectos de variables omitidas que no sean independientes de la variableincluida, por ejemplo, la renta de la familia, o la ordenacin del recin nacido entre sus hermanos.Sabemos algo ms: de acuerdo con la discusin terica relativa al sesgo por variables omitidas, alomitir una variable explicativa negativamente correlacionada con cigarrillos, el coeciente de stase subestimar,sobreestimndose si la variable omitida tiene correlacin positiva con cigarrillospues, en ambos casos, asignaramos a cigarrillos el efecto combinado de ambas variables. Esto esprecisamente lo que dira nuestra intuicin.El primer parntesis debajo de cada coeciente estimado contiene la desviacin tpica de la

    estimacin, mientras que el segundo contiene el estadstico tipo-t, cociente entre la estimacin y sudesviacin tpica. En muestras amplias de seccin cruzada es habitual obtener un valor numricomuy reducido para el coeciente de determinacin, si bien desearamos que fuese algo mayor delobtenido en estas regresiones individuales. En todo caso, los niveles obtenidos del R2 en absolutoindican ausencia de relacin.Este es un caso en el que el uso habitual de los estadsticos tipo-t sugerira que ambas variables

    tienen capacidad explicativa relevante, siendo estadsticamente signicativas; de acuerdo con talcriterio, nadie dudara en incluirlas en un modelo de regresin. Sin embargo, las desviacionestpicas residuales, y los Ratios indican que la capacidad explicativa de cada una de estas variablespor separado es, verdaderamente, muy reducida. El coeciente estimado para cigarrillos, implicaque, para el valor mediana de los cigarillos fumados durante el embarazo (cuando no son cero),que es de 10, la diferencia en peso de bebs de madres fumadoras y madres no fumadoras serade 5 onzas, menor que la diferencia observada en la muestra, de 112 a 121 onzas, a que antes nosreferimos.Evidencia adicional acerca de la reducida informacin que cigarrillos y renta proporcionan sobre

    peso aparece en FIG_RES_CIGS y FIG_RES_RENTA, que representan los valores ajustadosy los residuos de ambas regresiones. Este es un tipo de grcos que siempre hemos de examinar, trasestimar un modelo de regresin. Estos grcos son la evidencia ms clara acerca de la reducidsimacapacidad explicativa de las dos variables, ya que la mayor parte de la uctuacin en peso de unosbebs a otros permanece en los esiduos, npo habiendo sido explicada por las variables utilizadascomo explicativas en la regresin.Indicios adicionales acerca de la baja capacidad explicativa aparecen en CORR_PESO_AJUSTE,

    31

  • que muestra coecientes de correlacin entre peso y los residuos de las dos regresiones, as comode la regresin que incluye ambas variables, cigarrillos y renta, como variables explicativas, y deotras regresiones que analizaremos posteriormente. Las variables mencionadas son las que han sidoincluidas como explicativas en cada regresin. Todas las correlaciones son muy elevadas, lo quesignica que la parte de la variable Peso que queda sin explicar por las variables renta y cigarrilloses muy similar a la propia variable Peso, es decir, que las regresiones apenas explican las diferenciasen peso entre bebs. Es interesante que la correlacin sea algo menor cuando se utilizan ambasvariables, lo que sugiere que la informacin que contienen no es exactamente comn, si bien esreducida en ambos casos.Correlaciones tan elevadas pueden interpretarse asimismo en el sentido de que, si utilizsemos las

    regresiones estimadas para predecir el peso de un recin nacido utilizando las variables cigarrillos yrenta como predictores, la correlacin entre la previsin resultante y el peso observado del beb seramuy pequea o, lo que es equivalente, la calidad de la prediccin sera muy baja. Por ejemplo, parael nivel mediana de renta, 27,5, el modelo (12) predice un peso de 118,52 onzas. En la muestra seobserva11 , para dicho nivel de renta, un rango de pesos entre 80 y 167 onzas; demasiada dispersinpara poder prever con precisin, lo que explica el bajo ajuste del modelo.

    3.3 Ejempl