68
Esquema 1.1 Revisi´ on de conceptos b´ asicos 1.2 Distribuci´on muestral de los estimadores OLS 1.3 Contraste de hip´otesis de un solo par´ ametro poblacional 1.4 Intervalos de confianza 1.5 Contraste de hip´otesis sobre una c.l. de los par´ ametros 1.6 Contraste de restricciones lineales m´ ultiples Econometr´ ıa Grado en Finanzas y Contabilidad Helena Veiga Apuntes de clase basados en el libro ”Introduction to Econometrics: A modern Approach” de Wooldridge Helena Veiga Cap´ ıtulo 1: Regresi´ on M´ ultiple: Inferencia

Econometr a Grado en Finanzas y Contabilidadhalweb.uc3m.es/esp/Personal/personas/mhveiga/esp/docencia_BA... · Esquema 1.1 Revisio´n de conceptos basicos 1.2 Distribuci´on muestral

Embed Size (px)

Citation preview

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Econometrıa

Grado en Finanzas y Contabilidad

Helena Veiga

Apuntes de clase basados en el libro ”Introduction to Econometrics: A modernApproach” de Wooldridge

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

1.1 Revision de conceptos basicos1.2 Distribuciones muestrales de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional1.4 Intervalos de confianza1.5 Contraste de hipotesis de una sola c.l. de los parametros1.6 Contraste de hipotesis lineales multiples

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Ventajas de la regresion multiple:

• Permite controlar el efecto simultaneo de muchos factoressobre la variable dependente.

• Permite inferir causalidad.

• Permite construir modelos mejores para predecir la variabledependiente.

• Es mas flexible.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

El modelo con dos variables independientesUn ejemplo es el siguiente modelo:

wagei = β0 + β1educi + β2experi + ui , i = 1, ..., n (1)

donde wagei es el sueldo del individuo i , educi es la educacion delindividuo i y experi es el numero de anos de experiencia laboral delindividuo i . El tamano de la muestra es n.

wage esta determinado por las dos variables explicativas oindependientes (educacion y experiencia), y por otro factor noobservado que se llama error (u).Estamos interesados en el efecto de educ sobre wage, cuando semantienen fijos todos los demas factores que afectan a wage; esdecir, estamos interesados en el parametro β1.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Si la comparamos con una regresion simple en la que wage seexplique con educ , la ecuacion 1 quita a exper del termino de errory la pone explıcitamente en la ecuacion. Por tanto, β2 mide elefecto ceteris paribus de exper sobre wage.

Hipotesis del modelo:

H1: Hay una relacion lineal de dependencia dada por la ecuacion 1;

H2: E (ui |educi , experi ) = 0 ∀i . Esta hipotesis puede ser falsa si elmodelo esta mal especificado, es decir, p.ej., si omitimos unavariable importante o si hay errores de medicion. Por tanto, siesta hipotesis es cierta decimos que las variableindependientes son exogenas, en otro caso, son endogenas;

H3: Var(ui |educi , experi ) = σ2 ∀i . Si esto no es cierto, se diceque hay heteroscedasticidad;

H4: Cov(ui , uj |educi , experi ) = 0 ∀i , j , i 6= j .

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

H5: Las variables independientes son estocasticas, peroCov(ui , educi ) = Cov(ui , experi ) = 0 ∀i , en otro caso hayendogeneidad;

H6: En la muestra ninguna de las variables independientes esconstante y no hay ninguna correlacion lineal perfecta entreellas.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

El modelo con k variables independientesEl analisis de regresion multiple permite que muchos factoresobservados afecten a la variable dependiente. En el ejemploanterior tambien podrıamos incluir experiencia laboral, anos deantiguedad en el empleo actual, medidas de las aptitudes e inclusovariables demograficas como numero de hermanos o nivel deeducacion de la madre como variables explicativas.

El modelo de regresion lineal multiple general es:

yi = β0 + β1x1i + β2x2i + ...+ βkxki + ui , i = 1, ..., n (2)

1. El numero de parametros es k+1;2. β0 es la constante;3. β1 mide el efecto, ceteris paribus, de un cambio unitario de x1

en y . Una interpretacion parecida se les da a los otrosparametros (las pendientes), pero no a la constante;

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

4. u es el termino de error e incluye a otros factores que noaparecen en el modelo.

El modelo anterior se puede ecribir en forma matricial como:

Y = Xβ + u, (3)

donde y es un vector de longitud n · 1, X es una matriz den · (k + 1), β es un vector de longitud (k + 1) · 1 y u es un vectorde n · 1, es decir:

Y =

y1y2...yn

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

β =

β0β2...βk

u =

u1u2...un

X =

1 x11 x21 ... xk11 x12 x22 ... xk2. . . . .. . . . .. . . . .1 x1n x2n ... xkn

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

De nuevo, las hipotesis clasicas son:

• La relacion entre la variable dependiente Y y la(s) variable(s)independiente(s) X es lineal;

• E (u|X) = 0;

• Var(u|X) = σ2I ;

• Los errores estan incorrelados, de tal forma queCov(ui , uj |Xi) = 0 ∀i 6= j ;

• Los regresores son estocasticos y estan incorrelados con eltermino de error;

• El rango de X es k + 1 < n.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Figure :

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Calculo de las estimaciones OLSLa ecuacion estimada OLS es:

yi = β0 + β1x1i + β2x2i + ...+ βkxki .

El metodo de mınimos cuadrados ordinarios calcula estimadoresque minimicen la suma de residuos al cuadrado. O sea, dadas nobservaciones de y y de las variables independientes, losestimadores β0, β1,..., βk se calculan simultaneamente de tal formaque

n∑

i=1

(

yi − β0 − β1x1i − β2x2i − ...− βkxki

)2,

sea mınimo.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

En forma matricial es

Min(

Y − Xβ)

′(

Y − Xβ)

β

Del problema de minimizacion tenemos:

β = (X′X)−1X′Y = (X′X)−1X′(Xβ + u) = β + (X′X)−1X′u

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Considerando el caso k = 2 variables independientes,yi = β0 + β1x1i + β2x2i :

β1 =

(

n∑

i=1

r1iyi

)

/

(

n∑

i=1

r21i

)

,

donde r1i son los residuos de la regresion de x1 sobre x2 y

β0 = y − β1x1 − β2x2.

Llamaremos a β0 el estimador OLS de la constante y a β1, β2 losestimadores OLS de las pendientes (correspondientes a lasvariables independientes x1 y x2.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

En el siguiente ejemplo:

ln(wage)i = β0 + β1educi + β2experi + β3tenurei + ui ,

• El numero de observaciones es n = 526• (β2 interpretacion): Si el numero de anos de experienciaaumenta en un ano, entonces es salario cambiara, enpromedio, β2 · 100%. La misma interpretacion se aplica alresto de parametros pero no a la pendiente.

Los valores y residuos obtenidos por OLS son:

ˆln(wage)i = β0 + β1educi + β2experi + β3tenurei

y

ui = ln(wage)i − ˆln(wage)i= ln(wage)i − β0 − β1educi − β2experi − β3tenurei

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Los valores y residuos obtenidos por OLS tienen algunaspropiedades importantes que son extensiones directas de las delcaso de una variable:

1. La media muestral de los residuos es cero (¯u = 0);

2. La covarianza muestral entre cada variable independiente ysus residuos es cero. Por tanto, la covarianza muestral entrelos valores obtenidos por OLS y los residuos OLS es cero;

3. El punto ( ¯lnwage, ¯educ , ¯exper , ¯tenure) siempre esta sobre larecta de regresion OLS.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Sea el modelo general:

yi = β0 + β1x1i + β2x2i + ...+ βkxki + ui

Bondad de ajuste:Igual que en la regresion simple, podemos definir la suma total decuadrados (SST), la suma de cuadrados explicada (SSE), y lasuma de cuadrados residual (SSR), como:

SST =n∑

i=1

(yi − y)2,

SSE =∑n

i=1(yi − y)2 y SSR =∑n

i=1 ui2.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

SST = SSE + SSR . (4)

En otras palabras, la variacion total de {yi} es la suma de lasvariaciones totales de {yi} y de {ui}. Suponiendo que la variaciontotal de y no es cero, como es el caso a menos que yi seaconstante en la muestra, podemos dividir (4) por SST y obtener:

SSR/SST + SSE/SST = 1.

Igual que en el caso de regresion simple, el R2 se define como

R2 ≡ SSE/SST = 1− SSR/SST , (5)

y se interpreta como la proporcion de la variacion muestral de yique se explica por el modelo. Por definicion, R2 es un numerocomprendido entre cero y uno.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Se puede demostrar tambien que R2 es igual al coeficiente decorrelacion al cuadrado entre los yi verdaderos y los estimados yi .

R2 = ρ2y ,y =(∑n

i=1(yi − y)(yi − y))2

(∑n

i=1(yi − y)2) (∑n

i=1(yi − y)2)

o

R2 =β′

X′Y − ny2

Y′Y − ny2

Un hecho importante sobre R2 es que nunca disminuye, yhabitualmente aumenta cuando otra variable independiente seanade a la regresion. Esto hace que no sea muy util para decidir siuna o varias variables deben o no ser incluidas en un modelo.

El factor que deberıa decidir si una variable explicativa debe estaren un modelo es el hecho de que la variable explicativa tenga unefecto parcial no nulo sobre y en la poblacion.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

¿ Son los estimadores OLS BLUE (best linear unbiasedestimators)?Son BLUE si son consistentes y tienen varianza mınima dentro dela clase de estimadores lineales e insesgados.

¿ Son los estimadores OLS insesgados?El estimador β es insesgado si E (β) = β.

Condicional a los valores de las variables independentes

Demostracion[El estimador OLS es insesgado]

E(β) = E(

(X′X)−1X′Y)

= E(

(X′X)−1X′(Xβ + u))

= β + (X′X)−1E(X′u)

= β

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Condicional a los valores de las variables independentes, la matrizde covarianzas condicional de β es igual a

Var(β) = σ2(X′X)−1

El estimador β es

eficiente si es de varianza mınima dentro de la clase de losestimadores lineales e insesgados.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Teorema[GAUSS-MARKOV]Dado un vector cualquiera de constantes w, el estimador linealinsesgado de varianza mınima de w′β en el modelo de regresionclasica es w ′β, donde β es el estimador de mınimos cuadrados.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

El estimador β es consistente si converge en probabilidad a β, (locual anotamos plimβ = β ), es decir, si

limn→∞E (β) = β y limn→∞Var(β) = 0.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Figure : Consistencia

0

5

10

15

20

25

30

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1

BETA_100

Kernel Density (beta=0.8, n=100)

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Figure : Consistencia

0

5

10

15

20

25

30

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1

BETA_1000

Kernel Density (beta=0.8, n=1000)

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Figure : Consistencia

0

5

10

15

20

25

30

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1

BETA_5000

Kernel Density (beta=0.8, n=5000)

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

• Hemos dado un conjunto de hipotesis bajo las cuales elestimador OLS es insesgado;

• Hemos deducido la varianza de los estimadores OLS, esto esutil para conocer su precision;

• Pero, para hacer inferencia estadıstica, necesitamos conocer ladistribucion en el muestreo de los estimadores;

• La distribucion de los estimadores OLS depende de ladistribucion del error u.

H7: El error poblacional u es independiente de las variablesexplicativas x1, x2, , xk y sigue una distribucion normal conmedia cero y varianza σ2: u ∼ Normal(0, σ2).

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Esta hipotesis es mas fuerte que cualquiera de las hipotesisanteriores, de tal forma que, bajo ella

E (ui |x1i , x2i , ...., xki ) = E (ui ) = 0

y

Var(ui |x1i , x2i , ...., xki ) = Var(ui ) = σ2

Las hipotesis (H1, ...,H7) juntas se llaman las hipotesis clasicas(CLM) del modelo de regresion lineal. Bajo las hipotesis CLM, los

estimadores OLS β1, β2, ..., βk son los estimadores de mınimavarianza e insesgados de entre todos los estimadores, no solo deentre los que son lineales en yi .

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Una forma abreviada de resumir las hipotesis poblacionales CLM es

yi |xi ∼ Normal(β0 + β1x1i + ...+ βkxki , σ2),

donde xi = (x1i , x2i , ..., xki ).

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Teorema (1)

Bajo las hipotesis CLM, condicionalmente en los valores muestralesde las variables independientes,

βj ∼ Normal(βj ,Var(βj ))

donde

Var(βj ) =σ2

SSTj(1− R2j )

donde SSTj =∑n

i=1 (xji − xj)2 y R2

j es la R2 de la regresion de xjen las demas variables independentes. Entonces

βj − βjσβj

∼ Normal(0, 1)

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Sea el modelo para la poblacion:

yi = β0 + β1x1i + β2x2i + ...+ βkxki + ui ,

que cumple las hipotesis clasicas.

Recuerdese que βj son caracterısticas desconocidas de lapoblacion, y nunca estaremos seguros de sus valores verdaderos.

Sin embargo, podemos hacer una hipotesis sobre el valor de βj yentonces usar la inferencia estadıstica para contrastar nuestrahipotesis.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Para construir contrastes de hipotesis, necesitamos el siguienteresultado:

Teorema (2)

Bajo las hipotesis CLM:

βj − βjσβj

∼ tn−k−1,

donde k + 1 es el numero de parametros desconocidos en elmodelo poblacional yi = β0 + β1x1i + β2x2i + ...+ βkxki + ui (kparametros de pendiente y la constante β0).

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Diferencias entre los teoremas (1) y (2):

• El Teorema (1) demuestra que, bajo las hipotesis CLM,βj−βj

σβj

∼ Normal(0, 1); pero ahora estimamos la desviacion

tıpica de los errores σ (σ =√

SSR/(n− k − 1)), lo queimplica que la distribiucion es el cociente entre una N(0,1) yuna χ2

n−k−1 independentes, es decir, una distribucion t deStudent con n − k − 1 grados de libertad.

• El Teorema (2) es importante porque nos permite contrastarhipotesis acerca de los βj . En la mayorıa de las aplicaciones, elinteres fundamental esta en contrastar la hipotesis nula

H0 : βj = 0,

donde j corresponde a cualquiera de las k variablesindependientes.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Significado de la hipotesis nula: βj mide el efecto parcial de xjsobre (el valor esperado de) y , despues de haber controlado todaslas otras variables independientes, es decir, despues de habertenido en cuenta (x1, x2, , xk), xj no tiene efecto sobre el valoresperado de y .

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Como ejemplo, tomemos la ecuacion del salario

ln (wage)i = β0 + β1educi + β2experi + β3tenurei + ui .

La hipotesis nulaH0 : β1 = 0

significa que, una vez que se han tenido en cuenta la antiguedad yla experiencia, el numero de anos de educacion (educ) no tieneefecto sobre el salario por hora. Esta es una hipotesis interesanteen la economıa. Si es cierta, implica que la educacion de unapersona anterior al presente empleo no afecta al salario.Si β1 > 0, entonces la educacion anterior contribuye a laproductividad y, por tanto, al salario.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

El estadıstico de contraste se llama cociente t (o estadısticot) y viene dado por:

tβj

≡ βjσβj

.

Necesitamos una forma mas general del estadıstico t paracontrastar otras hipotesis sobre βj .Sus caracterısticas son:

• El cociente t es sencillo de calcular dado βj y su desviaciontıpica;

• Puesto que σβj

siempre es positivo, tβj

tiene el mismo signo

que βj ;

• Para un valor dado de σβj, un valor mayor de βj lleva a

valores mayores de tβj;

• βj nunca es exactamente cero, sea o no ciertaH0.Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

• La pregunta es: ¿ A que distancia esta βj de cero? Un βj muyalejado de cero anade evidencia contra H0 : βj = 0;

• Los valores de tβj

suficientemente lejos de cero daran como

resultado el rechazo de H0;• La regla de rechazo concreta depende de la hipotesisalternativa y del nivel de significacion elegido;

• Obtener una regla para rechazar con un cierto nivel designificacion (la probabilidad de rechazar H0 cuando es cierta)requiere conocer la distribucion en el muestreo de t

βjbajo H0.

• Estamos contrastando hipotesis sobre los parametrospoblacionales. No estamos contrastando hipotesis sobrelas estimaciones de una muestra concreta.

H0 : βj = 0 o H0 : 0.434 = 0

Estas hipotesis no tienen sentido.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Contrastes frente a alternativas unilaterales

Para obtener una regla de rechazo de H0, tenemos que especificarla hipotesis alternativa que nos interesa. Sea una alternativaunilateral de la forma

H1 : βj > 0

Las alternativas a H0 de la forma H1 : βj < 0 no se consideran.La regla de rechazo es que H0 se rechaza en favor de H1 al nivel designificacion del 5% si

tβj

> c ,

donde c es el percentil 95 de una distribucion t con n − k − 1grados de libertad. Si la hipotesis alternativa es H1 : βj < 0 laregla de rechazo es t

βj< −c .

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Alternativas bilaterales

En las aplicaciones, es frecuente contrastar la hipotesis nulaH0 : βj = 0 frente a una alternativa bilateral del tipo,

H1 : βj 6= 0.

Bajo esta alternativa, xj tiene un efecto ceteris paribus sobre y sinespecificar si el efecto es positivo o negativo. Esta es la alternativaadecuada cuando el signo de βj no esta bien determinado por lateorıa. Incluso si el signo es conocido bajo la alternativa, uncontraste bilateral es, a menudo, prudente.

Cuando la alternativa es bilateral, nos interesa el valor absoluto delestadıstico t.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

La regla de rechazo para H0 : βj = 0 frente a H1 : βj 6= 0 es:

|tβj| > c ,

donde c es un valor crıtico adecuado. Para encontrar c , de nuevoespecificamos un nivel de significacion, p. ej. 5%. Para uncontraste bilateral, c se escoge de forma que haga que el area decada cola de la distribucion t sea el 2.5%.Contraste de otras hipotesis sobre βj

H0 : βj = 0 es la hipotesis mas comun, pero a veces estaremosinteresados en contrastar

H0 : βj = aj

donde aj es nuestro valor de hipotesis de βj , entonces el estadısticot apropiado es

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

t =βj − ajσβj

.

t mide a cuantas desviaciones tıpicas estimadas esta βj de aj .Un ejemploSea un modelo simple que relacione el numero anual de delitos enlos campus universitarios (crime) con la matriculacion deestudiantes (enroll):

ln crimet = β0 + β1 ln enroll t + ut .

Este es un modelo de elasticidad constante, donde β1 es laelasticidad de los delitos con respecto a la matriculacion.

• La hipotesis nula podrıa ser H0 : β1 = 1. Esto quiere decir queun incremento del 1% en la matriculacion lleva, en promedio,a un incremento del 1% en los delitos.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

El modelo estimado es:

ˆln crimet = −6.631.03

+ 1.270.11

ln enroll t n = 97, R2 = 0.585

El cociente t es:

t =1.27− 1

0.11= 2.(45).

Puesto que β1 = 1.27, podemos pensar si hay evidencia pararechazar la hipotesis nula frente a la alternativa H1 : β > 1 y,puesto que el valor crıtico de la t con 95 grados de libertad es de1.66 (usando gl igual a 120), entonces, claramente rechazamos H0

en favor de la alternativa al nivel de significacion del 5%.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Calculo de los valores p en los test de la t

• En lugar de contrastar con distintos niveles de significacion, esmas informativo calcular el nivel de significacion mınimo alcual se habrıa rechazado la hipotesis nula. A este nivel se lellama valor p del contraste;

• El valor p del siguiente contraste H0 : βj = 0 frente aH1 : βj 6= 0 es P |T | > t donde T indica una variable aleatoriacon distribucion t y n − k − 1 grados de libertad y t indica elvalor numerico del estadıstico de contraste;

• El valor p tambien es la probabilidad de observar unestadıstico t tan extremo como serıa posible si la hipotesisnula fuera cierta. Esto significa que los valores p pequenosanaden evidencia contra la hipotesis nula.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Con gl=40 y t = 1.85, el valor p se calcula ası:

valor p = P(|T | > 1.85) = 2P(T > 1.85) = 2(.0359) = .0718,

donde P(T > 1.85) es la superficie a la derecha de 1.85 en unadistribucion t con 40 gl.

Figure :

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Supongamos, por ejemplo, que contrastamos H0 : βj = 0 frente a

H1 : βj > 0. Si βj < 0, el valor p es mayor que .50, lo cual nunca

hara que rechacemos H0 en favor de H1. Si βj > 0, entonces t > 0y el valor p es, simplemente, la probabilidad de que una variablealeatoria t con los grados de libertad adecuados sea mayor que t.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Los intervalos de confianza tambien se llaman estimaciones porintervalo, porque dan un rango de valores probables para elparametro poblacional, y no tan solo una estimacion puntual. Elintervalo es

CI =[

βj − c · σβj; βj + c · σ

βj

]

.

Si obtuvieramos muchas muestras aleatorias, y se calculara elintervalo de confianza con cada muestra, entonces el parametropoblacional (que es desconocido) βj estarıa dentro del intervalo deconfianza CI en el 95% de las muestras.

Para la unica muestra que tenemos en la practica, con la queconstruimos el CI, no sabemos si βj esta de verdad dentro delintervalo. Nuestra esperanza es que la muestra sea una de las del95% cuyo CI contiene al βj , pero no tenemos garantıa de ello.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Necesitamos tres valores para construir el CI:

• βj ;• σ

βj;

• c .

Un ejemplo:Un modelo que explique el precio de un bien en terminos de suscaracterısticas se llama modelo hedonico del precio. La siguienteecuacion es un modelo de precio hedonico para los precios deviviendas; las caracterısticas son la superficie en pies cuadrados(sqrft), el numero de dormitorios (bdrms), y el numero de banos(bthrms). A menudo los precios (y algunas variables explicativas)aparecen en forma de logaritmos. Utilizando n = 19 observacionesde casas que se vendieron en Waltham, Massachusetts, en 1990, laecuacion estimada (con desviaciones tıpicas en parentesis debajode las estimaciones de los coeficientes) es

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

ˆln price i = 7.461.15

+ 0.6340.184

ln sqrft i − 0.0660.059

bdrmsi + 0.1580.075

bthrmsi

n = 19 R2 = 0.806

Puesto que price y sqrft aparecen ambas en forma logarıtmica, laelasticidad del precio con respecto a los pies cuadrados es .634, esdecir, manteniendo fijos el numero de dormitorios y banos, unincremento del 1% en pies cuadrados incrementa el precio predichode la vivienda en un .634%.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Un intervalo de confianza al 95% para la elasticidad de lapoblacion (βln sqrft), dado que c vale 2.131 (el percentil 97.5 de ladistribucion t con 15 gl) es:

[0.634 − 2.132 · 0.184; 0.634 + 2.132 · 0.184]

Puesto que el cero no esta en este intervalo de confianza,rechazamos H0 : βln sqrft = 0 frente a la alternativa bilateral al niveldel 5%.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Para ilustrar el caso general, veremos un modelo sencillo quecompare el rendimiento economico de la educacion en escuelasuniversitarias de primer ciclo y en facultades universitarias. Lapoblacion esta formada por trabajadores que terminaron elbachillerato, y el modelo es

lnwage i = β0 + β1jci + β2univi + β3experi + ui ,

donde jc es el numero de anos que asistio a una escuela de primerciclo y univ es el numero de anos que asistio a una facultad.

La hipotesis de interes es si un ano en una escuela universitariavale lo mismo que un ano en una facultad: esto se expresa como

H0 : β1 = β2

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

La alternativa de interes es unilateral: un ano en una escuelauniversitaria vale menos que un ano en una facultad. Esto seexpresa como

H1 : β1 < β2.

Podemos reescribir H0 : β1 − β2 = 0 y H1 : β1 − β2 < 0. En estecaso podemos usar

t =β1 − β2σβ1−β2

La regla de rechazo es de la forma t < −c , donde c es un valorpositivo que se toma de la distribucion t adecuada.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

σβ1−β2

es igual a

(

Var(β1) + Var(β1)− 2Cov(β1, β2

)

Sea el siguiente ejemplo:

lnwage i = β0 + β1jci + β2univi + β3experi + ui ,

ˆlnwage i = 1.47230.021

+ 0.06670.0068

jci + 0.07690.0023

univi + 0.00490.00016

experi

n = 6763 R2 = 0.222

t = β1−β2σβ1−β2

= −0.0102√0.00682+0.00232−2 ˆcov(β1,β2)

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Hasta ahora solo hemos tratado con hipotesis que constan de unasola restriccion. A menudo, queremos contrastar hipotesismultiples acerca de los parametros. Comenzaremos con un casodestacado, contrastar si un conjunto de variables independientes notienen efecto parcial sobre una variable dependiente.

modelo sin restricciones

ln salary i = β0 + β1yearsi + β2gamsyri + β3bavgi+ β4hrunsyri + β5rbisyri + ui ,

donde salary es el sueldo total en 1993, years es el numero de anosen la liga, gamesyr es el numero medio de partidos jugado por ano,bavg es el promedio carreras/bateo (por ejemplo, bavg=250),hrunsyr es cuadrangulares (home runs) por ano, y rbisyr son lascarreras bateadas por ano.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Queremos contrastar, por ejemplo, la hipotesis nula de que, unavez que los anos en la liga y los juegos por ano han sidocontrolados, las variables que miden el rendimiento (bavg , hrunsyr ,y rbisyr) no influyen en el sueldo, o sea:

H0 : β3 = 0, β4 = 0, β5 = 0

La hipotesis nula consta de tres restricciones de exclusion: si escierta, entonces bavg , hrunsyr , y rbisyr no tienen efecto sobreln salary despues de que los anos y gamesyr estan controladas.La hipotesis alternativa es:

H1 : H0 no es cierta.

H1 se cumple si al menos una de β3, β4 or β5 es distinta de cero.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

¿Como contrastamos H0 frente a H1?

No podemos utilizar un test de la t porque este no puede ponerrestricciones en mas de un parametro. Ademas, el utilizarestadısticos t distintos para contrastar una hipotesis multiple puedeinducir a error. Necesitamos un metodo para contrastarconjuntamente las restricciones de exclusion.Sea la siguiente estimacion:

ˆln salary i = 11.200.289

+ 0.06890.012

yearsi + 0.01260.0026

gamsyri

+ 0.000980.0011

bavgi + 0.01440.016

hrunsyri + 0.01080.0072

rbisyri

n = 353, SSR = 183.186 R2 = 0.6278

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

donde SSR es la suma de los residuos al cuadrado.Esta regresion nos dice:

1. years y gamesyr son estadısticamente significativas;

2. bavg , hrunsyr , y rbisyr no son estadısticamente significativasfrente a una alternativa bilateral al nivel de significacion del5%;

3. Por tanto, basandonos en los tres estadısticos t, parece queno podemos rechazar H0, lo cual es falso.

Para ver esto, tenemos que desarrollar un contraste de restriccionesmultiples. Resulta que la suma de residuos al cuadrado y el R2 nosdan una base muy comoda para contrastar hipotesis multiples.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Como las estimaciones OLS minimizan la suma de cuadrados delos residuos, la SSR siempre aumenta cuando quitamos variables almodelo. La cuestion es si este incremento es lo bastante grande,en relacion a la SSR del modelo que tiene todas las variables, comopara rechazar la hipotesis nula. Imponiendo la hipotesis nula

H0 : β3 = 0, β4 = 0, β5 = 0 obtenemos:

modelo restringido

ln salary i = β0 + β1yearsi + β2gamsyri + ui

y el modelo ajustado es:

ˆln salary i = 11.220.11

+ 0.07130.0125

yearsi + 0.02020.0013

gamsyri

n = 353, SSR = 198.311, R2 = 0.5971.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

La SSR del modelo restringido es mayor que la SSR del modelo sinrestricciones y el R2 del modelo restringido es menor que el R2 delmodelo sin restricciones. La pregunta es si la SSR que pasa delmodelo sin restricciones al restringido (de 183.186 a 198.311) es lobastante grande como para rechazar la hipotesis nula. La respuestadepende del nivel de significacion del contraste. Por tanto,necesitamos un estadıstico de contraste adecuado.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Sea el modelo general:

modelo sin restricciones

yi = β0 + β1x1i + β2x2i + ...+ βkxki + ui i = 1, ..., n.

hipotesis nula

H0 : β1 = β2 = ... = βq = 0,

donde q < k .modelo restringido

yi = β0 + βq+1x(q+1)i + ...+ βkxki + ui i = 1, ..., n.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

El estadıstico F es:

F =(SSRr − SSRnr )/q

SSRnr/(n − k − 1),

donde SSRr es la suma de cuadrados de los residuos del modelorestringido y SSRnr es la suma de cuadrados de residuos delmodelo sin restricciones.

• El estadıstico F siempre es no negativo;• q=numero de restricciones;• El denominador de F es simplemente el estimador insesgadode σ2 = Var(u) en el modelo sin restricciones;

• Se puede demostrar que, bajo H0 (y suponiendo que secumplen las hipotesis CLM), F se distribuye como unavariable aleatoria F con (q, n − k − 1) grados de libertad.

F ∼ F(q,n−k−1)

; Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

• Si F es suficientemente grande rechazamos H0 a favor de H1.Sea c el percentil 95 de la distribucion F(q,n−k−1). Este valorcrıtico depende de q (los gl del numerador) y de (n − k − 1)(los gl del denominador). Por tanto, rechazamos H0 a favorde H1 al nivel de significacion elegido si

F > c .

• Si se rechaza H0, entonces decimos que x1, ..., xq sonconjuntamente estadısticamente significativas al nivel designificacion correspondiente. Este contraste por si solo nonos permite decir cual(es) de las variables tiene(n) un efectoparcial sobre y ;

• Si la hipotesis nula no se rechaza, entonces las variables noson conjuntamente significativas, lo cual en muchos casosjustifica el quitarlas del modelo.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Ahora podemos contrastar si, despues de controlar years ygamesyr , las variables bavg , hrunsyr , y rbisyr no tienen efectoalguno sobre los sueldos de los jugadores. El test F es

F =(198.311 − 183.186)/3

183.186/347≈ 9.55.

Este numero supera con creces el valor crıtico al 1% en ladistribucion F con 3 y 347 grados de libertad, por tanto,rechazamos la hipotesis de que bavg , hrunsyr , y rbisyr no tienenefecto sobre el sueldo.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Relacion entre los estadısticos F y t

¿Que pasa si aplicamos el estadıstico F al caso de contrastaruna unica variable independiente?

Se puede contrastar H0 : β1 = 0 con un test de la F como antes.

Ambos metodos son semejantes, es decir, F = t2 y cuando haysolo una restriccion de exclusion t2n−k−1 ∼ F1,(n−k−1). Sinembargo, el estadıstico t es mas flexible para contrastar hipotesissimples porque se puede emplear para contrastar frente aalternativas unilaterales.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Ademas, como

R2r = 1− SSRr

SSTy

R2ur = 1− SSRnr

SST,

podemos escribir el estadistico F en funcion de R2s como:

F =

(

R2nr − R2

r

)

/q

(1− R2nr )/(n − k − 1)

Como R2nr > R2

r , F siempre es positivo.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

En contrastes con la F , el valor p se define como:

valor p = P(ℑ > F ),

donde, ℑ is una variable aleatoria con (q, n − k − 1) grados delibertad y F es el valor concreto del estadıstico de contraste

El valor p es, de nuevo, la probabilidad de observar un valor de laF que sea, al menos, tan grande como el que observamos,suponiendo que la hipotesis nula sea cierta.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

El estadıstico F para la relevancia general de la regresion

La hipotesis nula es que todas las pendientes son cero

H0 : β1 = β2 = ... = βk = 0,

y la alternativa es que al menos uno de los βj es distinto de cero.Hay k restricciones y el modelo restringido es:

yi = β0 + ui

El R2 que se obtiene al estimar este modelo es cero y, por tanto, elestadıstico F queda:

F =R2/k

(1− R2)/(n − k − 1),

donde R2 es el R2 no restringido.Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

Si no podemos rechazar la hipotesis nula, entonces no hayevidencia de que ninguna de las variables independientes ayude aexplicar y .

Ejercicio propuesto.Sea el modelo de regresion multiple con tres variablesindependientes, bajo las hipotesis del modelo lineal clasico:

yi = β0 + β1x1i + β2x2i + β3x3i + ui .

Contrastar la hipotesis nula H0 : β1 − 3β2 = 1.

(i) Sean β1 y β2 los estimadores OLS de β1 y β1. CalcularVar(β1 − 3β2) en funcion de las varianzas de β1, β2 y lacovarianza entre ellas. ¿Cual es la desviacion tıpica deβ1 − 3β2?

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia

Esquema1.1 Revision de conceptos basicos

1.2 Distribucion muestral de los estimadores OLS1.3 Contraste de hipotesis de un solo parametro poblacional

1.4 Intervalos de confianza1.5 Contraste de hipotesis sobre una c.l. de los parametros

1.6 Contraste de restricciones lineales multiples

(ii) Escribir el estadıstico t para contrastar H0 : β1 − 3β2 = 1.

(iii) Definir θ1 = β1 − 3β2 y θ1 = β1 − 3β2. Escribir una ecuacionde regresion en la que aparezcan β0, θ1, β2 y β3 que permitaobtener directamente θ1 y su desviacion tıpica.

Helena Veiga Capıtulo 1: Regresion Multiple: Inferencia