29
Tema 3 Tema 3 Modelo de regresión lineal simple (I) Modelo de regresión lineal simple (I) Introducción a la Econometría. Curso 2007-2008 3º de Economía El modelo de regresión lineal simple trata de capturar la relación entre dos variables y, x. y = f(x,u) y es la variable dependiente, o variable explicada o regresando. x es la variable independiente, o variable explicativa, o regresor. u es el término de error o perturbación aleatoria o inobservable. Contiene todos los factores distintos de x que afectan a y. 1. EL MODELO: MOTIVACIÓN Y DEFINICIONES ¿ Qué recoge u? - Algunas variables que explican la variable dependiente y, pero que no son observables o no se pueden medir. - Errores de especificación, es decir, variables explicativas importantes que hemos omitido por error, no porque no las podamos medir. - Errores de medición de la variable dependiente.

Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

Tema 3Tema 3

Modelo de regresión lineal simple (I)Modelo de regresión lineal simple (I)

Introducción a la Econometría. Curso 2007-2008

3º de Economía

• El modelo de regresión lineal simple trata de capturar la relación entredos variables y, x.

y = f(x,u)

• y es la variable dependiente, o variable explicada o regresando.

• x es la variable independiente, o variable explicativa, o regresor.

• u es el término de error o perturbación aleatoria o inobservable. Contiene todos los factores distintos de x que afectan a y.

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

¿ Qué recoge u?

- Algunas variables que explican la variable dependiente y, pero que no son observables o no se pueden medir.

- Errores de especificación, es decir, variables explicativas importantes que hemos omitido por error, no porque no las podamos medir.

- Errores de medición de la variable dependiente.

Page 2: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

• Para obtener un modelo útil que nos permita cuantificar “cómo xexplica y”, tenemos que responder a las siguientes cuestiones:

1) ¿Qué forma funcional suponemos para f(x,u) ?

Supondremos que la relación que vincula x e y es lineal en parámetrosy que el término inobservable entra de forma aditiva.

y = β1 + β2 x + u

β0 es la constante (intercept parameter)

β1 es la pendiente (slope parameter)

1

Y

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Supongamos que la variable Y es una función lineal de otra variable X, donde la relación entre Y y X depende de parámetros β1 y β2 desconocidos.

XY 21 ββ +=

β1

XX1 X2 X3 X4

Si nuestro interés fuera conocer la relación que une a X con Y, entonces deberíamosestimar los parámetros desconocidos.

Page 3: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

Supongamos que tenemos una muestra de 4 observaciones de (X,Y). Suponemos queesas observaciones proceden de una muestra aleatoria simple.

Si la relación entre X e Y fuera exacta, solo bastarían dos puntos para hallar unasolución para los parámetros β1 y β2.

Q1

Q2

Q3

Q4

3

XY 21 ββ +=

β1

Y

XX1 X2 X3 X4

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

P4

Sin embargo, las relaciones económicas no son exactas: muchos de los puntos queobservamos no van a estar en la recta

P3P2

P1

Q1

Q2

Q3

Q4

4

XY 21 ββ +=

β1

Y

XX1 X2 X3 X4

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Page 4: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

P4

Para permitir divergencia entre la variable Y de la recta de interés, introducimos un término de perturbación al modelo, que no es observable: Y = β1 + β2X + u.

Por ejemplo, si Y es el salario y X la educación, u puede representar la habilidadinnata para ganar más dinero: así dos individuos con la misma educación puedentener un salario diferente.

P3P2

P1

Q1

Q2

Q3

Q4

5

XY 21 ββ +=

β1

Y

XX1 X2 X3 X4

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

P4

Cada valor de Y tiene entonces un “componente no aleatorio” o “sistemático” β1 + β2X y un “componente aleatoria”, u.

La primera observación la hemos descompuesto en estas dos partes.

P3P2

P1

Q1

Q2

Q3

Q4u1

6

XY 21 ββ +=

β1

Y

121 Xββ +

XX1 X2 X3 X4

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Page 5: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

P4

En el mundo real, únicamente observamos los puntos P para cada X.

P3P2

P1

7

Y

XX1 X2 X3 X4

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

P4

P3P2

P1

Naturalmente, podríamos utilizar los puntos P para dibujar una línea que aproxime

Y = β1 + β2X.

Podemos escribir esta línea como Y = b1 + b2X, donde b1 es una estimación de β1 y b2es una estimación de β2.

^

8

XbbY 21ˆ +=

b1

Y

XX1 X2 X3 X4

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Page 6: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

P4

A esta línea aproximada se la conoce como el modelo ajustado, y a los valores de la variable Y en esa línea se le llama valores predichos o ajustados (son los puntos R).

P3P2

P1

R1

R2

R3 R4

9

XbbY 21ˆ +=

b1

Y (valor predicho)

Y (valor real)

Y

XX1 X2 X3 X4

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

P4

XX1 X2 X3 X4

Observad que hay una discrepancia entre el valor de Y realmente observado (lospuntos P) y el valor predicho por la línea aproximada (R). A esta discrepancia se le llama residuo.

P3P2

P1

R1

R2

R3 R4

e1e2

e3

e4

10

XbbY 21ˆ +=

b1

Y

Y (valor real)

eYY =− ˆ

Y(residuo)

(valor predicho)

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Page 7: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

P4

Es importante observar que los valores que toman los residuos son distintos a losvalores del término de perturbación. Esto es debido a que la aproximación quehacemos nunca va a coincidir exactamente con la verdadera línea que relaciona a estas variables.

P3P2

P1

R1

R2

R3 R4

b1

11

XbbY 21ˆ +=

XY 21 ββ +=

β1

Y

Y (valor real)

Y

XX1 X2 X3 X4

(valor predicho)

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

P4

La perturbación es la responsable de la desviación que existe entre el componente“no aleatorio” y las verdaderas observaciones.

P3P2

P1

12

Q2Q1

Q3

Q4

XbbY 21ˆ +=

XY 21 ββ +=

β1b1

Y

XX1 X2 X3 X4

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y

Y (valor real)

(valor predicho)

Page 8: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

P4

Los residuos son la diferencia entre el valor real y el valor predicho por la recta estimada en base a la “aproximación” de los parámetros desconocidos

P3P2

P1

R1

R2

R3 R4

13

XbbY 21ˆ +=

XY 21 ββ +=

β1b1

Y

XX1 X2 X3 X4

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y

Y (valor real)

(valor predicho)

P4

Entonces, es natural que cuando los residuos sean pequeños el ajuste sea bueno y los residuos tiendan a estar cerca de la perturbación. Pero lo que debe quedar claroes que los dos conceptos representan cosas distintas.

P3P2

P1

R1

R2

R3 R4

14

XbbY 21ˆ +=

XY 21 ββ +=

β1b1

Y

XX1 X2 X3 X4

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y

Y (valor real)

(valor predicho)

Page 9: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

P4

Ambas líneas, la aproximada y la verdadera, son importantes en el análisis de regresión, puesto que permiten descomponer el valor observado de Y en dos partes.

15

Q4

u4XbbY 21

ˆ +=

XY 21 ββ +=

β1b1

Y

421 Xββ +

XX1 X2 X3 X4

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Usando la relación téorica, o verdadera, Y se descompone en su parte no estocásticaβ1 + β2X y su parte estocástica u.

Y

Y (valor real)

(valor predicho)

P4

Esta es una descomposición teórica dado que no conocemos los valoresexactos de β1 o β2, ni los del término de perturbación.

17

Q4

u4XbbY 21

ˆ +=

XY 21 ββ +=

β1b1

Y

421 Xββ +

XX1 X2 X3 X4

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y

Y (valor real)

(valor predicho)

Page 10: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

P4

La segunda descomposición del valor real de Y se hace en función de la línea ajustada: es la suma del valor predicho de Y y de su residuo.

Esta descomposición la utilizaremos para obtener fórmulas que nos permitanaproximar los valores desconocidos de los parámetros

18

e4

R4

XbbY 21ˆ +=

XY 21 ββ +=

β1b1

Y

421 Xbb +

XX1 X2 X3 X4

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y

Y (valor real)

(valor predicho)

2) ¿Cómo podemos obtener buenas estimaciones de los parámetrosdel modelo?

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

• Más adelante mostraremos que sólo podemos obtener estimadoresfiables de β1 y β2 , partiendo de un muestreo aleatorio de datos, cuando establecemos supuestos que restringen el modo en el que el término de error u se relaciona con x.

• Dado que x y u son variables aleatorias, necesitamos realizarsupuestos importantes sobre su distribución conjunta. Es decir, necesitamos hacer supuestos sobre cómo es la relación entre x y u.

• Antes de establecer el supuesto clave, vamos a establecer un supuesto sobre cómo se comporta u. Siempre y cuandointroduzcamos un término constante en la regresión, no perdemosnada al suponer que

E(u) = 0

Page 11: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

2) ¿Cómo podemos obtener buenas estimaciones de los parámetrosdel modelo?

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Por qué decimos que este supuesto no es restrictivo:

Y = β1 + β 2X + u

Suponed E(u) = µu ≠ 0.

Definimos v = u - µu, entonces u = v + µ u

Entonces Y = b1 + b2X + v + µ u= (b1 + µ u) + b2X + v

donde E(v) = E(u - µ u) = E(u) - E(µ u) = 0

Por qué decimos que este supuesto no es restrictivo:

Y = β1 + β 2X + u

Suponed E(u) = µu ≠ 0.

Definimos v = u - µu, entonces u = v + µ u

Entonces Y = b1 + b2X + v + µ u= (b1 + µ u) + b2X + v

donde E(v) = E(u - µ u) = E(u) - E(µ u) = 0

2) ¿Cómo podemos obtener buenas estimaciones de los parámetrosdel modelo?

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

• Pero el supuesto clave para poder identificar el efecto de x sobre y esque x y u no están relacionadas. Para garantizar esto ¿bastaría con suponer cov(x,u)=0?

• Queremos que x no nos dé ninguna información sobre u, es decir, queremos que estas dos variables no tengan ningún tipo de relación.

• Supuesto: E(u|x) = E(u) = 0

• Este supuesto implica: E(y|x) = β0 + β1x

Page 12: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

Es decir, estamos suponiendo que E(y|x) es una función lineal de x tal que, para cualquier x, la distribución de y está centradaen E(y|x)

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

E(y|x) = β1 + β2x

f(y)

• EJEMPLO: Ecuación de salarios

wage = β1 + β2 educ + u

• Supongamos que u es la “capacidad innata del individuo” (para ganardinero).

• El supuesto de media condicional igual a cero implica que:

E( ability | educ =10) = E( ability | educ =16)

• Es decir, el nivel medio de “capacidad” debe ser el mismo para todoslos niveles educativos.

• Si la gente con más capacidad tiende a educarse más, entonces estesupuesto no se cumple. ESTO ES UN PROBLEMA IMPORTANTE.

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Page 13: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

EJERCICIO 1

Sea kids el número de niños que una mujer ha tenido y educ el número de años de educación que la mujer ha recibido. El siguiente es un modelo simple que relaciona la fertilidad con el número de años de educación.

kids = β1 + β2 educ + u

Donde u es el error no observado.

a) ¿Qué tipo de factores están en u? ¿Pueden estos estar correlacionados con el nivel de educación?

b) En el análisis de regresión nosotros estamos interesados en hacer interpretaciones de efectos causales. Para ello debemos medir relaciones entre educ y kids “ceteris paribus”, es decir, si lo demás permanece constante. De acuerdo con lo que respondiste en el apartado anterior, ¿crees que en este modelo el β2 mide el efecto causal de educ sobre kids?

221

1

2 ... n

n

ii eeeSCR ++== ∑

=

Minimizar la SCR (suma de cuadrados de los residuos), donde

Si un ajuste bueno es aquél que tiene los residuos pequeños, ¿por qué no buscar unos valores para los parámetros que hagan mínimo este residuo?

19

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

¿Por qué no minimizamos…?

n

n

ii eee ++=∑

=

...11

Page 14: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

P4

La respuesta está en que los errores positivos y negativos se compensarían. El ajusteperfecto en este caso sería una línea recta en la media del valor de Y

P3P2

P1Y

21

XX1 X2 X3 X4

Y

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

XXnX1

Y

1Y

nY

¿Qué pasa si tenemos n observaciones?

13

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

uXY 21:Verdadero ++= ββ

Page 15: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

XXnX1

Y

b1

1211 XbbY +=

1Y

b2

nY

nn XbbY 21ˆ +=

Dada nuestra elección de b1 y b2, la recta ajustada es la que se muestra en el gráfico.

14

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

XbbY

uXY

21

21

ˆ:Ajustado

:Verdadero

+=

++= ββ

XXnX1

Y

b1

XbbY

uXY

21

21

ˆ:Ajustado

:Verdadero

+=

++= ββ

nnnnn XbbYYYe

XbbYYYe

21

1211111

ˆ

.....

ˆ

−−=−=

−−=−=

1211 XbbY +=

1Y

b2

nY

1e

nn XbbY 21ˆ +=

Definimos el residuo para la primera observación

15

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Page 16: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

Del mismo modo, definimos los residuos para el resto de observaciones. En la gráfica se señala el correspondiente a la última observación.

XXnX1

Y

b1

XbbY

uXY

21

21

ˆ:Ajustado

:Verdadero

+=

++= ββ

nnnnn XbbYYYe

XbbYYYe

21

1211111

ˆ

.....

ˆ

−−=−=

−−=−=

1211 XbbY +=

1Y

b2

nY

1e

ne nn XbbY 21ˆ +=

16

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

17

( ) ( )∑∑==

−−==n

iii

n

ii XbbYeSCR

1

221

1

2

Observad que los residuos dependen de b1 y b2

y que, por lo tanto, se pueden elegir sus valores deforma tal que hagan mínima dicha suma de residuos al cuadrado

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Page 17: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

17

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

⇒=∂

01b

SCR

⇒=∂

02b

SCR

( ) ( )∑∑==

−−==n

iii

n

iibb XbbYeSCR

1

221

1

2, 21

min

XbYb 21 −=

⇒=−−−∑ 0)1)((2 21 ii XbbY

………….

⇒=−−−∑ 0))((2 21 iii XXbby

0222 12

2 =+− ∑∑∑ iiii XbYXXb

02220 12

22

=+−⇒=∂∂ ∑∑∑ iiii XbYXXb

bSCR

012

2 =+− ∑∑∑ iiii XbYXXb

Se divide por 2.

26

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Page 18: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

02220 12

22

=+−⇒=∂∂ ∑∑∑ iiii XbYXXb

bSCR

012

2 =+− ∑∑∑ iiii XbYXXb

0)( 22

2 =−+− ∑∑∑ iiii XXbYYXXb

Se sustituye b1 por la expresión obtenida anteriormente, de manera que la ecuación queda sólo en función de b2.

27

XbYb 21 −=

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

02220 12

22

=+−⇒=∂∂ ∑∑∑ iiii XbYXXb

bSCR

012

2 =+− ∑∑∑ iiii XbYXXb

0)( 22

2 =−+− ∑∑∑ iiii XXbYYXXb

0)( 22

2 =−+−∑∑ XnXbYYXXb iii

Utilizamos la definición de la media muestral

28

n

XX i∑=

XnX i =∑

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Page 19: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

02220 12

22

=+−⇒=∂∂ ∑∑∑ iiii XbYXXb

bSCR

012

2 =+− ∑∑∑ iiii XbYXXb

0)( 22

2 =−+− ∑∑∑ iiii XXbYYXXb

0)( 22

2 =−+−∑∑ XnXbYYXXb iii

( ) YXnYXXnXb iii −=− ∑∑ 222

YXYXn

XXn

b iii −=

− ∑∑ 11 22

2

Los términos que no contienen b2 se pasan a la parte de la derecha y se divide la ecuación por n.

29

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

02220 12

22

=+−⇒=∂∂ ∑∑∑ iiii XbYXXb

bSCR

012

2 =+− ∑∑∑ iiii XbYXXb

0)( 22

2 =−+− ∑∑∑ iiii XXbYYXXb

0)( 22

2 =−+−∑∑ XnXbYYXXb iii

( ) YXnYXXnXb iii −=− ∑∑ 222

YXYXn

XXn

b iii −=

− ∑∑ 11 22

2

),(Cov)(Var2 YXXb =

)Var(),(Cov

2 XYX

b =Así, obtenemos una expresión para b2.

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Page 20: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

XXnX1

Y

b1

XbbY

uXY

21

21

ˆ:Ajustado

:Verdadero

+=

++= ββ

1211 XbbY +=

1Y

b2

nY

nn XbbY 21ˆ +=

De nuevo, mostramos el gráfico para ilustrar lo que hemos hecho. Hemosespecificado un modelo de regresión y, a partir de los datos, hemosajustado la recta que aparece en el gráfico.

31

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

XXnX1

Y

b1

XbbY

uXY

21

21

ˆ:

:

+=

++= ββ

1211 XbbY +=

1Y

b2

nY

nn XbbY 21ˆ +=

)Var(),(Cov

2 XYX

b =

XbYb 21 −=

Hemos elegido los parámetros de la recta ajustada de modo que minimicenla suma de cuadrados de los residuos.

32

Verdadero

Ajustado

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Page 21: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

Expresiones alternativas para b2

)Var(),(Cov

2 XYX

b =

En función de las expresiones de la varianza y covarianza muestral....

34

∑∑

∑−

−−=

−−= 2

22 )(

))((

)(1

))((1

XX

YYXX

XXn

YYXXnb

i

ii

i

ii

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

)Var(),(Cov

2 XYX

b =

2222

2 1

1

XnX

YXnYX

XXn

YXYXnb

i

ii

i

ii

−−

=−

−=

∑∑

∑∑

∑−

−−=

−−= 2

22 )(

))((

)(1

))((1

XX

YYXX

XXn

YYXXnb

i

ii

i

ii

35

Expresiones alternativas para b2

...y utilizando las expresiones alternativas de la varianza y covarianzamuestral que calculamos en clases anteriores.

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Page 22: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

1

3. INTERPRETACIÓN DE LA REGRESIÓN

Este gráfico muestra el salario por hora de 570 individuos.

-10

0

10

20

30

40

50

60

70

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Estudios

Sal

ario

po

r h

ora

($)

. Regresión Salario- Estudios

Source | SS df MS Number of obs = 570---------+------------------------------ F( 1, 568) = 65.64

Model | 3977.38016 1 3977.38016 Prob > F = 0.0000Residual | 34419.6569 568 60.5979875 R-squared = 0.1036---------+------------------------------ Adj R-squared = 0.1020

Total | 38397.0371 569 67.4816117 Root MSE = 7.7845

------------------------------------------------------------------------------SALARIO | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+--------------------------------------------------------------------

S | 1.073055 .1324501 8.102 0.000 .8129028 1.333206_cons | -1.391004 1.820305 -0.764 0.445 -4.966354 2.184347

------------------------------------------------------------------------------

5

3. INTERPRETACIÓN DE LA REGRESIÓN

Esta es una salida de ordenador de un programa econométrico típico.

Page 23: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

-10

0

10

20

30

40

50

60

70

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Estudios

Sal

ario

11

SSalario 07313911 .. +−=^

3. INTERPRETACIÓN DE LA REGRESIÓN

¿Qué significan los coeficientes?

7

8

9

10

11

12

13

14

15

10.8 11 11.2 11.4 11.6 11.8 12 12.2

Estudios

Sal

ario

12

Un año

$1.07

$10.41

$11.49

¿Qué mide la pendiente?

3. INTERPRETACIÓN DE LA REGRESIÓN

Page 24: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

-10

0

10

20

30

40

50

60

70

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Estudios

Ing

reso

15

¿Qué significa el término constante? En este caso, ¿su valor tiene sentido?

La razón por la que obtenemos ese valor negativo es porque en nuestra muestra sólohay individuos con un nivel de estudios igual o superior a 6 años. Entonces….

^SSalario 07313911 .. +−=

3. INTERPRETACIÓN DE LA REGRESIÓN

-10

0

10

20

30

40

50

60

70

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Estudios

Sal

ario

18

^SSalario 07313911 .. +−=

3. INTERPRETACIÓN DE LA REGRESIÓN

… ésta sería la parte de la regresión que se corresponde con las observacionesdisponibles.

Page 25: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

EJERCICIO 2El siguiente cuadro contiene los resultados de la prueba de aptitud para el acceso a la universidad en EE.UU. (ACT, American College Testing) y la nota media en la universidad (GPA, Grade Point Average) de 8 estudiantes. El GPA se basa en una escala de 1 a 4.

a) Estimar la relación entre GPA y ACT empleando MCO, es decir, obtener losvalores estimados de los parámetros del modelo

GPA = β1 + β2 ACT + u

¿El término constante tiene una interpretación útil en este caso? ¿Cuánto aumenta GPA si ACT aumenta 5 puntos?

b) Calcula los valores ajustados y los residuos para cada observación.

c) Calcular el valor predicho para GPA cuando ACT=20.

303.78

263.03273.54293.65253.06252.77

243.42212.81ACTGPA Estudiante

Tres resultados relevantes:

4. BONDAD DE AJUSTE

0=e YY =ˆ 0),ˆ(Cov =eY

1

Page 26: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

Tres resultados relevantes:

0=e YY =ˆ 0),ˆ(Cov =eY

iiiii XbbYYYe 21ˆ −−=−=

3

ii XbbY 21ˆ +=

4. BONDAD DE AJUSTE

Residuo

Demostrar 0=e

Tres resultados relevantes:

0=e YY =ˆ 0),ˆ(Cov =eY

iiiii XbbYYYe 21ˆ −−=−=

∑∑∑ −= iii YYe ˆ

∑∑∑ −= iii Yn

Yn

en

ˆ111

YYe ˆ−= YY =ˆ

11

4. BONDAD DE AJUSTE

Demostrar YY =ˆ

Page 27: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

[ ][ ]

0)(Var)(Var

),(Cov),(Cov

),(Cov),(Cov

),(Cov),(Cov),(Cov

])[,(Cov),(Cov0

),(Cov),(Cov)]),([Cov),ˆ(Cov

2

22

212

2122

2121

=

−=

−=−−=

−−=+=+=+=

XX

YXYXb

XXbYXb

XbXbXYXb

XbbYXbeXb

eXbebeXbbeY

Tres resultados relevantes:

0=e YY =ˆ 0),ˆ(Cov =eY

21

Demostrad que es igual a 0

4. BONDAD DE AJUSTE

Demostrar YY =ˆ

iiiiii eYYYYe +=⇒−= ˆˆ

Para analizar la bondad del ajuste, descomponemos el valor observado en el valor ajustado y el residuo.

23

4. BONDAD DE AJUSTE

Page 28: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

iiiiii eYYYYe +=⇒−= ˆˆ

)Var()ˆVar(

),ˆCov(2)Var()ˆVar()ˆVar()(Var

eY

eYeYeYY

+=

++=+=

∑∑∑ −+−=− 222 )(1

)ˆˆ(1

)(1

een

YYn

YYn

∑∑

∑∑

−−=

−−

==2

2

2

22

)(1

)(

)ˆ(

YY

e

YY

YY

SCTSCE

Ri

i

i

i

SCRSCESCT +=

∑∑∑ +−=− 222 )ˆ()( eYYYY

35

Un criterio de bondad de ajuste de ajuste es el coeficiente de determinación.

4. BONDAD DE AJUSTE

2

ˆ,

)(Var

)ˆ(Var

)ˆ(Var)(Var

)ˆ(Var)ˆ(Var

)ˆ(Var)(Var

)ˆ(Var

)ˆ(Var)(Var

)ˆ,(Cov)ˆ,ˆ(Cov

)ˆ(Var)(Var

)ˆ],ˆ([Cov

)ˆ(Var)(Var

)ˆ,(Cov

R

Y

Y

YY

YY

YY

Y

YY

YeYY

YY

YeY

YY

YYr

YY

=

==

=+

=

+==

Otro criterio de bondad de ajuste es la correlacion entre el valor observadoy ajustado de la variable Y.

37

4. BONDAD DE AJUSTE

Page 29: Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

2

ˆ,

)(Var

)ˆ(Var

)ˆ(Var)(Var

)ˆ(Var)ˆ(Var

)ˆ(Var)(Var

)ˆ(Var

)ˆ(Var)(Var

)ˆ,(Cov)ˆ,ˆ(Cov

)ˆ(Var)(Var

)ˆ],ˆ([Cov

)ˆ(Var)(Var

)ˆ,(Cov

R

Y

Y

YY

YY

YY

Y

YY

YeYY

YY

YeY

YY

YYr

YY

=

==

=+

=

+==

43

4. BONDAD DE AJUSTE