Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL

Tema 3Tema 3

Modelo de regresión lineal simple (I)Modelo de regresión lineal simple (I)

Introducción a la Econometría. Curso 2007-2008

3º de Economía

• El modelo de regresión lineal simple trata de capturar la relación entredos variables y, x.

y = f(x,u)

• y es la variable dependiente, o variable explicada o regresando.

• x es la variable independiente, o variable explicativa, o regresor.

• u es el término de error o perturbación aleatoria o inobservable. Contiene todos los factores distintos de x que afectan a y.

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

¿ Qué recoge u?

- Algunas variables que explican la variable dependiente y, pero que no son observables o no se pueden medir.

- Errores de especificación, es decir, variables explicativas importantes que hemos omitido por error, no porque no las podamos medir.

- Errores de medición de la variable dependiente.


• Para obtener un modelo útil que nos permita cuantificar “cómo xexplica y”, tenemos que responder a las siguientes cuestiones:

1) ¿Qué forma funcional suponemos para f(x,u) ?

Supondremos que la relación que vincula x e y es lineal en parámetrosy que el término inobservable entra de forma aditiva.

y = β1 + β2 x + u

β0 es la constante (intercept parameter)

β1 es la pendiente (slope parameter)

1

Y


Supongamos que la variable Y es una función lineal de otra variable X, donde la relación entre Y y X depende de parámetros β1 y β2 desconocidos.

XY 21 ββ +=

β1

XX1 X2 X3 X4

Si nuestro interés fuera conocer la relación que une a X con Y, entonces deberíamosestimar los parámetros desconocidos.

Supongamos que tenemos una muestra de 4 observaciones de (X,Y). Suponemos queesas observaciones proceden de una muestra aleatoria simple.

Si la relación entre X e Y fuera exacta, solo bastarían dos puntos para hallar unasolución para los parámetros β1 y β2.

Q1

Q2

Q3

Q4

3

XY 21 ββ +=

β1

Y

XX1 X2 X3 X4


P4

Sin embargo, las relaciones económicas no son exactas: muchos de los puntos queobservamos no van a estar en la recta

P3P2

P1

Q1

Q2

Q3

Q4

4

XY 21 ββ +=

β1

Y

XX1 X2 X3 X4


P4

Para permitir divergencia entre la variable Y de la recta de interés, introducimos un término de perturbación al modelo, que no es observable: Y = β1 + β2X + u.

Por ejemplo, si Y es el salario y X la educación, u puede representar la habilidadinnata para ganar más dinero: así dos individuos con la misma educación puedentener un salario diferente.

P3P2

P1

Q1

Q2

Q3

Q4

5

XY 21 ββ +=

β1

Y

XX1 X2 X3 X4


P4

Cada valor de Y tiene entonces un “componente no aleatorio” o “sistemático” β1 + β2X y un “componente aleatoria”, u.

La primera observación la hemos descompuesto en estas dos partes.

P3P2

P1

Q1

Q2

Q3

Q4u1

6

XY 21 ββ +=

β1

Y

121 Xββ +

XX1 X2 X3 X4


P4

En el mundo real, únicamente observamos los puntos P para cada X.

P3P2

P1

7

Y

XX1 X2 X3 X4


P4

P3P2

P1

Naturalmente, podríamos utilizar los puntos P para dibujar una línea que aproxime

Y = β1 + β2X.

Podemos escribir esta línea como Y = b1 + b2X, donde b1 es una estimación de β1 y b2es una estimación de β2.

^

8

XbbY 21ˆ +=

b1

Y

XX1 X2 X3 X4


P4

A esta línea aproximada se la conoce como el modelo ajustado, y a los valores de la variable Y en esa línea se le llama valores predichos o ajustados (son los puntos R).

P3P2

P1

R1

R2

R3 R4

9

XbbY 21ˆ +=

b1

Y (valor predicho)

Y (valor real)

Y

XX1 X2 X3 X4


P4

XX1 X2 X3 X4

Observad que hay una discrepancia entre el valor de Y realmente observado (lospuntos P) y el valor predicho por la línea aproximada (R). A esta discrepancia se le llama residuo.

P3P2

P1

R1

R2

R3 R4

e1e2

e3

e4

10

XbbY 21ˆ +=

b1

Y

Y (valor real)

eYY =− ˆ

Y(residuo)

(valor predicho)


P4

Es importante observar que los valores que toman los residuos son distintos a losvalores del término de perturbación. Esto es debido a que la aproximación quehacemos nunca va a coincidir exactamente con la verdadera línea que relaciona a estas variables.

P3P2

P1

R1

R2

R3 R4

b1

11

XbbY 21ˆ +=

XY 21 ββ +=

β1

Y

Y (valor real)

Y

XX1 X2 X3 X4

(valor predicho)


P4

La perturbación es la responsable de la desviación que existe entre el componente“no aleatorio” y las verdaderas observaciones.

P3P2

P1

12

Q2Q1

Q3

Q4

XbbY 21ˆ +=

XY 21 ββ +=

β1b1

Y

XX1 X2 X3 X4


Y

Y (valor real)

(valor predicho)

P4

Los residuos son la diferencia entre el valor real y el valor predicho por la recta estimada en base a la “aproximación” de los parámetros desconocidos

P3P2

P1

R1

R2

R3 R4

13

XbbY 21ˆ +=

XY 21 ββ +=

β1b1

Y

XX1 X2 X3 X4


Y

Y (valor real)

(valor predicho)

P4

Entonces, es natural que cuando los residuos sean pequeños el ajuste sea bueno y los residuos tiendan a estar cerca de la perturbación. Pero lo que debe quedar claroes que los dos conceptos representan cosas distintas.

P3P2

P1

R1

R2

R3 R4

14

XbbY 21ˆ +=

XY 21 ββ +=

β1b1

Y

XX1 X2 X3 X4


Y

Y (valor real)

(valor predicho)

P4

Ambas líneas, la aproximada y la verdadera, son importantes en el análisis de regresión, puesto que permiten descomponer el valor observado de Y en dos partes.

15

Q4

u4XbbY 21

ˆ +=

XY 21 ββ +=

β1b1

Y

421 Xββ +

XX1 X2 X3 X4


Usando la relación téorica, o verdadera, Y se descompone en su parte no estocásticaβ1 + β2X y su parte estocástica u.

Y

Y (valor real)

(valor predicho)

P4

Esta es una descomposición teórica dado que no conocemos los valoresexactos de β1 o β2, ni los del término de perturbación.

17

Q4

u4XbbY 21

ˆ +=

XY 21 ββ +=

β1b1

Y

421 Xββ +

XX1 X2 X3 X4


Y

Y (valor real)

(valor predicho)

P4

La segunda descomposición del valor real de Y se hace en función de la línea ajustada: es la suma del valor predicho de Y y de su residuo.

Esta descomposición la utilizaremos para obtener fórmulas que nos permitanaproximar los valores desconocidos de los parámetros

18

e4

R4

XbbY 21ˆ +=

XY 21 ββ +=

β1b1

Y

421 Xbb +

XX1 X2 X3 X4


Y

Y (valor real)

(valor predicho)

2) ¿Cómo podemos obtener buenas estimaciones de los parámetrosdel modelo?


• Más adelante mostraremos que sólo podemos obtener estimadoresfiables de β1 y β2 , partiendo de un muestreo aleatorio de datos, cuando establecemos supuestos que restringen el modo en el que el término de error u se relaciona con x.

• Dado que x y u son variables aleatorias, necesitamos realizarsupuestos importantes sobre su distribución conjunta. Es decir, necesitamos hacer supuestos sobre cómo es la relación entre x y u.

• Antes de establecer el supuesto clave, vamos a establecer un supuesto sobre cómo se comporta u. Siempre y cuandointroduzcamos un término constante en la regresión, no perdemosnada al suponer que

E(u) = 0



Por qué decimos que este supuesto no es restrictivo:

Y = β1 + β 2X + u

Suponed E(u) = µu ≠ 0.

Definimos v = u - µu, entonces u = v + µ u

Entonces Y = b1 + b2X + v + µ u= (b1 + µ u) + b2X + v

donde E(v) = E(u - µ u) = E(u) - E(µ u) = 0

Por qué decimos que este supuesto no es restrictivo:

Y = β1 + β 2X + u

Suponed E(u) = µu ≠ 0.

Definimos v = u - µu, entonces u = v + µ u

Entonces Y = b1 + b2X + v + µ u= (b1 + µ u) + b2X + v

donde E(v) = E(u - µ u) = E(u) - E(µ u) = 0



• Pero el supuesto clave para poder identificar el efecto de x sobre y esque x y u no están relacionadas. Para garantizar esto ¿bastaría con suponer cov(x,u)=0?

• Queremos que x no nos dé ninguna información sobre u, es decir, queremos que estas dos variables no tengan ningún tipo de relación.

• Supuesto: E(u|x) = E(u) = 0

• Este supuesto implica: E(y|x) = β0 + β1x

Es decir, estamos suponiendo que E(y|x) es una función lineal de x tal que, para cualquier x, la distribución de y está centradaen E(y|x)


E(y|x) = β1 + β2x

f(y)

• EJEMPLO: Ecuación de salarios

wage = β1 + β2 educ + u

• Supongamos que u es la “capacidad innata del individuo” (para ganardinero).

• El supuesto de media condicional igual a cero implica que:

E( ability | educ =10) = E( ability | educ =16)

• Es decir, el nivel medio de “capacidad” debe ser el mismo para todoslos niveles educativos.

• Si la gente con más capacidad tiende a educarse más, entonces estesupuesto no se cumple. ESTO ES UN PROBLEMA IMPORTANTE.


EJERCICIO 1

Sea kids el número de niños que una mujer ha tenido y educ el número de años de educación que la mujer ha recibido. El siguiente es un modelo simple que relaciona la fertilidad con el número de años de educación.

kids = β1 + β2 educ + u

Donde u es el error no observado.

a) ¿Qué tipo de factores están en u? ¿Pueden estos estar correlacionados con el nivel de educación?

b) En el análisis de regresión nosotros estamos interesados en hacer interpretaciones de efectos causales. Para ello debemos medir relaciones entre educ y kids “ceteris paribus”, es decir, si lo demás permanece constante. De acuerdo con lo que respondiste en el apartado anterior, ¿crees que en este modelo el β2 mide el efecto causal de educ sobre kids?

221

1

2 ... n

n

ii eeeSCR ++== ∑

=

Minimizar la SCR (suma de cuadrados de los residuos), donde

Si un ajuste bueno es aquél que tiene los residuos pequeños, ¿por qué no buscar unos valores para los parámetros que hagan mínimo este residuo?

19

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

¿Por qué no minimizamos…?

n

n

ii eee ++=∑

=

...11

P4

La respuesta está en que los errores positivos y negativos se compensarían. El ajusteperfecto en este caso sería una línea recta en la media del valor de Y

P3P2

P1Y

21

XX1 X2 X3 X4

Y


XXnX1

Y

1Y

nY

¿Qué pasa si tenemos n observaciones?

13


uXY 21:Verdadero ++= ββ

XXnX1

Y

b1

1211 XbbY +=

1Y

b2

nY

nn XbbY 21ˆ +=

Dada nuestra elección de b1 y b2, la recta ajustada es la que se muestra en el gráfico.

14


XbbY

uXY

21

21

ˆ:Ajustado

:Verdadero

+=

++= ββ

XXnX1

Y

b1

XbbY

uXY

21

21

ˆ:Ajustado

:Verdadero

+=

++= ββ

nnnnn XbbYYYe

XbbYYYe

21

1211111

ˆ

.....

ˆ

−−=−=

−−=−=

1211 XbbY +=

1Y

b2

nY

1e

nn XbbY 21ˆ +=

Definimos el residuo para la primera observación

15


Del mismo modo, definimos los residuos para el resto de observaciones. En la gráfica se señala el correspondiente a la última observación.

XXnX1

Y

b1

XbbY

uXY

21

21

ˆ:Ajustado

:Verdadero

+=

++= ββ

nnnnn XbbYYYe

XbbYYYe

21

1211111

ˆ

.....

ˆ

−−=−=

−−=−=

1211 XbbY +=

1Y

b2

nY

1e

ne nn XbbY 21ˆ +=

16


17

( ) ( )∑∑==

−−==n

iii

n

ii XbbYeSCR

1

221

1

2

Observad que los residuos dependen de b1 y b2

y que, por lo tanto, se pueden elegir sus valores deforma tal que hagan mínima dicha suma de residuos al cuadrado


17


⇒=∂

01b

SCR

⇒=∂

02b

SCR

( ) ( )∑∑==

−−==n

iii

n

iibb XbbYeSCR

1

221

1

2, 21

min

XbYb 21 −=

⇒=−−−∑ 0)1)((2 21 ii XbbY

………….

⇒=−−−∑ 0))((2 21 iii XXbby

0222 12

2 =+− ∑∑∑ iiii XbYXXb

02220 12

22

=+−⇒=∂∂ ∑∑∑ iiii XbYXXb

bSCR

012


Se divide por 2.

26


02220 12

22


bSCR

012


0)( 22

2 =−+− ∑∑∑ iiii XXbYYXXb

Se sustituye b1 por la expresión obtenida anteriormente, de manera que la ecuación queda sólo en función de b2.

27

XbYb 21 −=


02220 12

22


bSCR

012


0)( 22


0)( 22

2 =−+−∑∑ XnXbYYXXb iii

Utilizamos la definición de la media muestral

28

n

XX i∑=

XnX i =∑


02220 12

22


bSCR

012


0)( 22


0)( 22


( ) YXnYXXnXb iii −=− ∑∑ 222

YXYXn

XXn

b iii −=

− ∑∑ 11 22

2

Los términos que no contienen b2 se pasan a la parte de la derecha y se divide la ecuación por n.

29


02220 12

22


bSCR

012


0)( 22


0)( 22


( ) YXnYXXnXb iii −=− ∑∑ 222

YXYXn

XXn

b iii −=

− ∑∑ 11 22

2

),(Cov)(Var2 YXXb =

)Var(),(Cov

2 XYX

b =Así, obtenemos una expresión para b2.


XXnX1

Y

b1

XbbY

uXY

21

21

ˆ:Ajustado

:Verdadero

+=

++= ββ

1211 XbbY +=

1Y

b2

nY

nn XbbY 21ˆ +=

De nuevo, mostramos el gráfico para ilustrar lo que hemos hecho. Hemosespecificado un modelo de regresión y, a partir de los datos, hemosajustado la recta que aparece en el gráfico.

31


XXnX1

Y

b1

XbbY

uXY

21

21

ˆ:

:

+=

++= ββ

1211 XbbY +=

1Y

b2

nY

nn XbbY 21ˆ +=

)Var(),(Cov

2 XYX

b =

XbYb 21 −=

Hemos elegido los parámetros de la recta ajustada de modo que minimicenla suma de cuadrados de los residuos.

32

Verdadero

Ajustado


Expresiones alternativas para b2

)Var(),(Cov

2 XYX

b =

En función de las expresiones de la varianza y covarianza muestral....

34

∑∑

∑

∑−

−−=

−

−−= 2

22 )(

))((

)(1

))((1

XX

YYXX

XXn

YYXXnb

i

ii

i

ii


)Var(),(Cov

2 XYX

b =

2222

2 1

1

XnX

YXnYX

XXn

YXYXnb

i

ii

i

ii

−−

=−

−=

∑∑

∑

∑

∑∑

∑

∑−

−−=

−

−−= 2

22 )(

))((

)(1

))((1

XX

YYXX

XXn

YYXXnb

i

ii

i

ii

35

Expresiones alternativas para b2

...y utilizando las expresiones alternativas de la varianza y covarianzamuestral que calculamos en clases anteriores.


1

3. INTERPRETACIÓN DE LA REGRESIÓN

Este gráfico muestra el salario por hora de 570 individuos.

-10

0

10

20

30

40

50

60

70

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Estudios

Sal

ario

po

r h

ora

($)

. Regresión Salario- Estudios

Source | SS df MS Number of obs = 570---------+------------------------------ F( 1, 568) = 65.64

Model | 3977.38016 1 3977.38016 Prob > F = 0.0000Residual | 34419.6569 568 60.5979875 R-squared = 0.1036---------+------------------------------ Adj R-squared = 0.1020

Total | 38397.0371 569 67.4816117 Root MSE = 7.7845

------------------------------------------------------------------------------SALARIO | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+--------------------------------------------------------------------

S | 1.073055 .1324501 8.102 0.000 .8129028 1.333206_cons | -1.391004 1.820305 -0.764 0.445 -4.966354 2.184347

------------------------------------------------------------------------------

5


Esta es una salida de ordenador de un programa econométrico típico.

-10

0

10

20

30

40

50

60

70

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Estudios

Sal

ario

11

SSalario 07313911 .. +−=^


¿Qué significan los coeficientes?

7

8

9

10

11

12

13

14

15

10.8 11 11.2 11.4 11.6 11.8 12 12.2

Estudios

Sal

ario

12

Un año

$1.07

$10.41

$11.49

¿Qué mide la pendiente?


-10

0

10

20

30

40

50

60

70

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Estudios

Ing

reso

15

¿Qué significa el término constante? En este caso, ¿su valor tiene sentido?

La razón por la que obtenemos ese valor negativo es porque en nuestra muestra sólohay individuos con un nivel de estudios igual o superior a 6 años. Entonces….

^SSalario 07313911 .. +−=


-10

0

10

20

30

40

50

60

70

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Estudios

Sal

ario

18

^SSalario 07313911 .. +−=


… ésta sería la parte de la regresión que se corresponde con las observacionesdisponibles.

EJERCICIO 2El siguiente cuadro contiene los resultados de la prueba de aptitud para el acceso a la universidad en EE.UU. (ACT, American College Testing) y la nota media en la universidad (GPA, Grade Point Average) de 8 estudiantes. El GPA se basa en una escala de 1 a 4.

a) Estimar la relación entre GPA y ACT empleando MCO, es decir, obtener losvalores estimados de los parámetros del modelo

GPA = β1 + β2 ACT + u

¿El término constante tiene una interpretación útil en este caso? ¿Cuánto aumenta GPA si ACT aumenta 5 puntos?

b) Calcula los valores ajustados y los residuos para cada observación.

c) Calcular el valor predicho para GPA cuando ACT=20.

303.78

263.03273.54293.65253.06252.77

243.42212.81ACTGPA Estudiante

Tres resultados relevantes:

4. BONDAD DE AJUSTE

0=e YY =ˆ 0),ˆ(Cov =eY

1



iiiii XbbYYYe 21ˆ −−=−=

3

ii XbbY 21ˆ +=

4. BONDAD DE AJUSTE

Residuo

Demostrar 0=e



iiiii XbbYYYe 21ˆ −−=−=

∑∑∑ −= iii YYe ˆ

∑∑∑ −= iii Yn

Yn

en

ˆ111

YYe ˆ−= YY =ˆ

11

4. BONDAD DE AJUSTE

Demostrar YY =ˆ

[ ][ ]

0)(Var)(Var

),(Cov),(Cov

),(Cov),(Cov

),(Cov),(Cov),(Cov

])[,(Cov),(Cov0

),(Cov),(Cov)]),([Cov),ˆ(Cov

2

22

212

2122

2121

=

−=

−=−−=

−−=+=+=+=

XX

YXYXb

XXbYXb

XbXbXYXb

XbbYXbeXb

eXbebeXbbeY



21

Demostrad que es igual a 0

4. BONDAD DE AJUSTE

Demostrar YY =ˆ

iiiiii eYYYYe +=⇒−= ˆˆ

Para analizar la bondad del ajuste, descomponemos el valor observado en el valor ajustado y el residuo.

23

4. BONDAD DE AJUSTE

iiiiii eYYYYe +=⇒−= ˆˆ

)Var()ˆVar(

),ˆCov(2)Var()ˆVar()ˆVar()(Var

eY

eYeYeYY

+=

++=+=

∑∑∑ −+−=− 222 )(1

)ˆˆ(1

)(1

een

YYn

YYn

∑∑

∑∑

−−=

−−

==2

2

2

22

)(1

)(

)ˆ(

YY

e

YY

YY

SCTSCE

Ri

i

i

i

SCRSCESCT +=

∑∑∑ +−=− 222 )ˆ()( eYYYY

35

Un criterio de bondad de ajuste de ajuste es el coeficiente de determinación.

4. BONDAD DE AJUSTE

2

ˆ,

)(Var

)ˆ(Var

)ˆ(Var)(Var

)ˆ(Var)ˆ(Var

)ˆ(Var)(Var

)ˆ(Var

)ˆ(Var)(Var

)ˆ,(Cov)ˆ,ˆ(Cov

)ˆ(Var)(Var

)ˆ],ˆ([Cov

)ˆ(Var)(Var

)ˆ,(Cov

R

Y

Y

YY

YY

YY

Y

YY

YeYY

YY

YeY

YY

YYr

YY

=

==

=+

=

+==

Otro criterio de bondad de ajuste es la correlacion entre el valor observadoy ajustado de la variable Y.

37

4. BONDAD DE AJUSTE

2

ˆ,

)(Var

)ˆ(Var

)ˆ(Var)(Var

)ˆ(Var)ˆ(Var

)ˆ(Var)(Var

)ˆ(Var

)ˆ(Var)(Var

)ˆ,(Cov)ˆ,ˆ(Cov

)ˆ(Var)(Var

)ˆ],ˆ([Cov

)ˆ(Var)(Var

)ˆ,(Cov

R

Y

Y

YY

YY

YY

Y

YY

YeYY

YY

YeY

YY

YYr

YY

=

==

=+

=

+==

43

4. BONDAD DE AJUSTE

Documents

Tema 3 Modelo de regresión lineal simple (I)alvarez.webs.uvigo.es/teaching_archivos/intro_ectria_0708/tema3_al… · P2 P1 Q1 Q2 Q3 Q4 5 Y =β 1 +β 2X β1 Y X1 X2 X3 X4 X 1. EL