RELACIÓN GRÁFICA EN UN MODELO DE REGRESIÓN MULTIPLE
. reg EARNINGS S EXP
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 2, 537) = 67.54 Model | 22513.6473 2 11256.8237 Prob > F = 0.0000 Residual | 89496.5838 537 166.660305 R-squared = 0.2010-------------+------------------------------ Adj R-squared = 0.1980 Total | 112010.231 539 207.811189 Root MSE = 12.91
------------------------------------------------------------------------------ EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- S | 2.678125 .2336497 11.46 0.000 2.219146 3.137105 EXP | .5624326 .1285136 4.38 0.000 .3099816 .8148837 _cons | -26.48501 4.27251 -6.20 0.000 -34.87789 -18.09213------------------------------------------------------------------------------
La tabla de arriba muestra el resultado de una regresión de INGRESO, ingreso por hora en dólares, explicado por S, años de educación, y EXP, años de experiencia laboral.
1
EXPSINGSNEAR 56.068.249.26ˆ
2
Suponemos que nos interesa en particular la relación entre INGRESO y S, y deseamos representarla graficamente utilizando la muestra de datos.
-20
0
20
40
60
80
100
120
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Years of schooling
Ho
url
y ea
rnin
gs
($)
3
Una línea simple sería engañosa.
-20
0
20
40
60
80
100
120
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Years of schooling
Ho
url
y ea
rnin
gs
($)
-20
0
20
40
60
80
100
120
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Years of schooling
Ho
url
y ea
rnin
gs
($)
4
Los años de educación están correlacioandos negativamente con la experiencia laboral. La línea no toma en cuenta esta relación, por lo que la línea de regresión subestima el impacto de los años de educación en el ingreso.
. cor S EXP(obs=540) | S ASVABC--------+------------------ S| 1.0000 EXP| -0.2179 1.0000
-20
0
20
40
60
80
100
120
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Years of schooling
Ho
url
y ea
rnin
gs
($)
5
. cor S EXP(obs=540) | S ASVABC--------+------------------ S| 1.0000 EXP| -0.2179 1.0000
Investigaremos gráficamente la distorsión de una regresión cuando se omiten variables relevantes (omitted variable bias).
-20
0
20
40
60
80
100
120
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Years of schooling
Ho
url
y ea
rnin
gs
($)
6
. cor S EXP(obs=540) | S ASVABC--------+------------------ S| 1.0000 EXP| -0.2179 1.0000
Para eliminar la distorsión, tenemos que descontar el componentes de INGRESOS y EDUCACION (S) que están relacionados con EXP, y después hacemos un diagrama de dispersión usando las variables “depuradas”.
. reg EARNINGS EXP
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 1, 538) = 2.98 Model | 617.717488 1 617.717488 Prob > F = 0.0847 Residual | 111392.514 538 207.049282 R-squared = 0.0055-------------+------------------------------ Adj R-squared = 0.0037 Total | 112010.231 539 207.811189 Root MSE = 14.389
------------------------------------------------------------------------------ EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- EXP | .2414715 .1398002 1.73 0.085 -.0331497 .5160927 _cons | 15.55527 2.442468 6.37 0.000 10.75732 20.35321------------------------------------------------------------------------------
. predict EEARN, resid
7
Comenzamos haciendo una regresión de INGRESO sobre EXP, como se muestra arriba. Los residuales son la parte del INGRESO que no está relacionada con EXP. El comando ‘predict’ en Stata es el comando para guardar los residuales de la regresión más reciente—los cuales llamamos EEARN.
. reg S EXP
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 1, 538) = 26.82 Model | 152.160205 1 152.160205 Prob > F = 0.0000 Residual | 3052.82313 538 5.67439243 R-squared = 0.0475-------------+------------------------------ Adj R-squared = 0.0457 Total | 3204.98333 539 5.94616574 Root MSE = 2.3821
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- EXP | -.1198454 .0231436 -5.18 0.000 -.1653083 -.0743826 _cons | 15.69765 .4043447 38.82 0.000 14.90337 16.49194------------------------------------------------------------------------------
. predict ES, resid
8
Realizamos lo mismo con S. Estimamos una regresión de S sobre EXP y guardamos los residuales en ES. ES contiene la información de educación que no está relacionada con o explicada por EXP.
9
Al graficar el diagrama de dispersión de EEARN contra ES tenemos una representación más fidedigna de la relación entre ambas variables. Esto, tanto en términos de la pendiente de la línea de tendencia “correcta” (en color negro), como en términos de la variación en torno a esa línea.
-20
0
20
40
60
80
-8 -6 -4 -2 0 2 4 6
ES (schooling residuals)
EE
AR
N (
earn
ing
s re
sid
ual
s)
10
Como esperábamos, la línea de tendencia es más inclinada que aquella en la que no controlamos por EXP (mostrada en rojo).
-20
0
20
40
60
80
-8 -6 -4 -2 0 2 4 6
ES (schooling residuals)
EE
AR
N (
earn
ing
s re
sid
ual
s)
. reg EEARN ES Source | SS df MS Number of obs = 540-------------+------------------------------ F( 1, 538) = 131.63 Model | 21895.9298 1 21895.9298 Prob > F = 0.0000 Residual | 89496.5833 538 166.350527 R-squared = 0.1966-------------+------------------------------ Adj R-squared = 0.1951 Total | 111392.513 539 206.665145 Root MSE = 12.898------------------------------------------------------------------------------ EEARN | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ES | 2.678125 .2334325 11.47 0.000 2.219574 3.136676 _cons | 8.10e-09 .5550284 0.00 1.000 -1.090288 1.090288------------------------------------------------------------------------------
From multiple regression:
. reg EARNINGS S EXP------------------------------------------------------------------------------ EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- S | 2.678125 .2336497 11.46 0.000 2.219146 3.137105 EXP | .5624326 .1285136 4.38 0.000 .3099816 .8148837 _cons | -26.48501 4.27251 -6.20 0.000 -34.87789 -18.09213------------------------------------------------------------------------------
11
Esta es la regresión de EEARN con ES.
. reg EEARN ES Source | SS df MS Number of obs = 540-------------+------------------------------ F( 1, 538) = 131.63 Model | 21895.9298 1 21895.9298 Prob > F = 0.0000 Residual | 89496.5833 538 166.350527 R-squared = 0.1966-------------+------------------------------ Adj R-squared = 0.1951 Total | 111392.513 539 206.665145 Root MSE = 12.898------------------------------------------------------------------------------ EEARN | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ES | 2.678125 .2334325 11.47 0.000 2.219574 3.136676 _cons | 8.10e-09 .5550284 0.00 1.000 -1.090288 1.090288------------------------------------------------------------------------------
De la regresión múltiple:
. reg EARNINGS S EXP------------------------------------------------------------------------------ EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- S | 2.678125 .2336497 11.46 0.000 2.219146 3.137105 EXP | .5624326 .1285136 4.38 0.000 .3099816 .8148837 _cons | -26.48501 4.27251 -6.20 0.000 -34.87789 -18.09213------------------------------------------------------------------------------
12
Una comprobación matemática de que la técnica funciona requiere algebra matricial. Nos limitaremos a verificar que el coeficiente estimado arriba es igual al de una regresión multiple.
. reg EEARN ES Source | SS df MS Number of obs = 540-------------+------------------------------ F( 1, 538) = 131.63 Model | 21895.9298 1 21895.9298 Prob > F = 0.0000 Residual | 89496.5833 538 166.350527 R-squared = 0.1966-------------+------------------------------ Adj R-squared = 0.1951 Total | 111392.513 539 206.665145 Root MSE = 12.898------------------------------------------------------------------------------ EEARN | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ES | 2.678125 .2334325 11.47 0.000 2.219574 3.136676 _cons | 8.10e-09 .5550284 0.00 1.000 -1.090288 1.090288------------------------------------------------------------------------------
De la regresión múltiple:
. reg EARNINGS S EXP------------------------------------------------------------------------------ EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- S | 2.678125 .2336497 11.46 0.000 2.219146 3.137105 EXP | .5624326 .1285136 4.38 0.000 .3099816 .8148837 _cons | -26.48501 4.27251 -6.20 0.000 -34.87789 -18.09213------------------------------------------------------------------------------
13
Finalmente, un pequeño detalle técnico. Talvez notaron que el error estándar y el estadístico t no concuerdan. La razón de esto es que los residuales de la regresión están sobreestimados en un grado de libertad.
. reg EEARN ES Source | SS df MS Number of obs = 540-------------+------------------------------ F( 1, 538) = 131.63 Model | 21895.9298 1 21895.9298 Prob > F = 0.0000 Residual | 89496.5833 538 166.350527 R-squared = 0.1966-------------+------------------------------ Adj R-squared = 0.1951 Total | 111392.513 539 206.665145 Root MSE = 12.898------------------------------------------------------------------------------ EEARN | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ES | 2.678125 .2334325 11.47 0.000 2.219574 3.136676 _cons | 8.10e-09 .5550284 0.00 1.000 -1.090288 1.090288------------------------------------------------------------------------------
De la regresión múltiple:
. reg EARNINGS S EXP------------------------------------------------------------------------------ EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- S | 2.678125 .2336497 11.46 0.000 2.219146 3.137105 EXP | .5624326 .1285136 4.38 0.000 .3099816 .8148837 _cons | -26.48501 4.27251 -6.20 0.000 -34.87789 -18.09213------------------------------------------------------------------------------
14
Esa regresión no ha tomado en cuenta el hecho de que hemos usado 1 grado de libertad al eliminar EXP del modelo de arriba.
Copyright Christopher Dougherty 1999–2006. This slideshow may be freely copied for personal use.
26.06.06