10
ECONOMETRÍA Fortino Vela Peón ECONOMÍA UAM-X 1 Hosmer, David W y Stanley Lemeshow (2000). Applied Logistic Regresión, 2ª ed., John Wiley & Sons, Estados Unidos Ejercicio 3 Archivo: lowbwt.dat (obtenido a través de ftp://ftp.wiley.com/public/sci_tech_med/logistic/) LIST OF VARIABLES: Variable Description Codes/Values Name 1 Identification Code ID Number ID 2 Low Birth Weight 1 = BWT<=2500g, LOW 0 = BWT>2500g 3 Age of Mother Years AGE 4 Weight of Mother at Pounds LWT Last Menstrual Period 5 Race 1 = White, 2 = Black RACE 3 = Other 6 Smoking Status 0 = No, 1 = Yes SMOKE During Pregnancy 7 History of Premature Labor 0 = None, 1 = One, PTL 2 = Two, etc. 8 History of Hypertension 0 = No, 1 = Yes HT 9 Presence of Uterine 0 = No, 1 = Yes UI Irritability 10 Number of Physician Visits 0 = None, 1 = One FTV During the First Trimester 2 = Two,etc. 11 Birth Weight Grams BWT a) Modelo logístico lwt lwt e e lwt 1 0 1 0 1 ) ( β β β β π + + + = Modelo logit lwt - 1 ln 1 0 β β π π + = Se debe considerar el modelo de regresión logístico y no el modelo de regresión lineal (o el MPL) debido a la naturaleza de la variable dependiente; al ser esta última una variable binaria -tomando valores entre 0 y 1- provoca un comportamiento como el mostrado en el diagrama de dispersión. Dada la particularidad de la variable de respuesta, el MPL no asegura que las probabilidades encontradas cumplan con 0 π 1.

ECONOMETRÍA Fortino Vela Peón · PDF file100-109 23 105 12 0.5217 110-114 18 112.5 5 0.2778 115-119 15 117.5 3 0.2000 120-124 28 122.5 7 0.2500 125-129 7 127.5 2 0.2857 130-250 79

  • Upload
    doanbao

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ECONOMETRÍA Fortino Vela Peón · PDF file100-109 23 105 12 0.5217 110-114 18 112.5 5 0.2778 115-119 15 117.5 3 0.2000 120-124 28 122.5 7 0.2500 125-129 7 127.5 2 0.2857 130-250 79

ECONOMETRÍA Fortino Vela Peón

ECONOMÍA UAM-X 1

Hosmer, David W y Stanley Lemeshow (2000). Applied Logistic Regresión, 2ª ed., John Wiley & Sons, Estados Unidos Ejercicio 3 Archivo: lowbwt.dat (obtenido a través de ftp://ftp.wiley.com/public/sci_tech_med/logistic/) LIST OF VARIABLES: Variable Description Codes/Values Name 1 Identification Code ID Number ID 2 Low Birth Weight 1 = BWT<=2500g, LOW 0 = BWT>2500g 3 Age of Mother Years AGE 4 Weight of Mother at Pounds LWT Last Menstrual Period 5 Race 1 = White, 2 = Black RACE 3 = Other 6 Smoking Status 0 = No, 1 = Yes SMOKE During Pregnancy 7 History of Premature Labor 0 = None, 1 = One, PTL 2 = Two, etc. 8 History of Hypertension 0 = No, 1 = Yes HT 9 Presence of Uterine 0 = No, 1 = Yes UI Irritability 10 Number of Physician Visits 0 = None, 1 = One FTV During the First Trimester 2 = Two,etc. 11 Birth Weight Grams BWT

a) Modelo logístico lwt

lwt

e

elwt

10

10

1)( ββ

ββ

π +

+

+=

Modelo logit lwt -1

ln 10 ββπ

π +=

Se debe considerar el modelo de regresión logístico y no el modelo de regresión lineal (o el MPL) debido a la naturaleza de la variable dependiente; al ser esta última una variable binaria -tomando valores entre 0 y 1- provoca un comportamiento como el mostrado en el diagrama de dispersión. Dada la particularidad de la variable de respuesta, el MPL no asegura que las probabilidades encontradas cumplan con 0 ≤ π ≤1.

Page 2: ECONOMETRÍA Fortino Vela Peón · PDF file100-109 23 105 12 0.5217 110-114 18 112.5 5 0.2778 115-119 15 117.5 3 0.2000 120-124 28 122.5 7 0.2500 125-129 7 127.5 2 0.2857 130-250 79

ECONOMETRÍA Fortino Vela Peón

ECONOMÍA UAM-X 2

b)

Gráfica 1

0.2

.4.6

.81

LOW

50 100 150 200 250LWT

c) recode lwt (80/99=1) (100/109=2) (110/114=3) (115/119=4) (120/124=5) (125/129=6) (130/250=7), gen(alwt) label define alwt 1 "80-99" 2 "100-109" 3 "110-114" 4 "115-119" 5 "120-124" 6 "125-129" 7 "130-250" tab alwt label values alwt alwt RECODE of | lwt (LWT) | Freq. Percent Cum. ------------+----------------------------------- 80-99 | 19 10.05 10.05 100-109 | 23 12.17 22.22 110-114 | 18 9.52 31.75 115-119 | 15 7.94 39.68 120-124 | 28 14.81 54.50 125-129 | 7 3.70 58.20 130-250 | 79 41.80 100.00 ------------+----------------------------------- Total | 189 100.00

Cálculo manual se tiene ------------------------------------- lwt n m low=1 p ------------------------------------- 80-99 19 90 9 0.4737 100-109 23 105 12 0.5217 110-114 18 112.5 5 0.2778 115-119 15 117.5 3 0.2000 120-124 28 122.5 7 0.2500 125-129 7 127.5 2 0.2857 130-250 79 190.5 21 0.2658 ------------------------------------- Total 189 59

Page 3: ECONOMETRÍA Fortino Vela Peón · PDF file100-109 23 105 12 0.5217 110-114 18 112.5 5 0.2778 115-119 15 117.5 3 0.2000 120-124 28 122.5 7 0.2500 125-129 7 127.5 2 0.2857 130-250 79

ECONOMETRÍA Fortino Vela Peón

ECONOMÍA UAM-X 3

twoway (sc low lwt) (sc p m)

Gráfica 2

0.2

.4.6

.81

50 100 150 200 250

LOW p

d) Función de verosiilitud

∏=

=n

iio xfL

11 )(),( ββ donde [ ] ii y

iy

ii xxxf −−= 1)(1)()( ππ

lwtx = 0 peso normal del recién nacido

=iy

1 bajo peso del recién nacido Función del logaritmo de verosimilitud

[ ] ( )[ ][ ]∑=

−−+=n

iiiiio xyxyL

11 )(11)(),(ln ππββ

Ecuaciones verosímiles

[ ] 0)(1

=−∑=

n

iii xy π

[ ] 0)(1

=−∑=

n

iiii xyx π

Page 4: ECONOMETRÍA Fortino Vela Peón · PDF file100-109 23 105 12 0.5217 110-114 18 112.5 5 0.2778 115-119 15 117.5 3 0.2000 120-124 28 122.5 7 0.2500 125-129 7 127.5 2 0.2857 130-250 79

ECONOMETRÍA Fortino Vela Peón

ECONOMÍA UAM-X 4

e)

logit low lwt Iteration 0: log likelihood = -117.336 Iteration 1: log likelihood = -114.37209 Iteration 2: log likelihood = -114.34534 Iteration 3: log likelihood = -114.34533 Logistic regression Number of obs = 189 LR chi2(1) = 5.98 Prob > chi2 = 0.0145 Log likelihood = -114.34533 Pseudo R2 = 0.0255 ------------------------------------------------------------------------------ low | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- lwt | -.0140583 .0061696 -2.28 0.023 -.0261504 -.0019661 _cons | .9983135 .7852908 1.27 0.204 -.5408283 2.537455 ------------------------------------------------------------------------------

logistic low lwt, coef Logistic regression Number of obs = 189 LR chi2(1) = 5.98 Prob > chi2 = 0.0145 Log likelihood = -114.34533 Pseudo R2 = 0.0255 ------------------------------------------------------------------------------ low | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- lwt | -.0140583 .0061696 -2.28 0.023 -.0261504 -.0019661 _cons | .9983135 .7852908 1.27 0.204 -.5408283 2.537455 ------------------------------------------------------------------------------

)0.0140583- .99831350exp(1)0.0140583- .99831350exp(

)(ˆlwt

lwtage

⋅+⋅=π Modelo logístico

lwtage

age ⋅=

−0.0140583- .99831350

)(ˆ1)(ˆln

ππ

Modelo logia

logistic low lwt predict phat twoway scatter phat low lwt, connect(l i) msymbol(i O) sort ylabel(0 1)

Page 5: ECONOMETRÍA Fortino Vela Peón · PDF file100-109 23 105 12 0.5217 110-114 18 112.5 5 0.2778 115-119 15 117.5 3 0.2000 120-124 28 122.5 7 0.2500 125-129 7 127.5 2 0.2857 130-250 79

ECONOMETRÍA Fortino Vela Peón

ECONOMÍA UAM-X 5

Gráfica 3

01

50 100 150 200 250LWT

Pr(low) LOW

f) Se comparan las gráficas 1, 2 y 3. En la gráfica 1, low vs lwt, se puede observar la naturaleza de la variable dicotómica low, la cual toma los valores 0 (si el recién nacido tiene un peso mayor o igual a 2500 g.) y 1 (si el recién nacido tiene un peso menor a 2500 g.). De esta manera, el patrón del gráfico sugiere que las mujeres quienes fueron más delgadas (con menos peso) en su último periodo mestrual son más factibles de tener un recién nacido de bajo peso que las mujeres con mayor peso, aunque en general las mujeres dan a luz a hijos de peso normal (según el número de puntos observados con valor de 0).

Gráfica 1

0.2

.4.6

.81

LOW

50 100 150 200 250LWT

Page 6: ECONOMETRÍA Fortino Vela Peón · PDF file100-109 23 105 12 0.5217 110-114 18 112.5 5 0.2778 115-119 15 117.5 3 0.2000 120-124 28 122.5 7 0.2500 125-129 7 127.5 2 0.2857 130-250 79

ECONOMETRÍA Fortino Vela Peón

ECONOMÍA UAM-X 6

Por su parte, la gráfica 2 (la cual muestra el valor de p vs el punto medio del grupo de edad) refuerza la impresión del gráfico 1; en términos amplios, cuando el peso de las mujeres durante su último periodo mestrual se incrementa, la probabilidad la que el recien nacido sea de bajo peso disminuye.

Gráfica 2

0.2

.4.6

.81

50 100 150 200 250

LOW p

Finalmente, el gráfico 3 (que presenta a las probabilidades estimadas por el modelo logístico; low vs lwt), señala que la probabilidad de tener un hijo de bajo peso disminuye conforme aumenta el peso de la madre durante su último periodo mestrual la edad.

Gráfica 3

01

50 100 150 200 250LWT

Pr(low) LOW

Page 7: ECONOMETRÍA Fortino Vela Peón · PDF file100-109 23 105 12 0.5217 110-114 18 112.5 5 0.2778 115-119 15 117.5 3 0.2000 120-124 28 122.5 7 0.2500 125-129 7 127.5 2 0.2857 130-250 79

ECONOMETRÍA Fortino Vela Peón

ECONOMÍA UAM-X 7

g) Devianza

228.69066114.34533)- (* -2 saturado modelo del tudverosimili

modelo del tudverosimililn -2D ==

=

Contraste de la razón de verosimilitud (likelihood ratio test)

0:H 1o =β vs 0:H 11 ≠β

le)con variab D(modelo - le)sin variab D(modeloG =

5.98134)-114.34533-(-117.336*-2G == Valor p = 0.0145

∴ Se rechaza H0 lo que indica que el coeficiente asociado β1 es diferente de cero, esto se puede interpretar como que la variable lwt es relevante para entender el comportamiento de low. El supuesto principal es que el estadístico G siga una distribución de probabilidad χ2 con un grado de libertad (en este caso). Contraste de Wald

0:H 1o =β vs 0:H 11 ≠β

-2.27864040.00616960.0140583-

)ˆee(

ˆ W

1

1 ===β

β

Valor p= 0.023 ∴ Se rechaza H0 lo que indica que el coeficiente asociado β1 es diferente de cero y que se interpretar como que la variable lwt es un predictor importante de low (a un α=0.05 y 0.10). El supuesto principal es que el estadístico de Wald sigue una distribución de probabilidad normal estandar, Z con media cero y varianza 1. Observe que en Stata se puede ejecutar una forma alternativa de la prueba de Wald, siendo esta:

0:H 1o =β vs 0:H 11 ≠β

5.19220220.00616960.0140583-

)ˆee(

ˆ W

22

1

12 =

=

=

ββ

Valor p= 0.0227

Page 8: ECONOMETRÍA Fortino Vela Peón · PDF file100-109 23 105 12 0.5217 110-114 18 112.5 5 0.2778 115-119 15 117.5 3 0.2000 120-124 28 122.5 7 0.2500 125-129 7 127.5 2 0.2857 130-250 79

ECONOMETRÍA Fortino Vela Peón

ECONOMÍA UAM-X 8

∴ Se rechaza H0 que es el mismo resultado anterior. El supuesto principal es que el estadístico de Wald al cuadrado sigue una distribución de probabilidad χ2 con 1 grado de libertad. En Stata esta forma de la prueba de Wald se pide de la siguiente manera: test lwt ( 1) [low]lwt = 0 chi2( 1) = 5.19 Prob > chi2 = 0.0227

Score Test El contraste score no se encuentra disponible en Stata. Para su cálculo se considero el paquete estadístico SAS1. A continuación se presenta una fracción del listado producido por este paquete.

The SAS System The LOGISTIC Procedure

Data Set WORK.HOSMER_EJ3 Response Variable LOW Number of Response Leve ls 2 Model binary logit Optimization Technique Fisher's scoring Number of Observatio ns Read 189 Number of Observatio ns Used 189 Testing Global Null Hypothesis: BETA=0 Test Chi-Squ are DF Pr > ChiSq Likelihood Ratio 5.9 813 1 0.0145 Score 5.4 382 1 0.0197 Wald 5.1 921 1 0.0227339 Analysis of Maximum L ikelihood Estimates Standard Wa ld Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 -0.9983 0 .7853 1.6161 0.2036 LWT 1 0.0141 0. 00617 5.1921 0.0227 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits LWT 1.014 1.002 1.026

1 La sintaxis utlizada en SAS fue la siguiente:

data Hosmer_ej3; input ID LOW AGE LWT; datalines; DATOS; proc logistic data=Hosmer_ej3; model low=lwt; run;

Page 9: ECONOMETRÍA Fortino Vela Peón · PDF file100-109 23 105 12 0.5217 110-114 18 112.5 5 0.2778 115-119 15 117.5 3 0.2000 120-124 28 122.5 7 0.2500 125-129 7 127.5 2 0.2857 130-250 79

ECONOMETRÍA Fortino Vela Peón

ECONOMÍA UAM-X 9

Como se puede observar los valores de los estadísticos de prueba de los contrastes de la razón de verosimilitud y de Wald ofrecidos por SAS y Stata coinciden. Por lo que respecta al contraste score, SAS emplea como estadístico de prueba:

( )

( )

2

2n

1ii

n

1ii

x)(

xST

−−

−=

=

=

xxyyy

yy

ii

i

El supuesto principal es que ST sigue una distribución χ2 con un grado de libertad. En resumen, todas las pruebas mostradas resultan ser consistentes con rechazar Ho, concluyendo que el peso de la mujer durante el último periodo mestrual (lwt) es un predictor relevante para low. Además el valor de la devianza del modelo ajustado fue de D=228.69. h) Recordemos que la gráfica 2 muestra el valor de p vs el punto medio del grupo de edad, cuando los datos de lwt fueron agrupados. Dado los puntos correspondientes a los datos agrupados, se observa que para las mujeres cuyo peso se encuentra entre 100 y 150 libras su probabilidad de tener un nacido vivo de bajo es mayor que para el caso de las mujeres que pesan más de 150 libras aunque en el caso del gráfico 2 esto no es tan claro. Lo anterior no hace considerar como valido considerar el modelo de regresión logística.

Gráfica 2

0.2

.4.6

.81

50 100 150 200 250

LOW p

Page 10: ECONOMETRÍA Fortino Vela Peón · PDF file100-109 23 105 12 0.5217 110-114 18 112.5 5 0.2778 115-119 15 117.5 3 0.2000 120-124 28 122.5 7 0.2500 125-129 7 127.5 2 0.2857 130-250 79

ECONOMETRÍA Fortino Vela Peón

ECONOMÍA UAM-X 10

Además se puede considerar lo siguiente:

logistic low lwt predict lr_index, xb predict se_index, stdp generate p_hat1 = exp(lr_index)/(1+exp(lr_index)) gen LI = lr_index - invnormal(0.975)*se_index gen LS = lr_index + invnormal(0.975)*se_index gen pLI = exp(LI)/(1+exp(LI)) gen pLS = exp(LS)/(1+exp(LS)) list lwt p_hat1 pLI pLS if lwt==80 list lwt p_hat1 pLI pLS if lwt==250 list lwt p_hat1 pLI pLS if lwt==130 twoway (sc p_hat1 lwt) (sc pLI lwt) (sc pLS lwt)

Gráfica 4

0.2

.4.6

50 100 150 200 250LWT

p_hat1 pLIpLS