28
8/12/2019 Trabajo I Estadistica III http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 1/28  Estadística III 3009137, semestre 02 de 2013 Equipo de Trabajo No. 10 Serie No. 33 Curso: Ma –  Ju ANÁLISIS DE SERIES DE TIEMPO: AJUSTE DE TENDENCIA Y ESTACIONALIDAD Jessica Paola Moná Nieto 1 , Camilo Vahos Gutiérrez 2  y Santiago Vélez Roldán 3   Fecha de entrega: 11 de octubre de 2013 Resumen Con el objetivo de hacer un análisis de series de tiempo y afianzar los contenidos vistos en la clase, este documento hace un estudio a la serie de tiempo de los empleados que usualmente trabajan parte del tiempo (medida en miles de personas), haciendo énfasis en características tales como la tendencia y la estacionalidad. Para lograrlo se proponen dos modelos y se analiza su comportamiento en el tiempo, este análisis incluye observar como es el ajuste de dichos modelos y lo acertadas de las predicciones hechas mediante ellos. Mediante los criterios de información (BIC, AIC y R 2 ajustado) y posteriormente criterios de error de  pronóstico (MAPE, MAE, RMSE), se elegirá el modelo que mejor pronostique la serie. A dicho modelo se procederá a hacer pruebas recursivas (test y gráfica CUSUM, residuales recursivos estandarizados y estimación recursiva de los parámetros) para determinar la estabilidad de los parámetros en el largo plazo. Palabras claves: Serie de tiempo, Tendencia, Estacionalidad, Pronósticos. 1 Introducción El siguiente trabajo desarrollará un completo estudio a la serie de tiempo de los empleados mayores de 16 años que usualmente trabajan parte del tiempo en los Estados Unidos de América, cuyos datos son mensuales tomados entre Enero de 1980 y Junio de 2013. El objetivo principal es aplicar los conceptos vistos en la asignatura Estadística III sobre el modelamiento de series y hacer  pronósticos acertados sobre las mismas, con el fin de tomar decisiones. Para lograr dicho objetivo 1  Estudiante Ingeniería Industrial, Universidad Nacional de Colombia –  Sede Medellín. 2  Estudiante Ingeniería Industrial, Universidad Nacional de Colombia –  Sede Medellín 3  Estudiante Ingeniería Industrial, Universidad Nacional de Colombia –  Sede Medellín

Trabajo I Estadistica III

Embed Size (px)

Citation preview

Page 1: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 1/28

 

Estadística III 3009137, semestre 02 de 2013

Equipo de Trabajo No. 10 Serie No. 33 Curso: Ma –  Ju

ANÁLISIS DE SERIES DE TIEMPO: AJUSTE DE TENDENCIA YESTACIONALIDAD

Jessica Paola Moná Nieto1, Camilo Vahos Gutiérrez2 y Santiago Vélez Roldán3 

 Fecha de entrega: 11 de octubre de 2013

Resumen

Con el objetivo de hacer un análisis de series de tiempo y afianzar los contenidos vistos en la

clase, este documento hace un estudio a la serie de tiempo de los empleados que usualmente

trabajan parte del tiempo (medida en miles de personas), haciendo énfasis en características

tales como la tendencia y la estacionalidad. Para lograrlo se proponen dos modelos y se

analiza su comportamiento en el tiempo, este análisis incluye observar como es el ajuste de

dichos modelos y lo acertadas de las predicciones hechas mediante ellos. Mediante los

criterios de información (BIC, AIC y R 2ajustado) y posteriormente criterios de error de

 pronóstico (MAPE, MAE, RMSE), se elegirá el modelo que mejor pronostique la serie. A

dicho modelo se procederá a hacer pruebas recursivas (test y gráfica CUSUM, residuales

recursivos estandarizados y estimación recursiva de los parámetros) para determinar la

estabilidad de los parámetros en el largo plazo.

Palabras claves: Serie de tiempo, Tendencia, Estacionalidad, Pronósticos.

1  Introducción

El siguiente trabajo desarrollará un completo estudio a la serie de tiempo de los empleados mayores

de 16 años que usualmente trabajan parte del tiempo en los Estados Unidos de América, cuyos

datos son mensuales tomados entre Enero de 1980 y Junio de 2013. El objetivo principal es aplicar

los conceptos vistos en la asignatura Estadística III sobre el modelamiento de series y hacer

 pronósticos acertados sobre las mismas, con el fin de tomar decisiones. Para lograr dicho objetivo

1 Estudiante Ingeniería Industrial, Universidad Nacional de Colombia –  Sede Medellín.2 Estudiante Ingeniería Industrial, Universidad Nacional de Colombia –  Sede Medellín3 Estudiante Ingeniería Industrial, Universidad Nacional de Colombia –  Sede Medellín

Page 2: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 2/28

 

se utilizará el software R para obtener modelamientos de la serie y estimaciones que permitan

obtener un modelo que haga el mejor pronóstico de los sucesos futuros.

2  Parte I: Desarrollo puntos comunes

2.1  Estudio descriptivo

La serie “Empleados que por lo general trabajan a tiempo parcial”  brinda información sobre las

 personas mayores de 16 años que trabajan habitualmente menos de 35 horas en Los Estados Unidos

de América. Los datos se extrajeron de “Bureau of Labor statistics  [1]”, oficina de estadísticas

laborales de datos, los cuales son tomados mensualmente y medidos en unidades de miles de

 personas. El periodo de estudio abarca desde Enero de 1980 hasta Junio de 2013.

Figura 1:Izq.: Serie mensual de la cantidad de personas mayores de 16 años que trabajanhabitualmente menos de 35 horas en USA y Der.: su logaritmo.

La figura 1 muestra el comportamiento de los empleados que trabajan a tiempo parcial en Estados

Unidos, entre enero de 1980 y junio de 2013 (Izquierda). La gráfica muestra indicios de tendencia

global, la cual se podría modelar con un polinomio de grado 1 o grado 3; además se percibe

existencia de ciclos a lo largo de ella y presenta patrones similares cada año, por lo que se podría

asumir que hay presencia de estacionalidad. La serie original da indicios de ser aditiva, en el

Serie de tiempo

Tiempo

   d  a

   t  o  s

   3   3

1980 1985 1990 1995 2000 2005 2010

   1   6   0   0   0

   1   8   0   0   0

   2   0   0   0   0

   2   2   0   0   0

   2   4   0   0   0

   2   6   0   0   0

   2   8   0   0   0

Logaritmo de la serie

Tiempo

   L  o  g

   (   C  a  n

   t   i   d  a

   d   d  e

   t  r  a   b  a

   j  a   d  o  r  e  s

   (   M   i   l  e  s

   d  e  p  e  r  s  o  n  a  s

   )   )

1980 1985 1990 1995 2000 2005 2010

   9 .   7

   9 .   8

   9 .   9

   1   0

 .   0

   1   0

 .   1

   1   0

 .   2

Page 3: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 3/28

 

logaritmo de la serie observado en la figura 1 (Derecha), se observa que ésta es muy similar a la

original, aspecto que permite concluir que la serie es de componentes aditivas.

Figura 2: Descomposición aditiva de la serie en tendencia, estacionalidad y error mediante el

software R.

En la figura 2 se observa la descomposición de la serie en sus componentes tendencia,

estacionalidad y error. Se puede observar que la tendencia evidencia globalmente un crecimiento

continuo aunque presenta periodos en los que crece a mayor escala momentáneamente. A lo largo

de la serie se pueden apreciar dos puntos atípicos hacia los años 1994 y 2010 (generados posiblemente por intervenciones externas a la serie) que pueden generar problemas al modelarla.

Figura 3: Boxplot de la serie filtrada por meses.

   1   6   0   0   0

   2   2   0   0   0

   2   8   0   0   0

  o   b  s  e  r  v  e

   d

   1   8   0   0   0

   2   2   0   0   0

   2   6   0   0   0

   t  r  e  n

   d

  -   1   5   0   0

  -   5   0   0

   0

   5   0   0

  s  e  a  s  o  n  a

   l

  -   5   0   0

   0

   5   0   0

1980 1985 1990 1995 2000 2005 2010

  r  a  n

   d  o  m

Time

Decomposition of additive time series

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

   1   6   0   0   0

   1   8   0   0   0

   2   0   0   0   0

   2   2   0   0   0

   2   4   0   0   0

   2   6   0   0   0

   2   8   0   0   0

Boxplots comparativos

   C  a  n

   t   i   d  a

   d   d  e

   t  r  a   b  a

   j  a   d  o  r  e  s

   (   M   i   l  e  s

   d  e  p  e  r  s  o  n  a  s

   )

Page 4: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 4/28

 

La figura 3 da claridad de la presencia de una componente estacional de periodo mensual (S=12).

Se evidencia una componente estacional de tipo determinística.

  Identificación de modelos

Teniendo en cuenta la información presentada anteriormente, se puede definir la serie de tiempo de

los trabajadores mayores a 16 años, que trabajan a tiempo parcial en estados Unidos de la siguiente

forma:

 ,     (1)

Donde  representa la cantidad de trabajadores en miles de personas, que laboran a tiempo a parcialen Estados Unidos,  la componente de tendencia,  la componente de estacionalidad y  el error.Se asume que el error se distribuye normal con media cero y varianza constante. En cuanto a la

estacionalidad, se plantea mediante indicadoras, ya que, en la figura 1 se observa que el patrónestacional no varía a lo largo de la serie. En los modelos propuestos se eliminará la variableindicadora correspondiente a la última estación (Diciembre).

-  Modelo lineal:

  (2)

Donde es la tendencia de la serie para el modelo y   es la estacionalidad de la

serie.

-  Modelo grado tres estacional:

  (3)

Donde   es la tendencia de la serie para el modelo y   es la

estacionalidad de la serie.

Page 5: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 5/28

 

2.2 Validación cruzada de los modelos 

En el inciso anterior se propusieron dos modelos para la serie: modelo lineal y modelo cúbico, cada

uno con su componente estacional. Para llevar a cabo la validación cruzada, se dejaron por fuera

veinticuatro datos para pronosticar, esto debido a que el tamaño de la muestra es grande y por tantosacar estos veinticuatro datos no afectará la estructura de la tendencia de la serie de manera

drástica.

-  Sea N el número total de observaciones. N= 402.-  Sea m el número de observaciones que van a quedar por fuera del ajuste para ser

 pronosticados (m= 24).-  Sea n el número total de observaciones de la nueva muestra excluyendo los m datos a

 pronosticar. n = N - m = 378.

  Modelo lineal

Tabla 1: Tabla de parámetros estimados para el modelo lineal.

Parámetro Estimación Error Estándar Valor t Valor P

Β0  17665.3116 126.9472 139.155 <2*10-16 

Β1  26.1834 0.2976 87.995 <2*10-  

δ1  -369.2556 159.0722 -2.321 0.0208

δ2  -113.8140 159.0697 -0.715 0.4748δ3  95.7839 159.0677 0.602 0.5474

δ4  38.4131 159.0663 0.241 0.8093

δ5  -394.0203 159.0655 -2.477 0.0137

δ6  -1337.9224 159.0652 -8.411 9.28*10-16 

δ7  -1562.3735 160.3296 -9.745 <2*10-  

δ8  -2047.4601 160.3271 -12.771 <2*10-  

δ9  -815.5790 160.3252 -5.087 5.83*10-7 

δ10  -252.3107 160.3238 -1.574 0.1164

δ11  46.6995 160.3230 0.291 0.7710R 2 = 0.9574 ,R 2adj = 0.956, AIC= 5961.881,BIC= 6017.831

Page 6: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 6/28

 

De lo anterior es posible estimar el modelo lineal así:

  . (4)

De la tabla 1, se puede observar que los parámetros asociados a la tendencia son significativos; en

cuanto a la estacionalidad, es significativa con que al menos una de las indicadoras  lo sea. Al ver

la tabla se tiene que   , ,    son significativas, por tanto se puede conlcuir que la

 presencia de estacionalidad es significativa. En el caso de la tendencia, vale la pena evaluar la

significancia del parámetro de mayor grado, en este caso  

Se probará la significancia de  mediante la siguiente prueba de hipótesis:

  Estadístico de prueba t:

[]

 

Utilizando el valor p,

(|| ) (5)

De la ecuación (5) se observa que el valor p es muy pequeño, por lo que se concluye que  essignificativo en presencia de las demás variables del modelo.

  Modelo cúbico

Tabla 2: Tabla de parámetros estimados para el modelo grado 3

Parámetro Estimación Error Estándar Valor t Valor P

Β0  1.695*10 1.627*10 104.192 <2*10-  

Β1  4.436*10 2.838 15.632 <2*10-16 

Β2  -1.034*10-   1.738*10-   -5.946 6.47*10-  

Β3  1.626*10-   3.015*10-   5.392 1.26*10-  

δ1  -3.494*102  1.508*102  -2.317 0.0211

δ2  -9.650*10 1.508*10 -0.640 0.5226

Page 7: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 7/28

 

δ3  1.106*102  1.508*102  0.733 0.4638

δ4  5.070*10 1.508*10 0.336 0.7368

δ5  -3.842*10 1.508*10 -2.548 0.0112

δ6  -1.331*103  1.508*102  -8.825 <2*10-16 

δ7  -1.552*10 1.520*10 -10.211 <2*10-  

δ8  -2.039*103  1.520*102 -13.418 <2*10-16 

δ9  -8.092*102  1.519*102  -5.326 1.77*10-7 

δ10  -2.481*10 1.519*10 -1.633 0.1034

δ11  4.879*10 1.519*102  0.321 0.7483

R   = 0.962 ,R  adj = 0.9605, AIC=5923.211, BIC=5987.155

De lo anterior es posible estimar el modelo cúbico así:

  (6)

De la tabla 2, se puede observar que los parámetros asociados a la tendencia son significativos; en

cuanto a la estacionalidad, como se mencionó anteriormente es significativa si al menos una de las

variables indicadoras   es significativa. De la tabla 2 se tiene que   ,  , , , ,   son

significativas, por tanto se puede concluir que la presencia de la estacionalidad es significativa. En

el caso de la tendencia, vale la pena evaluar la significancia del parámetro de mayor grado, en este

caso .

Se probará la significancia de  mediante la siguiente prueba de hipótesis:

  Estadístico de prueba t:

[]

Utilizando el valor p,

(|| ) (7)

La ecuación 7 se observa que el valor p es muy pequeño, por lo que se concluye que   essignificativa en presencia de las demás variables del modelo.

Page 8: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 8/28

 

2.3 Criterios de información

Cuando se tienen varios modelos que expliquen la serie generalmente se usa aquel que sea más

 parsimonioso, donde la variabilidad y el sesgo de dicho modelo sean mínimos. Para seleccionar este

modelo se utilizarán criterios que ajustan la serie y minimizan dichos aspectos. Estos criterios son elcriterio de Akaike (AIC) y criterio de información Bayesiano (BIC) [2] que se calculan mediante las

siguientes ecuaciones respectivamente.

  ∑

  (8)

  (9)

También el R 2ajustado indica el porcentaje de la variabilidad real de la serie que es explicado por elmodelo, es decir, mientras más cercano el R 2ajustado a 1 mejor será su capacidad de ajuste.

Tabla 3: AIC, BIC y R 2ajustado para los modelos propuestos 

Criterio de información Lineal Cúbico

AIC 5961.881 5923.211

BIC 6017.831 5987.155

R 2ajustado 0.956 0.9605

De la tabla 3 se observa que el modelo cúbico tiene un criterio de Akaike (AIC) más bajo y por

tanto según este criterio, este modelo ajusta de mejor manera la serie. De forma similar este modelo

cúbico tiene un criterio de información bayesiano (BIC) menor; luego mediante este criterio,

también ajusta de mejor manera la serie. Por otro lado según el R 2ajustado que está más cercano a

uno es igualmente el del modelo cúbico.

En general no hay una diferencia muy marcada en la magnitud de los valores arrojados por el R, es

decir, ambos modelos hacen un buen ajuste a la serie. Sin embargo por la información de la tabla 3

se seleccionaría el modelo cubico, aunque hay que decir que esto no es suficiente para elegir dicho

modelo.

Page 9: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 9/28

 

Figura 4: Ajuste del modelo lineal y del modelo cúbico.

En la figura 4 se ve el ajuste que hace el modelo lineal y el modelo cúbico en la escala original de la

serie. Es claro que dichos ajustes son muy similares y se evidencia la cercanía de los valores AIC y

BIC entre ambos modelos.

A continuación se muestran las gráficas de residuales vs. Tiempo y residuales vs. Valores ajustados

 para cada modelo.

Figura 5: Grafico de residuales Vs. Tiempo para el modelo lineal y el modelo cúbico.

Ajuste modelo lineal

 Año

   C  a  n

   t   i   d  a

   d   d  e

   t  r  a   b  a

   j  a   d  o  r  e  s

   (   M   i   l  e  s

   d  e  p  e  r  s  o  n  a  s

   )

1980 1985 1990 1995 2000 2005 2010

   1   6   0   0   0

   2   0   0   0   0

   2   4   0   0   0

   2   8   0   0   0

Original

Modelo Lineal

Ajuste modelo cúbico

 Año

   C  a  n

   t   i   d  a

   d   d  e

   t  r  a   b  a

   j  a   d  o  r  e  s

   (   M   i   l  e  s

   d  e  p  e  r  s  o  n  a  s

   )

1980 1985 1990 1995 2000 2005 2010

   1   6   0   0   0

   2   0   0   0   0

   2   4   0   0   0

   2   8   0   0   0

Original

Modelo Cúbico

0 100 200 300

   -     1     5     0     0

     0

     1     0     0     0

Residuales vs. tiempo

Modelo lineal

t

    r    e    s     i     d    u    a     l    s     (    m    o     d    e     l    o     1     1 .     )

0 100 200 300

   -     1     0     0     0

     0

     1     0     0     0

Modelo cúbico

t

    r    e    s     i     d    u    a     l    s     (    m    o     d    e     l    o

     1     3 .     )

Page 10: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 10/28

 

Figura 6: Grafico de residuales vs. Valores ajustados para el modelo lineal y el modelo cúbico.

De la figuras 5 y 6 se puede observar que tanto para el modelo lineal como para el modelo cúbico

hay información clara que permite concluir que hay presencia de ciclos, esto se considera como una

evidencia de que existe una estructura de correlación de los modelos, considerando de antemano

que la estructura del modelo es correcta y asumiendo que los ciclos existen, ya sea por factores

sociales externos. Si hay correlación, entonces no se habla de independencia de los errores .

Cuando hay presencia de ciclos es difícil validar el supuesto de varianza constante.

2.4 Pronósticos puntuales

Los valores reales que se quitaron para hacer la validación cruzada, fueron un total de veinticuatro

(24), los cuales se muestran en la tabla 4:

Tabla 4: Valores reales a pronosticar.

Ene Feb Mar Abr Mayo Jun Jul Ago Sep Oct Nov Dic

2011 26624 26050 27522 27530 27932 276302012 28065 28096 27497 27996 28092 27178 26995 26344 27655 27993 28034 27980

2013 27746 28037 27902 28050 27789 27442

Como los modelos se ajustaron con n=378 datos, para pronosticar los periodos correspondientes

desde n=379 hasta n=402, es decir para Julio de 2011 a Junio de 2013, se emplea la ecuación

ajustada de cada uno de los modelos propuestos.

16000 18000 20000 22000 24000 26000 28000

  -   1   0   0   0

   0

   1   0   0   0

Residuales vs. valores ajustados

Modelo Cúbico

fitted(modelo13.)

  r  e  s

   i   d  u  a

   l  s   (  m  o

   d  e

   l  o   1   3

 .   )

16000 18000 20000 22000 24000 26000 28000  -   1

   5   0   0

   0

   1   0   0   0

Modelo Linealfitted(modelo11.)

  r  e  s

   i   d  u  a

   l  s   (  m  o

   d  e

   l  o   1   1

 .   )

Page 11: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 11/28

 

  (10)

Donde L es el periodo a pronosticar,  es el ajuste de la tendencia de acuerdo al modelo y

 es el ajuste de la estacionalidad para el modelo.

Tabla 5: Pronósticos puntuales del modelo lineal dentro de la muestra.

De la tabla 5 se tiene que todos los pronósticos puntuales están incluidos en sus respectivosintervalos de confianza con una precisión del 95%.

Fecha Pronóstico Puntual Límite Inferior Límite Superior

Julio 2011 26026.43 24760.35 27292.51

Agosto 2011 25567.53 24301.44 26833.61

Septiembre 2011 26825.59 25559.51 28091.67

Octubre 2011 27415.04 26148.96 28681.13

Noviembre 2011 27740.24 26474.15 29006.32

Diciembre 2011 27719.72 26453.64 28985.80

Enero 2012 27376.65 26110.86 28642.43

Febrero 2012 27658.27 26392.49 28924.06

Marzo 2012 27894.05 26628.27 29159.84

Abril 2012 27862.87 26597.08 29128.65

Mayo 2012 27456.62 26190.83 28722.40

Junio 2012 26538.90 25273.11 27804.68

Julio 2012 26340.63 25073.91 27607.36

Agosto 2012 25881.73 24615.00 27148.45

Septiembre 2012 27139.79 25873.07 28406.52

Octubre 2012 27729.24 26462.52 28995.97

Noviembre 2012 28054.44 26787.71 29321.16

Diciembre 2012 28033.92 26767.20 29300.65

Enero 2013 27690.85 26424.40 28957.30

Febrero 2013 27972.47 26706.03 29238.92

Marzo 2013 28208.25 26941.81 29474.70

Abril 2013 28177.07 26910.62 29443.52

Mayo 2013 27770.82 26504.37 29037.27

Junio 2013 26853.10 25586.65 28119.55

Page 12: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 12/28

 

Tabla 6: Pronósticos puntuales modelo cubico dentro de la muestra.Fecha Pronostico puntual Límite inferior Límite superior

Julio 2011 26211.31 24992.24 27430.38

Agosto 2011 25760.19 24540.27 26980.11

Septiembre 2011 27026.23 25805.44 28247.03

Octubre 2011 27623.85 26402.14 28845.55

Noviembre 2011 27957.39 26734.75 29180.03

Diciembre 2011 27945.41 26721.80 29169.02

Enero 2012 27633.00 26408.40 28857.61

Febrero 2012 27923.05 26697.41 29148.68

Marzo 2012 28167.44 26940.74 29394.14

Abril 2012 28145.06 26917.26 29372.85

Mayo 2012 27747.80 26518.88 28976.72

Junio 2012 26839.28 25609.19 28069.36

Julio 2012 26656.17 25422.49 27889.85

Agosto 2012 26207.08 24972.11 27442.06

Septiembre 2012 27475.17 26238.85 28711.49

Octubre 2012 28074.84 26837.14 29312.53

Noviembre 2012 28410.45 27171.34 29649.56

Diciembre 2012 28400.55 27159.98 29641.12

Enero 2013 28090.23 26847.95 29332.52

Febrero 2013 28382.38 27138.55 29626.21

Marzo 2013 28628.88 27383.47 29874.30Abril 2013 28608.63 27361.59 29855.67

Mayo 2013 28213.51 26964.79 29462.23

Junio 2013 27307.13 26056.69 28557.57

De las tablas 5 y 6 se tiene que todos los pronósticos puntuales están incluidos en sus respectivosintervalos de confianza con una precisión del 95%. En general, estas tablas corresponden a losvalores que se espera que tome serie en los próximos 24 meses comenzando en Julio de 2011, al serajustada mediante el modelo lineal y cúbico; por ejemplo en Junio del 2012 con el modelo cúbico se

espera que la cantidad de trabajadores que laboran a tiempo parcial sea de 26839,28 o que seencuentre entre 25609,19 y 28069,36.

Tabla 7: Medidas de exactitud para medir la precisión de los pronósticos para los modelos.Modelo RMSE MAE MAPE

Lineal 419.8397 343.0704 1.251662Cubico 370.711 325.3831 1.178583

Page 13: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 13/28

 

Figura 7: Pronósticos dentro de la muestra para el modelo lineal y cúbico.

Se observa en la figura 7, que los modelos lineal y cúbico se ajustan similarmente, sin embargo envarias ocasiones el cúbico se acerca más a los datos reales. Esto se evidencia en los valores delMAPE (tabla 7), los cuales no difieren mucho entre sí, a pesar de que el de menor valor es el delmodelo cúbico.

2.5 Selección del mejor modelo

Figura 8: Grafico de la tendencia de la serie de tiempo.

Modelos ajustados

 Año

   C  a  n

   t   i   d  a

   d   d  e

   t  r  a   b  a

   j  a   d  o  r  e  s

   (   M   i   l  e  s

   d  e

  p  e  r  s  o  n  a  s

   )

2011.5 2012.0 2012.5 2013.0

   2   5   0   0   0

   2   6   0   0   0

   2   7   0   0   0

   2   8   0   0   0

   2   9   0   0   0

Original

Pronóstico modelo lineal

Pronóstico modelo cúbico

Gráfica de la tendencia

Time

   T   t

1980 1985 1990 1995 2000 2005 2010

   1   6   0   0

   0

   1   8   0   0   0

   2   0   0   0   0

   2   2   0   0   0

   2   4   0   0   0

   2   6   0   0   0

   2   8   0   0   0

Page 14: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 14/28

 

Con respecto a lo observado en los numerales 2.3 y 2.4 relacionado con el ajuste y el pronóstico de

los dos modelos propuestos, se puede concluir que el mejor modelo para la serie es el que plantea

una tendencia lineal. Lo anterior se justifica en la gráfica de la tendencia (Figura 8) que muestra un

crecimiento de la misma casi constante, de igual manera como se observó en los valores de AIC,

BIC y MAPE de los modelos ajustados y pronosticados, la diferencia entre los valores de losmodelos no es muy grande y a pesar de que el AIC ,el BIC y el MAPE muestren que el modelo

cúbico se ajusta mejor, la gráfica de la tendencia de la serie soporta la hipótesis de que ésta se ajusta

más una línea recta que a una curva de grado tres.

Tabla 8: Parámetros estimados con toda la muestra para el modelo lineal.

Parámetro Estimación Error estándar Valor t Valor P

  17617.0866 120.7038 145.953 <2*10-  

  26.3984 0.2662 99.175 <2*10-

 δ1  -341.9598 151.3330 -2.260 0.0244

δ2  -93.8288 151.3309 -0.620 0.5356

δ3  80.0963 151.3292 0.529 0.5969

δ4  43.3744 151.3281 0.287 0.7746

δ5  -370.2299 151.3274 -2.447 0.0149

δ6  -1297.4519 151.3271 -8.574 2.40*10-  

δ7  -1519.0079 152.4581 -9.963 <2*10-16 

δ8  -2013.6185 152.4560 -13.208 <2*10-16 

δ9  -773.8654 152.4543 -5.076 5.99*10-

 δ10  -236.0517 152.4532 -1.548 0.1223

δ11  56.4590 152.4525 0.370 0.7113

R   = 0.9637 ,R  adj = 0.9626, Vp < 2.2 * 10-  

Tabla 9: Pronósticos puntuales del modelo lineal con sus respectivos intervalos de confianza por

fuera de la muestra.

Parámetro Estimación Límite inferior Límite superior

Julio 2013 26736.64 25496.21 27977.08

Agosto 2013 26268.43 25027.99 27508.86

Septiembre 2013 27534.58 26294.14 28775.02

Octubre 2013 28098.79 26858.36 29339.23

Noviembre 2013 28417.70 27177.27 29658.14

Diciembre 2013 28387.64 27147.21 29628.08

Page 15: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 15/28

 

Enero 2014 28072.08 26831.90 29312.26

Febrero 2014 28346.61 27106.43 29586.79

Marzo 2014 28546.93 27306.76 29787.11

Abril 2014 28536.61 27296.43 29776.79

Mayo 2014 28149.40 26909.23 29389.58

Junio 2014 27248.58 26008.40 28488.76

Julio 2014 27053.42 25812.43 28294.41

Agosto 2014 26585.21 25344.22 27826.20

Septiembre 2014 27851.36 26610.37 29092.35

Octubre 2014 28415.57 27174.58 29656.56

Noviembre 2014 28734.48 27493.49 29975.47

Diciembre 2014 28704.42 27463.43 29945.41

Enero 2015 28388.86 27148.11 29629.61

Febrero 2015 28663.39 27422.64 29904.14Marzo 2015 28863.71 27622.96 30104.46

Abril 2015 28853.39 27612.64 30094.14

Mayo 2015 28466.18 27225.43 29706.93

Junio 2015 27565.36 26324.61 28806.11

De la tabla de pronósticos (tabla 9) se puede observar que todas las predicciones están dentro de

sus respectivos intervalos de confianza. Los datos pronosticados representan el número esperado de

empleados mayores a 16 años que trabajan a tiempo parcial en Estados Unidos, entre julio del 2013

y junio del 2015.

2.6 Estabilidad del modelo seleccionado

Seleccionado el modelo, se ve la necesidad de saber si hay una relación estable entre los parámetros

del mismo. Para esto se procede a analizar su comportamiento a lo largo del tiempo para confirmar

si el modelo efectivamente explica el comportamiento de la serie y así tomar futuras decisiones

acertadas.

Este análisis se hace mediante pruebas que permiten ver dicha relación a lo largo del tiempoconocidas como estimaciones recursivas, residuales recursivos y el test CUSUM. Para validar el

supuesto de constancia de los parámetros se parte de la siguiente prueba de hipótesis:

Page 16: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 16/28

 

Sea : Vector de parámetros estimados del modelo lineal que se asume constante en el tiempo.

: Vector de parámetros estimados del modelo lineal que cambia a lo largo del tiempo.

: Vector de parámetros estimados del modelo lineal.

   

Por lo cual, los modelos actualizados bajos estas hipótesis, son los siguientes:

    (11)

    (12)

a)  Método de estimaciones recursivas de los parámetros.

Figura 9: Estimaciones recursivas para el parámetro  del modelo lineal.

De la figura 9 se concluye que a medida que se incrementa el número de datos, el parámetro no

converge a la línea de referencia, luego parece no ser estable.

50 100 150 200 250 300 350

     1     6     5     0     0

     1     7     0     0     0

     1     7     5     0     0

     1     8     0     0     0

Estimación recursiva del parámetro Beta 0

n1

     0

^0   17665.31

Page 17: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 17/28

 

Figura 10: Estimaciones recursivas para el parámetro  del modelo lineal.

De la figura 10 se puede concluir que a medida que se incrementa el número de datos, el parámetro

 tiende a converger al valor de la línea de referencia pero parece no estabilizarse sobre ella, portanto es posible que beta 1 no sea estable.

Figura 11: Estimaciones recursivas para el parámetro δ1.

En la figura 11 se ve claramente como el parámetro δ1, que es un parámetro para la estacionalidad,converge a la línea de referencia a medida que se incrementan el número de datos. 

50 100 150 200 250 300 350

   3   0

   4   0

   5   0

   6   0

Estimación recursiva del parámetro Beta 1

n1

   1

^1   26.1834

50 100 150 200 250 300 350

   -     1     0     0     0

   -     8     0     0

   -     6     0     0

   -     4     0     0

   -     2     0     0

     0

     2     0     0

Estimación recursiva del parámetro Delta 1

n1

     1

^1   369.2556

Page 18: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 18/28

 

Figura 12: Estimación recursiva del parámetro δ2.

Al analizar la figura 12 se puede concluir que el parámetro δ2, que es un parámetro para laestacionalidad, tiende a converger a la línea de referencia conforme se incrementan el número de

datos, por tanto el parámetro es estable.

Figura 13: Estimaciones recursivas para el parámetro δ3.

La grafica 13 muestra como el parámetro δ3  converge a la línea de referencia a medida que seaumenta el número de datos pero dicha convergencia se logra con un elevado número de datos, estoquiere decir que el parámetro posiblemente no sea estable.

50 100 150 200 250 300 350

   -     6     0     0

   -     4     0     0

   -     2     0     0

     0

     2     0     0

     4     0     0

     6     0     0

Estimación recursiva del parámetro Delta 2

n1

     2

^2   113.814

50 100 150 200 250 300 350

  -   4   0   0

  -   2   0   0

   0

   2   0   0

   4   0   0

   6   0   0

   8   0   0

Estimación recursiva del parámetro delta 3

n1

   3

^3   95.7839

Page 19: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 19/28

 

Figura 14: Estimaciones recursivas para el parámetro δ4.

Al analizar los resultados que muestra la figura 14, es claro como el parámetro delta 4, que es un

 parámetro de la estacionalidad, parece estabilizarse sobre la línea de referencia pero con unacantidad muy elevada de datos por lo tanto parece no ser estable.

Figura 15: Estimaciones recursivas para el parámetro δ5.

La figura 15 muestra como el parámetro empieza a converger a la línea roja de referencia cuando seempieza a tener un número de datos considerable, pero no centra sobre la línea de referencia, así el

 parámetro parece no ser estable.

50 100 150 200 250 300 350

  -   4   0   0

  -   2   0   0

   0

   2   0   0

   4   0   0

   6   0   0

   8   0   0

Estimación recursiva del parámetro delta 4

n1

   4

^4   38.4131

50 100 150 200 250 300 350

  -   5   0   0

   0

   5   0   0

Estimación recursiva del parámetro delta 5

n1

   5

^5   394.0203

Page 20: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 20/28

Page 21: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 21/28

 

Figura 18: Estimaciones recursivas para el parámetro δ8.

El parámetro delta 8 parece no ser estable ya que como se muestra en la figura 18, cuando se

incrementan los datos, no se evidencia una convergencia contundente de los datos sobre la línea dereferencia.

Figura 19: Estimaciones recursivas para el parámetro δ9.

De la figura 19 se puede concluir que el parámetro δ9 es estable ya que con el incremento de losdatos, se evidencia una convergencia continua sobre la línea de referencia para dicho parámetro.

50 100 150 200 250 300 350

  -   2   4   0   0

  -   2   2   0   0

  -   2   0   0   0

  -   1

   8   0   0

  -   1   6   0   0

  -   1   4   0   0

Estimación recursiva del parámetro delta 8

n1

   8

^8   2047.46

50 100 150 200 250 300 350

  -   1   4   0   0

  -

   1   2   0   0

  -   1   0   0   0

  -   8   0   0

  -   6   0   0

  -   4   0   0

  -   2   0   0

Estimación recursiva del parámetro delta 9

n1

   9

^9   815.579

Page 22: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 22/28

 

Figura 20: Estimaciones recursivas para el parámetro δ10.

Para el parámetro delta 10, para la estacionalidad, la estimación recursiva en la figura 20 muestraevidencia de que el parámetro no es estable, ya que a medida que se aumenta el número de

 parámetros no hay una convergencia sobre la línea de referencia.

Figura 21: Estimaciones recursivas para el parámetr o δ11.

Para el parámetro delta 11 cuyas estimaciones recursivas están evidenciadas en la figura 21, se tieneque conforme se aumentan los datos para las estimaciones, el parámetro tiende a converger sobre lalínea de referencia pero con un número muy alto de datos, por tanto parece no ser un parámetroestable.

Tras haber analizado la estabilidad de los parámetros a través de los residuales recursivos, se

concluye que al no ser uno de ellos estable, se rechaza la hipótesis nula y se asume que por estemétodos los parámetros no son estables a lo largo del tiempo.

 b)  Residuales recursivos y gráfica CUSUM

La expresión que define la estimación de los residuales recursivos estandarizados, se presenta en laecuación (13):

50 100 150 200 250 300 350

  -   6   0   0

  -   4   0   0

  -   2   0   0

   0

   2   0   0

   4   0   0

   6   0   0

Estimación recursiva del parámetro delta 10

n1

   1   0

^10   252.3107

50 100 150 200 250 300 350

  -   2   0   0

   0

   2   0   0

   4   0   0

   6   0   0

   8   0   0

Estimación recursiva del parámetro delta 11

n1

   1   1

^11   46.6995

Page 23: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 23/28

 

  ̂√ (  ̂)

  (13)

Donde ̂ es la estimación de los residuales recursivos y m es el tamaño de muestra empleado

en cada regresión recursiva.

Figura 22: Residuales recursivos estandarizados arriba y test CUSUM abajo para el modelo lineal.

De la gráfica superior de la figura 22, los residuales recursivos muestran claramente patronescíclicos, esto inmediatamente va en contra del supuesto de independencia, además globalmente hayindicios de problemas de varianza lo que se interpretaría en problemas con la estabilidad de los parámetros. Por otro lado en la gráfica inferior que es el test CUSUM, se ve que se cortan loslímites de confianza y estos son los que dicen que tan estable es el modelo; teniendo esto en mentese puede decir que el modelo escogido no es estable, luego a lo largo del tiempo no conserva surelación con los datos de la serie de tiempo original.

c)  Test CUSUM

El test CUSUM se basa en el estadístico de la expresión (14).

   

(14)

0 100 200 300

  -   1   0   0   0

   0

   1   0   0   0

   2   0   0   0

Residuales recursivos

t

   R  e  s

   i   d  u  a

   l  e  s  r  e  c  u  r  s

   i  v  o  s

Recursive CUSUM test

Time

   E  m  p

   i  r   i  c  a

   l   f   l  u  c

   t  u  a

   t   i  o  n  p  r  o  c  e  s

  s

1980 1985 1990 1995 2000 2005 2010

  -   6

  -   4

  -   2

   0

   2

Page 24: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 24/28

 

Tabla 10: Test CUSUM recursivo.

Test CUSUM recursivo

Estadístico Valor P Método

S = 2.1958 8.344*10-9  Recursive CUSUM test

De la tabla 10 se tiene un valor p con un valor muy bajo por lo que se rechaza la hipótesis nula deque los parámetros no varían a lo largo del tiempo. Con esto y con las gráficas de los residualesrecursivos para los parámetros, los residuales recursivos estandarizados y la gráfica CUSUM se puede decir que no se cumple la hipótesis de estabilidad y que los parámetros no llevan una relaciónconstante con el modelo escogido. Por tanto se presume que un modelo local ajustaría mejor a estaserie de tiempo.

Parte II

Punto particular

Es necesario considerar un modelo que ajuste localmente la serie; como ya se había dicho antes, al parecer un modelo de este tipo ajustaría mejor a la serie debido a que el mejor modelo global pierdesuavidad al intentar seguir el comportamiento de la misma.

Al igual que en el modelo global, se utilizará la estrategia de validación cruzada con los últimos 24datos, es decir, que el ajuste se hará con los primeros 378 datos. Un buen método para ajustarlocalmente, es la regresión LOESS, pero esta asume series sin patrón estacional, por tanto, para poder ajustar y pronosticar con este tipo de regresión, es necesario desestacionalizar la serie. Paraeste proceso, debido a que la serie es de componentes aditivas, partimos del modelo general

 presentado en la ecuación (15):   (15)

Antes de ajustar estacionalmente la serie es necesario filtrarla con la función decompose()de R yencontrar una estimación   de esta componente. Para conseguir una serie de solotendencia y error, se resta a ambos lados de la ecuación (15) la estacionalidad de la serie, entonces:

  (16)

Al obtener esta serie desestacionalizada es apropiado realizar regresión LOESS y obtener unaestimación   de la serie de tiempo resultante de la ecuación (16), mediante la funciónloess.as()de R. Como la regresión LOESS plantea polinomios locales de grado 1 y 2, senecesita escoger el que mejor ajuste y pronostique la serie. Utilizando el spam óptimo en cadamodelo, según criterios de información, se determinó que el mejor modelo es el LOESS lineal. Loanterior de corrobora con la tabla 11, en la que se observan los valores MAPE de cada uno de losmodelos.

Page 25: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 25/28

 

Tabla 11: Medida de exactitud MAPE para medir la precisión de los pronósticos para los modelos.

Modelo Lineal Cuadrático

MAPE 1.068808 1.662598

Figura 23: Serie desestacionalizada y su ajuste LOESS óptimo.

Para generar valores estimados en este método de ajuste global, se procede de la ecuación (17):

  (17)

Es necesario, considerar una medida de error en el ajuste y pronóstico de los datos; para estemodelo, el error de ajuste se calcula de la siguiente manera:

∑   , donde =341 son los grados de libertad aproximados reportados por la

regresión LOESS, n=378 y  es el patrón estacional de la serie: Cantidad mensual de trabajadoresque laboran menos de treinta y cinco horas en Estados Unidos. El cálculo de esta medida es En comparación con el MSE del modelo global, la diferencia entre estos valoreses considerable, por lo que se puede concluir que este ajuste Loess lineal modela mejor la serie propuesta.

El error de pronóstico es esbozado por la medida del MAPE, el cual esta reportado en la tabla 11,

que implementa la estrategia de validación cruzada, que a su vez, parte del modelo que representa laecuación (18) para las estimaciones:

  (18)

Donde,   es el valor estimado de la estacionalidad en   y es el valor pronosticado por la regresión LOESS y la función predict() en R para la

Serie desestacionalizada y su ajuste LOESS óptimo

Time

  a   j  u  s

   t  e

1980 1985 1990 1995 2000 2005 2010

   1   8

   0   0   0

   2   0   0   0   0

   2   2   0   0   0

   2   4   0   0   0

   2   6   0   0   0

   2   8   0   0   0

Serie ajustada

Loess

spam óptimo=0.05567937

Page 26: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 26/28

 

tendencia en donde L representa la cantidad de datos considerados para la validacióncruzada, que en este caso corresponde a un patrón estacional completo. 

Figura 24: Serie real, su ajuste con regresión LOESS lineal y sus pronósticos.

Serie real, ajustes y pronósticos

Ajuste por descomposición & LOESS lineal

Time

   d  a

   t  o  s

   3   3

1980 1985 1990 1995 2000 2005 2010

   1   6   0   0   0

   1   8   0   0   0

   2   0   0   0   0

   2   2   0   0   0

   2   4   0   0   0

   2   6   0   0   0

   2   8   0   0   0

Original

 Ajustada

Pronósticos

Page 27: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 27/28

 

Parte III: Conclusiones

Al tratar de modelar la serie de personas que trabajan a tiempo parcial en Estados Unidos mayores de 16 años,

mediante un modelo global que propone una tendencia polinómica, se ve que el ajuste modela en cierta forma

de manera correcta debido a que a que la tendencia es lineal, pero la presencia de ciclos en ciertos periodos de

la serie no permite que el modelo se ajuste correctamente, de hecho, entre 1995 y 2000 históricamente hay un

resurgimiento de la productividad del trabajo en Estados Unidos [3], hecho que explica el crecimiento de la

serie en ese período.

Teniendo en cuenta que los valores de las medidas de exactitud para determinar la calidad del ajuste y del

 pronóstico son similares entre los dos modelos propuestos (lineal y cúbico), se llega a la conclusión de que el

modelo lineal ajusta mejor la serie porque la tendencia muestra este comportamiento. La carencia de ajuste alestimar el modelo lineal y pronosticar, se debe a los ciclos que persisten en la serie en determinados períodos,

 por esto se espera que un ajuste local pueda seguir estos cambios con mejor precisión. Otra razón por la cual

se selecciona el modelo lineal es que en el largo plazo el modelo cubico crecerá de manera muy pronunciada

y por tanto es probable que dicho modelo no ajuste de manera adecuada la serie en valores futuros a largo

 plazo; factor que lleva a tener en cuenta el hecho de que dicho modelo no es el adecuado para hacer

 pronósticos a largo plazo.

Al llevar a cabo la descomposición y regresión LOESS lineal, se ve que ésta modela la serie mejor que los

modelos globales ya que es capaz de seguir los ciclos mejor que un modelo global. Esto se evidencia sobretodo el comparar el valor del MAPE entre este modelo y los modelos globales propuestos, el cual es menor.

Además, al observar los gráficos del ajuste se evidencia que LOESS lineal sigue mejor los ciclos, siendo esto

 prueba de que un modelo local ajusta mejor la serie.

Una de las razones que muestran validez y confiabilidad en los pronósticos del modelo lineal, sonlos pronósticos puntuales y los intervalos de predicción, que como se ven en las tablas anteriores,muestran que por dentro de la muestra son adecuadas para pronosticar, lo que supone que a corto plazo lo serán para predecir por fuera de ella.

Para el análisis de la componente estacional se logra observar un patrón repetitivo año tras año de manera

clara, por esto es indiferente utilizar funciones trigonométricas o indicadoras para modelarla.

Page 28: Trabajo I Estadistica III

8/12/2019 Trabajo I Estadistica III

http://slidepdf.com/reader/full/trabajo-i-estadistica-iii 28/28