69
Grado en Ingeniería Grado en Ingeniería Asignatura: Estadística. Asignatura: Estadística. Tema: Regresión. Tema: Regresión. Grado en Ingeniería. Estadística. Tema 4

Grado en Ingeniería Asignatura: Estadística. Tema: Regresión

  • Upload
    crete

  • View
    51

  • Download
    0

Embed Size (px)

DESCRIPTION

Grado en Ingeniería Asignatura: Estadística. Tema: Regresión. Grado en Ingeniería. Estadística. Tema 4. Regresión. Introducción. Relaciones no deterministas. Regresion simple. Modelo . Estimación. Diagnosis. Regresion múltiple. Gráficos de dispersión múltiples. Estimación. Diagnosis. - PowerPoint PPT Presentation

Citation preview

Page 1: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería Grado en Ingeniería

Asignatura: Estadística.Asignatura: Estadística.

Tema: Regresión.Tema: Regresión.

Grado en Ingeniería. Estadística. Tema 4

Page 2: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 2

RegresiónRegresión

Introducción. Relaciones no deterministas.Regresion simple.

Modelo .Estimación.Diagnosis.

Regresion múltiple.Gráficos de dispersión múltiples.Estimación.Diagnosis.Previsiones.

Multicolinealidad.Variables ficticias (dummy).

Page 3: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 3

ObjetivosObjetivos

Saber analizar las relaciones entre variables a través de un modelo de regresión lineal que describa cómo influye una variable X sobre otra variable Y. Saber obtener estimaciones puntuales de los parámetros de dicho modelo. Saber construir intervalos de confianza y resolver contrastes sobre dichos parámetros. Saber estimar el valor promedio de Y para un valor de X. Saber predecir futuros valores de la variable respuesta Y.

Page 4: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 4

Relaciones entre variablesRelaciones entre variables

La regresión estudia relaciones entre variables.

Qué tipo de relaciones entre variables pueden existir:

-Relaciones deterministas (exactas).

- Relaciones no deterministas (no exactas).

Page 5: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 5

Relaciones deterministasRelaciones deterministas

Diremos que una relación entre dos variables es determinista cuando al conocer el valor de una de las variables podemos conocer

exactamente el valor de la otra.

Corresponden a una relación matemática exacta, una función.

Y = f(x)

Page 6: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 6

Relaciones no deterministasRelaciones no deterministas

La relación entre las dos variables no es exacta. Conocido el valor deuna de las variables, no podemos conocer el valor exacto de la otra.

Sabemos que existe relación entre las variables pero no es exacta.

Page 7: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 7

RegresiónRegresión

¿Qué hace la regresión?

La relación no es exacta y el modelo no es exacto, pero es muy útil.

Crea un modelo lineal para simular la relación entre variables.

Page 8: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 8

Regresión: residuosRegresión: residuos

Si la relación no es exacta, siempre cometeremos un cierto error.

La distancia de cada punto (real) a la recta es la parte que el modelo no puede predecir.Estimaremos la recta de regresión para que los errores que cometemos sean mínimos (Estimación por Mínimos Cuadrados), exigiendo que el error medio sea cero.

e = residuo

Page 9: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 9

¿Cómo se calcula la recta de regresión?¿Cómo se calcula la recta de regresión?

Page 10: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 10

X YIndependienteExplicativa

Es el valor que conocemos

DependienteRespuestaA explicar

Es lo que queremos predecir

¿Cómo denominamos a las variables?¿Cómo denominamos a las variables?

Page 11: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 11

Regresión: un ejemploRegresión: un ejemplo

Analicemos la relación entre los costes de producción en un proceso y la cantidad de piezas producidas . Plot of log(TOT_COST) vs log(UDS)

log(UDS)

log(

TOT_

CO

ST)

2,1 2,4 2,7 3 3,3 3,6 3,91,7

2,7

3,7

4,7

5,7

Y = coste de producción,X = piezas producidas.

Calcularemos la recta con Statgraphics

Page 12: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 12

Regresión: un ejemploRegresión: un ejemplo

Plot of log(TOT_COST) vs log(UDS)

log(UDS)

log(

TOT_

CO

ST)

2,1 2,4 2,7 3 3,3 3,6 3,91,7

2,7

3,7

4,7

5,7

coste prod = 0,783429 + 0,669509*piezas producidas

Page 13: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 13

Regresión: un ejemploRegresión: un ejemplo

Plot of log(TOT_COST) vs log(UDS)

log(UDS)

log(

TOT_

CO

ST)

2,1 2,4 2,7 3 3,3 3,6 3,91,7

2,7

3,7

4,7

5,7

coste prod = 0,783429 + 0,669509*piezas producidas

Por tanto, una empresa que produzca un millón de unidades tendrá unos costes de:

coste prod = 0,783429 + 0,669509* 1 = 1,45 millones €.

¿Todas las empresas con ese volumen de producción tienen el mismo coste?

Page 14: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 14

Regresión: un ejemploRegresión: un ejemplo

Plot of log(TOT_COST) vs log(UDS)

log(UDS)

log(

TOT_

CO

ST)

2,1 2,4 2,7 3 3,3 3,6 3,91,7

2,7

3,7

4,7

5,7

Hay un rango de variación del coste, de 2,8 a 4,8 milllones de €.

En concreto, para la empresa donde trabajo: coste prod = 1,66 millones.

Pero el modelo dice:

coste prod = 0,783429 + 0,669509* 1 = 1, 46 millones €.

Por tanto, el error que cometemos será 1,66 – 1,46 = 0,2 millones.

¿Todas las empresas con ese volumen de producción tienen el mismo coste??

Page 15: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 15

¿Podemos aplicar el modelo de regresión a todos los tipos de datos?

No, para que las conclusiones de nuestro modelos sean las correctas, los datos que manejamos deben cumplir:

1. Linealidad.2. Homocedasticidad.3. Independencia.4. Normalidad.

Hipótesis del modeloHipótesis del modelo

Page 16: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 16

Esta es una hipótesis fundamental. Los datos deben seguir una tendencia lineal, estar altamente correlacionados.

LinealidadLinealidad

Page 17: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 17

La regresión no representará correctamente la relación entre los datos.

Linealidad: ¿qué pasa si los datos no son Linealidad: ¿qué pasa si los datos no son lineales?lineales?

Si nuestros datos no son lineales, podemos buscar una transformación matemática (log, sqrt…) que mejore su

linealidad.

Page 18: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 18

HomocedasticidadHomocedasticidad

Esta hipótesis consiste en asegurar que nuestros datos tienen varianza constante, es decir la gráfica debe ser

• Cuando la varianza de los datos es constante se dice que son HOMOCEDÁSTICOS.

• ¿Qué sucede si los datos son no son homocedásticos?

Page 19: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 19

Gastos - Ingresos

Ingresos

Gas

tos

0 2 4 6 8(X 100000)

0

0,2

0,4

0,6

0,8

1(X 1,E6)

Homocedasticidad: datos Homocedasticidad: datos heterocedásticosheterocedásticos

Cuando la varianza no es constante, se dice que los datos son HETEROCEDÁSTICOS.¿Cómo afecta esto a la regresión?

Los errores en la previsión serían más grandes a medida que aumenta el valor de las variables!

No se debe aplicar regresión a datos heterocedásticos. Hay que transformarlos (por ejemplo, LOG).

Page 20: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 20

Comprobación de la linealidad y homocedasticidadComprobación de la linealidad y homocedasticidad

La comprobación de las hipótesis de linealidad y homocedasticidad podemos realizarla mediante un análisis grafico (gráficos de dispersión) de nuestros datos.

Plot of log(TOT_COST) vs log(UDS)

log(UDS)

log(

TOT_

CO

ST)

2,1 2,4 2,7 3 3,3 3,6 3,91,7

2,7

3,7

4,7

5,7

Si los datos cumplen estas hipótesis podemos continuar nuestro análisis.

Page 21: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 21

IndependenciaIndependencia

Exigimos que los datos que estamos analizando sean independientes unos de otros:

- Si analizamos los costes en función del volumen de producción para distintas fábricas, asumimos que los datos de una fabrica no afectan a los de otra.

- NO pueden analizarse con regresión valores de una secuencia temporal, ya que cada dato depende del anterior.

Page 22: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 22

NormalidadNormalidad

La última de las hipótesis del modelo exige que los datos que analizamos sean normales. ¿Qué significa esto?

Plot of log(TOT_COST) vs log(UDS)

log(UDS)

log(

TOT_

CO

ST)

2,1 2,4 2,7 3 3,3 3,6 3,91,7

2,7

3,7

4,7

5,7

Hemos dicho que para cada valor de X, la Y toma valores en un cierto rango.

Asumimos que los valores que Y toma para cada valor de X siguen una distribución normal.

Page 23: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 23

El modeloEl modelo

Si los datos cumplen las hipótesis que hemos formulado, ya podemos estimarlo:

coste prod = 0,783429 + 0,669509*piezas producidas

Page 24: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 24

El modeloEl modelo

Es el valor de Y cuando la X vale 0 (no siempre tiene sentido real).

coste prod = 0,783429 + 0,669509*piezas producidas

El signo “+” nos indica que las dos variables crecen a la vezEl signo “-” nos indica que, si una variable crece, la otra

decrece.Además, nos dice cómo crece la Y cuando lo hace la X.

YX.

Por tanto, en nuestro ejemplo, ¿cuanto aumentará el coste si las piezas producidas aumentan en un millón?

(coste prod) = 0,669509*(piezas producidas) = 0,67 millones.

Page 25: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 25

En regresión partimos de una muestra de datos y a partir de ella estimamos el modelo.

Regresión: un problema….Regresión: un problema….

Plot of log(TOT_COST) vs log(UDS)

log(UDS)

log(

TOT_

CO

ST)

2,1 2,4 2,7 3 3,3 3,6 3,91,7

2,7

3,7

4,7

5,7

coste prod = 0,783429 + 0,669509*piezas producidas

Page 26: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 26

Si variamos la muestra, cambiarán los parámetros del modelo (los números que hemos calculado).¿Es posible elegir una muestra que nos de esta gráfica?

Regresión: un problema….Regresión: un problema….

-3 -2 -1 0 1 2 3-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

Si esto sucede, la pendiente de la recta sera cero y se dice que LA REGRESIÓN NO ES SIGNIFICATIVA.

Page 27: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 27

Queremos estar seguros de que nuestra regresión es válida independientemente de la muestra considerada.Queremos estar seguros de que la regresión vale para toda la población estudiada y no solo para una muestra concreta.QUEREMOS ASEGURARNOS DE QUE NUNCA VALE CERO.

Regresión: un problema….Regresión: un problema….

-3 -2 -1 0 1 2 3-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

Page 28: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 28

Análisis de significación Análisis de significación

Para analizar si es cero, tenemos tres herramientas:

Intervalos de confianza.

Contrastes de Hipótesis:Estadístico t.

p-valor.

Page 29: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 29

Intervalos de confianzaIntervalos de confianza

Calcularemos un rango donde estará la estimación del verdadero valor de cualquiera que sea la muestra que tomemos.Esto lo aseguramos con una cierta probabilidad (generalmente el 95%).

-2xSE() +2xSE()

Si el valor 0 no pertence al intervalo, el parámetro es significativo.

Page 30: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 30

Intervalos de confianzaIntervalos de confianza

El 0 no pertenece al intervalo, el parámetro es significativo.

coste prod = 0,783429 + 0,669509*piezas producidas

-2xSE() ; +2xSE() )

( 0,67-2*0,7; 0,67+2*0,7) = (0,53; 0,81)

Page 31: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 31

Contrastes de hipótesisContrastes de hipótesis

Una alternativa para asegurar que no es cero es plantear un contraste según la forma estándar:

H0: =0,H1: ≠0.

Statgraphics nos da el p-valor de este contraste.

p<0.05Rechazamos Ho

La regresión es significativa.

Page 32: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 32

Contrastes de hipótesis: Prueba de la tContrastes de hipótesis: Prueba de la t

Aun tenemos una alternativa al p valor para resolver el contraste:

H0: =0H1: ≠0

p<0.05Rechazamos Ho

La regresion es significativa

Page 33: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 33

Contrastes de hipótesis: Prueba de la tContrastes de hipótesis: Prueba de la t

Aún tenemos una alternativa al p-valor para resolver el contraste:

H0: =0,H1: ≠0.

|t|>2 rechazamos Ho,|t|<2 aceptamos Ho.

|t|>2Rechazamos Ho

La regresión es significativa.

Page 34: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 34

¿Es bueno mi modelo? ¿Cuánto? -> ¿Es bueno mi modelo? ¿Cuánto? -> RR22

El coeficiente R2 indica cuánto de Y es explicado por X

Ejemplo: R2=71.76%

R2 = coeficiente de correlación muestral al cuadrado.

Page 35: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 35

ResumenResumen

Estudiamos los datos y vemos si cumplen las hipótesis.Si no las cumplen, transformamos.Ajustamos el modelo.Intervalos y contrastes para ver si X es significativa (INFLUYE) sobre Y.

Page 36: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 36

DiagnosisDiagnosis

Las decisiones que podemos tomar gracias a la información aportada por un modelo de regresión son importantes.Necesitamos estar seguros de que nuestras conclusiones son correctas.Para ello:

Contrastes, intervalos de confianza….Diagnosis: comprobar una vez más que se cumplen las hipótesis del modelo.

En la diagnosis del modelo, comprobamos que la parte aleatoria del modelo (sus residuos) no contiene información adicional ni refleja lagunas en el cumplimiento de las hipótesis del modelo (linealidad, homocedasticidad, independencia y normalidad)

Page 37: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 37

DiagnosisDiagnosis

La diagnosis se realiza observando los gráficos de los residuos: debemos ver gráficos como este:

Page 38: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 38

DiagnosisDiagnosis

No podemos aceptar residuos con otros comportamientos:

0 20 40 60 80 1000

500

1000

1500

2000

2500

3000

500 1000 1500 2000 2500 3000-1500

-1000

-500

0

500

1000

Page 39: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 39

RegresiónRegresión

Introducción. Relaciones no deterministas.Regresion simple.

Modelo .Estimación.Diagnosis.

Regresion múltiple.Gráficos de dispersión múltiples.Estimación.Diagnosis.Previsiones.

Multicolinealidad.Variables ficticias (dummy).

Page 40: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 40

Regresión múltipleRegresión múltiple

En un modelo de regresión múltiple, queremos conocer el valor de una variable respuesta a partir de más de una variable explicativa:

En esta expresión, cada uno de los coeficientes beta representa la influencia individual que cada una de las X tiene sobre Y.Ventajas:

Las hipótesis del modelo son las mismas que en regresión simple.Los contrastes, intervalos, diagnosis… también.

Pequeños inconvenientes:La visualización de los gráficos es un poco más complicada.Necesitamos redefinir el coeficiente R2.

Page 41: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 41

Regresion multiple: GraficosRegresion multiple: Graficos

Cada celda del gráfico matricial representa la relación bilateral entre dos variables:

TOT_COSTUDS

MANPOWERENERGY

INVESTMAINT

MATENV

Page 42: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 42

Regresión múltiple: R2 corregidoRegresión múltiple: R2 corregido

El coeficiente R2 tiene el inconveniente de que se incrementa al aumentar el número de variables en el modelo (ya sean significativas o no). Para paliar este efecto, corregimos el coeficiente para que tenga en cuenta este efecto, por lo que en regresión múltiple se utiliza el coeficiente R2 corregido ( o ajustado).

Dependent variable: log(TOT_COST) ----------------------------------------------------------------------------- Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------- CONSTANT -1,82352 0,313487 -5,81689 0,0000 log(UDS) 0,666417 0,116524 5,71913 0,0000 log(MANPOWER) 0,157212 0,0551564 2,85029 0,0052 log(ENERGY) 0,174001 0,0489637 3,55367 0,0005 log(INVEST) 0,216335 0,0365883 5,91267 0,0000 log(MAINT) -0,0199751 0,0594171 -0,336185 0,7373 log(MAT) 0,139431 0,0221418 6,2972 0,0000 log(ENV) 0,0027926 0,0178724 0,156252 0,8761 -----------------------------------------------------------------------------

Adjusted R2 =

Page 43: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 43

RegresiónRegresión

Introducción. Relaciones no deterministas.Regresion simple.

Modelo .Estimación.Diagnosis.

Regresion múltiple.Gráficos de dispersión múltiples.Estimación.Diagnosis.Previsiones.

Multicolinealidad.Variables ficticias (dummy).

Page 44: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 44

EjemploEjemplo

0 4 8 12 16 20 24(X 1000)matricul

0

0,5

1

1,5

2

2,5

3(X 1000)

nacc

iden

Número de accidentes en provincias españolasen función del número devehículos matriculados.

-----------------------------------------------------------------------------Dependent variable: nacciden----------------------------------------------------------------------------- Standard TParameter Estimate Error Statistic P-Value-----------------------------------------------------------------------------CONSTANT 278,24 102,518 2,71406 0,0265matricul 0,0993373 0,00850344 11,682 0,0000-----------------------------------------------------------------------------R-squared (adjusted for d.f.) = 93,7703 percent

Page 45: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 45

EjemploEjemplo

Número de accidentes en provincias españolasen función del número depermisos de conducir

-----------------------------------------------------------------------------Dependent variable: nacciden----------------------------------------------------------------------------- Standard TParameter Estimate Error Statistic P-Value-----------------------------------------------------------------------------CONSTANT 216,481 127,099 1,70325 0,1269permisos 0,107617 0,0109657 9,81395 0,0000-----------------------------------------------------------------------------R-squared (adjusted for d.f.) = 91,3722 percent

permisos

nacc

iden

0 4 8 12 16 20 24(X 1000)

0

0,5

1

1,5

2

2,5

3(X 1000)

Page 46: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 46

RegresionesRegresiones

Accid=278.2 +0.1 Matriculas (11.68)

Accid=216.4 +0.1 Permisos (9.81)

Page 47: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 47

Regresión con las dos variablesRegresión con las dos variables

-----------------------------------------------------------------------------

Dependent variable: nacciden

-----------------------------------------------------------------------------

Standard T

Parameter Estimate Error Statistic P-Value

-----------------------------------------------------------------------------

CONSTANT 250,63 113,216 2,21373 0,0625

matricul 0,0725492 0,0395634 1,83374 0,1093

permisos 0,0301069 0,043353 0,694461 0,5098

-----------------------------------------------------------------------------

Page 48: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 48

RegresionesRegresiones

Accid=278.2 +0.1 Matriculas (11.68)

Accid=216.4 +0.1 Permisos (9.81)

Accid=250+0.07 Matriculas +0.03 Permisos (1.8) (0.69)

Page 49: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 49

¿Qué está pasando?¿Qué está pasando?

permisos

mat

ricul

0 4 8 12 16 20 24(X 1000)

0

4

8

12

16

20

24(X 1000)

Correlación=.975

Page 50: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 50

Regresión: un problemaRegresión: un problema

A veces las variables independientes son muy parecidas: contienen la misma información.

VariableDependiente

VariablesIndependientes

Page 51: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 51

Regresión: un problemaRegresión: un problema

El modelo no puede diferenciar entre las variables.

VariableDependiente

VariablesIndependientes

Page 52: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 52

En nuestro ejemploEn nuestro ejemplo

Num AccidMatrículasPermisos

Ambas son muy parecidas para distinguir entre ellas.

Page 53: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 53

En nuestro ejemploEn nuestro ejemplo

Num AccidMatrículasPermisos

Ambas son muy parecidas para distinguir entre ellas.

Solución: eliminar una variable.Perdemos muy poca información.

Page 54: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 54

En nuestro ejemploEn nuestro ejemplo

Num AccidMatrículas

Ambas son muy parecidas para distinguir entre ellas.

Solución: eliminar una variable.Perdemos muy poca información.

Page 55: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 55

El problema de multicolinealidad aparece en casi todos los trabajos estadísticos.Tendemos a medir una cosa de muchas formas.Se detecta:

En regresión simple, las variables son significativas.Al introducir nuevas variables, dejan de ser significativas.

Page 56: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 56

RegresiónRegresión

Introducción. Relaciones no deterministas.Regresion simple.

Modelo .Estimación.Diagnosis.

Regresion múltiple.Gráficos de dispersión múltiples.Estimación.Diagnosis.Previsiones.

Multicolinealidad.Variables ficticias (dummy).

Page 57: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 57

Estudiamos Pesos - AlturasEstudiamos Pesos - Alturas

¿Es igual la relación para hombres que para mujeres?

PesoPeso

AlturaAltura

Page 58: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 58

Estudiamos Pesos - AlturasEstudiamos Pesos - Alturas

¿Es igual la relación para hombres que para mujeres?

PesoPeso

AlturaAltura AlturaAltura

PesoPeso

Page 59: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 59

Estudiamos Pesos - AlturasEstudiamos Pesos - Alturas

Si la relación no es igual, podemos cometer errores graves:

PesoPeso

AlturaAltura AlturaAltura

PesoPeso

Page 60: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 60

EjemplosEjemplos 

Variable Y Variable X Grupo que puede influir

Peso Altura Sexo: Hombre o Mujer

Consumo de un trabajador

Ingresos del trabajador

Status laboral: Paro o Empleado

Consumo de un automóvil

Potencia Motor: Diésel o Gasolina

Margen Ordinario de una sucursal bancaria

Comisiones Sucursal: Urbana o Rural

 

Page 61: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 61

Es necesario introducir el grupo:Es necesario introducir el grupo:

Para ello:• definiremos una variable Z que tome los siguientes valores:

 Zi =0 si una observación pertenece al grupo A

Zi=1 si una observación pertenece al grupo B • y estimaremos el siguiente modelo de regresión:  

ZXy 210ˆˆˆˆ

Page 62: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 62

El modelo que se estima:El modelo que se estima:

ZXy 210ˆˆˆˆ

•Mujeres: Les asignamos Z=0. Por tanto:

Xy 10ˆˆˆ

Xy 120ˆ)ˆˆ(ˆ

•Hombres: Les asignamos Z=1. Por tanto:

Page 63: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 63

Por tanto:Por tanto:

Peso

Altura

Xy 10ˆˆˆ

Xy 120ˆ)ˆˆ(ˆ

El efecto es que un hombre de la misma altura pesa b2 kilos más que una mujer de su misma altura.

¿O no?¿O no?

Page 64: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 64

Hagámoslo:Hagámoslo:

Dependent variable: peso----------------------------------------------------------------------------- Standard TParameter Estimate Error Statistic P-Value-----------------------------------------------------------------------------CONSTANT -77,7888 16,0908 -4,83438 0,0000altura 0,842013 0,0905752 9,29628 0,0000sexo -5,17748 2,20877 -2,34405 0,0208-----------------------------------------------------------------------------R-squared = 60,8791 percentR-squared (adjusted for d.f.) = 60,1927 percent

Sexo=0 Hombres Sexo=1 Mujeres

Por tanto: un hombre que mida 180 pesará= -78+0.84x180=73 kilos

..... y una mujer de la misma altura pesará=-78+0.84x180-5.17=68 kilos

La diferencia existe porque t=-2.34 que es mayor que 2 en valor absoluto

Page 65: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 65

ResultadoResultado

Peso

Altura

Mujeres

Hombres5 Kilos

Page 66: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 66

InteraccionesInteracciones

Hemos supuesto que las rectas son paralelas.¿Y si no lo son?

B

A

Y

X

Page 67: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 67

Modelización de las interaccionesModelización de las interacciones

La modelización de la interacción es sencilla. Hay que estimar un modelo de regresión entre:

·       la variable Y,·       la variable X,·       la variable Z,·       la interacción de X y Z que se modeliza por el

producto (XZ). XZZXy 3210ˆˆˆˆˆ

Para el grupo con Z=0 Xy 10ˆˆˆ

Para el grupo con Z=1 XXXy )ˆˆ()ˆˆ(ˆˆˆˆˆ 31203210

Por tanto, analizar si existe interacción se reduce a estimar un modelo de regresión y analizar si el parámetro es significativo (estadístico t mayor de 2) en la estimación realizada.

Page 68: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 68

Ejemplo:Ejemplo:Ventas de empresas del sector servicios en Ventas de empresas del sector servicios en Madrid en función de su inversión en I+DMadrid en función de su inversión en I+D

Plot of ventas vs id

0 0.5 1 1.5 2 2.5 3(X 1000)id

0

40

80

120

160

200

240ve

ntas

Plot of log(ventas) vs log(id)

log(id)

log(

vent

as)

3.1 4.1 5.1 6.1 7.1 8.12.7

3.2

3.7

4.2

4.7

5.2

5.7

LOG(VENTAS) =

Page 69: Grado en Ingeniería  Asignatura: Estadística. Tema: Regresión

Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 69

Queremos estudiar si hay diferencias por estar en el sector telecomunicaciones

TELECO=1 Si está en el sector telecoTELECO=0 si no está en ese sector

LOG(VENTAS) =2.25+ 0.288 Log(ID)+0.527 TELECO (t) (11.12) (8.08) (7.03) R2 = 61.05%

•Si la empresa funciona en el sector teleco:Log(VENTAS)= 2.78 + 0.288 log(ID)

•Si funciona en otro sector:Log(VENTAS) = 2.25 + 0.288 log(ID)

Estimamos la interacción:Log(VENTAS)=1.99+0.334Log(ID)+1.80 TELECO-0.202 TELECOxLog(ID)(t) (8.84) (8.40) (3.40) (-2.43) R2= 62.8%•Si no está en el sector teleco

Log(VENTAS) = 1.99 + 0.334 log(ID) •Si está en el sector teleco

Log(VENTAS) = 3.8 + 0.13 log(ID)

Ejemplo:Ejemplo:Ventas de empresas del sector servicios en Ventas de empresas del sector servicios en Madrid en función de su inversión en I+DMadrid en función de su inversión en I+D