Upload
crete
View
51
Download
0
Tags:
Embed Size (px)
DESCRIPTION
Grado en Ingeniería Asignatura: Estadística. Tema: Regresión. Grado en Ingeniería. Estadística. Tema 4. Regresión. Introducción. Relaciones no deterministas. Regresion simple. Modelo . Estimación. Diagnosis. Regresion múltiple. Gráficos de dispersión múltiples. Estimación. Diagnosis. - PowerPoint PPT Presentation
Citation preview
Grado en Ingeniería Grado en Ingeniería
Asignatura: Estadística.Asignatura: Estadística.
Tema: Regresión.Tema: Regresión.
Grado en Ingeniería. Estadística. Tema 4
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 2
RegresiónRegresión
Introducción. Relaciones no deterministas.Regresion simple.
Modelo .Estimación.Diagnosis.
Regresion múltiple.Gráficos de dispersión múltiples.Estimación.Diagnosis.Previsiones.
Multicolinealidad.Variables ficticias (dummy).
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 3
ObjetivosObjetivos
Saber analizar las relaciones entre variables a través de un modelo de regresión lineal que describa cómo influye una variable X sobre otra variable Y. Saber obtener estimaciones puntuales de los parámetros de dicho modelo. Saber construir intervalos de confianza y resolver contrastes sobre dichos parámetros. Saber estimar el valor promedio de Y para un valor de X. Saber predecir futuros valores de la variable respuesta Y.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 4
Relaciones entre variablesRelaciones entre variables
La regresión estudia relaciones entre variables.
Qué tipo de relaciones entre variables pueden existir:
-Relaciones deterministas (exactas).
- Relaciones no deterministas (no exactas).
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 5
Relaciones deterministasRelaciones deterministas
Diremos que una relación entre dos variables es determinista cuando al conocer el valor de una de las variables podemos conocer
exactamente el valor de la otra.
Corresponden a una relación matemática exacta, una función.
Y = f(x)
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 6
Relaciones no deterministasRelaciones no deterministas
La relación entre las dos variables no es exacta. Conocido el valor deuna de las variables, no podemos conocer el valor exacto de la otra.
Sabemos que existe relación entre las variables pero no es exacta.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 7
RegresiónRegresión
¿Qué hace la regresión?
La relación no es exacta y el modelo no es exacto, pero es muy útil.
Crea un modelo lineal para simular la relación entre variables.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 8
Regresión: residuosRegresión: residuos
Si la relación no es exacta, siempre cometeremos un cierto error.
La distancia de cada punto (real) a la recta es la parte que el modelo no puede predecir.Estimaremos la recta de regresión para que los errores que cometemos sean mínimos (Estimación por Mínimos Cuadrados), exigiendo que el error medio sea cero.
e = residuo
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 9
¿Cómo se calcula la recta de regresión?¿Cómo se calcula la recta de regresión?
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 10
X YIndependienteExplicativa
Es el valor que conocemos
DependienteRespuestaA explicar
Es lo que queremos predecir
¿Cómo denominamos a las variables?¿Cómo denominamos a las variables?
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 11
Regresión: un ejemploRegresión: un ejemplo
Analicemos la relación entre los costes de producción en un proceso y la cantidad de piezas producidas . Plot of log(TOT_COST) vs log(UDS)
log(UDS)
log(
TOT_
CO
ST)
2,1 2,4 2,7 3 3,3 3,6 3,91,7
2,7
3,7
4,7
5,7
Y = coste de producción,X = piezas producidas.
Calcularemos la recta con Statgraphics
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 12
Regresión: un ejemploRegresión: un ejemplo
Plot of log(TOT_COST) vs log(UDS)
log(UDS)
log(
TOT_
CO
ST)
2,1 2,4 2,7 3 3,3 3,6 3,91,7
2,7
3,7
4,7
5,7
coste prod = 0,783429 + 0,669509*piezas producidas
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 13
Regresión: un ejemploRegresión: un ejemplo
Plot of log(TOT_COST) vs log(UDS)
log(UDS)
log(
TOT_
CO
ST)
2,1 2,4 2,7 3 3,3 3,6 3,91,7
2,7
3,7
4,7
5,7
coste prod = 0,783429 + 0,669509*piezas producidas
Por tanto, una empresa que produzca un millón de unidades tendrá unos costes de:
coste prod = 0,783429 + 0,669509* 1 = 1,45 millones €.
¿Todas las empresas con ese volumen de producción tienen el mismo coste?
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 14
Regresión: un ejemploRegresión: un ejemplo
Plot of log(TOT_COST) vs log(UDS)
log(UDS)
log(
TOT_
CO
ST)
2,1 2,4 2,7 3 3,3 3,6 3,91,7
2,7
3,7
4,7
5,7
Hay un rango de variación del coste, de 2,8 a 4,8 milllones de €.
En concreto, para la empresa donde trabajo: coste prod = 1,66 millones.
Pero el modelo dice:
coste prod = 0,783429 + 0,669509* 1 = 1, 46 millones €.
Por tanto, el error que cometemos será 1,66 – 1,46 = 0,2 millones.
¿Todas las empresas con ese volumen de producción tienen el mismo coste??
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 15
¿Podemos aplicar el modelo de regresión a todos los tipos de datos?
No, para que las conclusiones de nuestro modelos sean las correctas, los datos que manejamos deben cumplir:
1. Linealidad.2. Homocedasticidad.3. Independencia.4. Normalidad.
Hipótesis del modeloHipótesis del modelo
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 16
Esta es una hipótesis fundamental. Los datos deben seguir una tendencia lineal, estar altamente correlacionados.
LinealidadLinealidad
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 17
La regresión no representará correctamente la relación entre los datos.
Linealidad: ¿qué pasa si los datos no son Linealidad: ¿qué pasa si los datos no son lineales?lineales?
Si nuestros datos no son lineales, podemos buscar una transformación matemática (log, sqrt…) que mejore su
linealidad.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 18
HomocedasticidadHomocedasticidad
Esta hipótesis consiste en asegurar que nuestros datos tienen varianza constante, es decir la gráfica debe ser
• Cuando la varianza de los datos es constante se dice que son HOMOCEDÁSTICOS.
• ¿Qué sucede si los datos son no son homocedásticos?
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 19
Gastos - Ingresos
Ingresos
Gas
tos
0 2 4 6 8(X 100000)
0
0,2
0,4
0,6
0,8
1(X 1,E6)
Homocedasticidad: datos Homocedasticidad: datos heterocedásticosheterocedásticos
Cuando la varianza no es constante, se dice que los datos son HETEROCEDÁSTICOS.¿Cómo afecta esto a la regresión?
Los errores en la previsión serían más grandes a medida que aumenta el valor de las variables!
No se debe aplicar regresión a datos heterocedásticos. Hay que transformarlos (por ejemplo, LOG).
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 20
Comprobación de la linealidad y homocedasticidadComprobación de la linealidad y homocedasticidad
La comprobación de las hipótesis de linealidad y homocedasticidad podemos realizarla mediante un análisis grafico (gráficos de dispersión) de nuestros datos.
Plot of log(TOT_COST) vs log(UDS)
log(UDS)
log(
TOT_
CO
ST)
2,1 2,4 2,7 3 3,3 3,6 3,91,7
2,7
3,7
4,7
5,7
Si los datos cumplen estas hipótesis podemos continuar nuestro análisis.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 21
IndependenciaIndependencia
Exigimos que los datos que estamos analizando sean independientes unos de otros:
- Si analizamos los costes en función del volumen de producción para distintas fábricas, asumimos que los datos de una fabrica no afectan a los de otra.
- NO pueden analizarse con regresión valores de una secuencia temporal, ya que cada dato depende del anterior.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 22
NormalidadNormalidad
La última de las hipótesis del modelo exige que los datos que analizamos sean normales. ¿Qué significa esto?
Plot of log(TOT_COST) vs log(UDS)
log(UDS)
log(
TOT_
CO
ST)
2,1 2,4 2,7 3 3,3 3,6 3,91,7
2,7
3,7
4,7
5,7
Hemos dicho que para cada valor de X, la Y toma valores en un cierto rango.
Asumimos que los valores que Y toma para cada valor de X siguen una distribución normal.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 23
El modeloEl modelo
Si los datos cumplen las hipótesis que hemos formulado, ya podemos estimarlo:
coste prod = 0,783429 + 0,669509*piezas producidas
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 24
El modeloEl modelo
Es el valor de Y cuando la X vale 0 (no siempre tiene sentido real).
coste prod = 0,783429 + 0,669509*piezas producidas
El signo “+” nos indica que las dos variables crecen a la vezEl signo “-” nos indica que, si una variable crece, la otra
decrece.Además, nos dice cómo crece la Y cuando lo hace la X.
YX.
Por tanto, en nuestro ejemplo, ¿cuanto aumentará el coste si las piezas producidas aumentan en un millón?
(coste prod) = 0,669509*(piezas producidas) = 0,67 millones.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 25
En regresión partimos de una muestra de datos y a partir de ella estimamos el modelo.
Regresión: un problema….Regresión: un problema….
Plot of log(TOT_COST) vs log(UDS)
log(UDS)
log(
TOT_
CO
ST)
2,1 2,4 2,7 3 3,3 3,6 3,91,7
2,7
3,7
4,7
5,7
coste prod = 0,783429 + 0,669509*piezas producidas
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 26
Si variamos la muestra, cambiarán los parámetros del modelo (los números que hemos calculado).¿Es posible elegir una muestra que nos de esta gráfica?
Regresión: un problema….Regresión: un problema….
-3 -2 -1 0 1 2 3-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
Si esto sucede, la pendiente de la recta sera cero y se dice que LA REGRESIÓN NO ES SIGNIFICATIVA.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 27
Queremos estar seguros de que nuestra regresión es válida independientemente de la muestra considerada.Queremos estar seguros de que la regresión vale para toda la población estudiada y no solo para una muestra concreta.QUEREMOS ASEGURARNOS DE QUE NUNCA VALE CERO.
Regresión: un problema….Regresión: un problema….
-3 -2 -1 0 1 2 3-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 28
Análisis de significación Análisis de significación
Para analizar si es cero, tenemos tres herramientas:
Intervalos de confianza.
Contrastes de Hipótesis:Estadístico t.
p-valor.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 29
Intervalos de confianzaIntervalos de confianza
Calcularemos un rango donde estará la estimación del verdadero valor de cualquiera que sea la muestra que tomemos.Esto lo aseguramos con una cierta probabilidad (generalmente el 95%).
-2xSE() +2xSE()
Si el valor 0 no pertence al intervalo, el parámetro es significativo.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 30
Intervalos de confianzaIntervalos de confianza
El 0 no pertenece al intervalo, el parámetro es significativo.
coste prod = 0,783429 + 0,669509*piezas producidas
-2xSE() ; +2xSE() )
( 0,67-2*0,7; 0,67+2*0,7) = (0,53; 0,81)
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 31
Contrastes de hipótesisContrastes de hipótesis
Una alternativa para asegurar que no es cero es plantear un contraste según la forma estándar:
H0: =0,H1: ≠0.
Statgraphics nos da el p-valor de este contraste.
p<0.05Rechazamos Ho
La regresión es significativa.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 32
Contrastes de hipótesis: Prueba de la tContrastes de hipótesis: Prueba de la t
Aun tenemos una alternativa al p valor para resolver el contraste:
H0: =0H1: ≠0
p<0.05Rechazamos Ho
La regresion es significativa
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 33
Contrastes de hipótesis: Prueba de la tContrastes de hipótesis: Prueba de la t
Aún tenemos una alternativa al p-valor para resolver el contraste:
H0: =0,H1: ≠0.
|t|>2 rechazamos Ho,|t|<2 aceptamos Ho.
|t|>2Rechazamos Ho
La regresión es significativa.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 34
¿Es bueno mi modelo? ¿Cuánto? -> ¿Es bueno mi modelo? ¿Cuánto? -> RR22
El coeficiente R2 indica cuánto de Y es explicado por X
Ejemplo: R2=71.76%
R2 = coeficiente de correlación muestral al cuadrado.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 35
ResumenResumen
Estudiamos los datos y vemos si cumplen las hipótesis.Si no las cumplen, transformamos.Ajustamos el modelo.Intervalos y contrastes para ver si X es significativa (INFLUYE) sobre Y.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 36
DiagnosisDiagnosis
Las decisiones que podemos tomar gracias a la información aportada por un modelo de regresión son importantes.Necesitamos estar seguros de que nuestras conclusiones son correctas.Para ello:
Contrastes, intervalos de confianza….Diagnosis: comprobar una vez más que se cumplen las hipótesis del modelo.
En la diagnosis del modelo, comprobamos que la parte aleatoria del modelo (sus residuos) no contiene información adicional ni refleja lagunas en el cumplimiento de las hipótesis del modelo (linealidad, homocedasticidad, independencia y normalidad)
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 37
DiagnosisDiagnosis
La diagnosis se realiza observando los gráficos de los residuos: debemos ver gráficos como este:
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 38
DiagnosisDiagnosis
No podemos aceptar residuos con otros comportamientos:
0 20 40 60 80 1000
500
1000
1500
2000
2500
3000
500 1000 1500 2000 2500 3000-1500
-1000
-500
0
500
1000
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 39
RegresiónRegresión
Introducción. Relaciones no deterministas.Regresion simple.
Modelo .Estimación.Diagnosis.
Regresion múltiple.Gráficos de dispersión múltiples.Estimación.Diagnosis.Previsiones.
Multicolinealidad.Variables ficticias (dummy).
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 40
Regresión múltipleRegresión múltiple
En un modelo de regresión múltiple, queremos conocer el valor de una variable respuesta a partir de más de una variable explicativa:
En esta expresión, cada uno de los coeficientes beta representa la influencia individual que cada una de las X tiene sobre Y.Ventajas:
Las hipótesis del modelo son las mismas que en regresión simple.Los contrastes, intervalos, diagnosis… también.
Pequeños inconvenientes:La visualización de los gráficos es un poco más complicada.Necesitamos redefinir el coeficiente R2.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 41
Regresion multiple: GraficosRegresion multiple: Graficos
Cada celda del gráfico matricial representa la relación bilateral entre dos variables:
TOT_COSTUDS
MANPOWERENERGY
INVESTMAINT
MATENV
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 42
Regresión múltiple: R2 corregidoRegresión múltiple: R2 corregido
El coeficiente R2 tiene el inconveniente de que se incrementa al aumentar el número de variables en el modelo (ya sean significativas o no). Para paliar este efecto, corregimos el coeficiente para que tenga en cuenta este efecto, por lo que en regresión múltiple se utiliza el coeficiente R2 corregido ( o ajustado).
Dependent variable: log(TOT_COST) ----------------------------------------------------------------------------- Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------- CONSTANT -1,82352 0,313487 -5,81689 0,0000 log(UDS) 0,666417 0,116524 5,71913 0,0000 log(MANPOWER) 0,157212 0,0551564 2,85029 0,0052 log(ENERGY) 0,174001 0,0489637 3,55367 0,0005 log(INVEST) 0,216335 0,0365883 5,91267 0,0000 log(MAINT) -0,0199751 0,0594171 -0,336185 0,7373 log(MAT) 0,139431 0,0221418 6,2972 0,0000 log(ENV) 0,0027926 0,0178724 0,156252 0,8761 -----------------------------------------------------------------------------
Adjusted R2 =
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 43
RegresiónRegresión
Introducción. Relaciones no deterministas.Regresion simple.
Modelo .Estimación.Diagnosis.
Regresion múltiple.Gráficos de dispersión múltiples.Estimación.Diagnosis.Previsiones.
Multicolinealidad.Variables ficticias (dummy).
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 44
EjemploEjemplo
0 4 8 12 16 20 24(X 1000)matricul
0
0,5
1
1,5
2
2,5
3(X 1000)
nacc
iden
Número de accidentes en provincias españolasen función del número devehículos matriculados.
-----------------------------------------------------------------------------Dependent variable: nacciden----------------------------------------------------------------------------- Standard TParameter Estimate Error Statistic P-Value-----------------------------------------------------------------------------CONSTANT 278,24 102,518 2,71406 0,0265matricul 0,0993373 0,00850344 11,682 0,0000-----------------------------------------------------------------------------R-squared (adjusted for d.f.) = 93,7703 percent
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 45
EjemploEjemplo
Número de accidentes en provincias españolasen función del número depermisos de conducir
-----------------------------------------------------------------------------Dependent variable: nacciden----------------------------------------------------------------------------- Standard TParameter Estimate Error Statistic P-Value-----------------------------------------------------------------------------CONSTANT 216,481 127,099 1,70325 0,1269permisos 0,107617 0,0109657 9,81395 0,0000-----------------------------------------------------------------------------R-squared (adjusted for d.f.) = 91,3722 percent
permisos
nacc
iden
0 4 8 12 16 20 24(X 1000)
0
0,5
1
1,5
2
2,5
3(X 1000)
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 46
RegresionesRegresiones
Accid=278.2 +0.1 Matriculas (11.68)
Accid=216.4 +0.1 Permisos (9.81)
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 47
Regresión con las dos variablesRegresión con las dos variables
-----------------------------------------------------------------------------
Dependent variable: nacciden
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 250,63 113,216 2,21373 0,0625
matricul 0,0725492 0,0395634 1,83374 0,1093
permisos 0,0301069 0,043353 0,694461 0,5098
-----------------------------------------------------------------------------
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 48
RegresionesRegresiones
Accid=278.2 +0.1 Matriculas (11.68)
Accid=216.4 +0.1 Permisos (9.81)
Accid=250+0.07 Matriculas +0.03 Permisos (1.8) (0.69)
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 49
¿Qué está pasando?¿Qué está pasando?
permisos
mat
ricul
0 4 8 12 16 20 24(X 1000)
0
4
8
12
16
20
24(X 1000)
Correlación=.975
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 50
Regresión: un problemaRegresión: un problema
A veces las variables independientes son muy parecidas: contienen la misma información.
VariableDependiente
VariablesIndependientes
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 51
Regresión: un problemaRegresión: un problema
El modelo no puede diferenciar entre las variables.
VariableDependiente
VariablesIndependientes
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 52
En nuestro ejemploEn nuestro ejemplo
Num AccidMatrículasPermisos
Ambas son muy parecidas para distinguir entre ellas.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 53
En nuestro ejemploEn nuestro ejemplo
Num AccidMatrículasPermisos
Ambas son muy parecidas para distinguir entre ellas.
Solución: eliminar una variable.Perdemos muy poca información.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 54
En nuestro ejemploEn nuestro ejemplo
Num AccidMatrículas
Ambas son muy parecidas para distinguir entre ellas.
Solución: eliminar una variable.Perdemos muy poca información.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 55
El problema de multicolinealidad aparece en casi todos los trabajos estadísticos.Tendemos a medir una cosa de muchas formas.Se detecta:
En regresión simple, las variables son significativas.Al introducir nuevas variables, dejan de ser significativas.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 56
RegresiónRegresión
Introducción. Relaciones no deterministas.Regresion simple.
Modelo .Estimación.Diagnosis.
Regresion múltiple.Gráficos de dispersión múltiples.Estimación.Diagnosis.Previsiones.
Multicolinealidad.Variables ficticias (dummy).
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 57
Estudiamos Pesos - AlturasEstudiamos Pesos - Alturas
¿Es igual la relación para hombres que para mujeres?
PesoPeso
AlturaAltura
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 58
Estudiamos Pesos - AlturasEstudiamos Pesos - Alturas
¿Es igual la relación para hombres que para mujeres?
PesoPeso
AlturaAltura AlturaAltura
PesoPeso
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 59
Estudiamos Pesos - AlturasEstudiamos Pesos - Alturas
Si la relación no es igual, podemos cometer errores graves:
PesoPeso
AlturaAltura AlturaAltura
PesoPeso
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 60
EjemplosEjemplos
Variable Y Variable X Grupo que puede influir
Peso Altura Sexo: Hombre o Mujer
Consumo de un trabajador
Ingresos del trabajador
Status laboral: Paro o Empleado
Consumo de un automóvil
Potencia Motor: Diésel o Gasolina
Margen Ordinario de una sucursal bancaria
Comisiones Sucursal: Urbana o Rural
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 61
Es necesario introducir el grupo:Es necesario introducir el grupo:
Para ello:• definiremos una variable Z que tome los siguientes valores:
Zi =0 si una observación pertenece al grupo A
Zi=1 si una observación pertenece al grupo B • y estimaremos el siguiente modelo de regresión:
ZXy 210ˆˆˆˆ
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 62
El modelo que se estima:El modelo que se estima:
ZXy 210ˆˆˆˆ
•Mujeres: Les asignamos Z=0. Por tanto:
Xy 10ˆˆˆ
Xy 120ˆ)ˆˆ(ˆ
•Hombres: Les asignamos Z=1. Por tanto:
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 63
Por tanto:Por tanto:
Peso
Altura
Xy 10ˆˆˆ
Xy 120ˆ)ˆˆ(ˆ
2̂
El efecto es que un hombre de la misma altura pesa b2 kilos más que una mujer de su misma altura.
¿O no?¿O no?
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 64
Hagámoslo:Hagámoslo:
Dependent variable: peso----------------------------------------------------------------------------- Standard TParameter Estimate Error Statistic P-Value-----------------------------------------------------------------------------CONSTANT -77,7888 16,0908 -4,83438 0,0000altura 0,842013 0,0905752 9,29628 0,0000sexo -5,17748 2,20877 -2,34405 0,0208-----------------------------------------------------------------------------R-squared = 60,8791 percentR-squared (adjusted for d.f.) = 60,1927 percent
Sexo=0 Hombres Sexo=1 Mujeres
Por tanto: un hombre que mida 180 pesará= -78+0.84x180=73 kilos
..... y una mujer de la misma altura pesará=-78+0.84x180-5.17=68 kilos
La diferencia existe porque t=-2.34 que es mayor que 2 en valor absoluto
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 65
ResultadoResultado
Peso
Altura
Mujeres
Hombres5 Kilos
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 66
InteraccionesInteracciones
Hemos supuesto que las rectas son paralelas.¿Y si no lo son?
B
A
Y
X
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 67
Modelización de las interaccionesModelización de las interacciones
La modelización de la interacción es sencilla. Hay que estimar un modelo de regresión entre:
· la variable Y,· la variable X,· la variable Z,· la interacción de X y Z que se modeliza por el
producto (XZ). XZZXy 3210ˆˆˆˆˆ
Para el grupo con Z=0 Xy 10ˆˆˆ
Para el grupo con Z=1 XXXy )ˆˆ()ˆˆ(ˆˆˆˆˆ 31203210
Por tanto, analizar si existe interacción se reduce a estimar un modelo de regresión y analizar si el parámetro es significativo (estadístico t mayor de 2) en la estimación realizada.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 68
Ejemplo:Ejemplo:Ventas de empresas del sector servicios en Ventas de empresas del sector servicios en Madrid en función de su inversión en I+DMadrid en función de su inversión en I+D
Plot of ventas vs id
0 0.5 1 1.5 2 2.5 3(X 1000)id
0
40
80
120
160
200
240ve
ntas
Plot of log(ventas) vs log(id)
log(id)
log(
vent
as)
3.1 4.1 5.1 6.1 7.1 8.12.7
3.2
3.7
4.2
4.7
5.2
5.7
LOG(VENTAS) =
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 69
Queremos estudiar si hay diferencias por estar en el sector telecomunicaciones
TELECO=1 Si está en el sector telecoTELECO=0 si no está en ese sector
LOG(VENTAS) =2.25+ 0.288 Log(ID)+0.527 TELECO (t) (11.12) (8.08) (7.03) R2 = 61.05%
•Si la empresa funciona en el sector teleco:Log(VENTAS)= 2.78 + 0.288 log(ID)
•Si funciona en otro sector:Log(VENTAS) = 2.25 + 0.288 log(ID)
Estimamos la interacción:Log(VENTAS)=1.99+0.334Log(ID)+1.80 TELECO-0.202 TELECOxLog(ID)(t) (8.84) (8.40) (3.40) (-2.43) R2= 62.8%•Si no está en el sector teleco
Log(VENTAS) = 1.99 + 0.334 log(ID) •Si está en el sector teleco
Log(VENTAS) = 3.8 + 0.13 log(ID)
Ejemplo:Ejemplo:Ventas de empresas del sector servicios en Ventas de empresas del sector servicios en Madrid en función de su inversión en I+DMadrid en función de su inversión en I+D