22
REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

Embed Size (px)

Citation preview

Page 1: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

REGRESION LINEAL MULTIPLE: Introducción

Mario Briones L.MV, MSc

2005

Page 2: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

obs loc tipo BIO SAL pH K Na Zn1 OI DVEG 676 33 5 1441.67 35184.5 16.45242 OI DVEG 516 35 4.75 1299.19 28170.4 13.98523 OI DVEG 1052 32 4.2 1154.27 26455 15.32764 OI DVEG 868 30 4.4 1045.15 25072.9 17.31285 OI DVEG 1008 33 5.55 521.62 31664.2 22.33126 OI SHRT 436 33 5.05 1273.02 25491.7 12.27787 OI SHRT 544 36 4.25 1346.35 20877.3 17.82258 OI SHRT 680 30 4.45 1253.88 25621.3 14.35269 OI SHRT 640 38 4.75 1242.65 27587.3 13.682610 OI SHRT 492 30 4.6 1282.95 26511.7 11.756611 OI TALL 984 30 4.1 553.69 7886.5 9.88212 OI TALL 1400 37 3.45 494.74 14596 16.675213 OI TALL 1276 33 3.45 526.97 9826.8 12.37314 OI TALL 1736 36 4.1 571.14 11978.4 9.405815 OI TALL 1004 30 3.5 408.64 10368.6 14.930216 SI DVEG 396 30 3.25 646.65 17307.4 31.286517 SI DVEG 352 27 3.35 514.03 12822 30.1652

Page 3: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

DESARROLLO DEL MODELO

Búsqueda de las variables a incluir en el modelo.

Se asume que hay un conjunto de variables candidatas odisponibles, el cual presumiblemente incluye todas

las variables relevantes, a partir del cual un subconjunto der variables debe elegirse para la ecuación de regresión.

Las variables candidatas pueden incluir diferentes formasde la misma variable básica, tales como X y X2 y el

proceso de selección puede incluir restriciones acerca de las variables que pueden ser incluidas. Por ejemplo,X puede ser forzada a incluirse en el modelo si X2 está en

el subconjunto seleccionado.

Page 4: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

Hay 3 áreas problema relacionadas con esto:

1. Los efectos teóricos de la selección de variables sobre la regresión resultante.

2. Los métodos de cálculo para encontrar el “mejor”subconjunto de variables para cada tamaño de subconjunto.

3. La elección del tamaño del subconjunto (para elmodelo final), o regla de detención

Page 5: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

Usos de la ecuación de regresión:

1. Proporcionar una buena descripción de laconducta en la variable de respuesta.

2. Predicción de respuesta futura y estimaciónde respuestas promedio.

3. Extrapolación o predicción de respuestas fuera delrango de los datos.

4. Estimación de parámetros.

5. Control de un proceso por variación de los nivele de input.

6. Desarrollo de modelos realísticos del proceso.

Page 6: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

Cada objetivo tiene implicancias diferentes en el modocomo se coloca el énfasis en la eliminación de variables

desde el modelo, o en cuan importante es que lasvariables retenidas estén causalmente relacionadas con

la variable de respuesta.

Las decisiones acerca de causalidad y realismo debendepender de información ajena al conjunto de datos.

Por ej., modalidad de recolección de los datos yconocimiento fundamental acerca de la operación del sistema.

Page 7: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

Objetivo: descripción de la conducta de la variablerespuesta en un conjunto particular de datos.

No tiene importancia la eliminación de variables, lasposibles relaciones causales o el realismo del modelo.

La mejor descripción de la variable respuesta, entérminos de mínima suma de cuadrados residuales,

estará dada por el modelo completo.

Page 8: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

DEP VAR: BIO N: 45 MULTIPLE R: 0.823 SQUARED MULTIPLE R: 0.677 ADJUSTED SQUARED MULTIPLE R: .636 STANDARD ERROR OF ESTIMATE: 398.267

VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL)

CONSTANT 1252.575 1234.717 0.000 . 1.014 0.317 SAL -30.288 24.030 -0.171 0.451 -1.260 0.215 PH 305.483 87.882 0.577 0.300 3.476 0.001 K -0.285 0.348 -0.129 0.335 -0.819 0.418 NA -0.009 0.016 -0.090 0.300 -0.544 0.590 ZN -20.678 15.054 -0.259 0.232 -1.374 0.177

ANALYSIS OF VARIANCE

SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P

REGRESSION .129849E+08 5 2596984.192 16.373 0.000 RESIDUAL 6186042.238 39 158616.468

Page 9: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

Las ecuaciones de regresión con pocas variables :

Tienen el atractivo de la simplicidad.

Son económicas por baja información necesaria.

Eliminan variables irrelevantes.

Eliminan variables con bajo aporte a laexplicación de la variable dependiente.

Page 10: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

Los usos de PREDICCION y ESTIMACION derespuestas promedio son los más tolerantes a la

eliminación de variables. Al mismo tiempo, no esimportante si las variables están causalmente

relacionadas o el modelo es realístico.

Se asume que la predicción y la estimación van aestar en el espacio de X de los datos y que el sistemacontinua operando como cuando se recogieron los

datos.

Cualquier variable que contenga información predictivaacerca de la variable dependiente y para la cual se pueda

obtener información a bajo costo, es una variable deutilidad.

Page 11: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

La extrapolación requiere más cuidado en laelección de las variables.

Las variables retenidas deben describir de lamanera más completa posible la conducta del

sistema.Las extrapolaciones más allá del ámbito de X son

siempre peligrosas.Debe re analizarse y agregarse continuamente

información.

Page 12: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

Estimación de parámetros:

Se debe tener precaución al sacar variables del modelo,para evitar sesgo. Como ventaja, la eliminación de

variables realmente no relacionadas reduce la varianzade las estimaciones.

Control de un sistema:

Implica una relación de causa efecto entre las variablesindependientes y la variable de respuesta. Si se

eliminan las variables incorrectas conduce a unafalta de efecto de la intervención sobre el sistema.

Page 13: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

El objetivo de la investigación básica es confrecuencia la construcción de modelos realísticos

La meta final es la comprensión del proceso.Existe siempre un interés en identificar las

variables importantes por su relación de causasobre el modelo.

La selección no puede basarse sólo sobre la estructura correlacional. Este análisis sirve paraidentificar clases de variables que promuevaninvestigación posterior del tipo causa efecto.

En la medida que se necesita mayor conocimiento del proceso, hay mayor interés en desarrollar modelos

cuya forma funcional refleje realísticamente laconducta del sistema.

Page 14: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

Cuando las variables independientes en el conjunto de datos son ortogonales,

el resultado de mínimo cuadrado para cadavariable es el mismo independientemente

de cual otra variable se incorpore al modelo.

Entonces, el resultado de un solo análisis puedeser utilizado para escoger las variables

independientes que permanecen en el modelo.

En datos observacionales y por pérdida en experimentos,se produce falta de ortogonalidad y el resultado

de mínimos cuadrados de cada una es dependientede las otrad variables incluidas en el modelo.

Page 15: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

Conceptualmente, la única manera de asegurarque se escoge el mejor modelo para cada

subconjunto, es calcular todas las posiblesregresiones.

Se puede cuando el número de variables esrelativamente pequeño, pero si hay 10 variables

independientes hay 210-1 = 1023 posibles modelos a evaluar.

Page 16: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

PROCEDIMIENTO DE REGRESION STEPWISE

Este procedimiento identifica los modelos de lossubconjuntos agregando o borrando, según la

alternativa, la variable que tenga un mayor impactosobre la suma de cuadrados residuales.

Page 17: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

Forward stepwise:

escoje los subconjuntos de modelos agregando unavariable a la vez al conjunto previamente elegido.

Este procedimiento comienza eligiendo como subconjunto de una variable a aquella variable

independiente que explica la mayor parte de la variación en la variable dependiente. Esta es

la con mayor correlación lineal con Y. En cadapaso sucesivo, se agrega al subconjunto aquella

variable QUE NO ESTABA en el modelo previo yque produce la mayor reducción en la suma de

cuadrados residuales.

Page 18: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

En la práctica, es la variable que tiene la mayorcorrelación con los residuales del modelo actual.Sin una regla de término, la selección continúahasta incluir todas las variables en el promedio.

Page 19: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

Backward elimination:

Escoge el modelo comenzando con todas las variablesy eliminando en cada paso la variable cuya eliminacióncause el mínimo incremento en la suma de cuadrados

residuales.Esta es la variable dependiente que en el modelo

actual tenga la más pequeña suma de cuadrados parciales.

Sin una regla de término, la selección continúahasta que el modelo incluye una sola variable.

Page 20: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

Ninguno de los dos procedimientos toma en cuenta elefecto que la adición o eliminación de una variable puede tener en la contribución de las otras variables

del modelo.Una variable agregada tempranamente al modelo

en Forward selection puede hacerse irrelevante másadelante, a agregar otras variables o bien,

variables eliminadas tempranamente puedenhacerse importantes después que otras se han

eliminado del modelo.

El método llamado stepwise es una selecciónhacia delante que rechequea en cada paso la importancia

de las variables ya incluidas.

Page 21: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

Si la suma de cuadrados parciales para cualquierade las variables incluidas previamente no

satisface un criterio mínimo para permanecer en elmodelo, el procedimiento cambia a eliminación

hacia atrás y las variables son eliminadas una a lavez hasta que todas las variables satisfacen el

criterio.Después de esto se reanuda la selección hacia

adelante.

Page 22: REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

CRITERIOS DE TERMINO DE SELECCION

SELECCIÓN HACIA ADELANTE:

Tasa de reducción en la suma de cuadrados residualesproducto de la incorporación de la siguiente variable

Nivel crítico de F para entrar o nivel de significanciaEl proceso termina cuando ninguna de las variablesfuera del modelo satisface el criterio para entrar.

SELECCIÓN HACIA ATRÁS:

Test de F para la mayor suma de cuadrados residualesde las variables que permanecen en el modelo.