REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

Preview:

Citation preview

REGRESION LINEAL MULTIPLE: Introducción

Mario Briones L.MV, MSc

2005

obs loc tipo BIO SAL pH K Na Zn1 OI DVEG 676 33 5 1441.67 35184.5 16.45242 OI DVEG 516 35 4.75 1299.19 28170.4 13.98523 OI DVEG 1052 32 4.2 1154.27 26455 15.32764 OI DVEG 868 30 4.4 1045.15 25072.9 17.31285 OI DVEG 1008 33 5.55 521.62 31664.2 22.33126 OI SHRT 436 33 5.05 1273.02 25491.7 12.27787 OI SHRT 544 36 4.25 1346.35 20877.3 17.82258 OI SHRT 680 30 4.45 1253.88 25621.3 14.35269 OI SHRT 640 38 4.75 1242.65 27587.3 13.682610 OI SHRT 492 30 4.6 1282.95 26511.7 11.756611 OI TALL 984 30 4.1 553.69 7886.5 9.88212 OI TALL 1400 37 3.45 494.74 14596 16.675213 OI TALL 1276 33 3.45 526.97 9826.8 12.37314 OI TALL 1736 36 4.1 571.14 11978.4 9.405815 OI TALL 1004 30 3.5 408.64 10368.6 14.930216 SI DVEG 396 30 3.25 646.65 17307.4 31.286517 SI DVEG 352 27 3.35 514.03 12822 30.1652

DESARROLLO DEL MODELO

Búsqueda de las variables a incluir en el modelo.

Se asume que hay un conjunto de variables candidatas odisponibles, el cual presumiblemente incluye todas

las variables relevantes, a partir del cual un subconjunto der variables debe elegirse para la ecuación de regresión.

Las variables candidatas pueden incluir diferentes formasde la misma variable básica, tales como X y X2 y el

proceso de selección puede incluir restriciones acerca de las variables que pueden ser incluidas. Por ejemplo,X puede ser forzada a incluirse en el modelo si X2 está en

el subconjunto seleccionado.

Hay 3 áreas problema relacionadas con esto:

1. Los efectos teóricos de la selección de variables sobre la regresión resultante.

2. Los métodos de cálculo para encontrar el “mejor”subconjunto de variables para cada tamaño de subconjunto.

3. La elección del tamaño del subconjunto (para elmodelo final), o regla de detención

Usos de la ecuación de regresión:

1. Proporcionar una buena descripción de laconducta en la variable de respuesta.

2. Predicción de respuesta futura y estimaciónde respuestas promedio.

3. Extrapolación o predicción de respuestas fuera delrango de los datos.

4. Estimación de parámetros.

5. Control de un proceso por variación de los nivele de input.

6. Desarrollo de modelos realísticos del proceso.

Cada objetivo tiene implicancias diferentes en el modocomo se coloca el énfasis en la eliminación de variables

desde el modelo, o en cuan importante es que lasvariables retenidas estén causalmente relacionadas con

la variable de respuesta.

Las decisiones acerca de causalidad y realismo debendepender de información ajena al conjunto de datos.

Por ej., modalidad de recolección de los datos yconocimiento fundamental acerca de la operación del sistema.

Objetivo: descripción de la conducta de la variablerespuesta en un conjunto particular de datos.

No tiene importancia la eliminación de variables, lasposibles relaciones causales o el realismo del modelo.

La mejor descripción de la variable respuesta, entérminos de mínima suma de cuadrados residuales,

estará dada por el modelo completo.

DEP VAR: BIO N: 45 MULTIPLE R: 0.823 SQUARED MULTIPLE R: 0.677 ADJUSTED SQUARED MULTIPLE R: .636 STANDARD ERROR OF ESTIMATE: 398.267

VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL)

CONSTANT 1252.575 1234.717 0.000 . 1.014 0.317 SAL -30.288 24.030 -0.171 0.451 -1.260 0.215 PH 305.483 87.882 0.577 0.300 3.476 0.001 K -0.285 0.348 -0.129 0.335 -0.819 0.418 NA -0.009 0.016 -0.090 0.300 -0.544 0.590 ZN -20.678 15.054 -0.259 0.232 -1.374 0.177

ANALYSIS OF VARIANCE

SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P

REGRESSION .129849E+08 5 2596984.192 16.373 0.000 RESIDUAL 6186042.238 39 158616.468

Las ecuaciones de regresión con pocas variables :

Tienen el atractivo de la simplicidad.

Son económicas por baja información necesaria.

Eliminan variables irrelevantes.

Eliminan variables con bajo aporte a laexplicación de la variable dependiente.

Los usos de PREDICCION y ESTIMACION derespuestas promedio son los más tolerantes a la

eliminación de variables. Al mismo tiempo, no esimportante si las variables están causalmente

relacionadas o el modelo es realístico.

Se asume que la predicción y la estimación van aestar en el espacio de X de los datos y que el sistemacontinua operando como cuando se recogieron los

datos.

Cualquier variable que contenga información predictivaacerca de la variable dependiente y para la cual se pueda

obtener información a bajo costo, es una variable deutilidad.

La extrapolación requiere más cuidado en laelección de las variables.

Las variables retenidas deben describir de lamanera más completa posible la conducta del

sistema.Las extrapolaciones más allá del ámbito de X son

siempre peligrosas.Debe re analizarse y agregarse continuamente

información.

Estimación de parámetros:

Se debe tener precaución al sacar variables del modelo,para evitar sesgo. Como ventaja, la eliminación de

variables realmente no relacionadas reduce la varianzade las estimaciones.

Control de un sistema:

Implica una relación de causa efecto entre las variablesindependientes y la variable de respuesta. Si se

eliminan las variables incorrectas conduce a unafalta de efecto de la intervención sobre el sistema.

El objetivo de la investigación básica es confrecuencia la construcción de modelos realísticos

La meta final es la comprensión del proceso.Existe siempre un interés en identificar las

variables importantes por su relación de causasobre el modelo.

La selección no puede basarse sólo sobre la estructura correlacional. Este análisis sirve paraidentificar clases de variables que promuevaninvestigación posterior del tipo causa efecto.

En la medida que se necesita mayor conocimiento del proceso, hay mayor interés en desarrollar modelos

cuya forma funcional refleje realísticamente laconducta del sistema.

Cuando las variables independientes en el conjunto de datos son ortogonales,

el resultado de mínimo cuadrado para cadavariable es el mismo independientemente

de cual otra variable se incorpore al modelo.

Entonces, el resultado de un solo análisis puedeser utilizado para escoger las variables

independientes que permanecen en el modelo.

En datos observacionales y por pérdida en experimentos,se produce falta de ortogonalidad y el resultado

de mínimos cuadrados de cada una es dependientede las otrad variables incluidas en el modelo.

Conceptualmente, la única manera de asegurarque se escoge el mejor modelo para cada

subconjunto, es calcular todas las posiblesregresiones.

Se puede cuando el número de variables esrelativamente pequeño, pero si hay 10 variables

independientes hay 210-1 = 1023 posibles modelos a evaluar.

PROCEDIMIENTO DE REGRESION STEPWISE

Este procedimiento identifica los modelos de lossubconjuntos agregando o borrando, según la

alternativa, la variable que tenga un mayor impactosobre la suma de cuadrados residuales.

Forward stepwise:

escoje los subconjuntos de modelos agregando unavariable a la vez al conjunto previamente elegido.

Este procedimiento comienza eligiendo como subconjunto de una variable a aquella variable

independiente que explica la mayor parte de la variación en la variable dependiente. Esta es

la con mayor correlación lineal con Y. En cadapaso sucesivo, se agrega al subconjunto aquella

variable QUE NO ESTABA en el modelo previo yque produce la mayor reducción en la suma de

cuadrados residuales.

En la práctica, es la variable que tiene la mayorcorrelación con los residuales del modelo actual.Sin una regla de término, la selección continúahasta incluir todas las variables en el promedio.

Backward elimination:

Escoge el modelo comenzando con todas las variablesy eliminando en cada paso la variable cuya eliminacióncause el mínimo incremento en la suma de cuadrados

residuales.Esta es la variable dependiente que en el modelo

actual tenga la más pequeña suma de cuadrados parciales.

Sin una regla de término, la selección continúahasta que el modelo incluye una sola variable.

Ninguno de los dos procedimientos toma en cuenta elefecto que la adición o eliminación de una variable puede tener en la contribución de las otras variables

del modelo.Una variable agregada tempranamente al modelo

en Forward selection puede hacerse irrelevante másadelante, a agregar otras variables o bien,

variables eliminadas tempranamente puedenhacerse importantes después que otras se han

eliminado del modelo.

El método llamado stepwise es una selecciónhacia delante que rechequea en cada paso la importancia

de las variables ya incluidas.

Si la suma de cuadrados parciales para cualquierade las variables incluidas previamente no

satisface un criterio mínimo para permanecer en elmodelo, el procedimiento cambia a eliminación

hacia atrás y las variables son eliminadas una a lavez hasta que todas las variables satisfacen el

criterio.Después de esto se reanuda la selección hacia

adelante.

CRITERIOS DE TERMINO DE SELECCION

SELECCIÓN HACIA ADELANTE:

Tasa de reducción en la suma de cuadrados residualesproducto de la incorporación de la siguiente variable

Nivel crítico de F para entrar o nivel de significanciaEl proceso termina cuando ninguna de las variablesfuera del modelo satisface el criterio para entrar.

SELECCIÓN HACIA ATRÁS:

Test de F para la mayor suma de cuadrados residualesde las variables que permanecen en el modelo.