24
REGRESIÓN MULTIPLE JEFFERSON ALVARADO MARTÍNEZ LINA MARÍA ROJAS LÓPEZ

Regresión Multiple

Embed Size (px)

DESCRIPTION

,mb,b

Citation preview

REGRESIÓN MULTIPLE

JEFFERSON ALVARADO MARTÍNEZLINA MARÍA ROJAS LÓPEZ

UNIVERSIDAD MILITAR NUEVA GRANADAFACULTAD DE INGENIERÍA

PROGRAMA DE INGENIERÍA INDUSTRIALBOGOTÁ D.C.

2013- I

REGRESIÓN MULTIPLE

JEFFERSON ALVARADO MARTÍNEZLINA MARÍA ROJAS LÓPEZ

ING. FERNANDO GONZÁLEZ BECERRADOCENTE

UNIVERSIDAD MILITAR NUEVA GRANADAFACULTAD DE INGENIERÍA

PROGRAMA DE INGENIERÍA INDUSTRIALBOGOTÁ D.C.

2013- I

REGRESIÓN MULTIPLEEJERCICIO 23.

En el área de desarrollo de una empresa se pretende obtener un nuevo polímero de bajo peso molecular (y1), de lograrse esto, se obtendrá un polímero que funcione como dispersante en la industria de la cerámica. De acuerdo con los conocimientos técnicos que se tienen, se considera que los factores críticos son X1: Persulfato de sodio (NaPS), X2: Ácido hipofosforoso (H3PO4) y X3: Isopropanol (IPA). Para encontrar las condiciones óptimas se realizó un experimento y se obtuvieron los siguientes datos (los valores de los factores están codificados). Además de Y1, se midió la viscosidad (Y2).

X1Persulfato de sodio (NaPS)

X2Ácido

hipofosforoso (H3PO4)

X3Isopropanol

(IPA)

Y1Peso

molecular

Y2Viscosidad

0 0 0 8392 1075-1 -1 0 9895 23251 -1 0 9204 1575-1 1 0 7882 6901 1 0 7105 420-1 0 -1 8939 11881 0 -1 8548 9300 0 0 8598 920-1 0 1 9152 12751 0 1 8992 8600 -1 -1 10504 56000 1 -1 7462 5400 -1 1 9368 12250 1 1 7772 6200 0 0 8440 1015

a) Ajuste el modelo Y 1=β 0+β1 X 1+β2 X 2+β3 X3+ε para la variable Y1.b) ¿El modelo explica la variación observada en Y1?c) Ajuste el modelo

Y 1=β 0+β1 X 1+β2 X 2+β3 X3+ β12 X 1X 2+β 13 X1 X 3+β 23 X 2 X3+ β11X 12+ β22 X 22+ β33 X 32+ε, y analice con detalle la calidad del ajuste (Hipótesis sobre coeficientes individuales, gráficas de residuo).

d) Compare el error estándar de estimación (√CME) y los coeficientes de determinación (R22 ,R2 AJUS2)) para ambos modelos.

e) Con base en lo anterior, proponga un modelo que considere que sólo tiene términos significativos. Ajústelo y haga un análisis completo sobre este.

f) Para el modelo final al que llego en el punto anterior, interprete con detalle el dignificado de cada uno de los coeficientes estimados en función de su aporte para la variable de respuesta Y1.

SOLUCIÓN

A) Y 1=β 0+β1 X 1+β2 X 2+β3 X3+ε

MATRIZ DE VARIABLES PARA X y Y

X1Persulfato de sodio (NaPS)

X2 Ácido hipofosforoso (H3PO4)

X3 Isopropanol (IPA)

Y1 Peso molecular

1 0 0 0 83921 -1 -1 0 98951 1 -1 0 92041 -1 1 0 78821 1 1 0 71051 -1 0 -1 89391 1 0 -1 85481 0 0 0 85981 -1 0 1 91521 1 0 1 89921 0 -1 -1 105041 0 1 -1 74621 0 -1 1 93681 0 1 1 77721 0 0 0 8440

MATRIZ TRASPUESTA DE X

1 1 1 1 1 1 1 1 1 1 1 1 1 1 10 -1 1 -1 1 -1 1 0 -1 1 0 0 0 0 00 -1 -1 1 1 0 0 0 0 0 -1 1 -1 1 00 0 0 0 0 -1 -1 0 1 1 -1 -1 1 1 0

MATRIZ X TRASPUESTA POR X

15 0 0 00 8 0 00 0 8 00 0 0 8

MATRIZ INVERSA DE LA MATRIZ TRASPUESTA DE X (A)

0,066666667 0 0 00 0,125 0 00 0 0,125 00 0 0 0,125

MATRIZ TRASPUESTA DE X POR MATRIZ Y (B)

130253-2019-8750-169

MATRIZ A POR MATRIZ B

8683,533333-252,375-1093,75-21,125

ANÁLISIS DE REGRESIÓN EN EXCEL

Estadísticas de la regresiónC. Correlación 0,935238485C. Determinación 0,874671024R^2 ajustado 0,840490394Error típico 362,4191425Observaciones 15

ANÁLISIS DE VARIANZAGrados de libertad SUMA CUADRA PRO.CUADRA F Valor crítico de F

Regresión 3 10083427,75 3361142,583 25,5896696 2,92072E-05Residuos 11 1444823,983 131347,6348Total 14 11528251,73

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%Intercepción 8683,533333 93,57622022 92,79636764 2,8405E-17 8477,573461 8889,493205 8477,57346 8889,493205X1 -252,375 128,1345166 -1,969609802 0,07458143 -534,3971695 29,64716946 -534,397169 29,64716946X2 -1093,75 128,1345166 -8,535951347 3,5078E-06 -1375,772169 -811,7278305 -1375,77217 -811,7278305X3 -21,125 128,1345166 -0,164865803 0,87204026 -303,1471695 260,8971695 -303,147169 260,8971695

MODELO Y 1=β 0+β1 X 1+β2 X 2+β3 X3+ε

Y1=8683.5-252.375X1-1093.75X2-21.125X3+362.4

B) Según se observa en la regresión realizada en Excel, con un nivel de significancia de 5%, el coeficiente de determinación es 0.8746, lo cual quiere decir que el modelo planteado tiene un buen ajuste con respecto a sus variables dependientes, el coeficiente de correlación que es 0.93 se está aproximando a 1, con esto quiere decir que el modelo tiende a ser lineal.

C) Y 1=β 0+β1 X 1+β2 X 2+β3 X3+ β12 X 1X 2+β 13 X1 X 3+β 23 X 2 X3+ β11X 12+ β22 X 22+ β33 X 32+ε,

MATRIZ DE VARIABLES PARA X

X1Persulfato de sodio (NaPS)

X2 Ácido hipofosforoso

(H3PO4)

X3 Isopropanol (IPA)

X1*X2 X1*X3 X2*X3 X1*X1 X2*X2 X3*X3

1 0 0 0 0 0 0 0 0 01 -1 -1 0 1 0 0 1 1 01 1 -1 0 -1 0 0 1 1 01 -1 1 0 -1 0 0 1 1 01 1 1 0 1 0 0 1 1 01 -1 0 -1 0 1 0 1 0 11 1 0 -1 0 -1 0 1 0 11 0 0 0 0 0 0 0 0 01 -1 0 1 0 -1 0 1 0 11 1 0 1 0 1 0 1 0 11 0 -1 -1 0 0 1 0 1 11 0 1 -1 0 0 -1 0 1 11 0 -1 1 0 0 -1 0 1 11 0 1 1 0 0 1 0 1 11 0 0 0 0 0 0 0 0 0

MATRIZ TRASPUESTA DE X

1 1 1 1 1 1 1 1 1 1 1 1 1 1 10 -1 1 -1 1 -1 1 0 -1 1 0 0 0 0 00 -1 -1 1 1 0 0 0 0 0 -1 1 -1 1 00 0 0 0 0 -1 -1 0 1 1 -1 -1 1 1 00 1 -1 -1 1 0 0 0 0 0 0 0 0 0 00 0 0 0 0 1 -1 0 -1 1 0 0 0 0 00 0 0 0 0 0 0 0 0 0 1 -1 -1 1 00 1 1 1 1 1 1 0 1 1 0 0 0 0 00 1 1 1 1 0 0 0 0 0 1 1 1 1 00 0 0 0 0 1 1 0 1 1 1 1 1 1 0

MATRIZ X TRASPUESTA POR X

15 0 0 0 0 0 0 8 8 80 8 0 0 0 0 0 0 0 00 0 8 0 0 0 0 0 0 00 0 0 8 0 0 0 0 0 00 0 0 0 4 0 0 0 0 00 0 0 0 0 4 0 0 0 00 0 0 0 0 0 4 0 0 08 0 0 0 0 0 0 8 4 48 0 0 0 0 0 0 4 8 48 0 0 0 0 0 0 4 4 8

MATRIZ INVERSA DE LA MATRIZ TRASPUESTA DE X (A)

0,33333333 0 0 0 0 0 0 -0,16666667 -0,16666667 -0,166666670 0,125 0 0 0 0 0 0 0 00 0 0,125 0 0 0 0 0 0 00 0 0 0,125 0 0 0 0 0 00 0 0 0 0,25 0 0 0 0 00 0 0 0 0 0,25 0 0 0 00 0 0 0 0 0 0,25 0 0 0

-0,16666667 0 0 0 0 0 0 0,27083333 0,02083333 0,02083333-0,16666667 0 0 0 0 0 0 0,02083333 0,27083333 0,02083333-0,16666667 0 0 0 0 0 0 0,02083333 0,02083333 0,27083333

MATRIZ TRASPUESTA DE X POR MATRIZ Y (B)

130253-2019-8750

-169-86231

1446697176919270737

MATRIZ A POR MATRIZ B

8476,66667-252,375-1093,75

-21,125-21,557,75361,5

88,0416667-43,2083333343,041667

ANÁLISIS DE REGRESIÓN EN EXCEL

Estadísticas de la regresiónC. Correlación 0,980826252C. Determinación 0,962020137R^2 ajustado 0,893656385Error típico 295,9193865Observaciones 15

ANÁLISIS DE VARIANZAGrados de libertad SUMA CUADRA PRO.CUADRA F Valor crítico de F

Regresión 9 11090410,32 1232267,81 14,0720791 0,004756872Residuos 5 437841,4167 87568,2833Total 14 11528251,73

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%Intercepción 8476,666667 170,8491375 49,6149222 6,2857E-08 8037,484977 8915,848356 8037,484977 8915,848356X1 -252,375 104,6233025 -2,41222552 0,06069704 -521,3177608 16,56776078 -521,3177608 16,56776078X2 -1093,75 104,6233025 -10,454172 0,0001381 -1362,692761 -824,8072392 -1362,692761 -824,8072392X3 -21,125 104,6233025 -0,20191487 0,84794139 -290,0677608 247,8177608 -290,0677608 247,8177608X1*X2 -21,5 147,9596933 -0,14530984 0,89014236 -401,8424998 358,8424998 -401,8424998 358,8424998X1*X3 57,75 147,9596933 0,390309 0,71238223 -322,5924998 438,0924998 -322,5924998 438,0924998X2*X3 361,5 147,9596933 2,44323296 0,05842076 -18,84249979 741,8424998 -18,84249979 741,8424998X1*X1 88,04166667 154,0013314 0,57169419 0,59226922 -307,8313583 483,9146917 -307,8313583 483,9146917X2*X2 -43,20833333 154,0013314 -0,28057117 0,79027811 -439,0813583 352,6646917 -439,0813583 352,6646917X3*X3 343,0416667 154,0013314 2,22752403 0,07640232 -52,83135832 738,9146917 -52,83135832 738,9146917

MODELO Y 1=β 0+β1 X 1+β2 X 2+β3 X3+ β12 X 1X 2+β 13 X1 X 3+β 23 X 2 X3+ β11X 12+ β22 X 22+ β33 X 32+ε

Y=8476.6-252.375X1-1093.75X2-21.125X3-21.5X1X2+57.75X1X3+361.5X2X3+88.04X1^2-43.20X2^2+343.04X3^2

ANÁLISIS ESTADÍSTICOPrimero determinaremos a través de la tabla de distribución Fisher, si el modelo planteado presenta inconsistencia en sus variables, que no permitan que se acerque al modelo original.

Ho= Los coeficientes afectan la solución del modeloHa≠ Los coeficientes no afectan la solución del modeloSignificancia: Se utilizara un nivel de significancia de 5%FT=14.072 FE=3.48Decisión Se acepta la hipótesis Ho

Como se acepta la hipótesis nula, quiere decir que dentro del modelo existen variables que lo están afectando, realizaremos una nueva prueba estadística utilizando graficas t- Studen, para identificar las variables que afectan nuestro modelo.

1. Para la variable X1Ho= La variable x1 afecta la solución del modeloHa≠ La variable x1 no afecta la solución del modeloSignificancia: Se utilizara un nivel de significancia de 5%ST=-2.41SE= 1.761Decisión Se rechaza la Ho

2. Para la variable X2Ho= La variable x2 afecta la solución del modeloHa≠ La variable x2 no afecta la solución del modeloSignificancia: Se utilizara un nivel de significancia de 5%ST=-10.45SE=1.761Decisión Se rechaza la Ho

3. Para la variable X3Ho= La variable x3 afecta la solución del modeloHa≠ La variable x3 no afecta la solución del modeloSignificancia: Se utilizara un nivel de significancia de 5%ST=-0.20SE=1.761Decisión Se rechaza la Ho

4. Para la variable X1*X2Ho= La variable x1*x2 afecta la solución del modeloHa≠ La variable x1*x2 no afecta la solución del modeloSignificancia: Se utilizara un nivel de significancia de 5%ST=-0.14SE=1.761Decisión Se rechaza la Ho

5. Para la variable X1*X3Ho= La variable x1*x3 afecta la solución del modeloHa≠ La variable x1*x3 no afecta la solución del modeloSignificancia: Se utilizara un nivel de significancia de 5%ST=0.39SE=1.761Decisión Se rechaza la Ho

6. Para la variable X2*X3Ho= La variable x2*x3 afecta la solución del modeloHa≠ La variable x2x*3 no afecta la solución del modeloSignificancia: Se utilizara un nivel de significancia de 5%ST=2.44SE=1.761Decisión Se acepta la Ho

7. Para la variable X1^2Ho= La variable x1^2 afecta la solución del modeloHa≠ La variable x1^2 no afecta la solución del modeloSignificancia: Se utilizara un nivel de significancia de 5%ST=0.57SE=1.761Decisión Se rechaza la Ho

8. Para la variable X2^2Ho= La variable x2^2 afecta la solución del modeloHa≠ La variable x2^2 no afecta la solución del modeloSignificancia: Se utilizara un nivel de significancia de 5%ST=-0.28SE=1.761Decisión Se rechaza la Ho

9. Para a variable X3^2Ho= La variable x3^2 afecta la solución del modeloHa≠ La variable x3^2 no afecta la solución del modeloSignificancia: Se utilizara un nivel de significancia de 5%ST=2.22SE=1.761Decisión Se acepta la Ho

D) COMPARACIÓN

ERROR ESTÁNDAR DE ESTIMACIÓN

C. DETERMINACIÓN C. DETERMINACIÓN AJUSTADO

MODELO 1 362.4191 0.8746 0.8404MODELO 2 295.9193 0.9620 0.8936

Como se puede observar el modelo 2 está más cerca al modelo original de la función, debido a que su error de estimación es menor con respecto al primer modelo, además se observa también que tanto el coeficiente de determinación y el coeficiente de determinación ajustado es mayor con respecto al primero, este sería el modelo más conveniente a usar si se considera un nivel de significancia del 5%.

E) Después del análisis y la comparación entre el modelo 2 y el uno, identificamos cual modelo se acerca más a la función, a travez de sus coeficientes de determinación, y por medio del análisis estadísticos identificamos las variables que afectaban el modelo más cercano, ahora realizaremos el tercer modelo, con base a estos análisis que será:

Y 1=β 0+β1 X 1+β2 X 2+β3 X3+ β12 X 1X 2+β 13 X1 X 3+β 11X 12+ β22 X 22+ε,

Y 1=β 0+β1 X 1+β2 X 2+β3 X3+ β12 X 1X 2+β 13 X1 X 3+β 11X 12+ β22 X 22+ε

MATRIZ PARA VARIABLES X

X1Persulfato de sodio (NaPS)

X2 Ácido hipofosforoso (H3PO4)

X3 Isopropanol

(IPA)X1*X2 X1*X3 X1*X1 X2*X2

1 0 0 0 0 0 0 01 -1 -1 0 1 0 1 11 1 -1 0 -1 0 1 11 -1 1 0 -1 0 1 11 1 1 0 1 0 1 11 -1 0 -1 0 1 1 01 1 0 -1 0 -1 1 01 0 0 0 0 0 0 01 -1 0 1 0 -1 1 01 1 0 1 0 1 1 01 0 -1 -1 0 0 0 11 0 1 -1 0 0 0 11 0 -1 1 0 0 0 11 0 1 1 0 0 0 11 0 0 0 0 0 0 0

Se realizara la regresión directamente en Excel.

ANÁLISIS DE REGRESIÓN EN EXCEL

Estadísticas de la regresiónC. Correlación 0,93754288C. Determinación 0,87898666R^2 ajustado 0,75797332Error típico 446,425849Observaciones 15

ANÁLISIS DE VARIANZAGrados de libertadSUMA CUADRA PRO.CUADRA F Valor crítico de F

Regresión 7 10133179,46 1447597,066 7,26355164 0,00897762Residuos 7 1395072,269 199296,0385Total 14 11528251,73

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%Inferior 95,0%Superior 95,0%Intercepción 8687,76923 214,4560409 40,51072282 1,4556E-09 8180,66128 9194,87719 8180,66128 9194,87719X1 -252,375 157,8353725 -1,598976174 0,15385847 -625,59635 120,84635 -625,59635 120,84635X2 -1093,75 157,8353725 -6,929688718 0,00022525 -1466,97135 -720,52865 -1466,97135 -720,52865X3 -21,125 157,8353725 -0,133841988 0,89729425 -394,34635 352,09635 -394,34635 352,09635X1*X2 -21,5 223,2129244 -0,096320587 0,9259656 -549,314694 506,314694 -549,314694 506,314694X1*X3 57,75 223,2129244 0,258721578 0,80329279 -470,064694 585,564694 -470,064694 585,564694X1*X1 61,6538462 231,6389987 0,266163498 0,79778273 -486,085348 609,39304 -486,085348 609,39304X2*X2 -69,5961538 231,6389987 -0,300450935 0,77256016 -617,335348 478,14304 -617,335348 478,14304

F) COMPARACIÓN DE MODELOS

ERROR ESTÁNDAR DE ESTIMACIÓN

C. DETERMINACIÓN C. DETERMINACIÓN AJUSTADO

MODELO 1 362.4191 0.8746 0.8404MODELO 2 295.9193 0.9620 0.8936MODELO 3 446.4258 0.8789 0.7579

Como se puede observar en la tabla de comparación el modelo 3 planteado, está muy lejos de la función original, con respecto debido a que su error esta mayor con respecto a los otros dos, aunque su coeficiente de determinación se encuentre entre el modelo 1 y el modelo 2, el coeficiente de determinación ajustado está muy por debajo de los mismo, lo cual quiere decir que en alguna parte del análisis hubo un error.