41
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar la “ecuación de mejor ajuste” --- pero ¿qué es lo “mejor”? Criterio: minimizar la suma de las desviaciones cuadradas de los puntos de datos de la regresión lineal.

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

Embed Size (px)

Citation preview

Page 1: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

El Principio de los “Mínimos Cuadrados”

• La regresión trata de generar la “ecuación de mejor ajuste” --- pero ¿qué es lo “mejor”?

• Criterio: minimizar la suma de las desviaciones cuadradas de los puntos de datos de la regresión lineal.

Page 2: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

¿Qué tan Buena es la Regresión (Parte 1) ?

(Suma de los cuadrados de la media de Y)

(Suma de los cuadrados de la regresión lineal)

¿Qué tan bien representa nuestros datos originales la ecuación de regresión?

La proporción (porcentaje) de la varianza en y que es explicada por la ecuación de regresión es representada por el símbolo R2.

R2 =

Page 3: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Variabilidad Ajustada - ilustración

R2 Alto- buen ajuste R2 Bajo- poco ajuste

Page 4: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

¿Qué tan Buena es la Regresión (Parte 2) ?

• Recuerde que empleó una muestra de la población de los puntos de datos potenciales para determinar la ecuación de regresión.– e.g. un valor cada 15 minutos, 1-2 semanas de operación de

datos

• Una muestra diferente dará una ecuación diferente con diferentes coeficientes de bi

• Como se muestra en la siguiente diapositiva, la muestra puede afectar enormemente la ecuación de regresión…

¿Qué tan bien predecirá esta ecuación de regresión los NUEVOS puntos de datos?

Page 5: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Muestreando variablidad de los Coeficientes de Regresión- ilustración

Sample 1: y = a'x + b' + Sample 2: y = a''x + b'' + Muestra 1: y = a’x + b’ + e Muestra 2: y = a’’x + b’’ + e

Page 6: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Límites de Confianza

• Los límites de confianza (x%) son las fronteras superior e inferior que tienen una probabilidad x% de encerrar el valor de población verdadero de una variable dada

• Generalmente mostradas como barras arriba y debajo de un punto de dato predicho:

Page 7: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Normalización de los Datos

• Los datos empleados para la regresión son usualmente normalizados para tener una media de cero y varianza de uno.

• De otra forma los cálculos estarían dominados (parcializados) por variables, presentándose:– valores numéricos muy grandes– varianza grande

• Esto significa que el software del AMV nunca ve los datos originales, sólo la versión normalizada

Page 8: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Normalización de los Datos - ilustración

Cada variable es representada por una barra de varianza y su media (centro).

Datos sinprocesar

Sólo Media-centrada

SóloVarianza-centrada Normalizada

Page 9: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Requisitos para la Regresión• Requerimientos de los Datos

– Datos normalizados– Errores normalmente distribuidos con media cero– Variables independientes no correlacionadas

• Implicaciones si los Requerimientos No se Logran– Mayores límites de confianza alrededor de los coeficientes de

regresión (bi)– Predicción más pobre de nuevos datos

Page 10: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Análisis Multivariable

1. Análisis del Componente Principal (ACP)• Sólo X’s

2. Proyecciones a las Estructuras Latentes (PEL)• a.k.a. “Mínimos Cuadrados Parciales”• X’s y Y’s X Y

Puede ser la misma base de datos, i.e., puedes hacer el ACP en sobre la totalidad de la muestra (X’s y Y’s juntos)

Puede ser la misma base de datos, i.e., puedes hacer el ACP en sobre la totalidad de la muestra (X’s y Y’s juntos)

Ahora estamos listos para empezar a hablar acerca del análisis multivariable (AMV). Existen dos tipos principales de AMV:

Empecemos con el ACP. Note que el ejemplo de la comida europea al principio fue ACP, debido a todos los tipos de comida fueron tratados como equivalentes.

Xx

Page 11: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Propósito del ACPEl propósito del ACP es el de proyectar un espacio de datos con un

gran número de dimensiones correlacionadas (variables) en un segundo espacio de datos con un número mucho menor de dimensiones independientes (ortogonal).

Esto es justificable científicamente gracias a la Navaja de Ockham. Muy en el fondo, la Naturaleza ES simple. Seguido, la dimensión espacial más baja corresponde más de cerca a lo que está sucediendo en un nivel físico.

El reto es interpretar los resultados del de una forma científicamente válida.

Recordatorio…“Navaja de Ockham”

Page 12: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Entre las ventajas del ACP están:

• Las variables no correlacionadas se prestan para el análisis estadístico tradicional

• Espacios de bajas dimensiones que son más fáciles para trabajar• Las nuevas dimensiones muy a menudo, representan más

claramente la base de la estructura de los grupos de variables (nuestro amigo Ockham)

Ventajas del ACP

+1 -1

Recordatorio…“Atributos Latentes”

Page 13: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Cómo funciona el ACP (Concepto)

• Encontrar un componente (vector de dimensión) que ajuste la mayor cantidad de variaciones de x como sea posible

• Encontrar un segundo componente que:– sea ortgonal al (no correlacionado con) primero– ajuste la mayor cantidad posible de los restos de la

variación de x• El proceso continua hasta que el investigador esté

satisfecho o el ajuste sea mínimo.

El ACP es un proceso paso a paso. Así es como funciona conceptualmente:

Page 14: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Cómo Trabaja el ACP (Matemáticas)

• Considerar una (n x k) matríz de datos X (n observaciones, k variables)

• Modelos PCS como (asumiendo datos normalizados):

X = T * P’ + E

• donde T son los valores de cada observación de los nuevos componentesP son las cargas de las variables originales en los

nuevos componentes

E matriz residual, conteniendo el ruido

Como en la regresión Como en la regresión linear sólo se usan linear sólo se usan matricesmatrices

Así es como trabaja el ACP matemáticamente:

Page 15: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

3 variablesoriginales

X1

X3

X2

La nube de datos (en rojo) es proyectada en un plano definido por los primeros 2 componentes

..

. ...

. ..

.

. .

Cómo Trabaja el ACP (Visualmente)El ACP trabaja visualmente proyectando la nube de datos multidimensionales en un “hiperplano” definido por los primeros dos componentes. La imagen muestra esto en 3-D, para que sea sencillo de entender, pero en realidad puede haber una docena de o hasta cientos de dimensiones:

proyecciónplano

er

do

Page 16: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Número de ComponentesLos componentes son simplemente los nuevos ejes que son creados para ajustar la mayoría de la varianza con el menor número de dimensiones. La metodología del ACP asegura que los componentes sean extraídos en orden decreciente de la varianza. En otras palabras, el primer componente siempre ajusta la mayoría de la varianza, el segundo ajusta la mayoría restante de la varianza, y así sucesivamente:

1 2 3 4 5 6 . . .

Eventualmente, los componentes de mayor nivel representan principalmente ruido. Esto es algo bueno, y de hecho una de las razones por las cuales se usa el ACP. Debido a que el ruido es relegado a los componentes de alto nivel, éste está ausente en los primeros componentes. Esto se debe a que todos los componentes son ortogonales el uno del otro, lo que significa que son estadísticamente independientes o no correlacionados.

Page 17: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

El Criterio de los Eigenvalores

• Eigenvalores de la matriz A :– Definida matemáticamente por (A - I) = 0– Útil como “medida de importancia” para las

variables

Existen dos maneras de determinar cuándo dejar de crear nuevos componentes:

–Criterio Eigenvalor

–Scree test

La primera de éstas usa la siguiente definición matemática:

Usualmente, componentes con eigenvalores menores de uno son descartados, ya que presentan menos poder de definición que el que presentaban originalmente las variables originales.

Page 18: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

El Criterio del Punto de Inflexión (Scree Test)

El segundo método es una simple técnica gráfica:

• Gráfica de los eigenvalores vs. número de componentes

• Extraer componentes hasta el punto donde se estabiliza la “gráfica”

• La cola derecha de la curva es “rocosa” (como la parte inferior de una pendiente rocosa)

1 2 3 4 5 6Componente #

8

7

6

5

4

3

2

1

Eig

en

val

ore

s

Page 19: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Interpretación de los Componentes del ACP

• Basar en la fuerza y dirección de las cargas• Identificar los conjuntos de variables que pudieran estar físicamente

relacionadas o que provienen de un origen común– e.g., En la producción de papel, las propiedades de fortaleza

tales como rasgado, ruptura, longitud de rompimiento en el papel están todas relacionadas a la longitud y enlaces de las fibras iniciales.

Como cualquier tipo de AMV, la parte más complicada del ACP es la interpretación de los componentes. El software es 100% matemático y da las mismas soluciones aún si los datos están relacionados al consumo de diesel o a los resultados de las carreras de caballos. El ingeniero es el que debe de dar sentido a las soluciones del software. En general, se debe de:

Page 20: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

¿Cuál es la diferencia entre ACP y PEL?

Las PEL son una versión de regresión multivariables. Usa dos modelos diferentes de ACP, uno para las X’s y otro par alas Y’s, y encuentra el enlace entre las dos.

Matemáticamente, la diferencia es:

En el ACP, la varianza ajustada por el modelo es maximizada.

En las PEL, se maximiza la covarianza.

ACP vs. PEL

Xx

X Y

Page 21: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Cómo Trabaja el PEL (Concepto)

• PEL encuentra una serie de componentes ortogonales que:– maximizan el nivel de ajuste de la X e Y– provén de una ecuación predictora para Y en términos de las X’s

• Esto se logra mediante:– Ajuste de un grupo de componentes a X (como en ACP)– Similarmente ajustar un grupo de componentes a Y– Combinar los dos grupos de componentes de tal manera que se

maximice el ajuste de X e Y

El PEL también es un proceso paso-a-paso. Así es como funciona conceptualmente:

Page 22: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Cómo Traba el PEL (Matemáticas)

• X = TP’ + E relación externa para X (como ACP)

• Y = UQ’ + F relación externa para Y (como ACP)

• uh = bhth relación interna para los componentesh = 1,…,(# de componentes)

Los factores de peso w son usados para asegurarse que las dimensiones son ortogonales

Así es como trabaja el PEL matemáticamente:

Page 23: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

PEL – la “Relación Interna”

Los 3 son resueltos simultáneamente vía métodos

numéricos

La forma como trabaja el PEL visualmente es “enrollando” los dos modelos del ACP (X e Y) hasta que su covarianza es optimizada. Es este “enrollado” lo que produce el nombre de mínimos cuadrados parciales.

Page 24: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Interpretación de los Componentes del PEL

La interpretación de los resultados del PEL presenta todas las dificultades del ACP, además de uno más: dar sentido a los componentes individuales del espacio X e Y.

En otras palabras, para que los resultados tengan sentido, el primer componente de X debe estar relacionado de alguna manera con el primer componente de Y.

Observe que a lo largo de este curso, la palabras “causa” y “efecto” están ausentes. El AMV determina SÓLO las correlaciones. La única excepción es cuando se ha empleado un adecuado diseño del experimento.

Este es un ejemplo de una falsa correlación: las semillas en un alimentador de aves permanece lleno todo el invierno, pero desaparece de repente en primavera. Usted concluye que el clima cálido hicieron desintegrase a las semillas…

Page 25: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

• Resultados– Gráficas de Resultados– Gráficas de Entradas

• Diagnósticos– Gráficas de Residuos– Observado vs. Predicho– …(muchas más)

Tipo de Salidas del AMV

Ya estudiadas…

El software del AMV genera dos tipos de salidas: resultados y diagnósticos. Hemos visto la gráfica de Resultados y Entradas en el ejemplo de la comida. Algunos otros son mostrados en las siguientes diapositivas.

Page 26: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

• También llamado “Modelo a Distancia” (DModX)– Contiene todo el ruido– Definición:

DModX = ( eik2 / D.F.)1/2

• Empleado para identificar salidas moderadas– Salidas extremas visibles en la Gráfica de Resultados

Residuales

1

2

3

4

5

1999-11-23

1999-11-24

1999-11-25

1999-11-26

1999-11-27

1999-11-28

1999-11-29

1999-11-30

1999-12-01

1999-12-02

1999-12-03

1999-12-04

1999-12-05

1999-12-06

1999-12-07

1999-12-08

1999-12-09

1999-12-10

1999-12-11

1999-12-12

1999-12-13

1999-12-14

1999-12-15

1999-12-16

1999-12-17

1999-12-18

1999-12-19

1999-12-20

1999-12-21

1999-12-22

1999-12-23

1999-12-24

1999-12-25

1999-12-26

1999-12-27

1999-12-28

1999-12-29

1999-12-30

2000-01-00

2000-01-01

2000-01-02

2000-01-03

2000-01-04

2000-01-05

2000-01-06

2000-01-07

2000-01-08

2000-01-09

2000-01-10

2000-01-11

2000-01-12

2000-01-13

2000-01-14

2000-01-15

2000-01-16

2000-01-17

2000-01-18

2000-01-19

2000-01-20

2000-01-21

2000-01-22

2000-01-23

2000-01-24

2000-01-25

2000-01-26

2000-01-27

2000-01-28

2000-01-29

2000-01-30

2000-01-31

2000-02-01

2000-02-02

2000-02-03

2000-02-04

2000-02-05

2000-02-06

2000-02-07

2000-02-08

2000-02-09

2000-02-10

2000-02-11

2000-02-12

2000-02-13

2000-02-14

2000-02-15

2000-02-16

2000-02-17

2000-02-18

2000-02-19

2000-02-20

2000-02-21

2000-02-22

2000-02-23

2000-02-24

2000-02-25

2000-02-26

2000-02-27

2000-02-28

2000-02-29

2000-03-01

2000-03-02

2000-03-03

2000-03-04

2000-03-05

2000-03-06

2000-03-07

2000-03-08

2000-03-09

2000-03-10

2000-03-11

2000-03-12

2000-03-13

2000-03-14

2000-03-15

2000-03-16

2000-03-17

2000-03-18

2000-03-19

2000-03-20

2000-03-21

2000-03-22

2000-03-23

2000-03-24

2000-03-25

2000-03-26

2000-03-27

2000-03-28

2000-03-29

2000-03-30

2000-03-31

2000-04-01

2000-04-02

2000-04-03

2000-04-04

2000-04-05

2000-04-06

2000-04-07

2000-04-08

2000-04-09

2000-04-10

2000-04-11

2000-04-12

2000-04-13

2000-04-14

2000-04-15

2000-04-16

2000-04-17

2000-04-18

2000-04-19

2000-04-20

2000-04-21

2000-04-22

2000-04-23

2000-04-24

2000-04-25

2000-04-26

2000-04-27

2000-04-28

2000-04-29

2000-04-30

2000-05-01

2000-05-02

2000-05-03

2000-05-04

2000-05-05

2000-05-06

2000-05-07

2000-05-08

2000-05-09

2000-05-10

2000-05-11

2000-05-12

2000-05-13

2000-05-14

2000-05-15

2000-05-16

2000-05-17

2000-05-18

2000-05-19

2000-05-20

2000-05-21

2000-05-22

2000-05-23

2000-05-24

2000-05-25

2000-05-26

2000-05-27

2000-05-28

2000-05-29

2000-05-30

2000-05-31

2000-06-01

2000-06-02

2000-06-03

2000-06-04

2000-06-05

2000-06-06

2000-06-07

2000-06-08

2000-06-09

2000-06-10

2000-06-11

2000-06-12

2000-06-13

2000-06-14

2000-06-15

2000-06-16

2000-06-17

2000-06-18

2000-06-19

2000-06-20

2000-06-21

2000-06-22

2000-06-23

2000-06-24

2000-06-25

2000-06-26

2000-06-27

2000-06-28

2000-06-29

2000-06-30

2000-07-01

2000-07-02

2000-07-03

2000-07-04

2000-07-05

2000-07-06

2000-07-07

2000-07-08

2000-07-09

2000-07-10

2000-07-11

2000-07-12

2000-07-13

2000-07-14

2000-07-15

2000-07-16

2000-07-17

2000-07-18

2000-07-19

2000-07-20

2000-07-21

2000-07-22

2000-07-23

2000-07-24

2000-07-25

2000-07-26

2000-07-27

2000-07-28

2000-07-29

2000-07-30

2000-07-31

2000-08-01

2000-08-02

2000-08-03

2000-08-04

2000-08-05

2000-08-06

2000-08-07

2000-08-08

2000-08-09

2000-08-10

2000-08-11

2000-08-12

2000-08-13

2000-08-14

2000-08-15

2000-08-16

2000-08-17

2000-08-18

2000-08-19

2000-08-20

2000-08-21

2000-08-22

2000-08-23

2000-08-24

2000-08-25

2000-08-26

2000-08-27

2000-08-28

2000-08-29

2000-08-30

2000-08-31

2000-09-01

2000-09-02

2000-09-03

2000-09-04

2000-09-05

2000-09-06

2000-09-07

2000-09-08

2000-09-09

2000-09-10

2000-09-11

2000-09-12

2000-09-13

2000-09-14

2000-09-15

2000-09-16

2000-09-17

2000-09-18

2000-09-19

2000-09-20

2000-09-21

2000-09-22

2000-09-23

2000-09-24

2000-09-25

2000-09-26

2000-09-27

2000-09-28

2000-09-29

2000-09-30

2000-10-01

2000-10-02

2000-10-03

2000-10-04

2000-10-05

2000-10-06

2000-10-07

2000-10-08

2000-10-09

2000-10-10

2000-10-11

2000-10-12

2000-10-13

2000-10-14

2000-10-15

2000-10-16

2000-10-17

2000-10-18

2000-10-19

2000-10-20

2000-10-21

2000-10-22

2000-10-23

2000-10-24

2000-10-25

2000-10-26

2000-10-27

2000-10-28

2000-10-29

2000-10-30

2000-10-31

2000-11-01

2000-11-02

2000-11-03

2000-11-04

2000-11-05

2000-11-06

2000-11-07

2000-11-08

2000-11-09

2000-11-10

2000-11-11

2000-11-12

2000-11-13

2000-11-14

2000-11-15

2000-11-16

2000-11-17

2000-11-18

2000-11-19

2000-11-20

2000-11-21

2000-11-22

2000-11-23

2000-11-24

2000-11-25

2000-11-26

2000-11-27

2000-11-28

2000-11-29

2000-11-30

2000-12-01

2000-12-02

2000-12-03

2000-12-04

2000-12-05

2000-12-06

2000-12-07

2000-12-08

2000-12-09

2000-12-10

2000-12-11

2000-12-12

2000-12-13

2000-12-14

2000-12-15

2000-12-16

2000-12-17

2000-12-18

2000-12-19

2000-12-20

2000-12-21

2000-12-22

2000-12-23

2000-12-24

2000-12-25

2000-12-26

2000-12-27

2000-12-28

2000-12-29

2000-12-30

2000-12-31

2001-01-01

2001-01-02

2001-01-03

2001-01-04

2001-01-05

2001-01-06

2001-01-07

2001-01-08

2001-01-09

2001-01-10

2001-01-11

2001-01-12

2001-01-13

2001-01-14

2001-01-15

2001-01-16

2001-01-17

2001-01-18

2001-01-19

2001-01-20

2001-01-21

2001-01-22

2001-01-23

2001-01-24

2001-01-25

2001-01-26

2001-01-27

2001-01-28

2001-01-29

2001-01-30

2001-01-31

2001-02-01

2001-02-02

2001-02-03

2001-02-04

2001-02-05

2001-02-06

2001-02-07

2001-02-08

2001-02-09

2001-02-10

2001-02-11

2001-02-12

2001-02-13

2001-02-14

2001-02-15

2001-02-16

2001-02-17

2001-02-18

2001-02-19

2001-02-20

2001-02-21

2001-02-22

2001-02-23

2001-02-24

2001-02-25

2001-02-26

2001-02-27

2001-02-28

2001-03-01

2001-03-02

2001-03-03

2001-03-04

2001-03-05

2001-03-06

2001-03-07

2001-03-08

2001-03-09

2001-03-10

2001-03-11

2001-03-12

2001-03-13

2001-03-14

2001-03-15

2001-03-16

2001-03-17

2001-03-18

2001-03-19

2001-03-20

2001-03-21

2001-03-22

2001-03-23

2001-03-24

2001-03-25

2001-03-26

2001-03-27

2001-03-28

2001-03-29

2001-03-30

2001-03-31

2001-04-01

2001-04-02

2001-04-03

2001-04-04

2001-04-05

2001-04-06

2001-04-07

2001-04-08

2001-04-09

2001-04-10

2001-04-11

2001-04-12

2001-04-13

2001-04-14

2001-04-15

2001-04-16

2001-04-17

2001-04-18

2001-04-19

2001-04-20

2001-04-21

2001-04-22

2001-04-23

2001-04-24

2001-04-25

2001-04-26

2001-04-27

2001-04-28

2001-04-29

2001-04-30

2001-05-01

2001-05-02

2001-05-03

2001-05-04

2001-05-05

2001-05-06

2001-05-07

2001-05-08

2001-05-09

2001-05-10

2001-05-11

2001-05-12

2001-05-13

2001-05-14

2001-05-15

2001-05-16

2001-05-17

2001-05-18

2001-05-19

2001-05-20

2001-05-21

2001-05-22

2001-05-23

2001-05-24

2001-05-25

2001-05-26

2001-05-27

2001-05-28

2001-05-29

2001-05-30

2001-05-31

2001-06-01

2001-06-02

2001-06-03

2001-06-04

2001-06-05

2001-06-06

2001-06-07

2001-06-08

2001-06-09

2001-06-10

2001-06-11

2001-06-12

2001-06-13

2001-06-14

2001-06-15

2001-06-16

2001-06-17

2001-06-18

2001-06-19

2001-06-20

2001-06-21

2001-06-22

2001-06-23

2001-06-24

2001-06-25

2001-06-26

2001-06-27

2001-06-28

2001-06-29

2001-06-30

2001-07-01

2001-07-02

2001-07-03

2001-07-04

2001-07-05

2001-07-06

2001-07-07

2001-07-08

2001-07-09

2001-07-10

2001-07-11

2001-07-12

2001-07-13

2001-07-14

2001-07-15

2001-07-16

2001-07-17

2001-07-18

2001-07-19

2001-07-20

2001-07-21

2001-07-22

2001-07-23

2001-07-24

2001-07-25

2001-07-26

2001-07-27

2001-07-28

2001-07-29

2001-07-30

2001-07-31

2001-08-01

2001-08-02

2001-08-03

2001-08-04

2001-08-05

2001-08-06

2001-08-07

2001-08-08

2001-08-09

2001-08-10

2001-08-11

2001-08-12

2001-08-13

2001-08-14

2001-08-15

2001-08-16

2001-08-17

2001-08-18

2001-08-19

2001-08-20

2001-08-21

2001-08-22

2001-08-23

2001-08-24

2001-08-25

2001-08-26

2001-08-27

2001-08-28

2001-08-29

2001-08-30

2001-08-31

2001-09-01

2001-09-02

2001-09-03

2001-09-04

2001-09-05

2001-09-06

2001-09-07

2001-09-08

2001-09-09

2001-09-10

2001-09-11

2001-09-12

2001-09-13

2001-09-14

2001-09-15

2001-09-16

2001-09-17

2001-09-18

2001-09-19

2001-09-20

2001-09-21

2001-09-22

2001-09-23

2001-09-24

2001-09-25

2001-09-26

2001-09-27

2001-09-28

2001-09-29

2001-09-30

2001-10-01

2001-10-02

2001-10-03

2001-10-04

2001-10-05

2001-10-06

2001-10-07

2001-10-08

2001-10-09

2001-10-10

2001-10-11

2001-10-12

2001-10-13

2001-10-14

2001-10-15

2001-10-16

2001-10-17

2001-10-18

2001-10-19

2001-10-20

2001-10-21

2001-10-22

2001-10-23

2001-10-24

2001-10-25

2001-10-26

2001-10-27

2001-10-28

2001-10-29

2001-10-30

2001-10-31

2001-11-01

2001-11-02

2001-11-03

2001-11-04

2001-11-05

2001-11-06

2001-11-07

2001-11-08

2001-11-09

2001-11-10

2001-11-11

2001-11-12

2001-11-13

2001-11-14

2001-11-15

2001-11-16

2001-11-17

2001-11-18

2001-11-19

2001-11-20

2001-11-21

2001-11-22

2001-11-23

2001-11-24

2001-11-25

2001-11-26

2001-11-27

2001-11-28

2001-11-29

2001-11-30

2001-12-01

2001-12-02

2001-12-03

2001-12-04

2001-12-05

2001-12-06

2001-12-07

2001-12-08

2001-12-09

2001-12-10

2001-12-11

2001-12-12

2001-12-13

2001-12-14

2001-12-15

2001-12-16

2001-12-17

2001-12-18

2001-12-19

2001-12-20

2001-12-21

2001-12-22

2001-12-23

2001-12-24

2001-12-25

2001-12-26

2001-12-27

2001-12-28

2001-12-29

2001-12-30

2001-12-31

2002-01-01

2002-01-02

2002-01-03

2002-01-04

2002-01-05

2002-01-06

2002-01-07

2002-01-08

2002-01-09

2002-01-10

2002-01-11

2002-01-12

2002-01-13

2002-01-14

2002-01-15

2002-01-16

2002-01-17

2002-01-18

2002-01-19

2002-01-20

2002-01-21

2002-01-22

2002-01-23

2002-01-24

2002-01-25

2002-01-26

2002-01-27

2002-01-28

2002-01-29

2002-01-30

2002-01-31

2002-02-01

2002-02-02

2002-02-03

2002-02-04

2002-02-05

2002-02-06

2002-02-07

2002-02-08

2002-02-09

2002-02-10

2002-02-11

2002-02-12

2002-02-13

2002-02-14

2002-02-15

2002-02-16

2002-02-17

2002-02-18

2002-02-19

2002-02-20

2002-02-21

2002-02-22

2002-02-23

2002-02-24

2002-02-25

2002-02-26

2002-02-27

2002-02-28

2002-03-01

2002-03-02

2002-03-03

2002-03-04

2002-03-05

2002-03-06

2002-03-07

2002-03-08

2002-03-09

2002-03-10

2002-03-11

2002-03-12

2002-03-13

2002-03-14

2002-03-15

2002-03-16

2002-03-17

2002-03-18

2002-03-19

2002-03-20

2002-03-21

2002-03-22

2002-03-23

2002-03-24

2002-03-25

2002-03-26

2002-03-27

2002-03-28

2002-03-29

2002-03-30

2002-03-31

2002-04-01

2002-04-02

2002-04-03

2002-04-04

2002-04-05

2002-04-06

2002-04-07

2002-04-08

2002-04-09

2002-04-10

2002-04-11

2002-04-12

2002-04-13

2002-04-14

2002-04-15

2002-04-16

2002-04-17

2002-04-18

2002-04-19

2002-04-20

2002-04-21

2002-04-22

2002-04-23

2002-04-24

2002-04-25

2002-04-26

2002-04-27

2002-04-28

2002-04-29

2002-04-30

2002-05-01

2002-05-02

2002-05-03

2002-05-04

2002-05-05

2002-05-06

2002-05-07

2002-05-08

2002-05-09

2002-05-10

2002-05-11

2002-05-12

2002-05-13

2002-05-14

2002-05-15

2002-05-16

2002-05-17

2002-05-18

2002-05-19

2002-05-20

2002-05-21

2002-05-22

2002-05-23

2002-05-24

2002-05-25

2002-05-26

2002-05-27

2002-05-28

2002-05-29

2002-05-30

2002-05-31

2002-06-01

2002-06-02

2002-06-03

2002-06-04

2002-06-05

2002-06-06

2002-06-07

2002-06-08

2002-06-09

2002-06-10

2002-06-11

2002-06-12

2002-06-13

2002-06-14

2002-06-15

2002-06-16

2002-06-17

2002-06-18

2002-06-19

2002-06-20

2002-06-21

2002-06-22

2002-06-23

2002-06-24

2002-06-25

2002-06-26

2002-06-27

2002-06-28

2002-06-29

2002-06-30

2002-07-01

2002-07-02

2002-07-03

2002-07-04

2002-07-05

2002-07-06

2002-07-07

2002-07-08

2002-07-09

2002-07-10

2002-07-11

2002-07-12

2002-07-13

2002-07-14

2002-07-15

2002-07-16

2002-07-17

2002-07-18

2002-07-19

2002-07-20

2002-07-21

2002-07-22

2002-07-23

2002-07-24

2002-07-25

2002-07-26

2002-07-27

2002-07-28

2002-07-29

2002-07-30

2002-07-31

2002-08-01

DM

odX

[1](N

orm

)

Obs ID (TIME)

32-months of 1 day.M2 (PLS), UntitledDModX[1](Norm)

M2-D-Crit[4] = 1.157

D-Crit(0.05)

Original observations

(siguiente diapositiva)

Page 27: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

“Modelo a Distancia”

.eik

i=observaciónk=variable

proyecciónplano

er

do

Page 28: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

160

180

200

220

240

150 160 170 180 190 200 210 220 230 240

YV

ar(5

3AI0

34.A

I)

YPred[14](53AI034.AI)

32-months of 1 day.M3 (PLS), UntitledYPred[14](53AI034.AI)/YVar(53AI034.AI)

RMSEE = 24.6664

Observado vs. Predicho

MODELO IDEALMODELO IDEAL

Esta gráfica presenta los valores de Y predichos por el modelo, contra los valores originales de Y. Un modelo perfecto tendría sólo puntos a lo largo de la línea.

32- meses de 1 día. M3 (PEL), Sin TítuloYpred[14](53ª1034.AI)/YVar(53A1034.AI)

Page 29: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Se presenta una lista de algunos de los principales retos a los que se enfrentará cuando trabaje con el AMV. ¡Usted ha sido advertido!

• Dificultad de interpretación de las graficas (“como leer hojas de té”)• Datos pre-procesados• Las curvas de control pueden disfrazar correlaciones reales• Datos discretos vs. promediado vs. interpolados• Determinar los retrasos para los tiempos de residencia en el

diagrama de flujo• Problemas con el incremento de tiempo

– e.g., ¿valores segundo-a-segundo o promedios diarios?

Algunas variables sensitivas típicas para la aplicación del AMV a un proceso con datos reales se muestran en la siguiente página…

Retos del AMV

Page 30: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Variables Sensitivas Típicas

Cálculos con AMV

-Lapso de tiempo / promedios-Qué variable es empleada-¿Cuántos componentes?-Datos pre-procesados-Tratamiento del ruido/fuera de rango-ACP vs. PEL

Realidad física -¿Cuáles son las X’s e Y’s?-Sub-secciones del diagrama de flujo-Retrasos de time, mezclado & recirculación-Cambios proceso/equipo-Efectos temporales

Variables no medibles

-Conocidas pero no medidas

-Desconocidas y no medidas

Page 31: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Fin del Tier 1

¡Felicidades!

Asumiendo que ha realizado toda la lectura, este es el fin del Tier 1. Sin duda mucha información parece confusa, pero las cosas se aclararán cuando se resuelvan ejemplos reales en el Tier 2.

Sólo falta completar un pequeño quiz…

Page 32: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Tier 1 Quiz

Pregunta 1:

Observar una o dos variables a la vez no es recomendable porque generalmente las variables están correlacionadas. ¿Qué significa esto exactamente?

a) Estas variables tienden a incrementar y decrecer al unisono. b) Estas variables probablemente estén midiendo lo mismo,

indirectamente sin embargo.c) Estas variable revelan una variable común y profunda que

probablemente no esté medida. d) Estas variables no son estadísticamente independientes. e) Todas las anteriores.

Page 33: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Tier 1 Quiz

Pregunta 2:

¿Cuál es la diferencia entre “información” y “conocimiento”?

a) La información está en la computadora o en un pedazo de papel, mientras que el conocimiento está dentro de la cabeza de las personas.

b) Sólo los científicos poseen el “verdadero” conocimiento.c) La información es matemática, mientras que el conocimiento no

lo es.d) La información incluye relaciones entre variables, pero no

tiene respaldo de la base de las causas científicas.e) El conocimiento puede adquirirse sólo a través de la

experiencia.

Page 34: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Tier 1 Quiz

Pregunta 3:

¿Por qué el AMV nunca revela la causa-y-efecto, al menos que se emplee un experimento diseñado?

a) Causa-y-efecto puede ser determinado sólo en el laboratorio.b) Los experimentos diseñados eliminan el error. c) El AMV sin experimentos diseñados sólo es inductivo,

mientras que la relación causa-y-efecto requiere de una deducción.

d) Sólo los efectos son medibles.e) Los científicos diseñan los experimentos para trabajar

perfectamente la primer vez.

Page 35: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Tier 1 Quiz

Pregunta 4:

¿Cuál es la desventaja más grande de usar el modelo de la “caja negra” en lugar de usar uno basado en los primeros principios?

a) No hay unidades de operación.b) El modelo es sólo tan bueno como los datos empleados

para crearlo. c) Datos de reacciones químicas y datos termodinámicos no son

usados.d) Un modelo de caja negra puede no tomar en cuenta el diagrama

de flujo completo.e) Los modelos de AMV son sólo lineares.

Page 36: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Tier 1 Quiz

Pregunta 5:

¿Qué nos dice un intervalo de confianza?

a) Qué tan dispersa está la información alrededor de la línea de regresión.

b) El rango dentro del cual cierto porcentaje de valores es esperado que se encuentre.

c) El área dentro de la cual la regresión lineal debe caer.d) El grado de credibilidad de los resultados de un análisis

específico.e) El número de veces que debe repetirse un análisis para estar

seguro de los resultados.

Page 37: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Tier 1 Quiz

Pregunta 6:

Cuando los datos fueron recopilados, algunos de los sensores de la planta no funcionaba correctamente y daba lecturas imprecisas. ¿Cuáles son las implicaciones a tomar en el análisis estadístico?

a) Se ajustan en el modelo más términos cuadráticos y productos cruzados a los datos.

b) Valores de la media más elevados de los esperados normalmente.

c) Valores de varianza más elevados para las variables asociadas con el mal funcionamiento del sensor.

d) Diferente selección de variables para incluir en el análisis.e) Término residual mayor en el modelo.

Page 38: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Tier 1 Quiz

Pregunta 7:

¿Por qué el reducir el número de dimensiones (más variables para menos componentes) tiene sentido desde un punto de vista científico?

a) Los nuevos componentes pueden corresponder a la base física del fenómeno que no puede ser medido directamente.

b) Menos dimensiones son más sencillas de observar en una gráfica o computadora.

c) La navaja de Ockham limita a los científicos a menos de cinco dimensiones.

d) El mundo real está limitado a sólo tres dimensiones.e) Todas las anteriores.

Page 39: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Tier 1 Quiz

Pregunta 8:

Si dos puntos en una gráfica de resultados están demasiado cerca, ¿significa esto que estas dos observaciones son casi idénticas?

a) Sí, porque están en la misma posición del cuadrante.b) No, porque se debe a un error experimental.c) Sí, porque presentan virtualmente el mismo efecto en el AMV.d) No, porque la gráfica de resultados es sólo una proyección.e) Respuestas (a) y (c).

Page 40: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Tier 1 Quiz

Pregunta 9:

Observando el ejemplo de la comida, ¿qué países aparentan estar correlacionados con un gran consumo de aceite de oliva?

a) Italia y España y en menor grado Portugal y Austria. b) Sólo Italia y España.c) Sólo Italia.d) Irlanda e Italia. e) Todos los países menos Suecia, Dinamarca e Inglaterra.

Page 41: NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0 El Principio de los “Mínimos Cuadrados” La regresión trata de generar

NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0

Tier 1 Quiz

Pregunta 10:

¿Por qué el error queda relegado cuando se tiene un mayor orden de componentes en el ACP?

a) Porque la Navaja de Ockham así lo establece.b) Porque el mundo real sólo tiene tres dimensiones.c) Porque el ruido es falsa información.d) Porque el AMV es capaz de corregir datos pobres.e) Porque el ruido no está correlacionado con otras variables.