Quimiometria principiantes

may-14 [1]

Rebeca Rondón

Chemometrics

Quimiometria

Para principiantes

Mayo de 2014

Brasil

may-14 [2]

Índice

1 Introducción - Bases de quimiometría ...................................................................... 3

2 Estadística descriptiva ............................................................................................... 3

2.1 Análisis de clouster ............................................................................................ 4

2.2 Análisis de Componentes Principales (PCA) .................................................... 4

3 Diseño experimental .................................................................................................. 5

4 Modelos de calibración ............................................................................................. 6

4.1 Calibración univariada –lineal ........................................................................... 6

4.2 Calibración multivariada .................................................................................... 6

4.2.1 Regresión Lineal Múltiple (MLR) .............................................................. 7

4.2.2 Regresión de Componentes Principales (PCR) .......................................... 7

4.2.3 Mínimos Cuadrados Parciales (PLS) .......................................................... 8

5 ¿Por dónde empezar? ................................................................................................ 8

5.1 ABC de Química Analítica ................................................................................ 9

5.1.1 Tipo de muestra / Analito ........................................................................... 9

5.1.2 Preparación de muestras / Diseño experimental ....................................... 10

5.1.3 Manejo de la data espectral / Pre-procesamiento ..................................... 10

6 Tips básicos / Observaciones básicas en las figuras ............................................... 15

6.1 Grafica Observado vs. Predicho ...................................................................... 15

6.2 Grafica de Errores ............................................................................................ 15

6.3 Grafica de SEP o SEV ..................................................................................... 16

6.4 Grafica de PC/LV ............................................................................................ 16

6.5 Bondad de ajuste de la ecuación ...................................................................... 17

6.6 Validación del modelo de calibración ............................................................. 17

6.7 Intervalo de predicción .................................................................................... 18

6.8 Predicciones -Distancia del medio (M-Distance) ............................................ 18

7 Conclusiones ........................................................................................................... 19

8 Bibliografía.............................................................................................................. 19

may-14 [3]

1 Introducción - Bases de quimiometría

La quimiometría está definida como la estadística aplicada a la química analítica, en ese

sentido en este tratado podremos encontrar información sobre estadística y sobre

química analítica. Ambos en conjunción y cooperación para la resolución de problemas

analíticos a nivel industrial.

La estadística asociada a la quimiometría se conoce desde hace mucho tiempo, sin

embargo, la complejidad de la matemática asociada impedía el aumento en el uso

frecuente de esta. No es sino hasta el desarrollo de las computadoras y diversos

software, que la quimiometría se puesto al alcance de todas las personas.

Hoy en día, no es necesario el profundo conocimiento de las matemáticas para

desarrollar métodos quimiométricos. Donde, cabe resaltar que el procedimiento es muy

analítico, que precisa de una clara experiencia en el operador para observar -con

facilidad- todas las correlaciones encontradas.

Sin embargo, la facilidad del trabajo con software quimiométricos permite que muchas

personas –con poca experiencia en estadística y/o quimiometría- puedan incursionar en

el tema. Lo relevante en el caso es el conocimiento básico, así como el correcto

procedimiento de calibración.

En ese sentido, el objetivo de este tratado es ofrecer esas bases necesarias para que

cualquier persona pueda desarrollar trabajos quimiométricos en un camino certero.

Especialmente enfocado a la industria, donde el uso de quimiometría ha ido en aumento

y donde se observan las mayores ventajas de la quimiometría.

2 Estadística descriptiva

La quimiometría es -ante todo- estadística; en ese sentido cualquier desarrollador de

métodos quimiométricos debe conocer las cosas más básicas de la estadística, eso se

refiere a probabilidades y estadística, prueba de hipótesis y distribución normal.

Ya que este punto está fuera del objetivo de este escrito, solo vamos a comentar algunos

puntos clave empelados en el análisis quimiométrico.

En estadística se conoce como muestra a la parte de una población que es

analizada. En este sentido, el término difiere del empleado en química analítica

donde la muestra es el objeto a analizar y cuyo valor suele ser desconocido.

En estadística, toda muestra de una población de más de 30 miembros responde

a una distribución normal. Esto implica que las muestras con menos 30

miembros presentan distribución de t-studen. Dado que la estadística más

sencilla es presenta en muestras con distribución normal, es importante tratar de

manejar muestras con más de 30 miembros –siempre que sea posible.

may-14 [4]

En quimiometría se emplean las bases estadísticas, trabajando con intervalos de

confianza así como supuestos matemáticos, análisis de errores y valores de

probabilidad.

En estadística, las medidas deben ser realizadas aleatoriamente.

La quimiometría puede ser para análisis cualitativo o cuantitativo, por lo que se tienen

varios tipos de análisis con los cuales trabajar.

Los principales sistemas cuantitativos se basan en regresiones multiparamétricas, donde

se deben observar una cantidad de Graficas y valores para aceptar el modelo

matemático planteado. En todo caso, cada punto será comentado en la sección

correspondiente.

2.1 Análisis de clouster

El análisis de clouster es una prueba matemática muy empleada en los sistemas

cualitativos, aunque también se encuentran casos de análisis cuantitativo. Se trata de un

sistema en el cual los miembros de la muestra se comparan entre sí para ver las

características similares y las diferencias, agrupándolos en grupos separados en una

representación en el plano.

Al llegar un individuo desconocido, sus características pueden ser comparadas con cada

uno de los grupos desarrollados y con ello se ubica dentro de la representación; con lo

que se logra identificar el grupo al cual pertenece.

Algunos ejemplos se encuentran en los análisis forenses, sea para identificar el origen

de un producto o para verificar la adulteración del mismo.

La grafica anterior muestra la forma de una representación de clouster en un plano. Este

tipo de grafica es típica de los sistemas de análisis de clousters, donde el punto X es el

individuo que se desea identificar.

2.2 Análisis de Componentes Principales (PCA)

El análisis de componentes principales (PCA) es otro método frecuentemente empleado

en el análisis cualitativo, aunque también es empleado para análisis cuantitativo.

may-14 [5]

El PCA se basa en la simplificación del sistema, transformando las variables problema

en nuevas variables, las cuales pueden describir el sistema de forma más simple –

usando menos variables.

La nueva variable se correlaciona con todas las variables problemas que se encontraban

afectadas por el mismo “factor” y con correlación entre sí. A esta nueva variable se le

conoce como componente principal (PC) y lo ideal es simplificar el sistema hasta tener

un PC por cada “factor” original.

Los PC encontrados son ortogonales entre sí y puede que varios de ellos expliquen el

mismo factor, mas esa “explicación” es diferente para cada componente principal,

encontrándose siempre que existe un PC que explica mejor el sistema.

En la actualidad, la mayoría de los softwares estadísticos están programados para que el

primer PC sea el que explique la mayor variabilidad del sistema. Luego es importante

verificar la cantidad de PC empleados para describir el sistema.

La optimización de la cantidad de PC se realiza mediante el estudio del error de

predicción. Se emplea la cantidad de PC necesarios para generar el mínimo el error de

predicción posible.

3 Diseño experimental

En los sistemas cuantitativos el diseño experimental es de suma importancia. En estos

sistemas, el diseño experimental permite la correcta calibración matemática, tal cual una

curva de calibrado en un sistema univariado. Es por ello que en este trabajo se

mencionará brevemente la calibración univariada.

De forma general, en los sistemas reales se tienen dos posibilidades para realizar la

calibración del sistema, por lo que se tienen dos opciones para desarrollar el diseño

experimental.

Un caso ideal es donde conocemos todos y cada uno de los componentes de la muestra

analítica por lo que se puede reproducir para crear la “curva de calibrado”. En caso más

común en la industria es donde se desconocen los componentes de la muestra analítica y

solo se tienen las muestras que salen de producción, por lo que no se puede crear un

diseño experimental y en cambio se trabaja con las “muestras reales” -como se conoce

en analítica- de valores conocidos.

En donde se tiene el caso ideal lo común es trabajar con un diseño factorial que permita

cubrir todo el intervalo posible de variable problema, la cual es la concentración de

algún analito/parámetro a medir cuantitativamente.

El diseño factorial tiene la forma de nk con n niveles de concentración de los k factores

que puedan afectar la data espectral, generando un sistema de nk puntos de calibración.

Cada punto puede ser analizado por triplicado, aumentando la data y permitiendo

desarrollar un sistema más robusto.

may-14 [6]

La cantidad de factores suele ser algo fijo en el sistema, y está directamente relacionado

con la cantidad de componentes de la muestra; por lo que cada componente es un factor

siempre que el mismo afecte la data espectral.

El número de niveles puede ser definido por el usuario, siendo necesario al menos dos

niveles (n=2) que son uno bajo y uno alto en el intervalo planteado para cada factor.

Los softwares estadísticos suelen tener herramientas en las cuales se puede desarrollar el

diseño factorial para identificar todas las combinaciones posibles de los k factores en los

n niveles. El software también los puede ubicar de forma aleatoria para ser analizados

así y cumplir con todos los supuestos de la estadística.

El objetivo final del diseño experimental es cubrir todo el intervalo de concentraciones

así como toda la variabilidad posible de la muestra, de forma que cualquier muestra sea

representada adecuadamente.

4 Modelos de calibración

En esta sección plantearemos varios modelos de calibración con los cuales desarrollar la

ecuación matemática que explique el sistema.

Estos modelos se dividen en dos áreas, la calibración univariada y la multivariada. En

los dos casos tenemos uno o más analitos y en el caso de la calibración multivariada se

emplean multiples variables respuestas (longitudes de onda espectral en el caso de la

química analítica) para explicar la variable respuesta (concentración del analito).

4.1 Calibración univariada –lineal

La calibración univariada se refiere a una simple regresión lineal simple (SLR), la cual

tiene la forma:

En este caso la variable respuesta (y, concentración del analito) se explica mediante la

variable explicativa (x, señal instrumental a una longitud de onda específica), los valores

de a y b son calculados matemáticamente y comprobados estadísticamente.

Dentro de las estadísticas involucradas, se calculan los valores del coeficiente de

determinación (R o r2) con los que se comprueba la bondad de ajuste de la ecuación

matemática. Este coeficiente es de gran importancia ya que indica que tan certero es la

ecuación para explicar la variable respuesta.

4.2 Calibración multivariada

En muchas ocasiones se tienen sistemas donde no es posible encontrara una longitud de

onda para medir y correlacionar con la concentración del analito. En cambio, se observa

la variación de múltiples longitudes de onda –simultáneamente- y por ello se requiere de

un modelo matemático más complejo para explicar dichas variaciones.

may-14 [7]

En esta sección comentarios sobre los modelos matemáticos empleados para calibración

multivariada, desde el más sencillo hasta el más complejo sin tocar los sistemas de redes

neuronales.

4.2.1 Regresión Lineal Múltiple (MLR)

La MLR es una variación de la SLR donde se toman varios puntos a la vez. En este caso

la variable respuesta se explica mediante varias variables explicativas las cuales no se

correlacionan entre sí. La ecuación final tiene la forma:

Se deben cumplir los mismos supuestos matemáticos que para la SLR, buscando un R o

r2 cercano a 1 y con grafica de errores con forma aleatoria.

4.2.2 Regresión de Componentes Principales (PCR)

Luego de realizado un PCA, cada uno de los componentes encontrados durante el PCA

se pueden emplear para realizar una MLR. En este sentido, se puede decir que el PCR es

un punto intermedio entre una estadística básica (MLR) y una estadística más compleja

(PCA).

Para realiza en PCR, en química analítica, se toma el espectro de la muestra para

emplear cada una de las longitudes de onda como variables explicativas. Se crean

entonces dos matrices, una de la concentración de los puntos de calibración y la otra con

la data espectral.

La matriz de concentraciones siempre es unitaria, mientras que la de longitudes de onda

tiene tantos miembros como data espectral se maneje (j).

En algunos casos se trabaja con todo el intervalo espectral, mas también suelen

realizarse modificaciones para trabajar con solo una zona de interés.

Durante el proceso de PCA, la matriz de longitudes de onda se transforma en nuevas

matrices para cada PC que luego se correlaciona con la matriz de concentración

generando una ecuación similar a la de MLR pero con matrices y que incluyen una

matriz de errores.

may-14 [8]

La matemática involucrada esta fuera del alcance de este trabajo ya que solo que quiere

dar un vistazo simplificado de la generación del PCR.

Para finalizar el apartado sobre PCR, es necesario comentar que este modelo

matemático funciona muy bien para casos de una sola variable explicativa (un solo

analito). Por lo que en caso de dos o más analitos a ser cuantificados se debe trabajar

con PLS.

4.2.3 Mínimos Cuadrados Parciales (PLS)

El PLS (partital least square) es posiblemente el método más conocido para realizar

calibración multivariada.

La matemática implicada tiene similitud con la del PCR ya que en primera instancia

convierte la data espectral (matriz de longitudes de onda) en una nuevas variables que

simplifican el sistema.

En este caso las variables generadas (conocidas como variables latentes –LV) se

correlacionan con la variable explicativa (concentración del analito) para generar la

ecuación matemática. En este caso, la correlación se realiza mediante mínimos

cuadrados parciales –de allí el nombre del modelo- en lugar de los mínimos cuadrados

empleados en SLR, MLR y PCR. He aquí la mayor diferencia entre PLS y PCR.

El algoritmo matemático empleado en PLS es más complejo que el empleado en PCR,

por ello el PLS es adecuado para análisis de dos o más analitos, así como sistemas con

correlaciones complejas.

En el caso del PLS, las matrices originales involucradas son las mismas que en PCR,

por lo que en los softwares quimiométricos solo es necesario cambiar el tipo de

algoritmo para trabar con uno o con otro empleando la misma data.

Las LV generadas cumplen con las mismas propiedades que los PC, tales como ser

ortogonales entre sí y que la primera LV es la que explica la mayor variación del

sistema.

Para finalizar, existen dos tipos de PLS conocidos como PLS1 y PLS2. El PLS2 fue

desarrollado para el análisis de dos o más analitos y es un algoritmo matemático un

poco más simple que el PLS1. Se debe entender que la potencia de las computadoras ha

aumentado a los largo de los años y por ello hoy en día se puede trabajar con PLS1 para

dos o más analitos.

El PLS1 es más sensible que el PLS2, generando un menor error de predicción, por ello

es recomendable utilizar PLS1 en lugar de PLS2. No obstante, muchos estudios

comparan los dos métodos para identificar cual es el ideal para el caso que se trabaja en

particular.

5 ¿Por dónde empezar?

Se debe tener muy claro que la quimiometría es mucho trabajo de entrada y poco trabajo

de salida. En ese sentido, es poco atractivo para la investigación donde solo se tiene el

may-14 [9]

trabajo de entrada. Caso contrario a las industrias, donde la cantidad de trabajo de salida

puede ser –simplemente- agobiante.

Si lugar a dudas en las industrias es donde se aplica la quimiometria, allí también es

donde más se desconoce la estadística involucrada y donde los analistas precisan de

mayor información en orden de desarrollar métodos de calibración adecuados.

Conociendo esto, la pregunta es ¿por dónde empezar?

En química analítica se tiene una especie de protocolo de trabajo, algo similar a un ABC

que siempre se da, independientemente del tipo de análisis a realizar (Atómica,

Molecular, Espectroscópico, Electroquímico, Cromatográfico, entre otros). Es este

protocolo lo que describiremos a continuación.

5.1 ABC de Química Analítica

5.1.1 Tipo de muestra / Analito

Lo primero a conocer es el tipo de muestra analítica a medir, donde hay tres cosas

fundamentales:

a. ¿Cuál es la matriz?

¿se conocen todos los componentes de la matriz?

¿se puede reproducir la matriz?

b. ¿Cuál es el Analito?

¿tiene estructura definida?

Características espectroscópicas de dicha molécula o correlación con que

parámetro.

c. ¿Se conoce la relación Analito/Matriz?

Concentración del Analito en la muestra analítica/problema

Teniendo todos estos puntos claros se puede proceder a escoger el mejor método de

análisis. Ejemplos:

1. Se tiene una muestra de roca en la que se desea conocer la composición de

todos los minerales.

Este tipo de muestras generan un problema fundamental. Se desconocen los analitos y

se pretende medir la muestra entera, es decir: matriz=analitos.

Se puede recurrir a varias técnicas atómicas / elementales para indagar sobre la

composición. Se suele trabajar con varias técnicas a la vez ya que todas darán

información diferente y complementaria.

2. Se tiene una muestra de acetaminofén en comprimidos. Se desea comprobar el

contenido del acetaminofén en el comprimido, el cual debe ser de 90-110% del

contenido nominal. Contenido nominal (etiquetado) es del 40 mg Tableta-1

.

Este caso tenemos que la matriz de la muestra son los excipientes farmacéuticos. En la

descripción del problema no mencionan nada sobre los excipientes presentes en el

may-14 [10]

comprimido y aunque se pueden deducir muchos de ellos, no podemos estar seguros de

cuales son exactamente. En ese sentido se desconocen los componentes de la matriz así

como su proporción.

Por su parte, el Analito es una molécula orgánica que tiene absorción en el IR medio y

cercano. También tiene absorción en el UV, aunque sus bandas en el UV no son tan

específicas; sin embargo, el UV es un detector usual en cromatografía, por lo que el

análisis podría realizarse mediante HPLC.

Se conoce la concentración estimada del Analito en la muestra, pesando el comprimido

se puede conocer el valor porcentual de la concentración y con ello realizar una curva

de calibración adecuada.

3. Se requiere comprobar la limpieza del agua para inyectables farmacéuticos,

donde se debe tener menos de 25 partículas por mililitro mayores o iguales a 10

µm, 3 partículas por mililitro mayores o iguales a 25 µm y 0 partículas por

mililitro con tamaños mayores o iguales a 100 µm.

Este caso es bastante peculiar. Se tiene mucha información. En primer lugar la matriz es

agua para inyectables, lo que es un agua sumamente pura por lo que es sencillo de

reproducir.

Tenemos que el Analito son partículas que debe contarse, lo que se mide con un

contador de partículas o un analizador de tamaño de partículas.

Finalmente, para calibrar nos piden la medida en tres puntos: 10, 25 y 100 µm, por lo

que solo es necesario calibrar en esos dos puntos, aunque la buena analítica diría que la

calibración debe ser en un mínimo de 10 puntos. En cualquier caso, se tiene información

suficiente como para desarrollar una buena calibración.

5.1.2 Preparación de muestras / Diseño experimental

La preparación de las muestras es un paso clave en la química analítica. Desde el

muestreo, todo afecta el resultado y en muchas ocasiones los errores de predicción se

producen en los pasos previos al análisis espectral/matemático.

Es por ello que se debe prestar especial atención a la forma en la cual se hace la

preparación de las muestras.

Adicionalmente, y cuando es posible, durante la preparación de las muestras se preparan

los estándares de calibración del sistema siguiendo el planteamiento del diseño

experimental acordado para el trabajo en particular.

5.1.3 Manejo de la data espectral / Pre-procesamiento

Son varias las formas de realizar el pre-procesamiento de la data espectral, todas ellas

de utilidad, algunas más empleadas que otras. Es importante dar un ligero repaso por

cada una de ellas, siendo importante recalcar que cuando se hacen análisis cuantitativos,

se debe realizar el mismo pre-procesamiento a toda la data (estándares de trabajo y

muestras con valor desconocido).

may-14 [11]

5.1.3.1 Suavizado

El suavizado (smooth) es un preprocesamiento de la data muy empleado en la parte

descriptiva. Consta de “suavizar” o eliminar/disminuir el ruido de fondo del equipo al

aplicar un algoritmo matemático a la data.

El punto más importante en este caso es cantidad de suavizado empleado. Un algoritmo

matemático empleando comúnmente es el de Savitzky–Golay el cual elimina

sistemáticamente una cantidad de puntos de la data. ¿Cuántos puntos eliminar? ¿Cuánto

suavizar? He ahí el dilema.

Se deben eliminar suficientes puntos como para que el suavizado sea efectivo, sin

eliminar demasiados con lo que se perdería información.

Se debe especificar el tipo de suavizado realizado, así como la cantidad de “puntos”

empleados en el suavizado. Todo de forma que pueda ser reproducible.

5.1.3.2 Normalizado

El normalizado corresponde a otro procedimiento común en el pre-procesamiento de

espectros cualitativos. Se trata de una forma de “ajustar” todas las bandas para que se

observen con una proporción similar.

El normalizado se hace a un número definido, usualmente 1 y con ello altera la

intensidad aparente de las bandas de absorción.

5.1.3.3 Operaciones matemáticas

En este apartado se engloban todas las operaciones matemáticas tales como sumar,

restar, multiplicar y dividir.

Original 20 puntos

40 puntos 80 puntos

may-14 [12]

La más común de ellas es realizada por los instrumentos sin que el usuario lo perciba,

corresponde a la división, la cual se hace entre el espectro tomado y el ruido de fondo

(background).

Por su parte, el usuario dispone de las operaciones matemáticas para poder observar

variaciones u otra información. Por ejemplo, ver a aparición o desaparición de una

banda de absorción durante una reacción química; estimar el espectro final de una

mezcla de compuestos entre otros.

5.1.3.4 Corrección de línea base

La corrección de línea base es de suma importancia para la correcta medida de alturas

de picos, también es de gran utilidad en análisis cualitativos para comparar espectros.

Se puede realizar en uno o dos puntos y con ello llegar a observar una zona (o todo el

espectro) de forma horizontal.

E1 E2

may-14 [13]

5.1.3.5 Derivadas

Hemos llegado a las derivadas, un procedimiento matemático muy conocido en

electroquímica ya que les ayuda a encontrar el punto de inflexión de la titulación.

De forma general se tienen derivadas hasta de 4to orden. Ellas permiten encontrar

información sobre mezclas o pureza de pico en cromatografía, así como en

espectroscopia molecular. Son de gran utilidad en los sistemas de cuantificación, ya que

hace corrección de línea base al mismo tiempo que separa el espectro ayudando a

identificar las interferencias espectrales. También es de gran utilidad para identificar los

puntos adecuados para realizar una corrección de línea base en el espectro original.

Se debe tener cuidado ya que el grado de derivada, así como la ventana de derivación,

afecta la relación señal/ruido (S/N), que puede contrarrestar el efecto deseado. En ese

sentido, es posible que este sea el motivo de que los softwares trabajen hasta la 4ta

derivada.

De forma general, se llama derivada cero (D0) al espectro original en Absorción. Luego

tenemos la primera derivada (D1), donde se observa un corte con el origen en el punto

donde se encontraba el máximo. La segunda derivada (D2) tenemos un mínimo donde

estaba el máximo. Tercera derivada (D3) se observa un nuevo corte con el origen en el

lugar del máximo, con forma inversa a la D1. Cuarta derivada (D4) se observa un

máximo, como inverso a la D2.

Original 1 punto 2 puntos

may-14 [14]

5.1.3.6 Deconvolución

La deconvolución es de gran utilidad en el caso identificar si un pico se encuentra

afectado por varios componentes. En el proceso matemático se hace una separación del

pico y, así como la derivada, permite ver la pureza del mismo.

5.1.3.7 Correcciones MSC y ATR

Estos tipos de correcciones se realizan cuando las medidas son realizadas en el

Infrarrojo y con técnica de refractancia difusa (caso de MSC) o por refractancia total

atenuada (caso de ATR).

Son empleadas para simular el espectro de absorción que se tendría de la misma medida

por algunas de las técnicas antes mencionadas.

D0 D0

D1

D3

D2

D4

may-14 [15]

La corrección MSC también puede ser útil en casos donde se tienen partículas de

diversos tamaños afectando la señal, algo común en medidas por refractancia difusa y

que ocurre en sistemas de absorción como la medida de aceites usados.

6 Tips básicos / Observaciones básicas en las figuras

En esta sección se plantea los puntos básicos que deben ser observados para definir si el

modelo de calibración empleando es el correcto, así como la correcta implementación

del mismo.

6.1 Grafica Observado vs. Predicho

Una Grafica fundamental para identificar un buen modelo de calibración es la de

Observado vs. Predicho. Esta Grafica se obtiene prediciendo cada punto y

comparándolo con el valor “real” u observado.

Debe tener la forma de una recta con corte cero (0) y pendiente 1 cumpliendo la

ecuación:

Adicionalmente es recomendable que los puntos estén dispersos en todo el intervalo de

calibración de forma homogénea tal y como se presenta en la siguiente figura.

6.2 Grafica de Errores

La grafica de errores es otra grafica fundamental en cualquier sistema de predicción; en

ella, se presentan los errores de cada punto observado y los mismos deben estar

distribuidos aleatoriamente alrededor de 0.

En casos donde se observan formas en la distribución de los puntos (curvas o líneas

definidas) se puede concluir que el modelo matemático empleado en la calibración no es

el adecuado para realizar la misma.

0,00 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4 3,6 3,8 4,0 4,2 4,40

-0,28

0,0

0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

4,62

Speci fied

Estim

ate

d

x ets080p

x ets081p

x ets082p

x ets083p

x ets084p

x ets085px ets086p

x ets087p

x ets088p

x ets089p

x ets090p

x ets091p

x ets092p

x ets093p

x ets094p

x ets095p

x ets096p

x ets098p

x ets099p

x ets100px ets101p

x ets102p

x ets103p

x ets104p

may-14 [16]

Errores en curvas

Errores en ondas

Errores en recta

Errores aleatorios

6.3 Grafica de SEP o SEV

Como fue planteado en la sección 4.2.2 y 4.2.3, el modelo de calibración PCR o PLS se

optimiza hasta tener el menor error de predicción (SEP) posible, por lo que la Grafica

del SEP es sumamente importante.

Una Grafica similar se tiene con el error de validación (SEV), la cual también tiene un

mínimo que suele coincidir con el mínimo SEP. Las dos Graficas son obtenidas con los

paquetes quimiométricos y suelen tener la siguiente forma:

Se muestra la selección de número de PC o LV con la línea vertical colocada en el

mínimo SEP encontrado.

6.4 Grafica de PC/LV

La grafica de componentes principales (PC) o variables latentes (LV) muestra la

relación que tiene cada PC/LV con las longitudes de onda originales. Esto permite

0,00 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,00

0,08

0,2

0,4

0,6

0,8

1,0

1,2

1,41

may-14 [17]

discernir sobre la importancia de cada PC/LV para explicar el comportamiento

espectral.

La grafica debe presentar forma de espectro o algo similar a él, con bandas definidas

que puedan ser atribuidas a componentes de la muestra como analitos/componentes de

matriz.

6.5 Bondad de ajuste de la ecuación

La bondad de ajuste de la ecuación (R o r2) presentan que tan bien se ajustan los puntos

sobre la recta de Observado vs. Predichos.

En sistemas simples (SLR) el valor de R o r2 debe ser muy cercano a uno (0.99),

mientras que en sistemas más complejos (MLR, PCR, PLS) se permite trabaja con

valores de R o r2 menores (0.85); todo dependiendo de la complejidad del sistema.

6.6 Validación del modelo de calibración

La validación del modelo de calibración es algo común en cualquier sistema

matemático. La idea es poder confirmar que los valores predichos son acorde con la

realidad.

Para ello se emplea la curva de adición estándar en química analítica con SLR, así como

el porcentaje de recuperación. En sistemas más complejos se trabaja con un set de

validación.

El set de validación corresponde a una cantidad de muestras “reales” a las cuales se les

conoce el contenido del analito y las cuales son predichas con el modelo matemático

empleado en la calibración.

Existen varios tipos dos tipos de validación, la validación con un set de muestras

independientes del set de muestras de calibración; y la validación cruzada con las

mismas muestras de calibración.

En este último caso, la validación cruzada se realiza dejando una muestra afuera cada

vez (LOOCV) o un grupo de muestras (LMOCV), todo dependiendo del tipo de

muestras con las cuales de calibre.

Se selecciona la validación LOOCV cuando las muestras son únicas –sin repeticiones

de ellas, mientras que se selecciona la LMOCV cuando las muestras tienen replicas por

lo que en cada punto de la validación se deja el grupo –entero- de réplicas fuera.

Es importante resaltar que la validación cruzada es de especial utilidad cuando la

cantidad de muestras con valores conocidos es pequeña. En la industria se suelen tener

grandes cantidades de muestras con valores conocidos, por lo que se pueden crear el set

de validación independiente al set de calibración.

may-14 [18]

6.7 Intervalo de predicción

Para la creación del modelo matemático se emplean muestras con valores conocidos

entre x e y valores, por lo que se tiene un intervalo de calibración bien definido en el

cual se conoce el comportamiento de las muestras.

En zonas de concentraciones superiores o inferiores al intervalo de calibración se

desconoce cómo se comportan las muestras, por lo que hacer predicciones para

muestras en esas zonas puede llevar a conclusiones erradas. Es por ello que las

predicciones se deben hacer para muestras que se encuentra en el intervalo en el cual el

sistema fue calibrado. La situación ideal es que las muestras problema/desconocidas se

encuentren en la zona media del intervalo de calibración.

Esto es válido para cualquier sistema de calibración, desde la SLR hasta el PLS.

6.8 Predicciones -Distancia del medio (M-Distance)

La distancia del medio se calcula al realizar una predicción en quimiometría. Los

softwares quimiométricos realizan el cálculo de forma automática y dan el valor como

M-Distance y se refiere a cuál es la distancia de ese punto en particular al medio del

sistema de calibración.

Lo ideal es que la M-Distance sea pequeña –menor a uno, lo cual indica que la muestra

problema se encuentra cerca del centro del set de calibración. En casos donde la M-

Distance sea muy alta se puede inferir que esa muestra pertenece a otra población.

A continuación se presenta un ejemplo que permite identificar la M-Distance y los

errores que conlleva un valor grande:

Se tiene un sistema de calibración para los que se han mezclado los colores

amarillo y azul, generando muestras con tonalidades amarillo, verde y azul.

Luego de calibrado y validado se realiza la predicción de una muestra color

naranja generando una M-Distance de 20. ¿Qué se pude inferir del valor de M-

Distance?

Dado que el valor de M-Distance es muy alto se estima que la muestra

proviene de otra población.

may-14 [19]

Ya que es color naranja sabemos que el sistema de calibración de

amarillo, verde, azul- no es adecuado para la predicción del naranja. Esta

muestra es muy diferente. Se puede concluir que para la predicción del color

naranja es necesario la calibración con colores adicionales; lo que es igual a

decir que el sistema de calibración (diseño experimental) no cubrió toda la

variabilidad posible en la muestra.

Lo importante de la M-Distance es que el software quimiométrico siempre va a predecir

un valor y queda de parte del operador verificar si dicha predicción es válida.

7 Conclusiones

Son muchas las cosas a observar en el momento de trabajar con quimiometría, por lo

que es necesario el estudio continuo del problema y tener un buen conocimiento del

mismo.

Sin embargo, se ha demostrado que analistas con poca experiencia pueden realizar un

buen trabajo al realizar medidas adecuadas bajos los criterios adecuados. Con esta guía

se consiguen plantear los criterios básicos para trabajar y que la mente inquisidora

pueda buscar más información.

8 Bibliografía

Benjamin, J., Donald, R., & Kenneth, M. (1991). Statistical Principles In Experimental

Design. USA: Mc-Graw Hill.

Brereton, R. G. (2000). Introduction to multivariate calibration in analytical chemistry.

The Analyst, 2125-2154.

Kramer, R. (1998). Chemometrics techniques for quantitative analysis. N.Y.: Marcel

Dekker, Inc. .

Distancia M

may-14 [20]

Miller, J., & Miller, J. (2002). Estadística y Quimiometría para Química Analítica. 4ta

Edi. Madrid: Person Education.

Seltman, H. (2013). Experimental Desing and Analysis. Recuperado el 19 de Febrero de

2014, de http://www.stat.cmu.edu/∼hseltman/309/Book/Book.pdf

Science

Quimiometria principiantes