View
342
Download
4
Tags:
Embed Size (px)
Citation preview
may-14 [1]
Rebeca Rondón
Chemometrics
Quimiometria
Para principiantes
Mayo de 2014
Brasil
may-14 [2]
Índice
1 Introducción - Bases de quimiometría ...................................................................... 3
2 Estadística descriptiva ............................................................................................... 3
2.1 Análisis de clouster ............................................................................................ 4
2.2 Análisis de Componentes Principales (PCA) .................................................... 4
3 Diseño experimental .................................................................................................. 5
4 Modelos de calibración ............................................................................................. 6
4.1 Calibración univariada –lineal ........................................................................... 6
4.2 Calibración multivariada .................................................................................... 6
4.2.1 Regresión Lineal Múltiple (MLR) .............................................................. 7
4.2.2 Regresión de Componentes Principales (PCR) .......................................... 7
4.2.3 Mínimos Cuadrados Parciales (PLS) .......................................................... 8
5 ¿Por dónde empezar? ................................................................................................ 8
5.1 ABC de Química Analítica ................................................................................ 9
5.1.1 Tipo de muestra / Analito ........................................................................... 9
5.1.2 Preparación de muestras / Diseño experimental ....................................... 10
5.1.3 Manejo de la data espectral / Pre-procesamiento ..................................... 10
6 Tips básicos / Observaciones básicas en las figuras ............................................... 15
6.1 Grafica Observado vs. Predicho ...................................................................... 15
6.2 Grafica de Errores ............................................................................................ 15
6.3 Grafica de SEP o SEV ..................................................................................... 16
6.4 Grafica de PC/LV ............................................................................................ 16
6.5 Bondad de ajuste de la ecuación ...................................................................... 17
6.6 Validación del modelo de calibración ............................................................. 17
6.7 Intervalo de predicción .................................................................................... 18
6.8 Predicciones -Distancia del medio (M-Distance) ............................................ 18
7 Conclusiones ........................................................................................................... 19
8 Bibliografía.............................................................................................................. 19
may-14 [3]
1 Introducción - Bases de quimiometría
La quimiometría está definida como la estadística aplicada a la química analítica, en ese
sentido en este tratado podremos encontrar información sobre estadística y sobre
química analítica. Ambos en conjunción y cooperación para la resolución de problemas
analíticos a nivel industrial.
La estadística asociada a la quimiometría se conoce desde hace mucho tiempo, sin
embargo, la complejidad de la matemática asociada impedía el aumento en el uso
frecuente de esta. No es sino hasta el desarrollo de las computadoras y diversos
software, que la quimiometría se puesto al alcance de todas las personas.
Hoy en día, no es necesario el profundo conocimiento de las matemáticas para
desarrollar métodos quimiométricos. Donde, cabe resaltar que el procedimiento es muy
analítico, que precisa de una clara experiencia en el operador para observar -con
facilidad- todas las correlaciones encontradas.
Sin embargo, la facilidad del trabajo con software quimiométricos permite que muchas
personas –con poca experiencia en estadística y/o quimiometría- puedan incursionar en
el tema. Lo relevante en el caso es el conocimiento básico, así como el correcto
procedimiento de calibración.
En ese sentido, el objetivo de este tratado es ofrecer esas bases necesarias para que
cualquier persona pueda desarrollar trabajos quimiométricos en un camino certero.
Especialmente enfocado a la industria, donde el uso de quimiometría ha ido en aumento
y donde se observan las mayores ventajas de la quimiometría.
2 Estadística descriptiva
La quimiometría es -ante todo- estadística; en ese sentido cualquier desarrollador de
métodos quimiométricos debe conocer las cosas más básicas de la estadística, eso se
refiere a probabilidades y estadística, prueba de hipótesis y distribución normal.
Ya que este punto está fuera del objetivo de este escrito, solo vamos a comentar algunos
puntos clave empelados en el análisis quimiométrico.
En estadística se conoce como muestra a la parte de una población que es
analizada. En este sentido, el término difiere del empleado en química analítica
donde la muestra es el objeto a analizar y cuyo valor suele ser desconocido.
En estadística, toda muestra de una población de más de 30 miembros responde
a una distribución normal. Esto implica que las muestras con menos 30
miembros presentan distribución de t-studen. Dado que la estadística más
sencilla es presenta en muestras con distribución normal, es importante tratar de
manejar muestras con más de 30 miembros –siempre que sea posible.
may-14 [4]
En quimiometría se emplean las bases estadísticas, trabajando con intervalos de
confianza así como supuestos matemáticos, análisis de errores y valores de
probabilidad.
En estadística, las medidas deben ser realizadas aleatoriamente.
La quimiometría puede ser para análisis cualitativo o cuantitativo, por lo que se tienen
varios tipos de análisis con los cuales trabajar.
Los principales sistemas cuantitativos se basan en regresiones multiparamétricas, donde
se deben observar una cantidad de Graficas y valores para aceptar el modelo
matemático planteado. En todo caso, cada punto será comentado en la sección
correspondiente.
2.1 Análisis de clouster
El análisis de clouster es una prueba matemática muy empleada en los sistemas
cualitativos, aunque también se encuentran casos de análisis cuantitativo. Se trata de un
sistema en el cual los miembros de la muestra se comparan entre sí para ver las
características similares y las diferencias, agrupándolos en grupos separados en una
representación en el plano.
Al llegar un individuo desconocido, sus características pueden ser comparadas con cada
uno de los grupos desarrollados y con ello se ubica dentro de la representación; con lo
que se logra identificar el grupo al cual pertenece.
Algunos ejemplos se encuentran en los análisis forenses, sea para identificar el origen
de un producto o para verificar la adulteración del mismo.
La grafica anterior muestra la forma de una representación de clouster en un plano. Este
tipo de grafica es típica de los sistemas de análisis de clousters, donde el punto X es el
individuo que se desea identificar.
2.2 Análisis de Componentes Principales (PCA)
El análisis de componentes principales (PCA) es otro método frecuentemente empleado
en el análisis cualitativo, aunque también es empleado para análisis cuantitativo.
may-14 [5]
El PCA se basa en la simplificación del sistema, transformando las variables problema
en nuevas variables, las cuales pueden describir el sistema de forma más simple –
usando menos variables.
La nueva variable se correlaciona con todas las variables problemas que se encontraban
afectadas por el mismo “factor” y con correlación entre sí. A esta nueva variable se le
conoce como componente principal (PC) y lo ideal es simplificar el sistema hasta tener
un PC por cada “factor” original.
Los PC encontrados son ortogonales entre sí y puede que varios de ellos expliquen el
mismo factor, mas esa “explicación” es diferente para cada componente principal,
encontrándose siempre que existe un PC que explica mejor el sistema.
En la actualidad, la mayoría de los softwares estadísticos están programados para que el
primer PC sea el que explique la mayor variabilidad del sistema. Luego es importante
verificar la cantidad de PC empleados para describir el sistema.
La optimización de la cantidad de PC se realiza mediante el estudio del error de
predicción. Se emplea la cantidad de PC necesarios para generar el mínimo el error de
predicción posible.
3 Diseño experimental
En los sistemas cuantitativos el diseño experimental es de suma importancia. En estos
sistemas, el diseño experimental permite la correcta calibración matemática, tal cual una
curva de calibrado en un sistema univariado. Es por ello que en este trabajo se
mencionará brevemente la calibración univariada.
De forma general, en los sistemas reales se tienen dos posibilidades para realizar la
calibración del sistema, por lo que se tienen dos opciones para desarrollar el diseño
experimental.
Un caso ideal es donde conocemos todos y cada uno de los componentes de la muestra
analítica por lo que se puede reproducir para crear la “curva de calibrado”. En caso más
común en la industria es donde se desconocen los componentes de la muestra analítica y
solo se tienen las muestras que salen de producción, por lo que no se puede crear un
diseño experimental y en cambio se trabaja con las “muestras reales” -como se conoce
en analítica- de valores conocidos.
En donde se tiene el caso ideal lo común es trabajar con un diseño factorial que permita
cubrir todo el intervalo posible de variable problema, la cual es la concentración de
algún analito/parámetro a medir cuantitativamente.
El diseño factorial tiene la forma de nk con n niveles de concentración de los k factores
que puedan afectar la data espectral, generando un sistema de nk puntos de calibración.
Cada punto puede ser analizado por triplicado, aumentando la data y permitiendo
desarrollar un sistema más robusto.
may-14 [6]
La cantidad de factores suele ser algo fijo en el sistema, y está directamente relacionado
con la cantidad de componentes de la muestra; por lo que cada componente es un factor
siempre que el mismo afecte la data espectral.
El número de niveles puede ser definido por el usuario, siendo necesario al menos dos
niveles (n=2) que son uno bajo y uno alto en el intervalo planteado para cada factor.
Los softwares estadísticos suelen tener herramientas en las cuales se puede desarrollar el
diseño factorial para identificar todas las combinaciones posibles de los k factores en los
n niveles. El software también los puede ubicar de forma aleatoria para ser analizados
así y cumplir con todos los supuestos de la estadística.
El objetivo final del diseño experimental es cubrir todo el intervalo de concentraciones
así como toda la variabilidad posible de la muestra, de forma que cualquier muestra sea
representada adecuadamente.
4 Modelos de calibración
En esta sección plantearemos varios modelos de calibración con los cuales desarrollar la
ecuación matemática que explique el sistema.
Estos modelos se dividen en dos áreas, la calibración univariada y la multivariada. En
los dos casos tenemos uno o más analitos y en el caso de la calibración multivariada se
emplean multiples variables respuestas (longitudes de onda espectral en el caso de la
química analítica) para explicar la variable respuesta (concentración del analito).
4.1 Calibración univariada –lineal
La calibración univariada se refiere a una simple regresión lineal simple (SLR), la cual
tiene la forma:
En este caso la variable respuesta (y, concentración del analito) se explica mediante la
variable explicativa (x, señal instrumental a una longitud de onda específica), los valores
de a y b son calculados matemáticamente y comprobados estadísticamente.
Dentro de las estadísticas involucradas, se calculan los valores del coeficiente de
determinación (R o r2) con los que se comprueba la bondad de ajuste de la ecuación
matemática. Este coeficiente es de gran importancia ya que indica que tan certero es la
ecuación para explicar la variable respuesta.
4.2 Calibración multivariada
En muchas ocasiones se tienen sistemas donde no es posible encontrara una longitud de
onda para medir y correlacionar con la concentración del analito. En cambio, se observa
la variación de múltiples longitudes de onda –simultáneamente- y por ello se requiere de
un modelo matemático más complejo para explicar dichas variaciones.
may-14 [7]
En esta sección comentarios sobre los modelos matemáticos empleados para calibración
multivariada, desde el más sencillo hasta el más complejo sin tocar los sistemas de redes
neuronales.
4.2.1 Regresión Lineal Múltiple (MLR)
La MLR es una variación de la SLR donde se toman varios puntos a la vez. En este caso
la variable respuesta se explica mediante varias variables explicativas las cuales no se
correlacionan entre sí. La ecuación final tiene la forma:
Se deben cumplir los mismos supuestos matemáticos que para la SLR, buscando un R o
r2 cercano a 1 y con grafica de errores con forma aleatoria.
4.2.2 Regresión de Componentes Principales (PCR)
Luego de realizado un PCA, cada uno de los componentes encontrados durante el PCA
se pueden emplear para realizar una MLR. En este sentido, se puede decir que el PCR es
un punto intermedio entre una estadística básica (MLR) y una estadística más compleja
(PCA).
Para realiza en PCR, en química analítica, se toma el espectro de la muestra para
emplear cada una de las longitudes de onda como variables explicativas. Se crean
entonces dos matrices, una de la concentración de los puntos de calibración y la otra con
la data espectral.
La matriz de concentraciones siempre es unitaria, mientras que la de longitudes de onda
tiene tantos miembros como data espectral se maneje (j).
En algunos casos se trabaja con todo el intervalo espectral, mas también suelen
realizarse modificaciones para trabajar con solo una zona de interés.
Durante el proceso de PCA, la matriz de longitudes de onda se transforma en nuevas
matrices para cada PC que luego se correlaciona con la matriz de concentración
generando una ecuación similar a la de MLR pero con matrices y que incluyen una
matriz de errores.
may-14 [8]
La matemática involucrada esta fuera del alcance de este trabajo ya que solo que quiere
dar un vistazo simplificado de la generación del PCR.
Para finalizar el apartado sobre PCR, es necesario comentar que este modelo
matemático funciona muy bien para casos de una sola variable explicativa (un solo
analito). Por lo que en caso de dos o más analitos a ser cuantificados se debe trabajar
con PLS.
4.2.3 Mínimos Cuadrados Parciales (PLS)
El PLS (partital least square) es posiblemente el método más conocido para realizar
calibración multivariada.
La matemática implicada tiene similitud con la del PCR ya que en primera instancia
convierte la data espectral (matriz de longitudes de onda) en una nuevas variables que
simplifican el sistema.
En este caso las variables generadas (conocidas como variables latentes –LV) se
correlacionan con la variable explicativa (concentración del analito) para generar la
ecuación matemática. En este caso, la correlación se realiza mediante mínimos
cuadrados parciales –de allí el nombre del modelo- en lugar de los mínimos cuadrados
empleados en SLR, MLR y PCR. He aquí la mayor diferencia entre PLS y PCR.
El algoritmo matemático empleado en PLS es más complejo que el empleado en PCR,
por ello el PLS es adecuado para análisis de dos o más analitos, así como sistemas con
correlaciones complejas.
En el caso del PLS, las matrices originales involucradas son las mismas que en PCR,
por lo que en los softwares quimiométricos solo es necesario cambiar el tipo de
algoritmo para trabar con uno o con otro empleando la misma data.
Las LV generadas cumplen con las mismas propiedades que los PC, tales como ser
ortogonales entre sí y que la primera LV es la que explica la mayor variación del
sistema.
Para finalizar, existen dos tipos de PLS conocidos como PLS1 y PLS2. El PLS2 fue
desarrollado para el análisis de dos o más analitos y es un algoritmo matemático un
poco más simple que el PLS1. Se debe entender que la potencia de las computadoras ha
aumentado a los largo de los años y por ello hoy en día se puede trabajar con PLS1 para
dos o más analitos.
El PLS1 es más sensible que el PLS2, generando un menor error de predicción, por ello
es recomendable utilizar PLS1 en lugar de PLS2. No obstante, muchos estudios
comparan los dos métodos para identificar cual es el ideal para el caso que se trabaja en
particular.
5 ¿Por dónde empezar?
Se debe tener muy claro que la quimiometría es mucho trabajo de entrada y poco trabajo
de salida. En ese sentido, es poco atractivo para la investigación donde solo se tiene el
may-14 [9]
trabajo de entrada. Caso contrario a las industrias, donde la cantidad de trabajo de salida
puede ser –simplemente- agobiante.
Si lugar a dudas en las industrias es donde se aplica la quimiometria, allí también es
donde más se desconoce la estadística involucrada y donde los analistas precisan de
mayor información en orden de desarrollar métodos de calibración adecuados.
Conociendo esto, la pregunta es ¿por dónde empezar?
En química analítica se tiene una especie de protocolo de trabajo, algo similar a un ABC
que siempre se da, independientemente del tipo de análisis a realizar (Atómica,
Molecular, Espectroscópico, Electroquímico, Cromatográfico, entre otros). Es este
protocolo lo que describiremos a continuación.
5.1 ABC de Química Analítica
5.1.1 Tipo de muestra / Analito
Lo primero a conocer es el tipo de muestra analítica a medir, donde hay tres cosas
fundamentales:
a. ¿Cuál es la matriz?
¿se conocen todos los componentes de la matriz?
¿se puede reproducir la matriz?
b. ¿Cuál es el Analito?
¿tiene estructura definida?
Características espectroscópicas de dicha molécula o correlación con que
parámetro.
c. ¿Se conoce la relación Analito/Matriz?
Concentración del Analito en la muestra analítica/problema
Teniendo todos estos puntos claros se puede proceder a escoger el mejor método de
análisis. Ejemplos:
1. Se tiene una muestra de roca en la que se desea conocer la composición de
todos los minerales.
Este tipo de muestras generan un problema fundamental. Se desconocen los analitos y
se pretende medir la muestra entera, es decir: matriz=analitos.
Se puede recurrir a varias técnicas atómicas / elementales para indagar sobre la
composición. Se suele trabajar con varias técnicas a la vez ya que todas darán
información diferente y complementaria.
2. Se tiene una muestra de acetaminofén en comprimidos. Se desea comprobar el
contenido del acetaminofén en el comprimido, el cual debe ser de 90-110% del
contenido nominal. Contenido nominal (etiquetado) es del 40 mg Tableta-1
.
Este caso tenemos que la matriz de la muestra son los excipientes farmacéuticos. En la
descripción del problema no mencionan nada sobre los excipientes presentes en el
may-14 [10]
comprimido y aunque se pueden deducir muchos de ellos, no podemos estar seguros de
cuales son exactamente. En ese sentido se desconocen los componentes de la matriz así
como su proporción.
Por su parte, el Analito es una molécula orgánica que tiene absorción en el IR medio y
cercano. También tiene absorción en el UV, aunque sus bandas en el UV no son tan
específicas; sin embargo, el UV es un detector usual en cromatografía, por lo que el
análisis podría realizarse mediante HPLC.
Se conoce la concentración estimada del Analito en la muestra, pesando el comprimido
se puede conocer el valor porcentual de la concentración y con ello realizar una curva
de calibración adecuada.
3. Se requiere comprobar la limpieza del agua para inyectables farmacéuticos,
donde se debe tener menos de 25 partículas por mililitro mayores o iguales a 10
µm, 3 partículas por mililitro mayores o iguales a 25 µm y 0 partículas por
mililitro con tamaños mayores o iguales a 100 µm.
Este caso es bastante peculiar. Se tiene mucha información. En primer lugar la matriz es
agua para inyectables, lo que es un agua sumamente pura por lo que es sencillo de
reproducir.
Tenemos que el Analito son partículas que debe contarse, lo que se mide con un
contador de partículas o un analizador de tamaño de partículas.
Finalmente, para calibrar nos piden la medida en tres puntos: 10, 25 y 100 µm, por lo
que solo es necesario calibrar en esos dos puntos, aunque la buena analítica diría que la
calibración debe ser en un mínimo de 10 puntos. En cualquier caso, se tiene información
suficiente como para desarrollar una buena calibración.
5.1.2 Preparación de muestras / Diseño experimental
La preparación de las muestras es un paso clave en la química analítica. Desde el
muestreo, todo afecta el resultado y en muchas ocasiones los errores de predicción se
producen en los pasos previos al análisis espectral/matemático.
Es por ello que se debe prestar especial atención a la forma en la cual se hace la
preparación de las muestras.
Adicionalmente, y cuando es posible, durante la preparación de las muestras se preparan
los estándares de calibración del sistema siguiendo el planteamiento del diseño
experimental acordado para el trabajo en particular.
5.1.3 Manejo de la data espectral / Pre-procesamiento
Son varias las formas de realizar el pre-procesamiento de la data espectral, todas ellas
de utilidad, algunas más empleadas que otras. Es importante dar un ligero repaso por
cada una de ellas, siendo importante recalcar que cuando se hacen análisis cuantitativos,
se debe realizar el mismo pre-procesamiento a toda la data (estándares de trabajo y
muestras con valor desconocido).
may-14 [11]
5.1.3.1 Suavizado
El suavizado (smooth) es un preprocesamiento de la data muy empleado en la parte
descriptiva. Consta de “suavizar” o eliminar/disminuir el ruido de fondo del equipo al
aplicar un algoritmo matemático a la data.
El punto más importante en este caso es cantidad de suavizado empleado. Un algoritmo
matemático empleando comúnmente es el de Savitzky–Golay el cual elimina
sistemáticamente una cantidad de puntos de la data. ¿Cuántos puntos eliminar? ¿Cuánto
suavizar? He ahí el dilema.
Se deben eliminar suficientes puntos como para que el suavizado sea efectivo, sin
eliminar demasiados con lo que se perdería información.
Se debe especificar el tipo de suavizado realizado, así como la cantidad de “puntos”
empleados en el suavizado. Todo de forma que pueda ser reproducible.
5.1.3.2 Normalizado
El normalizado corresponde a otro procedimiento común en el pre-procesamiento de
espectros cualitativos. Se trata de una forma de “ajustar” todas las bandas para que se
observen con una proporción similar.
El normalizado se hace a un número definido, usualmente 1 y con ello altera la
intensidad aparente de las bandas de absorción.
5.1.3.3 Operaciones matemáticas
En este apartado se engloban todas las operaciones matemáticas tales como sumar,
restar, multiplicar y dividir.
Original 20 puntos
40 puntos 80 puntos
may-14 [12]
La más común de ellas es realizada por los instrumentos sin que el usuario lo perciba,
corresponde a la división, la cual se hace entre el espectro tomado y el ruido de fondo
(background).
Por su parte, el usuario dispone de las operaciones matemáticas para poder observar
variaciones u otra información. Por ejemplo, ver a aparición o desaparición de una
banda de absorción durante una reacción química; estimar el espectro final de una
mezcla de compuestos entre otros.
5.1.3.4 Corrección de línea base
La corrección de línea base es de suma importancia para la correcta medida de alturas
de picos, también es de gran utilidad en análisis cualitativos para comparar espectros.
Se puede realizar en uno o dos puntos y con ello llegar a observar una zona (o todo el
espectro) de forma horizontal.
E1 E2
may-14 [13]
5.1.3.5 Derivadas
Hemos llegado a las derivadas, un procedimiento matemático muy conocido en
electroquímica ya que les ayuda a encontrar el punto de inflexión de la titulación.
De forma general se tienen derivadas hasta de 4to orden. Ellas permiten encontrar
información sobre mezclas o pureza de pico en cromatografía, así como en
espectroscopia molecular. Son de gran utilidad en los sistemas de cuantificación, ya que
hace corrección de línea base al mismo tiempo que separa el espectro ayudando a
identificar las interferencias espectrales. También es de gran utilidad para identificar los
puntos adecuados para realizar una corrección de línea base en el espectro original.
Se debe tener cuidado ya que el grado de derivada, así como la ventana de derivación,
afecta la relación señal/ruido (S/N), que puede contrarrestar el efecto deseado. En ese
sentido, es posible que este sea el motivo de que los softwares trabajen hasta la 4ta
derivada.
De forma general, se llama derivada cero (D0) al espectro original en Absorción. Luego
tenemos la primera derivada (D1), donde se observa un corte con el origen en el punto
donde se encontraba el máximo. La segunda derivada (D2) tenemos un mínimo donde
estaba el máximo. Tercera derivada (D3) se observa un nuevo corte con el origen en el
lugar del máximo, con forma inversa a la D1. Cuarta derivada (D4) se observa un
máximo, como inverso a la D2.
Original 1 punto 2 puntos
may-14 [14]
5.1.3.6 Deconvolución
La deconvolución es de gran utilidad en el caso identificar si un pico se encuentra
afectado por varios componentes. En el proceso matemático se hace una separación del
pico y, así como la derivada, permite ver la pureza del mismo.
5.1.3.7 Correcciones MSC y ATR
Estos tipos de correcciones se realizan cuando las medidas son realizadas en el
Infrarrojo y con técnica de refractancia difusa (caso de MSC) o por refractancia total
atenuada (caso de ATR).
Son empleadas para simular el espectro de absorción que se tendría de la misma medida
por algunas de las técnicas antes mencionadas.
D0 D0
D1
D3
D2
D4
may-14 [15]
La corrección MSC también puede ser útil en casos donde se tienen partículas de
diversos tamaños afectando la señal, algo común en medidas por refractancia difusa y
que ocurre en sistemas de absorción como la medida de aceites usados.
6 Tips básicos / Observaciones básicas en las figuras
En esta sección se plantea los puntos básicos que deben ser observados para definir si el
modelo de calibración empleando es el correcto, así como la correcta implementación
del mismo.
6.1 Grafica Observado vs. Predicho
Una Grafica fundamental para identificar un buen modelo de calibración es la de
Observado vs. Predicho. Esta Grafica se obtiene prediciendo cada punto y
comparándolo con el valor “real” u observado.
Debe tener la forma de una recta con corte cero (0) y pendiente 1 cumpliendo la
ecuación:
Adicionalmente es recomendable que los puntos estén dispersos en todo el intervalo de
calibración de forma homogénea tal y como se presenta en la siguiente figura.
6.2 Grafica de Errores
La grafica de errores es otra grafica fundamental en cualquier sistema de predicción; en
ella, se presentan los errores de cada punto observado y los mismos deben estar
distribuidos aleatoriamente alrededor de 0.
En casos donde se observan formas en la distribución de los puntos (curvas o líneas
definidas) se puede concluir que el modelo matemático empleado en la calibración no es
el adecuado para realizar la misma.
0,00 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4 3,6 3,8 4,0 4,2 4,40
-0,28
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,62
Speci fied
Estim
ate
d
x ets080p
x ets081p
x ets082p
x ets083p
x ets084p
x ets085px ets086p
x ets087p
x ets088p
x ets089p
x ets090p
x ets091p
x ets092p
x ets093p
x ets094p
x ets095p
x ets096p
x ets098p
x ets099p
x ets100px ets101p
x ets102p
x ets103p
x ets104p
may-14 [16]
Errores en curvas
Errores en ondas
Errores en recta
Errores aleatorios
6.3 Grafica de SEP o SEV
Como fue planteado en la sección 4.2.2 y 4.2.3, el modelo de calibración PCR o PLS se
optimiza hasta tener el menor error de predicción (SEP) posible, por lo que la Grafica
del SEP es sumamente importante.
Una Grafica similar se tiene con el error de validación (SEV), la cual también tiene un
mínimo que suele coincidir con el mínimo SEP. Las dos Graficas son obtenidas con los
paquetes quimiométricos y suelen tener la siguiente forma:
Se muestra la selección de número de PC o LV con la línea vertical colocada en el
mínimo SEP encontrado.
6.4 Grafica de PC/LV
La grafica de componentes principales (PC) o variables latentes (LV) muestra la
relación que tiene cada PC/LV con las longitudes de onda originales. Esto permite
0,00 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,00
0,08
0,2
0,4
0,6
0,8
1,0
1,2
1,41
may-14 [17]
discernir sobre la importancia de cada PC/LV para explicar el comportamiento
espectral.
La grafica debe presentar forma de espectro o algo similar a él, con bandas definidas
que puedan ser atribuidas a componentes de la muestra como analitos/componentes de
matriz.
6.5 Bondad de ajuste de la ecuación
La bondad de ajuste de la ecuación (R o r2) presentan que tan bien se ajustan los puntos
sobre la recta de Observado vs. Predichos.
En sistemas simples (SLR) el valor de R o r2 debe ser muy cercano a uno (0.99),
mientras que en sistemas más complejos (MLR, PCR, PLS) se permite trabaja con
valores de R o r2 menores (0.85); todo dependiendo de la complejidad del sistema.
6.6 Validación del modelo de calibración
La validación del modelo de calibración es algo común en cualquier sistema
matemático. La idea es poder confirmar que los valores predichos son acorde con la
realidad.
Para ello se emplea la curva de adición estándar en química analítica con SLR, así como
el porcentaje de recuperación. En sistemas más complejos se trabaja con un set de
validación.
El set de validación corresponde a una cantidad de muestras “reales” a las cuales se les
conoce el contenido del analito y las cuales son predichas con el modelo matemático
empleado en la calibración.
Existen varios tipos dos tipos de validación, la validación con un set de muestras
independientes del set de muestras de calibración; y la validación cruzada con las
mismas muestras de calibración.
En este último caso, la validación cruzada se realiza dejando una muestra afuera cada
vez (LOOCV) o un grupo de muestras (LMOCV), todo dependiendo del tipo de
muestras con las cuales de calibre.
Se selecciona la validación LOOCV cuando las muestras son únicas –sin repeticiones
de ellas, mientras que se selecciona la LMOCV cuando las muestras tienen replicas por
lo que en cada punto de la validación se deja el grupo –entero- de réplicas fuera.
Es importante resaltar que la validación cruzada es de especial utilidad cuando la
cantidad de muestras con valores conocidos es pequeña. En la industria se suelen tener
grandes cantidades de muestras con valores conocidos, por lo que se pueden crear el set
de validación independiente al set de calibración.
may-14 [18]
6.7 Intervalo de predicción
Para la creación del modelo matemático se emplean muestras con valores conocidos
entre x e y valores, por lo que se tiene un intervalo de calibración bien definido en el
cual se conoce el comportamiento de las muestras.
En zonas de concentraciones superiores o inferiores al intervalo de calibración se
desconoce cómo se comportan las muestras, por lo que hacer predicciones para
muestras en esas zonas puede llevar a conclusiones erradas. Es por ello que las
predicciones se deben hacer para muestras que se encuentra en el intervalo en el cual el
sistema fue calibrado. La situación ideal es que las muestras problema/desconocidas se
encuentren en la zona media del intervalo de calibración.
Esto es válido para cualquier sistema de calibración, desde la SLR hasta el PLS.
6.8 Predicciones -Distancia del medio (M-Distance)
La distancia del medio se calcula al realizar una predicción en quimiometría. Los
softwares quimiométricos realizan el cálculo de forma automática y dan el valor como
M-Distance y se refiere a cuál es la distancia de ese punto en particular al medio del
sistema de calibración.
Lo ideal es que la M-Distance sea pequeña –menor a uno, lo cual indica que la muestra
problema se encuentra cerca del centro del set de calibración. En casos donde la M-
Distance sea muy alta se puede inferir que esa muestra pertenece a otra población.
A continuación se presenta un ejemplo que permite identificar la M-Distance y los
errores que conlleva un valor grande:
Se tiene un sistema de calibración para los que se han mezclado los colores
amarillo y azul, generando muestras con tonalidades amarillo, verde y azul.
Luego de calibrado y validado se realiza la predicción de una muestra color
naranja generando una M-Distance de 20. ¿Qué se pude inferir del valor de M-
Distance?
Dado que el valor de M-Distance es muy alto se estima que la muestra
proviene de otra población.
may-14 [19]
Ya que es color naranja sabemos que el sistema de calibración de
amarillo, verde, azul- no es adecuado para la predicción del naranja. Esta
muestra es muy diferente. Se puede concluir que para la predicción del color
naranja es necesario la calibración con colores adicionales; lo que es igual a
decir que el sistema de calibración (diseño experimental) no cubrió toda la
variabilidad posible en la muestra.
Lo importante de la M-Distance es que el software quimiométrico siempre va a predecir
un valor y queda de parte del operador verificar si dicha predicción es válida.
7 Conclusiones
Son muchas las cosas a observar en el momento de trabajar con quimiometría, por lo
que es necesario el estudio continuo del problema y tener un buen conocimiento del
mismo.
Sin embargo, se ha demostrado que analistas con poca experiencia pueden realizar un
buen trabajo al realizar medidas adecuadas bajos los criterios adecuados. Con esta guía
se consiguen plantear los criterios básicos para trabajar y que la mente inquisidora
pueda buscar más información.
8 Bibliografía
Benjamin, J., Donald, R., & Kenneth, M. (1991). Statistical Principles In Experimental
Design. USA: Mc-Graw Hill.
Brereton, R. G. (2000). Introduction to multivariate calibration in analytical chemistry.
The Analyst, 2125-2154.
Kramer, R. (1998). Chemometrics techniques for quantitative analysis. N.Y.: Marcel
Dekker, Inc. .
Distancia M
may-14 [20]
Miller, J., & Miller, J. (2002). Estadística y Quimiometría para Química Analítica. 4ta
Edi. Madrid: Person Education.
Seltman, H. (2013). Experimental Desing and Analysis. Recuperado el 19 de Febrero de
2014, de http://www.stat.cmu.edu/∼hseltman/309/Book/Book.pdf