calibración - inicio · 2014-08-11 · más de un sensor para la determinación simultánea de dos...

63
Quimiometría CALIBRACIÓN MULTIVARIADA

Upload: dangdan

Post on 05-Nov-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Quimiometría

CALIBRACIÓN MULTIVARIADA

Calibración multivariada

un método multivariado implica que:existe una dependencia múltiple de la variable x (independiente) y múltiples variables y (dependiente)el número de muestras de calibración debe ser mayor que el número de predictores

Quimiometría

Calibración multivariada

aproximaciones multivariadas para crear una curva de calibración:

regresión clásica u ordinaria (classical/ordinary least squares, CLS)regresión de componentes principales (principal component regression, PCR)regresión de cuadrados mínimos parciales (partial least squares regression, PLS)

optimizan el ajuste de los datos de manera diferente

método de evaluación y resultados similares

Quimiometría

Calibración bivariada

se emplean datos instrumentales medidos utilizando:más de un sensor para la determinación simultánea de dos o más analitosun analito en presencia de interferentes

ejemplo típico de datos multisensoriales:

espectros de absorción electrónica (UV-Vis-IR) o de emisión:

absorbancia o intensidad de fluorescencia: señal instrumental longitudes de onda: sensores

Quimiometría

Calibración bivariada

etapa de calibración típica:

preparar soluciones de concentración conocida de ambos analitos

estimar, a partir de las señales medidas a dos longitudes de onda (o a dos sensores diferentes), las respectivas relaciones señal-concentración

las soluciones de calibrado pueden ser mezclas de ambos analitos (o soluciones conteniendo los analitos en forma pura, si estos es experimentalmente posible)

Quimiometría

Calibración bivariada

etapa de calibración: determinación de las sensibilidades individuales a cada longitud de onda

se supone que se cumple la ley de Beer

ejemplo: la señal de la mezcla número 1 a la longitud de onda 1 se obtiene a partir de la suma de las contribuciones de ambos analitos:

Y11= X11 S11 + X12 S12

S11 y S21: sensibilidades del analito 1 y 2 respectivamente a la longitud de onda 1

Quimiometría

Calibración bivariada

en notación matricial:

las correspondientes respuestas instrumentales Yij (absorbancias de la solución patrón i a la longitud de onda j) se reúnen en la matriz (2×2) de calibración Y:

Quimiometría

Y=[Y11 Y12

Y21 Y22]

Calibración bivariada

en notación matricial:

las concentraciones de ambos analitos en las soluciones de calibrado se agrupan en la matriz de concentraciones de calibración (2×2) X

elemento genérico Xin es la concentración en la mezcla i del analito n:

Quimiometría

X=[X11 X12

X21 X22]

Calibración bivariada

en notación matricial:

en general Y se puede escribir mediante el siguiente producto matricial:

Y= X ST

donde S es una matriz (2×2) cuyo elemento genérico Sjn es la sensibilidad a la longitud de onda j del analito n se puede obtener la matriz S a partir de:

S= (X–1Y)T= YT(X–1)T

Quimiometría

Calibración bivariada

si X se expresa términos de concentraciones molares, entonces Sjn es la absortividad molar a la longitud de onda j del componente n (multiplicada por el paso óptico)

sin embargo, se prefiere llamar a los elementos Sjn sensibilidades, dado que el modelo matemático no está restringido a datos de absorción

Quimiometría

Calibración bivariada

en forma gráfica: para N analitos, I muestras de calibrado y J longitudes de onda

Quimiometría

Calibración bivariada

etapa de predicción:

se miden las señales instrumentales para una muestra incógnita (ejemplo, dos absorbancias a las longitudes de onda a las que se realizó la calibración)

estas señales y1 e y2 se agrupan en el vector columna (2×1) y:

Quimiometría

y=[y1

y2]

Calibración bivariada

etapa de predicción:

se recurre a la ley de Beer aplicada a la muestra incógnita:

y= S x

x: es un vector columna (2×1) que contiene los elementos buscados en el análisis (las concentraciones desconocidas) de ambos analitos en la incógnita

despejando x :

x= S–1 y

Quimiometría

Coeficientes de regresión

en forma gráfica: la concentración de cada analito en la muestra incógnita se predice mediante el siguiente producto escalar:

xn= (nava fila de S–1) × y

Quimiometría

Coeficientes de regresión

la nava fila de S–1 una vez traspuesta (o sea, convertida en un vector columna) cumple un papel importante en el análisis multivariado, donde corrientemente se denomina βn (vector de los coeficientes de regresión)

βn = (nava fila de S–1)T

xn= βnT y = β1n y1+ β2n y2

la concentración predicha es el producto escalar del vector βn por el vector de respuestas instrumentales

Quimiometría

Colinealidad

un paso crítico para estimar la concentración con la ecuación

x= S–1 y

es la inversión de la matriz Suna matriz es invertible si su determinante es distinto de cerosino la matriz es singular (y su inversa no existe) si por alguna razón el determinante de la matriz S, aunque no sea exactamente cero, es pequeño (en comparación con el nivel de ruido instrumental):

S será difícilmente invertible, en el sentido que los elementos de S–1 estarán pobremente definidos

Quimiometría

Colinealidad

la singularidad de la matriz S (su dificultad de inversión) está directamente relacionadas con el concepto de paralelismo o colinealidad espectral

en términos matemáticos: el determinante de S será cercano a cero si sus filas son combinaciones lineales

Quimiometría

Colinealidad

si se grafica la sensibilidad para cada analito (1 y 2) a cada una de las dos longitudes de onda de trabajo (λ1 y λ2) y se unen los puntos correspondientes a cada analito se obtienen dos líneas rectascuanto más paralelas sean estas líneas rectas, más difícil será la inversión de S y más cercano a cero su determinante

Quimiometría

Cifras de mérito

sensibilidad para el analito n

||∙ ||: longitud o norma del vecto βn

selectividad para el analito n: cociente entre la SENn y el valor que tendría dicha sensibilidad si n estuviese presente en su forma pura:

SELn= SENn / ||nava . columna de S||

Quimiometría

SENn = 1

√β1 n2 + β2 n

= 1∥βn∥

Cifras de mérito

selectividad: número adimensional que varía entre 0 (no selectivo para n) y 1 (específico para n)

sensibilidad analítica: el cociente entre el valor de SENn y el ruido instrumental (sR) obtenido a partir de replicados de una muestra blanco:

γn= SENn / sy

Quimiometría

Regresión multivariada

es una extensión del método anterior para el análisis de varios analitos mediante múltiples sensores

etapa de calibración: es preciso preparar mezclas de patrones de los analitos:

en un número como mínimo igual al de analitos (en general, mayor)el rango de concentraciones debe ser representativo de las concentraciones que se espera encontrar

etapa de validación: para probar el modeloetapa de predicción

Quimiometría

Aplicación de regresión multivariada

determinación de la concentración de constituyentes en una mezcla de analitos por análisis espectral por regresión multivariada o regresión lineal múltiple

las variables para cada muestra se pueden dividir en dos grupos:

variables respuestas: absorbancias a las diferentes longitudes de ondavariables predictoras: concentraciones de los analitos

análisis multivariado es apropiado si los espectros de los constituyentes se superponen (por lo cual no se puede determinar la concentración sin separación química previa)

Quimiometría

Aplicación de regresión multivariada

etapa de calibración: se toman una serie de soluciones conteniendo diferentes mezclas de analitos y se obtienen los espectros de absorción

ejemplo: absorbancia UV (x100) a seis longitudes de onda de 10 soluciones para calibración conteniendo los tres constituyentes de interés

en la práctica se obtienen cientos de longitudes de onda

Quimiometría

Ejemplo regresión multivariada

C1 C2 C3 A1 A2 A3 A4 A5 A6

A 0,89 0,02 0,01 18,7 26,8 42,1 56,6 70,0 83,2B 0,46 0,09 0,24 31,3 33,4 45,7 49,3 53,8 55,3C 0,45 0,16 0,23 30,0 35,1 48,3 53,5 59,2 57,7D 0,56 0,09 0,09 20,0 25,7 39,3 46,6 56,5 57,8E 0,41 0,02 0,28 31,5 34,8 46,5 46,7 48,5 51,1F 0,44 0,17 0,14 22,0 28,0 38,5 46,7 54,1 53,6G 0,34 0,23 0,20 25,7 31,4 41,1 50,6 53,5 49,3H 0,74 0,11 0,01 18,7 26,8 37,8 50,6 65,0 72,3I 0,75 0,01 0,15 27,3 34,6 47,8 55,9 67,9 75,2J 0,48 0,15 0,06 18,3 22,8 32,8 43,4 49,6 51,1

Quimiometría

Ejemplo regresión multivariada

aproximación clásica: variables dependientes: absorbancias variables independientes: concentraciones

se busca una ecuación entre estos dos grupos de variables que permita relacionar la absorbancia Ai a cada λ con las concentraciones de los analitos

asumiendo que la A a cada λ es la suma de las A de cada componente individual:

Ai = b0i + b1i c1 + b2i c2 + b3i c3 + b4i c4 + b5i c5 + b6i c6

Quimiometría

Ejemplo regresión multivariada

en la práctica este modelo aditivo simple puede no ser adecuado

las sustancias de interés pueden interferir químicamente entre ellas afectando los espectros

las muestras reales pueden contener otras sustancias además de las consideradas que contribuyan a la absorbancia

Quimiometría

Ejemplo regresión multivariada

es mejor usar una calibración inversa: la concentración del analito se modela a partir del espectro

ci = b0i + b1i A1 + b2i A2 + b3i A3 + b4i A4+ b5i A5 + b6i A6

las ci: no son consideradas variables controladas para llevar a cabo la regresión lineal múltiple el número de muestras debe ser mayor que el número de predictores, como en la tabla:

muestras: 10predictores: 6

Quimiometría

Empleando Minitab

Regression Analysis: c1 versus A1. A2.A3. A4. A5. A6

The regression equation is

c1 = 0,0501 + 0,00252 A1 - 0,00939 A2 + 0,00375 A3 - 0,00920 A4 - 0,00106 A5 + 0,0179 A6

Quimiometría

Empleando Minitab

Regression Analysis: c1 versus A1. A2.A3. A4. A5. A6

Predictor Coef SE Coef T PConstant 0,05010 0,08945 0,56 0,615A1 0,002525 0,008376 0,30 0,783A2 -0,009387 0,008811 -1,07 0,365A3 0,003754 0,005852 0,64 0,567A4 -0,009197 0,005140 -1,79 0,172A5 -0,001056 0,005373 -0,20 0,857A6 0,017881 0,002249 7,95 0,004

S = 0,0188690 R-Sq = 99,6% R-Sq(adj) = 98,9%PRESS = 0,0274584 R-Sq(pred) = 90,55%

Quimiometría

Empleando Minitab

Analysis of Variance

Source DF SS MS F PRegression 6 0,289492 0,048249 135,52 0,001Residual Error 3 0,001068 0,000356Total 9 0,290560

Source DF Seq SSA1 1 0,067423A2 1 0,094413A3 1 0,067767A4 1 0,004906A5 1 0,032476A6 1 0,022506

Quimiometría

Empleando Minitab

repetir para c2 y c3

c2 = 0,027 + 0,0067 A1 - 0,0007 A2 - 0,0184 A3 + 0,0141 A4 + 0,0160 A5 - 0,0152 A6

c3 = - 0,0776 + 0,00168 A1 + 0,00754 A2 + 0,00668 A3 + 0,00221 A4 - 0,00510 A5 - 0,00237 A6

Quimiometría

Empleando Minitab

para evaluar el modelo:coeficiente de regresiónanálisis de residuosvalidación cruzada:

dejar la muestra A fuera y repetir la regresiónpredecir las concentraciones de Acalcular la suma de los cuadrados de las diferencias PRESS (predicted residual error sum of squares):

cuanto más cercano a cero, mejor es la capacidad predictiva del modelo

Quimiometría

Empleando Minitab

los residuos están distribuidos al azar y no siguen un patrón particular

Quimiometría

Empleando Minitab

los residuos están distribuidos normalmente, no se observan datos atípicos

Quimiometría

Empleando Minitab

para probar la hipótesis nula:valores de los estadísticos t (T) y de p (P)si se consideran todas las variables en el modelo solo A6 es significativalas longitudes de onda A1 a A5 se pueden dejar de lado sin reducir la efectividad del modelo

se podrían probar todas las posibles combinaciones de variables predictoras y encontrar el modelo que logra la mejor predicción (menor PRESS) para el menor número de variables predictoras

Quimiometría

Ventajas de la regresión multivariada

modelo matemático sencillo

posibilidad de desacoplar componentes

se pueden estudiar mezclas complejas mediante un proceso de calibración en el que se conoce sólo la concentración del componente de interés

Quimiometría

Desventajas de la regresión multivariada

es necesario concoer los componentes químicos presentes en las mezclas, sino los interferentes producirán erroresse debe realizar validación cruzada y cálculo de PRESS cuando se tienen cientos de longitudes de onda y las variables predictoras exceden el número de muestrases sensible a las colinealidades espectralesse debe usar un número reducido de sensores, con la consecuente pérdida de información y por ende de sensibilidad cuando las variables predictoras están altamente correlacionadas puden surgir complicaciones matemáticas y se obtienen predicciones poco confiables

Quimiometría

Quimiometría

Regresión por componentes principales (PCR)

objetivo:

reducir el número de variables predictoras usando los primeros componentes principales en lugar de las variables originales

el método funciona bien si hay un alto grado de correlación entre variables predictoras, lo cual suele ocurrir en casos de calibración inversa

Quimiometría

Regresión por componentes principales (PCR)

aspecto fundamental: estimación del número de PC (por scree plot, PRESS, variación explicada)

si se emplean menos PC que los necesarios se obtiene una situación poco deseable llamada subajuste de los datos

demasiados PC no aportan información relevante sino esencialmente ruido: sobreajuste

en general, no es aconsejable utilizar un número de PC superior a la mitad del número de mezclas de calibración

Empleando Minitab

debe realizarse primero un PCA

para los datos de la tabla anterior

Principal Component Analysis: A1.A2.A3.A4.A5.A6

Eigenanalysis of the Covariance Matrix

Eigenvalue 210,01 73,86 4,62 0,93 0,79 0,28Proportion 0,723 0,254 0,016 0,003 0,003 0,001Cumulative 0,723 0,977 0,993 0,996 0,999 1,000

Quimiometría

Empleando Minitab

Principal Component Analysis: A1.A2.A3.A4.A5.A6 Variable PC1 PC2 PC3

A1 -0,124 -0,592 -0,253A2 -0,017 -0,513 0,048A3 0,066 -0,571 -0,102A4 0,244 -0,239 0,575A5 0,510 -0,042 0,545A6 0,813 0,043 -0,544

los primeros PCs explican más del 99 % de la variación en las absorbanciasse pueden seleccionar solo estas dos absorbancias (sin sentido cuando son tan pocas variables predictoras)

Quimiometría

Empleando Minitab

obtener las puntuaciones (scores) de los PC seleccionados, en este caso 3, pero se pueden calcular más

Muestra Z1 Z2 Z3A 117,126 -61,6838 17,7148B 82,975 -73,3721 16,6156C 89,007 -76,0823 20,8135D 86,833 -58,4389 18,3197E 76,229 -74,0041 14,4500F 81,880 -60,4513 19,0386G 78,686 -66,9623 22,2530H 103,970 -58,0594 17,9048I 108,561 -74,1204 18,1318J 76,919 -51,4731 17,3175

Quimiometría

Empleando Minitab

obtener la ecuación de regresiónRegression Analysis: c1 versus z1. z2. z3

The regression equation isc1 = 0,0685 + 0,0119 z1 + 0,00419 z2 - 0,0171 z3

Predictor Coef SE Coef T PConstant 0,06849 0,06571 1,04 0,337

z1 0,0118502 0,0003480 34,05 0,000z2 0,0041884 0,0005868 7,14 0,000z3 -0,017058 0,002345 -7,27 0,000

S = 0,0151299 R-Sq = 99,5% R-Sq(adj) = 99,3%PRESS = 0,00301908 R-Sq(pred) = 98,96%

Quimiometría

Empleando Minitab

en este caso PRESS PCR < PRESS CLS

¿cuál modelo es mejor?

¿por qué?

Quimiometría

Empleando Minitab

para obtener una expresión en función de la concentración reemplazar z en términos de A empleando las puntuaciones (loadings)

z1 z2 z3-0,123596 -0,592342 -0,253000-0,017376 -0,512546 0,0479360,066134 -0,570740 -0,1023000,243876 -0,238879 0,5750980,509940 -0,041775 0,5449490,812733 0,043296 -0,543617

Quimiometría

Empleando Minitab

para obtener una expresión en función de la concentración reemplazar z en términos de A empleando las puntuaciones (loadings)

z1 = - 0,124A1 -0,017A2 + 0,066A3 + 0,244A4 +0,510A5 +0,813A6

c1 = 0,06849 + 0,00037 A1 – 0,00317 A2 +

0,00014 A3 – 0,00792 A4 – 0,00343 A5 + 0,0190 A6

repetir para las otras concentraciones

Quimiometría

Ventajas de la PCR

PCR combina las ventajas de la regresión multivariada

es posible la calibración directa, que permite ignorar las concentraciones de compuestos químicos desconocidos durante el calibrado

el uso de espectros abstractos (scores) elimina los problemas asociados con la colinealidad espectral

Quimiometría

Desventajas de la PCR

interfencias no modeladas: si aparece en una muestra incógnita un compuesto no contenido en la calibración, el análisis no será exacto

los modelos son capaces de detectar interferencias, aunque no de corregirla

PCR sólo utiliza correlaciones entre las variables predictoras

si se miran los datos de la tabla se observa que también hay correlación entre las variables predictoras y las variables respuesta

Quimiometría

Quimiometría

Regresión por cuadrados mínimos parciales (PLS)

PLS (partial least-squares) emplea combinaciones lineales para predecir

diferencia con PCR es la forma de elegir estas combinaciones:

PCR: describen la máxima variación de las variables predictoras

PLS: las variables que tienen mayor correlación con la respuesta tienen un peso extra por ser más efectivas para la predicción

Quimiometría

Regresión por PLS

PLS opera de manera similar a PCR weigth loading factors: contenidos en una matriz usualmente llamada W

loadings: contenidos en una matriz llamada P

las columnas de W son ortogonales, mientras que las de P no necesariamente lo son, a diferencia de PCR

Quimiometría

Regresión por PLS

las columnas de W no son autovectores propiamente dichos, sino factores obtenidos mediante una técnica diferente a la de PCR, cuyos elementos dependen de las concentraciones de calibración del analito de interés

la obtención de estos factores se lleva a cabo mediante un algoritmo iterativo cíclico, muy similar a PCR

diferencia fundamental: en PLS los factores describen la máxima correlación posible entre la matriz de datos y el vector de concentraciones del analito de interés

Quimiometría

Regresión por PLS

Formas de llevar a cabor PLS:

PLS1: cada variable respuesta se trata separadamente (más común)

PLS2: las variables respuesta se tratan colectivamente, se suele usar solamente cuando las variables respuesta están correlacionadas entre sí

Quimiometría

Regresión por PLS empleando Minitab

PLS Regression: c1 versus A1, A2, A3, A4, A5, A6

Number of components selected by cross-validation: 4Number of observations left out per group: 1Number of components cross-validated: 6

Analysis of Variance for c1

Source DF SS MS F PRegression 4 0,289476 0,0723690 333,84 0,000Residual Error 5 0,001084 0,0002168Total 9 0,290560

Quimiometría

Regresión por PLS

Model Selection and Validation for c1

Components X Variance Error SS R-Sq PRESS R-Sq (pred) 1 0,457325 0,0287984 0,900887 0,0469069 0,838564 2 0,957200 0,0255230 0,912159 0,0511899 0,823823 3 0,988793 0,0021123 0,992730 0,0078758 0,972894 4 0,992990 0,0010839 0,996270 0,0052733 0,981851 5 0,0010724 0,996309 0,0186933 0,935664 6 0,0010681 0,996324 0,0274584 0,905498

Quimiometría

Regresión por PLS

c1 c1 standardized

Constant 0,0426293 0,00000A1 0,0039542 0,11981A2 -0,0111737 -0,27695A3 0,0038227 0,10753A4 -0,0092380 -0,22261A5 -0,0003408 -0,01425A6 0,0176165 1,16114

Quimiometría

Regresión por PLS

Quimiometría

Regresión por PLS

evaluación de los resultados: método leave-one-out

usando validación cruzada el número de componentes necesario para modelar c1 = 4

se elige a partir del calor de PRESS es menor para el modelo de 4 componentes (PRESS=0,0052733)

la capacidad predictiva del modelo disminuye si se agregan más componentes

Quimiometría

Regresión por PLS

la ecuación de regresión es:

c1 = 0,0426 + 0,0040 A1 – 0,0112 A2 +0,0038 A3 - 0,0092 A4 – 0,0003 A5 + 0,0176 A6

obtener ecuaciones pjara predecir c2 y c3 de manera similar

Quimiometría

Comparación de resultados

ecuación de regresión para c1 empleando los distintos métodos multivariados:

CLR c1 = 0,0501 + 0,000252A1 – 0,00939A2 + 0,00375A3 – 0,00920A4 – 0,00106A5 + 0,0179A6

PCR c1 = 0,06849 + 0,00037A1 – 0,00317A2 + 0,00014A3 – 0,00792 A4 – 0,00343 A5 + 0,0190 A6

PLS c1 = 0,0426 + 0,0040A1 – 0,0112A2 +0,0038A3 - 0,0092 A4 – 0,0003 A5 + 0,0176 A6

Quimiometría

Ventajas de la regresión por PLS

es el método de calibración multivariada más empleado cuando la información instrumental proveniente de cada muestra es de tipo vectorial

incorpora información útil referida a concentraciones de calibrado durante la etapa de cálculo de las variables latentes

Quimiometría

Desventajas de la regresión por PLS

interfencias no modeladas: desventaja de los métodos multivariados

métodos para calibración multivariada: se basan en el procesamiento de datos del tipo vectorial (espectros, voltamperogramas u otro tipo similar de datos instrumentales)

Quimiometría

Tipos de calibraciones

calibración de orden cero: calibración univariada se clasificaría como de orden cero

calibración de primer orden: basada en vectores para cada muestra se llama calibración (un vector se considera, en lenguaje tensorial, como un tensor de primer orden)

calibración de segundo orden: empleando datos matriciales para cada muestras (EEM, obtenidas fácilmente en un espectrofluorómetro convencional), matrices de absorbancia-tiempo (obtenidas a través de una reacción química en un espectrofotómetro de arreglo de diodos), etc.

Quimiometría

Ventajas de las calibraciones de orden superior

ventaja de segundo orden: se pueden cuantificar analitos calibrados en presencia de interferencias no calibradas

propiedad ausente en los datos de primer orden

presenta inmensas posibilidades en el análisis de mezclas complejas, en particular las de origen biológico, alimentos

métodos: PARAFAC, ...