leccion 5 - quimiometria€¦ · información para un mundo que tiene planteados muchos problemas...
TRANSCRIPT
1
LECCION 5 - QUIMIOMETRIA
Antes de 1970 el analista químico estaba generalmente familiarizado tan solo con los procesos
de medida. Pero de una u otra manera, los datos o resultados analíticos se trasladan a
información química acerca de los sistemas materiales, o en sentido más amplio a procesos de
una naturaleza tecnológica, investigación clínica, bromatológica o de medio ambiente.
Idealmente, el análisis como un proceso que genera información debe ser una parte integral del
sistema muestreado y analizado.
A partir de 1970, la matemática compleja y la herramienta estadística se van introduciendo
paulatinamente con el objeto de mejorar el proceso de medida y diseñar experiencias de forma
adecuada. El objetivo es hacer el mejor uso posible de las medidas analíticas en orden a generar
información para un mundo que tiene planteados muchos problemas aún no resueltos. La
adaptación de los métodos analíticos a la resolución de problemas específicos implica la
cuantificación de diversas variables (sensores, modos de calibración, composición de las fases
móvil y estacionaria, parámetros instrumentales...).
Dos importantes desarrollos han tenido lugar en las últimas décadas: computadoras e
instrumentación.
Los desarrollos en el campo de la informática han cambiado asimismo drásticamente el matiz
de la instrumentación analítica. Interruptores y registradores han sido reemplazados hoy día por
teclados y pantallas. Un paso siguiente que puede esperarse consiste en la introducción de
inteligencia en los instrumentos.
Desde hace tiempo, muchos nuevos desarrollos en análisis químico se han gestado sobre el
carro de los avances en electrónica, física, computadoras y diversas áreas de la ingeniería.
Como sea, puesto que las medidas realizadas en el laboratorio analítico llevan aparejadas
cierto grado de incertidumbre, y un resultado analítico se deriva de una fórmula matemática , es
difícil concebir un matrimonio más perfecto que el del analista y las matemáticas y estadística
aplicadas, aunque desafortunadamente en el presente estos dos campos se han caracterizado tan
solo por una actitud de compromiso.
La importancia de esta interacción queda reflejada por la introducción en 1974 por Kowalski,
de la palabra Quimiometría para definir las aplicaciones de los métodos matemáticos y
estadísticos a las medidas químicas. No obstante, un gran número de químicos podrían haberse
denominado "quimiométricos" mucho antes de que se hubiera inventado este término. Cierto
número de investigadores tales como Youden, Box, Tukey y Wilcoxon han sido químicos
dedicados posteriormente a la estadística; uno de ellos, Box, publicó en 1952 en "The Analyst"
un excelente trabajo acerca del diseño estadístico en el estudio de los métodos analíticos , tema
tan en boga hoy día.
La Química Analítica es una ciencia empírica natural con un impacto de racionalismo, y su
principal cometido es encontrar el contenido verdadero de un cierto componente en el sistema
químico objeto de consideración.
Las tres principales estrategias quimiométricas son el tratamiento estadístico de los datos, la
optimización y el uso de modelos, y el reconocimiento de patrones. La introducción de la
estrategia quimiométrica constituye un paso importante hacia una teoría general del análisis
2
químico que debiera ser diferente de los puros fundamentos químico-físicos de la Química
Analítica (por ejemplo equilibrios en disoluciones acuosas y no acuosas, complejación,
precipitación...). Esta tiene que tener en cuenta además el poder de información del análisis
químico.
En orden a ser capaz de clarificar y desarrollar las señales obtenidas en el curso de las
reacciones, deben de conocerse todas las relaciones matemáticas por medio de las cuales la
información analítica se transforma en información química. Uno debe, en cierta extensión,
estar familiarizado con la formación de señales y con las unidades electrónicas que definen la
señal. Un buen conocimiento de las técnicas de cálculo es importante también en orden a ser
capaz de establecer sistemas analíticos de medidas. Las técnicas matemáticas usadas en
Quimiometría se muestran en la Figura 27.
El trabajo de prolongación de los sentidos humanos (aparatos) se encuentra limitado por
diferentes factores por lo que resulta imposible detectar la verdad única. Factores objetivos o
subjetivos, expresados en términos especiales tales como errores aleatorios o sistemáticos
ejercen influencia sobre los parámetros importantes que caracterizan un método analítico, por
ejemplo sensibilidad, selectividad, límite de detección y determinación, y sobre los principales
factores que determinan el rango del verdadero contenido, exactitud y precisión. Esto es por lo
que en Química Analítica, la verdad tiene una naturaleza estadística y una cierta probabilidad.
La estrategia quimiométrica en Química Analítica supone el diseño de modelos estadísticos
para algunos procedimientos analíticos. La meta final es generalmente la optimización del
procedimiento, o la determinación del peso final de los diferentes factores de entrada sobre la
señal analítica. En referencia a modelos y optimización, esta estrategia considera factores que
no son siempre ordenados y autónomos, así como parámetros instrumentales.
Los modelos ayudan a la extracción de algunas relaciones estructurales, existentes
objetivamente en un sistema analítico (por ejemplo, influencia de interferencias, importancia de
factores instrumentales, interconexiones entre parámetros de procedimientos tales como
exactitud, precisión, selectividad, sensibilidad y límite de detección).
Otro aspecto de la estrategia quimiométrica consiste en el estudio de sistemas no estructurados
descritos por un amplio conjunto de datos. La ciencia actual está abandonando el estudio de los
sistemas bien organizados, enfrentándose a uno nuevo, la investigación de los sistemas difusos,
no bien organizados.
El trabajo con disoluciones puras o con muestras bien conocidas es ya historia. La Química
Analítica del medio ambiente, el teleanálisis y el análisis de sistemas biológicos trata con
sistemas bastante difusos para los cuales las razones para una cierta composición cualitativa y
cuantitativa no están marcadas inequívocamente. Adicionalmente, los modernos métodos
instrumentales suministran un flujo continuo de datos de tales muestras.
Los métodos de reconocimiento de patrones (máquina lineal, métodos supervisados y no
supervisados, análisis "cluster", análisis factorial) constituyen una nueva aproximación para la
explicación de conjuntos amplios de datos analíticos, así como para la detección de los factores
que determinan la distribución de los datos analíticos.
Los químicos analíticos, impulsados por el enorme incremento en la capacidad de generar
datos analíticos, han sido líderes en la revolución quimiométrica. La Quimiometría es
3
principalmente una disciplina dentro de la Química Analítica, hasta tal punto que muchos
químicos analíticos son también excelentes quimiometristas, incluso aunque no reconozcan este
hecho.
La Química Analítica ha sido denominada ciencia sin teoría. Sus detractores consideran que
las teorías y los principios de la Química Analítica han sido tomados de otras ramas de la
ciencia. De hecho, Laitinen indica que la Química Analítica emergió como una disciplina
científica por derecho propio empleando los métodos teóricos y experimentales de otros campos
de la ciencia. Los desarrollos en Quimiometría constituyen en opinión de Kowalski un
fundamento sólido para consolidar esta ciencia.
Ahora bien, la Quimiometría no es mágica (Chemometrics is not magic). A este respecto
conviene citar las palabras del famoso naturalista inglés T. Huxley quien en uno de sus
informes, polemizando con William Thompson (lord Kelvin) dijo: "la matemática se puede
comparar con un molino de mecanismo perfecto, que muele todo lo que se quiera hasta
cualquier finura; no obstante, lo que usted tiene depende de lo que echa, y tanto el molino más
maravilloso del mundo no nos da harina de trigo del armuelle, como de páginas de fórmulas
usted no obtendrá un resultado determinado de datos dudosos".
El mejor algoritmo, el mejor equipo de computación con el software de elevada calidad no
dará el resultado correcto esperado si las suposiciones de partida realizadas no son verdaderas.
El analista debe de preocuparse también de la automatización de los datos y recurre con mayor
frecuencia a la informática, a la programación de los datos, así como a los microordenadores
personales y a la interpretación electrónica de los datos.
La adaptación de los medios al fin constituye una vía de investigación que se sitúa a medio
camino entre la química analítica fundamental y el análisis tecnológico. La investigación
aplicada asegura así la relación entre la investigación fundamental a largo plazo y la explotación
a corto plazo de la tecnología, siempre al acecho de una solución inmediata.
La Quimiometría no es (Tabla 5), sin embargo, la primera disciplina de este tipo. Si se utiliza la
aparición de una revista prestigiosa como medida de la edad, la Biometría fue primera; la revista
Biometrika ve la luz en 1901. En 1936 aparece Psychometrika con Richard Thurstone como
editor. Technometric se publica por primera vez en 1951, bajo la dirección de Stu Hunter como
editor. Scientometrics, Sociometrics y Arqueometrics son otros términos que incluyen
tratamiento matemático y estadístico o recuperación de un colectivo de datos procedentes de
medidas o propiedades de un sistema designadas en orden a adquirir una idea mejor o nueva del
mismo.
Existen paralelismos en todas estas disciplinas emergentes. Comienzan sin nombre unos 10 o 15
años antes de que aparezca la primera revista. Hacia la mitad de ese período es inventado en
algún lugar el nombre. Después de cierto intervalo, aparecen tantos artículos que parece
apropiado contactar con un editor para contar con una revista específica.
La palabra sueca "kemometri" fue usada en primer lugar por Svante Wold en 1971 en un
curso ofertado por la Universidad de Umea. En 1972 se usa por primera vez en el "Journal of
the Swedish Chemical Society". La Sociedad Internacional de Quimiometría comienza su
andadura en 1974, y en enero de 1976 aparece el primer "Chemometrics Newsletter", redactado
por Kowalski.
4
Desde el comienzo han existido dos escuelas de Quimiometría. Una que considera a la
Quimiometría como una parte de la Química Analítica. La otra, de amplio alcance, se centra
principalmente en la química orgánica y en las ciencias de la vida.
El comienzo de la escuela orgánica se relaciona con la cinética de reacción, donde las
ecuaciones diferenciales basadas en modelos fallan, siendo los modelos empíricos con pequeños
valores de residuales igualmente útiles. Las dos escuelas continúan coexistiendo pero sin la
animosidad que existió en un principio. Gran parte de la literatura quimiométrica es todavía
orientada analíticamente, aunque numerosos trabajos de Quimiometría no analíticos aparecen
en revistas biomédicas.
Muchos cálculos en química no son considerados parte de la Quimiometría. Esto es parte del
crecimiento orgánico de la disciplina: la Quimiometría se desarrolla en las líneas que eligió la
antigua Quimiometría. La cristalografía y la mecánica cuántica se han quedado fuera en algún
momento.
Uno de los problemas de la Quimiometría es la nomenclatura, dada la existencia de
numerosos métodos y técnicas, tema que está siendo objeto de estudio.
Geladi representa la Quimiometría como (Fig. 28) la rosa de los opuestos. Uno de los temas
principales de la Quimiometría es el rechazo de modelos duros (leyes físicas) y su sustitución
por modelos blandos (el modelo es cualquiera que sea capaz de soportar los datos). La
oposición de ruido y modelo simboliza el contraste entre la Quimiometría (un buen modelo
tienen un residual razonablemente pequeño) y la estadística tradicional (que pone mayor énfasis
en el conocimiento de la distribución exacta de los errores residuales).
Los dos opuestos de muestreo y diseño juegan un papel importante. Es siempre mejor diseñar
cuidadosamente el experimento, pero desafortunadamente, muchas situaciones no permiten
esto. En muchos casos, todo lo que es muestreado es aceptado como dato. Y luego hay
oposición de los modelos a priori (conocemos como se comportarán los datos de antemano) y
modelos a posteriori (los datos nos dirán que es lo que continúa) que obvian la necesidad de
suponer nada de antemano.
Gran parte del antiguo trabajo en Quimiometría radica en convencer a las audiencias
académicas e industriales de la existencia de la rosa de los opuestos y del valor de elegir la
alternativa.
Existe también la necesidad de disponer de materiales de referencia estandar reales.
Para Esbensen y Geladi Lavoisier es el primero que aplica métodos cuantitativos en Química,
y por tanto el primer especialista en Quimiometría. Quizás este honor corresponda más bien, a
Richter.
En 1982, en Petten (Holanda) un grupo de especialistas en Quimiometría definen esta rama
como sigue: "La Quimiometría es una disciplina química que usa métodos matemáticos y
estadísticos para a) para proyectar, o seleccionar, procedimientos óptimos de medida y de
realización de experimentos, y b) para obtener un máximo de información química a través del
análisis de los datos químicos".
El segundo punto le recuerda a Malissa el trabajo de Richter, de hace unos 200 años, en el que
5
bajo el término (duradero) de estequiometría realiza tareas similares. En 1792 y 1793, Richter
publica (Fig. 29) sus más famosos libros
"Anfangsgründe der Stöchyometrie -oder- Meβkunst chymischer Elemente", y "Angewandte
Stöchyometrie".
En la introducción Richter escribe:
"Die Mathematik rechnet all diejenigen Wissenschaften zu ihrem Gebiet, wo es nur Gröβen
gibt, und eine Wissenschaft liegt folglich mehr oder weniger in dem Kreis der Meβkunst, je
mehr oder weniger Gröβen darin zu bestimmen sind. Durch diese Waahrheit wurde ich bei
chemischen Versuchen öfter zu der Frage veranlaβt, ob und wie ferne wohl die Chymie ein
Theil der angewandten Mathematik sey..."
y más tarde:
"...Da der mathematische Theil der Chymie mehrenteils Körper zum Gegenstand hat, welche
unzersetzbare Materien und Elemente sind und Gröβenverhältnisse zwischen ihnen bestimmen
lehrt, so habe ich keinen kürzeren und schicklicheren Namen für diese wissenschaftliche
Disziplin ausfinding machen köngriechischen Sprache 'ein Etwas' bedeutet, was sich nicht
weiter zergliedern läβt, und metrein, welches Gröβenverhältnisse finden heiβt"
y más interesante
"... Mir ist es übrigens gleich, ob man es chymische Hydrostatik, mathesis Chymia, Chymia
mathematica oder noch anders nennen will..."
En la extensa introducción (de unas 40 páginas), aborda el problema de encontrar nuevas
entidades (Monaden) en el curso de la combinación de las matemáticas con la química, y
diferencia entre estequiometría pura y aplicada o estequiometría teórica y práctica.
En su intento de correlacionar masa, densidad y afinidad química, Richter arriba finalmente a
un tipo de ecuaciones que puede considerarse como el primer esquema de reacción real. La Fig.
29 da una idea de ella, pudiendo considerarse además como la primera realización
quimiométrica.
Del trabajo de Richter puede encontrarse una línea recta vía Berthelot, Proust y Dalton (ley de
las proporciones múltiples), y posteriormente hasta Guldberg y Waage con su concepto de ley
de acción de masas.
La Quimiometría podría tener la mismo prometedora raíz (origen) que la estequiometría.
Malissa se encuentra relativamente a gusto con el nuevo término y su definición, pero indica
que podría también denominarse "Estequiometría avanzada" o "Estequiometría en el espacio n-
dimensional".
Wold y Brown señalan a Student (William Gosset) químico en una cervecería e inventor del
test t como el primer (247-249) especialista en Quimiometría. Esto ocurría entre 1900 y 1910.
También el trabajo de Fisher sobre 1925 puede considerarse claramente como Quimiometría.
A principios de los 70 es cuando la complejidad de los datos multivariantes disponibles
6
demandan nuevos métodos matemáticos y estadísticos para extraer la información requerida de
los datos. Harold Martens lo indica de manera suscinta en una entrevista: "Two much data".
Los avances recientes en el diseño instrumental, control por microprocesadores y adquisición
de datos por computador han incrementado la velocidad a la que se obtienen los datos. Es
posible ahora obtener numerosas medidas sobre variados parámetros en una fracción del tiempo
previamente requerido para ello, y con mucho menos esfuerzo.
A través de la automatización estamos asistiendo a cambios cualitativos y cuantitativos en la
manera de llevar a cabo los experimentos. La filosofía fundamental de la experimentación y su
expresión práctica a través del diseño experimental ha cambiado drásticamente.
Desafortunadamente, nuestras habilidades interpretativas no han mejorado a la velocidad que
permite una exploración completa de esta avalancha electrónica de datos.
La Fig. 30 suministra un breve resumen histórico de la Quimiometría. Muchos de los
especialistas consagrados realizan su primera contribución en los años 70 tal como se indica en
la Tabla 6.
En la Tabla 7 se muestran las aportaciones consideradas como mejores por los autores pioneros
más significativos en el campo.
Reacciones en tubos de ensayos sencillos con solo una propiedad a observar son sustituidas
por instrumentos complejos que registran espectros de derivadas y cromatogramas. Una
circunstancia afortunada aquí es que aproximadamente al mismo tiempo que las medidas
multivariantes llegaban a ser difíciles de tratar, surgieron las computadoras para tratar con la
complejidad numérica y cuantitativa.
Para el desarrollo se necesitan herramientas apropiadas y motivación. Las herramientas son
las matemáticas, el análisis numérico y la computación. Una motivación importante es la
necesidad práctica de resolver problemas.
Las herramientas y la motivación interaccionan mutuamente de forma natural. Por ejemplo, la
existencia de ordenadores rápidos ha alentado el desarrollo de nuevos métodos estadísticos,
cuya aplicación no sería posible sin ellos, ni tampoco el desarrollo teórico posterior. Además,
los avances, deben esperar a veces un conocimiento apropiado de las matemáticas.
Es interesante notar que mientras que la mayor parte de los antiguos especialistas toman sus
métodos de la práctica establecida en otras ciencias, muchos escriben su propio software casero,
por ejemplo Kowaski, Martens, Massart y Wold.
Hoy es difícil para los individuos de los dos campos comunicarse efectivamente puesto que en
ambos se han desarrollado y fomentado ricos dominios semánticos. El campo de la
Quimiometría se ha desarrollado para facilitar la transferencia de las técnicas estadísticas a los
problemas químicos que las requieren. Hay que enfatizar que la Quimiometría es una disciplina
química porque el poder de interpretación de las técnicas estadísticas puede ser completamente
explotado solamente cuando está presente un contexto químico.
El diagrama esquemático de la Fig. 31 ilustra las áreas de solución de problemas químicos
donde se aplican comunmente las técnicas quimiométricas. Las tareas se incluyen en la parte
interna y los objetivos y consideraciones específicas que conllevan el desempeño de estas tareas
en la parte externa.
7
La ingente masa de datos disponibles es en el mejor de los casos infrautilizada y en el peor
tiende a oscurecer la información oculta antes que clarificarla. La explotación completa de la
afluencia de datos adquiridos requiere el auxilio de técnicas interpretativas adecuadas.
Un método para ayudar a la conversión de los datos en información es el llamado
reconocimiento de patrones (Tabla 9), modelos o pautas. La razón de usar el reconocimiento de
pautas en el examen de una base de datos multivariantes radica en la posibilidad de aumentar la
comprensión humana de la información multidimensional contenida en los datos. Las técnicas
matemáticas empleadas en reconocimiento de patrones permite una rápida y eficiente
identificación de las relaciones y aspectos claves que de otra manera podrían permanecer
ocultos en la gran masa de números.
El reconocimiento de patrones consta de dos fases: análisis exploratorio de datos y
reconocimiento de pautas aplicado. El análisis exploratorio de datos se propone cubrir tres
aspectos principales de los datos: muestras o medidas anómalas, relaciones significativas entre
las variables medidas y relaciones significativas o agrupamientos entre muestras. El análisis
exploratorio de datos es un proceso iterativo en el que se emplean una amplia variedad de
herramientas (Figuras 32 y 33).
Las herramientas primarias usadas en el aprendizaje (no supervisado) son el análisis factorial,
análisis por componentes principales y análisis "cluster".
Existen muchos algoritmos utilizados en la clasificación de objetos. Tres de los más
comúnmente usados son: modelado independiente suave por analogía de clases (SINCA),
método del vecino más próximo (KNN) y análisis discriminante lineal (LDA).
En la Fig. 35 se muestra la clasificación de las técnicas de reconocimiento de modelos, y en la
Fig. 36, el proceso de entranamiento y predicción correspondiente al aprendizaje supervisado
En los últimos cinco años se han definido varios subcampos de la Quimiometría como
consecuencia de la extensión de las aplicaciones particulares de los métodos (Tabla 8),
hablándose de subcampos o especialidades, tales como el de sintometría (síntesis orgánica),
envirometría o aplicaciones medioambientales, Calimetría (calidad), un subcampo de la
Quimiometría definido antiguamente por Martens (264) como aquel concerniente con el uso de
métodos quimiométricos para mejorar el control y aseguramiento de la calidad, farmacometría,
que implica el uso de métodos quimiométricos en la síntesis, análisis y formulación de
productos farmacéuticos.
En 1980, la revista "Analytical Chemistry" comenzó a incluir una sección sobre Quimiometría
en sus revisiones fundamentales bianuales. Estas revisiones están basadas en la literatura
publicada al respecto y son de una naturaleza muy técnica, constituyendo ciertamente la mejor
fuente bibliográfica sobre Quimiometría desde 1980 en adelante.
En los últimos años, la introducción del computador en el campo de la Química Analítica se
ha ido generalizando, de tal forma que este hecho constituye sin duda actualmente una de las
tendencias de mayor relieve. De esta manera, el número de trabajos de tipo didáctico que se
dedica a este tema va en aumento, ya con el punto de mira puesto en la problemática general
que implica la presencia de este instrumento en el laboratorio, bien en la elaboración de criterios
que permitan la selección de lenguajes apropiados, o tendencias en su caso del empleo de
computadores en la tecnología de interfaces, etc...
8
Resulta claro que tal innovación se fundamenta en el uso generalizado de la informática, cuya
conexión con la Química se hace a través de la Quimiometría como puente. Así pues, el
ordenador constituye una nueva y valiosa herramienta, con la cual y con la ayuda del método
informático es posible dar solución a innumerables problemas químicos.
La relación entre Quimiometría, Informática, y Química Analítica ha sido tratada por Shaevich.
La importancia de la Quimiometría en la electroquímica, química clínica, farmacia y química de
los alimentos, ha sido puesta de manifiesto.
La inteligencia artificial emergió de la necesidad de tratar con el conocimiento simbólico,
contrario al numérico, no solo algorítmicamente, sino también heurísticamente. La posibilidad
de adquirir y asimilar de continuo nuevo conocimiento es un objetivo posterior en el desarrollo
del tratamiento del mismo; esto podría compararse de hecho al aprendizaje. De la capacidad de
aprender, se sigue asimismo el deseo de generalizar, esto es, de encontrar respuestas a preguntas
no disponibles en el esquema base, "inventar" en definitiva, una respuesta al conocimiento
incompleto disponible.
La inteligencia artificial continua siendo de considerable interés a los químicos analíticos,
como se evidencia por el número de referencias relacionadas con este campo, siendo
probablemente, por tanto, el campo de la Quimiometría que ha experimentado un crecimiento
más fuerte en los últimos años. El mayor número de aplicaciones desarrollado hasta el momento
corresponde a los sistemas expertos, aunque las redes neuronales artificiales están encontrando
múltiples y hasta hace poco insospechadas aplicaciones, y los algoritmos genéticos, en adición,
se ha mostrado como interesantes alternativas en el terreno de la optimización.
Los sistemas expertos encuentran aplicación en el laboratorio analítico en elucidación de
estructuras a partir de datos espectrales, en cromatografía, tanto en la selección del modo y
condiciones cromatográficas como en el tratamiento de datos, en la solución de problemas
instrumentales, y en la validación de sistemas. Las redes neuronales y los algoritmos genéticos
continúan creciendo en popularidad y su aplicación se extiende hoy día más allá de las áreas
tradicionales definidas de la inteligencia artificial. Su uso es especialmente común ahora en
aplicaciones concernientes a la calibración multivariante y al reconocimiento de patrones.
Las redes neuronales constituyen sin duda el campo más activo actualmente. Las redes
neuronales parecen ser una nueva arma secreta para combatir multitud de problemas. Se han
descrito redes neuronales que pueden aprender paulatinamente lo que implica utilizar nuevos
datos conforme van siendo disponibles para el entrenamiento de la red.
También está emergiendo a teoría de la lógica borrosa (fuzzy set theory), concebida
originalmente por los matemáticos, hace tiempo, como una consecuencia de la necesidad de
describir objetos con atributos inherentemente vagos. La utilización de la teoría de datos
borrosos amplía aún más las posibilidades de la Quimiometría. Los datos borrosos son una
forma matemática conveniente de representar datos imprecisos. Se trata de una faceta de la
inteligencia artificial bien conocida en otros ámbitos, pero casi ignorada por la Química
Analítica hasta no hace mucho.
Sencillamente, se consideraba que no existía la necesidad de utilizar tales tipos de datos en la
descripción de sistemas materiales. Los datos borrosos representan conceptos intuitivos ("algo",
"mucho", "poco", "bastante") y no valores cuantitativos, permitiendo efectuar reconocimiento
de modelos a partir de los mismos.
9
TABLA 9. Nomenclatura básica utilizada en Reconocimiento de Patrones
Objetos (m): son generalmente muestras de cualquier tipo, por ejemplo, mezclas de compuestos químicos, o a veces un
compuesto químico puro cuya estructura se pretende determinar.
Variables (n): datos medidos obtenidos por análisis químico (no todas son significativas).
Datos multivariantes: conjunto de datos en los cuales cada objeto está caracterizado por muchas variables.
Propiedad: distintivo de la muestra que guarda con ella una relación o dependencia que no puede establecerse mediante una
medida química simple, sino a partir de la evidencia química combinada obtenida (datos múltiples).
Las propiedades en Química de dos tipos principales; ya relacionadas con la naturaleza química del objeto, por ejemplo
presencia o ausencia de un determinado radical, o relacionadas con aspectos prácticos, tales como su calidad, su origen
geográfico, temporal o químico.
Clase: denota un conjunto de muestras que exhiben una cierta cantidad de similitud química (alguna propiedad o propiedades
comunes); la elección de las clases se encuentra en correspondencia con el problema analítico estudiado.
Modelo o patrón: colección de datos válidos obtenidos mediante medidas químicas de un mismo objeto o muestra. Puede
consistir en medidas primarias, aunque a menudo los modelos constituyen funciones derivadas de los datos primarios (no
superfluos) o sea, alguna información combinada que se supone por alguna razón química representa mejor la propiedad que los
datos brutos.
Característica (feature o descriptor): los N datos observados para cada objeto pueden representarse como un vector (pattern
vector) en un espacio N-dimensional obtenido asignando a cada variable significativa un eje coordenado. Por características se
entiende cada uno de los componentes de un modelo o patrón, o sea, cualquiera de las N cantidades representadas por los N.ejes.
Vector modelo o patrón: cada vector modelo caracteriza un objeto y se usa para determinar alguna propiedad (oscura). La
determinación de la propiedad oscura es a menudo equivalente al reconocimiento de una clase o categoría a la que el modelo o
patrón (y el objeto) pertenece.
Espacio de modelos: si una muestra extraída de un conjunto de N muestras está caracterizada por un total de n medidas
realizadas en esa muestra, y si las mismas medidas se realizan en todas las muestras, la cantidad total de información disponible
puede representarse entonces como n-vectores en un espacio n.-dimensional. Este espacio se denomina espacio de modelos y
cada uno de los vectores se dice que es un modelo.
Dimensión: el número de características elegibles define el número de dimensiones, que constituye un parámetro esencial en los
métodos de reconocimiento de modelos o patrones.
Selección de las características: el proceso de definición de las características implica una consideración de los factores que
pueden ser importantes para la solución de los problemas químicos en consideración. Aquí la experiencia y el conocimiento
juegan un papel vital. La elección de características no adecuadas carecen de utilidad para la clasificación y pueden obscurecer
relaciones útiles.
Clusters: un conjunto de patrones de razonable complejidad puede ser normalmente agrupado en "clusters" o grupos. La
descripción y localización de estos clusters ayuda a una mejor descripción de la estructura de los patrones o modelos, lo cual
aparte de ser útil en sí mismo, simplifica y resuelve muchos problemas de clasificación de patrones. Se denomina análisis cluster
al conjunto de métodos y técnicas que describen y localizan estas agrupaciones.
Utilidad de las técnicas de análisis cluster: la utilidad fundamental es la siguiente;
a) atender a una mejor interpretación de la estructura de los modelos analizando las causas intrínsecas de la agrupación de los
mismos.
b) ayudar a descubrir las posibles subclases subyacentes en la muestra controlada de una clase.
c) si se encuentran grupos o "clusters" naturales, de acuerdo con las carácterísticas seleccionadas (aunque no se conozcan las
clases a las que pertenecen los patrones que integran la muestra), éstos se corresponden con las clases del problema. Estas clases
sirven para diseñar un clasificador de futuros modelos cuya clase de pertenencia sea desconocida.
10
TABLA 9. Nomenclatura básica utilizada en Reconocimiento de Patrones
(CONTINUACION)
Clasificador binario: algoritmo que emplea los patrones o modelos como entrada y produce una salida que indica una o dos
clases alternativas a las que se asigna el modelo.
Diseño del clasificador: el desarrollo de un clasificador apropiado constituye el problema central. Se necesita para ello un
conjunto de modelos pertenecientes todos a objetos de una misma clase. Estos datos orinales se dividen mediante el uso de
números aleatorios en dos partes, el conjunto de aprendizaje (training set), y el conjunto de predicción (prediction set), que se usa
para comprobar el clasificador.
El aprendizaje se hace para que el máximo número de patrones del conjunto de aprendizaje se asignen a la clase correcta. Los
patrones del conjunto de predicción se usan después del aprendizaje para ensayar la calidad del clasificador. El porcentaje de
patrones correctamente clasificados a partir del conjunto de predicción (o preferiblemente cualquier otro criterio) se emplea en la
evaluación objetiva de los clasificadores. El cálculo de un clasificador es generalmente laborioso, requiriendo el uso de un
ordenador potente, pero la aplicación de un clasificador dado a un modelo desconocido es sencilla y rápida.
Aprendizaje (training): desarrollo de las reglas de clasificación.
El método de reconocimiento de modelos para la interpretación de la información química multivariante explota una
representación multidimensional de los datos (multidimensional mapping). De esta manera, los conceptos de distancia y
similitud pueden definirse de una manera concisa y las comparaciones de objetos que muestran una conducta similar pueden
llevarse a cabo convenientemente mediante computadoras digitales.
Los métodos numéricos en el reconocimiento matemático de patrones se basan en conceptos relativamente simples; su
operatividad no depende de la sofistificación relativa al reconocimiento humano, sino de la posibilidad de tratar con ordenador
patrones de grandes dimensiones. La percepción humana puede tratar, en mente, sofisticadas reglas y algoritmos, pero no con
más de dos o tres dimensiones a visualizar en los modelos. En cambio, el reconocimiento matemático de modelos puede, a base
de sencillos algoritmos, manejar masas de datos con mayores dimensiones cuyas relaciones internas no son fácilmente
visualizables. Aunque las reglas de decisión en reconocimiento de modelos deben ser sencillas y rápidas en su solución, la
obtención de las mismas puede requerir un considerable esfuerzo. Esta es la razón fundamental para recurrir al concurso de los
ordenadores.
Métodos de aprendizaje
supervisados: la meta es clasificar una o más muestras, el conjunto de predicción, por su similitud con muestras cuya
clasificación es conocida previamente, el conjunto de aprendizaje.
no supervisados: el objetivo es en primer lugar desvelar relaciones entre grupos de muestras mediante la búsqueda de
subconjuntos de muestras que son particularmente similares, y en segundo lugar, interpretar tales relaciones en términos de las
propiedades físicas y químicas de las muestras.
Métodos paramétricos: asumen que las funciones de densidad de probabilidad son conocidas o pueden estimarse. Se emplean las
estrategias de Bayes en los procesos de aprendizaje y selección.
Métodos no paramétricos: no hacen suposición alguna acerca de la distribución estadística subyacente de los datos.
Clasificación de Coomans y Broeckaert
1. Métodos no Bayesianos (deterministas, y de intervalos de confianza)
2. Métodos Bayesianos (paramétricos y no paramétricos)
Clasificación de Wold
Nivel 1: Clasificación de objetos en clases prefijadas
Nivel 2: Se pueden detectar los "outliers" u objetos espúreos
Nivel 3: Se puede predecir una propiedad externa
Nivel 4: Se predice más de una propiedad externa
11
Evidentemente es un concepto claramente opuesto a los modelos probabilísticos que han
dominado el reconocimiento de pautas en Quimiometría desde su inicio. Sin embargo, este tipo
de aproximación puede ser intrínsecamente interesante en el caso de sensores. La lógica borrosa
ha entrado en la Quimiometría, y probablemente como en otros muchos aspectos, veremos en
los próximos años nuevas y sorprendentes aplicaciones.
Las capacidades del cerebro humano han fascinado siempre a los científicos, que se han
interesado vivamente por la investigación de sus mecanismos internos. En los pasados 50 años
se han ideado modelos que han intentado emular las funciones del cerebro. El desarrollo de los
computadores, sin embargo, ha ido tomando una dirección totalmente diferente. Como
resultado, las arquitecturas de los actuales computadores, los sistemas operativos, y la
programación lineal, tienen poco en común con el proceso de información tal como se lleva a
cabo en el cerebro. No obstante, se está experimentando una revaluación de las habilidades
cerebrales, de tal manera que se han trasladado éstas a algoritmos de procesamiento de la
información.
El bloque o edificio básico de estos modelos cerebrales (redes neuronales) es una unidad de
proceso de información que es un modelo de neurona. Una neurona artificial de este tipo realiza
solo operaciones matemáticas bastante simples. Su eficacia se deriva, sin embargo, del modo en
que grandes cantidades de neuronas pueden conectarse para formar una red.
Dado que varios modelos de neuronas imitan diferentes habilidades del cerebro, resulta
posible utilizar éstas para resolver diferentes tipos de problemas: clasificación de objetos,
modelo de relaciones funcionales, almacenamiento y recuperación de información, o
representación de grandes cantidades de datos.
Las posibilidades en el procesamiento de los datos químicos de las redes neuronales artificiales
son grandes, y las aplicaciones cubren en consecuencia un amplio rango: análisis
espectroscópico, predicción de reacciones, control de procesos químicos, y análisis de
potenciales electrostáticos.
El cerebro humano tiene un poder de procesamiento fenomenal, mucho mayor incluso que el
de los supercomputadores de hoy día. Obviamente, el cerebro humano procesa la información
de una manera completamente diferente a los computadores convencionales que están
construidos según las líneas de la arquitectura "von Neumann". Un computador "von Neumann"
trabaja a través de programas (algoritmos) paso a paso, esto es, secuencialmente. En contraste,
el cerebro humano opera ampliamente en paralelo: la información de entrada es canalizada
simultáneamente a través de muchas unidades de procesamiento.
El trabajo original sobre redes neuronales, "perceptrones" (perceptrons) como se denominaron
en su tiempo, fue publicado hace más de cincuenta años por McCulloch y Pifts, y Hebb. Sin
embargo, este tema no despertó en principio mucho entusiasmo hasta la aparición de un trabajo
de Hopfield.
La introducción del concepto de no linearidad entre la entrada total recibida por una neurona
procedente de otras y la salida producida y transferida hacia adelante, y el acoplamiento por
retroalimentación de las salidas con las entradas, da una nueva flexibilidad (285) a la antigua
arquitectura del "perceptron".
Las redes neuronales artificiales son modelos empíricos de entrada-salida apropiados para el
12
modelado de relaciones complejas multi-entrada multi-respuesta, mediante ajuste de curvas.
Una característica importante es su capacidad de aprendizaje. La información que contiene es
distribuida sobre un gran número de parámetros modelos, que dan cuenta de su gran
flexibilidad. Imitan el proceso cosnoscitivo humano y como tales son apropiadas al
procesamiento de datos con ruido, datos incompletos, e inclusos en alguna extensión, datos
inconsistentes.
Las redes neuronales artificiales son modelos de las estructuras en nuestro cerebro que hacen
posible el pensamiento; una serie de nodos de entrada están conectados vía una segunda capa de
nodos a un nodo final de salida. La segunda capa es denominada a menudo capa oculta. Todos
los nodos de la capa oculta tiene cada conexión posible con los nodos de entrada y de salida.
Cada conexión porta la señal (s) de un nodo de entrada a un nodo más profundo de la red, pero
cada conexión aplica su propio peso individual (w) por lo que la señal recibida (283) es el
producto w.s.
Todas las entradas se suman (Fig. 38) de acuerdo a sus señales y pesos para dar una "input"
neto. A continuación, se aplica una función de transferencia para computar una señal de salida.
Se han usado varias funciones de transferencia, pero la preferida actualmente es la función
sigmoidal y = 1/ (1 + exp-x
), y por tanto, se tiene, out = 1/(1 + exp-net
), donde out es la salida del
nodo.
Los sistemas de optimización son bien conocidos en Química Analítica, por ejemplo, el
sistema Simplex introducido por Deming y Morgan y sus múltiples variantes. El simplex
muestra problemas de convergencia en superficies de respuestas multimodales complejas y de
muy alta dimensionalidad.
Los algoritmos genéticos trabajan mediante mecanismos de múltiples búsquedas evolutivas en
paralelo, y superan fácilmente en consecuencias estas dificultades, siendo enormemente
robustos para la localización de un óptimo global con precisión aceptable. Las exigencias de
cálculo y de memoria de ordenador son superiores y, de momento, no existe una oferta
comercial de paquetes suficientemente apropiados para su implementación directa en el
laboratorio analítico.
13
FIGURA 27.- Técnicas matemáticas usadas en Quimiometría
(B.G.M. Vandeginste, Anal. Chim. Acta, 150 (1983) 199-206)
14
FIGURA 28. La rosa de los opuestos
(P. GELADI, Analysis (Europa) April (1995) 34)
FIGURA 29. Anfangsgründe der Stöchyometrie
(H. MALISSA, Mikrochim. Acta [Wien] 1986II, 3)
15
FIGURA 30. Breve resumen histórico de la Quimiometría, en una escala no lineal
(K. ESBENSEN, P. GELADI, J. Chemometrics, 4 (1990) 389)
TABLA 6. Algunos de los primeros contribuidores a la Quimiometría
16
TABLA 7. Lista de las aportaciones que los contribuidores, en su caso, reconocen como
mejores
FIGURA 31. Tareas implicadas en el estudio de problemas químicos complejos
(R.R. MEGLEN, Chem. Intell. Lab. Syst., 3 (1988) 17)
17
FIGURA 32. Diagrama esquemático que ilustra el proceso iterativo usado en análisis
exploratorio de datos y reconocimiento de patrones aplicado.
(R.R. MEGLEN, Chem. Intell. Lab. Syst., 3 (1988) 17)
FIGURA 33. Dendogramas de mapping bidimensionales empleados en la identificación
de objetos según su pertenencia a diferentes clases
(R.R. MEGLEN, Chem. Intell. Lab. Syst., 3 (1988) 17)
18
FIGURA 34. Ambito y competencias de las siglas COBAC (Computer Based Analytical
Chemistry)
(J.A. PEREZ-BUSTAMANTE DE MONASTERIO. Quim. Anal., 10 (1991) 249)