leccion 5 - quimiometria€¦ · información para un mundo que tiene planteados muchos problemas...

1

LECCION 5 - QUIMIOMETRIA

Antes de 1970 el analista químico estaba generalmente familiarizado tan solo con los procesos

de medida. Pero de una u otra manera, los datos o resultados analíticos se trasladan a

información química acerca de los sistemas materiales, o en sentido más amplio a procesos de

una naturaleza tecnológica, investigación clínica, bromatológica o de medio ambiente.

Idealmente, el análisis como un proceso que genera información debe ser una parte integral del

sistema muestreado y analizado.

A partir de 1970, la matemática compleja y la herramienta estadística se van introduciendo

paulatinamente con el objeto de mejorar el proceso de medida y diseñar experiencias de forma

adecuada. El objetivo es hacer el mejor uso posible de las medidas analíticas en orden a generar

información para un mundo que tiene planteados muchos problemas aún no resueltos. La

adaptación de los métodos analíticos a la resolución de problemas específicos implica la

cuantificación de diversas variables (sensores, modos de calibración, composición de las fases

móvil y estacionaria, parámetros instrumentales...).

Dos importantes desarrollos han tenido lugar en las últimas décadas: computadoras e

instrumentación.

Los desarrollos en el campo de la informática han cambiado asimismo drásticamente el matiz

de la instrumentación analítica. Interruptores y registradores han sido reemplazados hoy día por

teclados y pantallas. Un paso siguiente que puede esperarse consiste en la introducción de

inteligencia en los instrumentos.

Desde hace tiempo, muchos nuevos desarrollos en análisis químico se han gestado sobre el

carro de los avances en electrónica, física, computadoras y diversas áreas de la ingeniería.

Como sea, puesto que las medidas realizadas en el laboratorio analítico llevan aparejadas

cierto grado de incertidumbre, y un resultado analítico se deriva de una fórmula matemática , es

difícil concebir un matrimonio más perfecto que el del analista y las matemáticas y estadística

aplicadas, aunque desafortunadamente en el presente estos dos campos se han caracterizado tan

solo por una actitud de compromiso.

La importancia de esta interacción queda reflejada por la introducción en 1974 por Kowalski,

de la palabra Quimiometría para definir las aplicaciones de los métodos matemáticos y

estadísticos a las medidas químicas. No obstante, un gran número de químicos podrían haberse

denominado "quimiométricos" mucho antes de que se hubiera inventado este término. Cierto

número de investigadores tales como Youden, Box, Tukey y Wilcoxon han sido químicos

dedicados posteriormente a la estadística; uno de ellos, Box, publicó en 1952 en "The Analyst"

un excelente trabajo acerca del diseño estadístico en el estudio de los métodos analíticos , tema

tan en boga hoy día.

La Química Analítica es una ciencia empírica natural con un impacto de racionalismo, y su

principal cometido es encontrar el contenido verdadero de un cierto componente en el sistema

químico objeto de consideración.

Las tres principales estrategias quimiométricas son el tratamiento estadístico de los datos, la

optimización y el uso de modelos, y el reconocimiento de patrones. La introducción de la

estrategia quimiométrica constituye un paso importante hacia una teoría general del análisis

2

químico que debiera ser diferente de los puros fundamentos químico-físicos de la Química

Analítica (por ejemplo equilibrios en disoluciones acuosas y no acuosas, complejación,

precipitación...). Esta tiene que tener en cuenta además el poder de información del análisis

químico.

En orden a ser capaz de clarificar y desarrollar las señales obtenidas en el curso de las

reacciones, deben de conocerse todas las relaciones matemáticas por medio de las cuales la

información analítica se transforma en información química. Uno debe, en cierta extensión,

estar familiarizado con la formación de señales y con las unidades electrónicas que definen la

señal. Un buen conocimiento de las técnicas de cálculo es importante también en orden a ser

capaz de establecer sistemas analíticos de medidas. Las técnicas matemáticas usadas en

Quimiometría se muestran en la Figura 27.

El trabajo de prolongación de los sentidos humanos (aparatos) se encuentra limitado por

diferentes factores por lo que resulta imposible detectar la verdad única. Factores objetivos o

subjetivos, expresados en términos especiales tales como errores aleatorios o sistemáticos

ejercen influencia sobre los parámetros importantes que caracterizan un método analítico, por

ejemplo sensibilidad, selectividad, límite de detección y determinación, y sobre los principales

factores que determinan el rango del verdadero contenido, exactitud y precisión. Esto es por lo

que en Química Analítica, la verdad tiene una naturaleza estadística y una cierta probabilidad.

La estrategia quimiométrica en Química Analítica supone el diseño de modelos estadísticos

para algunos procedimientos analíticos. La meta final es generalmente la optimización del

procedimiento, o la determinación del peso final de los diferentes factores de entrada sobre la

señal analítica. En referencia a modelos y optimización, esta estrategia considera factores que

no son siempre ordenados y autónomos, así como parámetros instrumentales.

Los modelos ayudan a la extracción de algunas relaciones estructurales, existentes

objetivamente en un sistema analítico (por ejemplo, influencia de interferencias, importancia de

factores instrumentales, interconexiones entre parámetros de procedimientos tales como

exactitud, precisión, selectividad, sensibilidad y límite de detección).

Otro aspecto de la estrategia quimiométrica consiste en el estudio de sistemas no estructurados

descritos por un amplio conjunto de datos. La ciencia actual está abandonando el estudio de los

sistemas bien organizados, enfrentándose a uno nuevo, la investigación de los sistemas difusos,

no bien organizados.

El trabajo con disoluciones puras o con muestras bien conocidas es ya historia. La Química

Analítica del medio ambiente, el teleanálisis y el análisis de sistemas biológicos trata con

sistemas bastante difusos para los cuales las razones para una cierta composición cualitativa y

cuantitativa no están marcadas inequívocamente. Adicionalmente, los modernos métodos

instrumentales suministran un flujo continuo de datos de tales muestras.

Los métodos de reconocimiento de patrones (máquina lineal, métodos supervisados y no

supervisados, análisis "cluster", análisis factorial) constituyen una nueva aproximación para la

explicación de conjuntos amplios de datos analíticos, así como para la detección de los factores

que determinan la distribución de los datos analíticos.

Los químicos analíticos, impulsados por el enorme incremento en la capacidad de generar

datos analíticos, han sido líderes en la revolución quimiométrica. La Quimiometría es

3

principalmente una disciplina dentro de la Química Analítica, hasta tal punto que muchos

químicos analíticos son también excelentes quimiometristas, incluso aunque no reconozcan este

hecho.

La Química Analítica ha sido denominada ciencia sin teoría. Sus detractores consideran que

las teorías y los principios de la Química Analítica han sido tomados de otras ramas de la

ciencia. De hecho, Laitinen indica que la Química Analítica emergió como una disciplina

científica por derecho propio empleando los métodos teóricos y experimentales de otros campos

de la ciencia. Los desarrollos en Quimiometría constituyen en opinión de Kowalski un

fundamento sólido para consolidar esta ciencia.

Ahora bien, la Quimiometría no es mágica (Chemometrics is not magic). A este respecto

conviene citar las palabras del famoso naturalista inglés T. Huxley quien en uno de sus

informes, polemizando con William Thompson (lord Kelvin) dijo: "la matemática se puede

comparar con un molino de mecanismo perfecto, que muele todo lo que se quiera hasta

cualquier finura; no obstante, lo que usted tiene depende de lo que echa, y tanto el molino más

maravilloso del mundo no nos da harina de trigo del armuelle, como de páginas de fórmulas

usted no obtendrá un resultado determinado de datos dudosos".

El mejor algoritmo, el mejor equipo de computación con el software de elevada calidad no

dará el resultado correcto esperado si las suposiciones de partida realizadas no son verdaderas.

El analista debe de preocuparse también de la automatización de los datos y recurre con mayor

frecuencia a la informática, a la programación de los datos, así como a los microordenadores

personales y a la interpretación electrónica de los datos.

La adaptación de los medios al fin constituye una vía de investigación que se sitúa a medio

camino entre la química analítica fundamental y el análisis tecnológico. La investigación

aplicada asegura así la relación entre la investigación fundamental a largo plazo y la explotación

a corto plazo de la tecnología, siempre al acecho de una solución inmediata.

La Quimiometría no es (Tabla 5), sin embargo, la primera disciplina de este tipo. Si se utiliza la

aparición de una revista prestigiosa como medida de la edad, la Biometría fue primera; la revista

Biometrika ve la luz en 1901. En 1936 aparece Psychometrika con Richard Thurstone como

editor. Technometric se publica por primera vez en 1951, bajo la dirección de Stu Hunter como

editor. Scientometrics, Sociometrics y Arqueometrics son otros términos que incluyen

tratamiento matemático y estadístico o recuperación de un colectivo de datos procedentes de

medidas o propiedades de un sistema designadas en orden a adquirir una idea mejor o nueva del

mismo.

Existen paralelismos en todas estas disciplinas emergentes. Comienzan sin nombre unos 10 o 15

años antes de que aparezca la primera revista. Hacia la mitad de ese período es inventado en

algún lugar el nombre. Después de cierto intervalo, aparecen tantos artículos que parece

apropiado contactar con un editor para contar con una revista específica.

La palabra sueca "kemometri" fue usada en primer lugar por Svante Wold en 1971 en un

curso ofertado por la Universidad de Umea. En 1972 se usa por primera vez en el "Journal of

the Swedish Chemical Society". La Sociedad Internacional de Quimiometría comienza su

andadura en 1974, y en enero de 1976 aparece el primer "Chemometrics Newsletter", redactado

por Kowalski.

4

Desde el comienzo han existido dos escuelas de Quimiometría. Una que considera a la

Quimiometría como una parte de la Química Analítica. La otra, de amplio alcance, se centra

principalmente en la química orgánica y en las ciencias de la vida.

El comienzo de la escuela orgánica se relaciona con la cinética de reacción, donde las

ecuaciones diferenciales basadas en modelos fallan, siendo los modelos empíricos con pequeños

valores de residuales igualmente útiles. Las dos escuelas continúan coexistiendo pero sin la

animosidad que existió en un principio. Gran parte de la literatura quimiométrica es todavía

orientada analíticamente, aunque numerosos trabajos de Quimiometría no analíticos aparecen

en revistas biomédicas.

Muchos cálculos en química no son considerados parte de la Quimiometría. Esto es parte del

crecimiento orgánico de la disciplina: la Quimiometría se desarrolla en las líneas que eligió la

antigua Quimiometría. La cristalografía y la mecánica cuántica se han quedado fuera en algún

momento.

Uno de los problemas de la Quimiometría es la nomenclatura, dada la existencia de

numerosos métodos y técnicas, tema que está siendo objeto de estudio.

Geladi representa la Quimiometría como (Fig. 28) la rosa de los opuestos. Uno de los temas

principales de la Quimiometría es el rechazo de modelos duros (leyes físicas) y su sustitución

por modelos blandos (el modelo es cualquiera que sea capaz de soportar los datos). La

oposición de ruido y modelo simboliza el contraste entre la Quimiometría (un buen modelo

tienen un residual razonablemente pequeño) y la estadística tradicional (que pone mayor énfasis

en el conocimiento de la distribución exacta de los errores residuales).

Los dos opuestos de muestreo y diseño juegan un papel importante. Es siempre mejor diseñar

cuidadosamente el experimento, pero desafortunadamente, muchas situaciones no permiten

esto. En muchos casos, todo lo que es muestreado es aceptado como dato. Y luego hay

oposición de los modelos a priori (conocemos como se comportarán los datos de antemano) y

modelos a posteriori (los datos nos dirán que es lo que continúa) que obvian la necesidad de

suponer nada de antemano.

Gran parte del antiguo trabajo en Quimiometría radica en convencer a las audiencias

académicas e industriales de la existencia de la rosa de los opuestos y del valor de elegir la

alternativa.

Existe también la necesidad de disponer de materiales de referencia estandar reales.

Para Esbensen y Geladi Lavoisier es el primero que aplica métodos cuantitativos en Química,

y por tanto el primer especialista en Quimiometría. Quizás este honor corresponda más bien, a

Richter.

En 1982, en Petten (Holanda) un grupo de especialistas en Quimiometría definen esta rama

como sigue: "La Quimiometría es una disciplina química que usa métodos matemáticos y

estadísticos para a) para proyectar, o seleccionar, procedimientos óptimos de medida y de

realización de experimentos, y b) para obtener un máximo de información química a través del

análisis de los datos químicos".

El segundo punto le recuerda a Malissa el trabajo de Richter, de hace unos 200 años, en el que

5

bajo el término (duradero) de estequiometría realiza tareas similares. En 1792 y 1793, Richter

publica (Fig. 29) sus más famosos libros

"Anfangsgründe der Stöchyometrie -oder- Meβkunst chymischer Elemente", y "Angewandte

Stöchyometrie".

En la introducción Richter escribe:

"Die Mathematik rechnet all diejenigen Wissenschaften zu ihrem Gebiet, wo es nur Gröβen

gibt, und eine Wissenschaft liegt folglich mehr oder weniger in dem Kreis der Meβkunst, je

mehr oder weniger Gröβen darin zu bestimmen sind. Durch diese Waahrheit wurde ich bei

chemischen Versuchen öfter zu der Frage veranlaβt, ob und wie ferne wohl die Chymie ein

Theil der angewandten Mathematik sey..."

y más tarde:

"...Da der mathematische Theil der Chymie mehrenteils Körper zum Gegenstand hat, welche

unzersetzbare Materien und Elemente sind und Gröβenverhältnisse zwischen ihnen bestimmen

lehrt, so habe ich keinen kürzeren und schicklicheren Namen für diese wissenschaftliche

Disziplin ausfinding machen köngriechischen Sprache 'ein Etwas' bedeutet, was sich nicht

weiter zergliedern läβt, und metrein, welches Gröβenverhältnisse finden heiβt"

y más interesante

"... Mir ist es übrigens gleich, ob man es chymische Hydrostatik, mathesis Chymia, Chymia

mathematica oder noch anders nennen will..."

En la extensa introducción (de unas 40 páginas), aborda el problema de encontrar nuevas

entidades (Monaden) en el curso de la combinación de las matemáticas con la química, y

diferencia entre estequiometría pura y aplicada o estequiometría teórica y práctica.

En su intento de correlacionar masa, densidad y afinidad química, Richter arriba finalmente a

un tipo de ecuaciones que puede considerarse como el primer esquema de reacción real. La Fig.

29 da una idea de ella, pudiendo considerarse además como la primera realización

quimiométrica.

Del trabajo de Richter puede encontrarse una línea recta vía Berthelot, Proust y Dalton (ley de

las proporciones múltiples), y posteriormente hasta Guldberg y Waage con su concepto de ley

de acción de masas.

La Quimiometría podría tener la mismo prometedora raíz (origen) que la estequiometría.

Malissa se encuentra relativamente a gusto con el nuevo término y su definición, pero indica

que podría también denominarse "Estequiometría avanzada" o "Estequiometría en el espacio n-

dimensional".

Wold y Brown señalan a Student (William Gosset) químico en una cervecería e inventor del

test t como el primer (247-249) especialista en Quimiometría. Esto ocurría entre 1900 y 1910.

También el trabajo de Fisher sobre 1925 puede considerarse claramente como Quimiometría.

A principios de los 70 es cuando la complejidad de los datos multivariantes disponibles

6

demandan nuevos métodos matemáticos y estadísticos para extraer la información requerida de

los datos. Harold Martens lo indica de manera suscinta en una entrevista: "Two much data".

Los avances recientes en el diseño instrumental, control por microprocesadores y adquisición

de datos por computador han incrementado la velocidad a la que se obtienen los datos. Es

posible ahora obtener numerosas medidas sobre variados parámetros en una fracción del tiempo

previamente requerido para ello, y con mucho menos esfuerzo.

A través de la automatización estamos asistiendo a cambios cualitativos y cuantitativos en la

manera de llevar a cabo los experimentos. La filosofía fundamental de la experimentación y su

expresión práctica a través del diseño experimental ha cambiado drásticamente.

Desafortunadamente, nuestras habilidades interpretativas no han mejorado a la velocidad que

permite una exploración completa de esta avalancha electrónica de datos.

La Fig. 30 suministra un breve resumen histórico de la Quimiometría. Muchos de los

especialistas consagrados realizan su primera contribución en los años 70 tal como se indica en

la Tabla 6.

En la Tabla 7 se muestran las aportaciones consideradas como mejores por los autores pioneros

más significativos en el campo.

Reacciones en tubos de ensayos sencillos con solo una propiedad a observar son sustituidas

por instrumentos complejos que registran espectros de derivadas y cromatogramas. Una

circunstancia afortunada aquí es que aproximadamente al mismo tiempo que las medidas

multivariantes llegaban a ser difíciles de tratar, surgieron las computadoras para tratar con la

complejidad numérica y cuantitativa.

Para el desarrollo se necesitan herramientas apropiadas y motivación. Las herramientas son

las matemáticas, el análisis numérico y la computación. Una motivación importante es la

necesidad práctica de resolver problemas.

Las herramientas y la motivación interaccionan mutuamente de forma natural. Por ejemplo, la

existencia de ordenadores rápidos ha alentado el desarrollo de nuevos métodos estadísticos,

cuya aplicación no sería posible sin ellos, ni tampoco el desarrollo teórico posterior. Además,

los avances, deben esperar a veces un conocimiento apropiado de las matemáticas.

Es interesante notar que mientras que la mayor parte de los antiguos especialistas toman sus

métodos de la práctica establecida en otras ciencias, muchos escriben su propio software casero,

por ejemplo Kowaski, Martens, Massart y Wold.

Hoy es difícil para los individuos de los dos campos comunicarse efectivamente puesto que en

ambos se han desarrollado y fomentado ricos dominios semánticos. El campo de la

Quimiometría se ha desarrollado para facilitar la transferencia de las técnicas estadísticas a los

problemas químicos que las requieren. Hay que enfatizar que la Quimiometría es una disciplina

química porque el poder de interpretación de las técnicas estadísticas puede ser completamente

explotado solamente cuando está presente un contexto químico.

El diagrama esquemático de la Fig. 31 ilustra las áreas de solución de problemas químicos

donde se aplican comunmente las técnicas quimiométricas. Las tareas se incluyen en la parte

interna y los objetivos y consideraciones específicas que conllevan el desempeño de estas tareas

en la parte externa.

7

La ingente masa de datos disponibles es en el mejor de los casos infrautilizada y en el peor

tiende a oscurecer la información oculta antes que clarificarla. La explotación completa de la

afluencia de datos adquiridos requiere el auxilio de técnicas interpretativas adecuadas.

Un método para ayudar a la conversión de los datos en información es el llamado

reconocimiento de patrones (Tabla 9), modelos o pautas. La razón de usar el reconocimiento de

pautas en el examen de una base de datos multivariantes radica en la posibilidad de aumentar la

comprensión humana de la información multidimensional contenida en los datos. Las técnicas

matemáticas empleadas en reconocimiento de patrones permite una rápida y eficiente

identificación de las relaciones y aspectos claves que de otra manera podrían permanecer

ocultos en la gran masa de números.

El reconocimiento de patrones consta de dos fases: análisis exploratorio de datos y

reconocimiento de pautas aplicado. El análisis exploratorio de datos se propone cubrir tres

aspectos principales de los datos: muestras o medidas anómalas, relaciones significativas entre

las variables medidas y relaciones significativas o agrupamientos entre muestras. El análisis

exploratorio de datos es un proceso iterativo en el que se emplean una amplia variedad de

herramientas (Figuras 32 y 33).

Las herramientas primarias usadas en el aprendizaje (no supervisado) son el análisis factorial,

análisis por componentes principales y análisis "cluster".

Existen muchos algoritmos utilizados en la clasificación de objetos. Tres de los más

comúnmente usados son: modelado independiente suave por analogía de clases (SINCA),

método del vecino más próximo (KNN) y análisis discriminante lineal (LDA).

En la Fig. 35 se muestra la clasificación de las técnicas de reconocimiento de modelos, y en la

Fig. 36, el proceso de entranamiento y predicción correspondiente al aprendizaje supervisado

En los últimos cinco años se han definido varios subcampos de la Quimiometría como

consecuencia de la extensión de las aplicaciones particulares de los métodos (Tabla 8),

hablándose de subcampos o especialidades, tales como el de sintometría (síntesis orgánica),

envirometría o aplicaciones medioambientales, Calimetría (calidad), un subcampo de la

Quimiometría definido antiguamente por Martens (264) como aquel concerniente con el uso de

métodos quimiométricos para mejorar el control y aseguramiento de la calidad, farmacometría,

que implica el uso de métodos quimiométricos en la síntesis, análisis y formulación de

productos farmacéuticos.

En 1980, la revista "Analytical Chemistry" comenzó a incluir una sección sobre Quimiometría

en sus revisiones fundamentales bianuales. Estas revisiones están basadas en la literatura

publicada al respecto y son de una naturaleza muy técnica, constituyendo ciertamente la mejor

fuente bibliográfica sobre Quimiometría desde 1980 en adelante.

En los últimos años, la introducción del computador en el campo de la Química Analítica se

ha ido generalizando, de tal forma que este hecho constituye sin duda actualmente una de las

tendencias de mayor relieve. De esta manera, el número de trabajos de tipo didáctico que se

dedica a este tema va en aumento, ya con el punto de mira puesto en la problemática general

que implica la presencia de este instrumento en el laboratorio, bien en la elaboración de criterios

que permitan la selección de lenguajes apropiados, o tendencias en su caso del empleo de

computadores en la tecnología de interfaces, etc...

8

Resulta claro que tal innovación se fundamenta en el uso generalizado de la informática, cuya

conexión con la Química se hace a través de la Quimiometría como puente. Así pues, el

ordenador constituye una nueva y valiosa herramienta, con la cual y con la ayuda del método

informático es posible dar solución a innumerables problemas químicos.

La relación entre Quimiometría, Informática, y Química Analítica ha sido tratada por Shaevich.

La importancia de la Quimiometría en la electroquímica, química clínica, farmacia y química de

los alimentos, ha sido puesta de manifiesto.

La inteligencia artificial emergió de la necesidad de tratar con el conocimiento simbólico,

contrario al numérico, no solo algorítmicamente, sino también heurísticamente. La posibilidad

de adquirir y asimilar de continuo nuevo conocimiento es un objetivo posterior en el desarrollo

del tratamiento del mismo; esto podría compararse de hecho al aprendizaje. De la capacidad de

aprender, se sigue asimismo el deseo de generalizar, esto es, de encontrar respuestas a preguntas

no disponibles en el esquema base, "inventar" en definitiva, una respuesta al conocimiento

incompleto disponible.

La inteligencia artificial continua siendo de considerable interés a los químicos analíticos,

como se evidencia por el número de referencias relacionadas con este campo, siendo

probablemente, por tanto, el campo de la Quimiometría que ha experimentado un crecimiento

más fuerte en los últimos años. El mayor número de aplicaciones desarrollado hasta el momento

corresponde a los sistemas expertos, aunque las redes neuronales artificiales están encontrando

múltiples y hasta hace poco insospechadas aplicaciones, y los algoritmos genéticos, en adición,

se ha mostrado como interesantes alternativas en el terreno de la optimización.

Los sistemas expertos encuentran aplicación en el laboratorio analítico en elucidación de

estructuras a partir de datos espectrales, en cromatografía, tanto en la selección del modo y

condiciones cromatográficas como en el tratamiento de datos, en la solución de problemas

instrumentales, y en la validación de sistemas. Las redes neuronales y los algoritmos genéticos

continúan creciendo en popularidad y su aplicación se extiende hoy día más allá de las áreas

tradicionales definidas de la inteligencia artificial. Su uso es especialmente común ahora en

aplicaciones concernientes a la calibración multivariante y al reconocimiento de patrones.

Las redes neuronales constituyen sin duda el campo más activo actualmente. Las redes

neuronales parecen ser una nueva arma secreta para combatir multitud de problemas. Se han

descrito redes neuronales que pueden aprender paulatinamente lo que implica utilizar nuevos

datos conforme van siendo disponibles para el entrenamiento de la red.

También está emergiendo a teoría de la lógica borrosa (fuzzy set theory), concebida

originalmente por los matemáticos, hace tiempo, como una consecuencia de la necesidad de

describir objetos con atributos inherentemente vagos. La utilización de la teoría de datos

borrosos amplía aún más las posibilidades de la Quimiometría. Los datos borrosos son una

forma matemática conveniente de representar datos imprecisos. Se trata de una faceta de la

inteligencia artificial bien conocida en otros ámbitos, pero casi ignorada por la Química

Analítica hasta no hace mucho.

Sencillamente, se consideraba que no existía la necesidad de utilizar tales tipos de datos en la

descripción de sistemas materiales. Los datos borrosos representan conceptos intuitivos ("algo",

"mucho", "poco", "bastante") y no valores cuantitativos, permitiendo efectuar reconocimiento

de modelos a partir de los mismos.

9

TABLA 9. Nomenclatura básica utilizada en Reconocimiento de Patrones

Objetos (m): son generalmente muestras de cualquier tipo, por ejemplo, mezclas de compuestos químicos, o a veces un

compuesto químico puro cuya estructura se pretende determinar.

Variables (n): datos medidos obtenidos por análisis químico (no todas son significativas).

Datos multivariantes: conjunto de datos en los cuales cada objeto está caracterizado por muchas variables.

Propiedad: distintivo de la muestra que guarda con ella una relación o dependencia que no puede establecerse mediante una

medida química simple, sino a partir de la evidencia química combinada obtenida (datos múltiples).

Las propiedades en Química de dos tipos principales; ya relacionadas con la naturaleza química del objeto, por ejemplo

presencia o ausencia de un determinado radical, o relacionadas con aspectos prácticos, tales como su calidad, su origen

geográfico, temporal o químico.

Clase: denota un conjunto de muestras que exhiben una cierta cantidad de similitud química (alguna propiedad o propiedades

comunes); la elección de las clases se encuentra en correspondencia con el problema analítico estudiado.

Modelo o patrón: colección de datos válidos obtenidos mediante medidas químicas de un mismo objeto o muestra. Puede

consistir en medidas primarias, aunque a menudo los modelos constituyen funciones derivadas de los datos primarios (no

superfluos) o sea, alguna información combinada que se supone por alguna razón química representa mejor la propiedad que los

datos brutos.

Característica (feature o descriptor): los N datos observados para cada objeto pueden representarse como un vector (pattern

vector) en un espacio N-dimensional obtenido asignando a cada variable significativa un eje coordenado. Por características se

entiende cada uno de los componentes de un modelo o patrón, o sea, cualquiera de las N cantidades representadas por los N.ejes.

Vector modelo o patrón: cada vector modelo caracteriza un objeto y se usa para determinar alguna propiedad (oscura). La

determinación de la propiedad oscura es a menudo equivalente al reconocimiento de una clase o categoría a la que el modelo o

patrón (y el objeto) pertenece.

Espacio de modelos: si una muestra extraída de un conjunto de N muestras está caracterizada por un total de n medidas

realizadas en esa muestra, y si las mismas medidas se realizan en todas las muestras, la cantidad total de información disponible

puede representarse entonces como n-vectores en un espacio n.-dimensional. Este espacio se denomina espacio de modelos y

cada uno de los vectores se dice que es un modelo.

Dimensión: el número de características elegibles define el número de dimensiones, que constituye un parámetro esencial en los

métodos de reconocimiento de modelos o patrones.

Selección de las características: el proceso de definición de las características implica una consideración de los factores que

pueden ser importantes para la solución de los problemas químicos en consideración. Aquí la experiencia y el conocimiento

juegan un papel vital. La elección de características no adecuadas carecen de utilidad para la clasificación y pueden obscurecer

relaciones útiles.

Clusters: un conjunto de patrones de razonable complejidad puede ser normalmente agrupado en "clusters" o grupos. La

descripción y localización de estos clusters ayuda a una mejor descripción de la estructura de los patrones o modelos, lo cual

aparte de ser útil en sí mismo, simplifica y resuelve muchos problemas de clasificación de patrones. Se denomina análisis cluster

al conjunto de métodos y técnicas que describen y localizan estas agrupaciones.

Utilidad de las técnicas de análisis cluster: la utilidad fundamental es la siguiente;

a) atender a una mejor interpretación de la estructura de los modelos analizando las causas intrínsecas de la agrupación de los

mismos.

b) ayudar a descubrir las posibles subclases subyacentes en la muestra controlada de una clase.

c) si se encuentran grupos o "clusters" naturales, de acuerdo con las carácterísticas seleccionadas (aunque no se conozcan las

clases a las que pertenecen los patrones que integran la muestra), éstos se corresponden con las clases del problema. Estas clases

sirven para diseñar un clasificador de futuros modelos cuya clase de pertenencia sea desconocida.

10

TABLA 9. Nomenclatura básica utilizada en Reconocimiento de Patrones

(CONTINUACION)

Clasificador binario: algoritmo que emplea los patrones o modelos como entrada y produce una salida que indica una o dos

clases alternativas a las que se asigna el modelo.

Diseño del clasificador: el desarrollo de un clasificador apropiado constituye el problema central. Se necesita para ello un

conjunto de modelos pertenecientes todos a objetos de una misma clase. Estos datos orinales se dividen mediante el uso de

números aleatorios en dos partes, el conjunto de aprendizaje (training set), y el conjunto de predicción (prediction set), que se usa

para comprobar el clasificador.

El aprendizaje se hace para que el máximo número de patrones del conjunto de aprendizaje se asignen a la clase correcta. Los

patrones del conjunto de predicción se usan después del aprendizaje para ensayar la calidad del clasificador. El porcentaje de

patrones correctamente clasificados a partir del conjunto de predicción (o preferiblemente cualquier otro criterio) se emplea en la

evaluación objetiva de los clasificadores. El cálculo de un clasificador es generalmente laborioso, requiriendo el uso de un

ordenador potente, pero la aplicación de un clasificador dado a un modelo desconocido es sencilla y rápida.

Aprendizaje (training): desarrollo de las reglas de clasificación.

El método de reconocimiento de modelos para la interpretación de la información química multivariante explota una

representación multidimensional de los datos (multidimensional mapping). De esta manera, los conceptos de distancia y

similitud pueden definirse de una manera concisa y las comparaciones de objetos que muestran una conducta similar pueden

llevarse a cabo convenientemente mediante computadoras digitales.

Los métodos numéricos en el reconocimiento matemático de patrones se basan en conceptos relativamente simples; su

operatividad no depende de la sofistificación relativa al reconocimiento humano, sino de la posibilidad de tratar con ordenador

patrones de grandes dimensiones. La percepción humana puede tratar, en mente, sofisticadas reglas y algoritmos, pero no con

más de dos o tres dimensiones a visualizar en los modelos. En cambio, el reconocimiento matemático de modelos puede, a base

de sencillos algoritmos, manejar masas de datos con mayores dimensiones cuyas relaciones internas no son fácilmente

visualizables. Aunque las reglas de decisión en reconocimiento de modelos deben ser sencillas y rápidas en su solución, la

obtención de las mismas puede requerir un considerable esfuerzo. Esta es la razón fundamental para recurrir al concurso de los

ordenadores.

Métodos de aprendizaje

supervisados: la meta es clasificar una o más muestras, el conjunto de predicción, por su similitud con muestras cuya

clasificación es conocida previamente, el conjunto de aprendizaje.

no supervisados: el objetivo es en primer lugar desvelar relaciones entre grupos de muestras mediante la búsqueda de

subconjuntos de muestras que son particularmente similares, y en segundo lugar, interpretar tales relaciones en términos de las

propiedades físicas y químicas de las muestras.

Métodos paramétricos: asumen que las funciones de densidad de probabilidad son conocidas o pueden estimarse. Se emplean las

estrategias de Bayes en los procesos de aprendizaje y selección.

Métodos no paramétricos: no hacen suposición alguna acerca de la distribución estadística subyacente de los datos.

Clasificación de Coomans y Broeckaert

1. Métodos no Bayesianos (deterministas, y de intervalos de confianza)

2. Métodos Bayesianos (paramétricos y no paramétricos)

Clasificación de Wold

Nivel 1: Clasificación de objetos en clases prefijadas

Nivel 2: Se pueden detectar los "outliers" u objetos espúreos

Nivel 3: Se puede predecir una propiedad externa

Nivel 4: Se predice más de una propiedad externa

11

Evidentemente es un concepto claramente opuesto a los modelos probabilísticos que han

dominado el reconocimiento de pautas en Quimiometría desde su inicio. Sin embargo, este tipo

de aproximación puede ser intrínsecamente interesante en el caso de sensores. La lógica borrosa

ha entrado en la Quimiometría, y probablemente como en otros muchos aspectos, veremos en

los próximos años nuevas y sorprendentes aplicaciones.

Las capacidades del cerebro humano han fascinado siempre a los científicos, que se han

interesado vivamente por la investigación de sus mecanismos internos. En los pasados 50 años

se han ideado modelos que han intentado emular las funciones del cerebro. El desarrollo de los

computadores, sin embargo, ha ido tomando una dirección totalmente diferente. Como

resultado, las arquitecturas de los actuales computadores, los sistemas operativos, y la

programación lineal, tienen poco en común con el proceso de información tal como se lleva a

cabo en el cerebro. No obstante, se está experimentando una revaluación de las habilidades

cerebrales, de tal manera que se han trasladado éstas a algoritmos de procesamiento de la

información.

El bloque o edificio básico de estos modelos cerebrales (redes neuronales) es una unidad de

proceso de información que es un modelo de neurona. Una neurona artificial de este tipo realiza

solo operaciones matemáticas bastante simples. Su eficacia se deriva, sin embargo, del modo en

que grandes cantidades de neuronas pueden conectarse para formar una red.

Dado que varios modelos de neuronas imitan diferentes habilidades del cerebro, resulta

posible utilizar éstas para resolver diferentes tipos de problemas: clasificación de objetos,

modelo de relaciones funcionales, almacenamiento y recuperación de información, o

representación de grandes cantidades de datos.

Las posibilidades en el procesamiento de los datos químicos de las redes neuronales artificiales

son grandes, y las aplicaciones cubren en consecuencia un amplio rango: análisis

espectroscópico, predicción de reacciones, control de procesos químicos, y análisis de

potenciales electrostáticos.

El cerebro humano tiene un poder de procesamiento fenomenal, mucho mayor incluso que el

de los supercomputadores de hoy día. Obviamente, el cerebro humano procesa la información

de una manera completamente diferente a los computadores convencionales que están

construidos según las líneas de la arquitectura "von Neumann". Un computador "von Neumann"

trabaja a través de programas (algoritmos) paso a paso, esto es, secuencialmente. En contraste,

el cerebro humano opera ampliamente en paralelo: la información de entrada es canalizada

simultáneamente a través de muchas unidades de procesamiento.

El trabajo original sobre redes neuronales, "perceptrones" (perceptrons) como se denominaron

en su tiempo, fue publicado hace más de cincuenta años por McCulloch y Pifts, y Hebb. Sin

embargo, este tema no despertó en principio mucho entusiasmo hasta la aparición de un trabajo

de Hopfield.

La introducción del concepto de no linearidad entre la entrada total recibida por una neurona

procedente de otras y la salida producida y transferida hacia adelante, y el acoplamiento por

retroalimentación de las salidas con las entradas, da una nueva flexibilidad (285) a la antigua

arquitectura del "perceptron".

Las redes neuronales artificiales son modelos empíricos de entrada-salida apropiados para el

12

modelado de relaciones complejas multi-entrada multi-respuesta, mediante ajuste de curvas.

Una característica importante es su capacidad de aprendizaje. La información que contiene es

distribuida sobre un gran número de parámetros modelos, que dan cuenta de su gran

flexibilidad. Imitan el proceso cosnoscitivo humano y como tales son apropiadas al

procesamiento de datos con ruido, datos incompletos, e inclusos en alguna extensión, datos

inconsistentes.

Las redes neuronales artificiales son modelos de las estructuras en nuestro cerebro que hacen

posible el pensamiento; una serie de nodos de entrada están conectados vía una segunda capa de

nodos a un nodo final de salida. La segunda capa es denominada a menudo capa oculta. Todos

los nodos de la capa oculta tiene cada conexión posible con los nodos de entrada y de salida.

Cada conexión porta la señal (s) de un nodo de entrada a un nodo más profundo de la red, pero

cada conexión aplica su propio peso individual (w) por lo que la señal recibida (283) es el

producto w.s.

Todas las entradas se suman (Fig. 38) de acuerdo a sus señales y pesos para dar una "input"

neto. A continuación, se aplica una función de transferencia para computar una señal de salida.

Se han usado varias funciones de transferencia, pero la preferida actualmente es la función

sigmoidal y = 1/ (1 + exp-x

), y por tanto, se tiene, out = 1/(1 + exp-net

), donde out es la salida del

nodo.

Los sistemas de optimización son bien conocidos en Química Analítica, por ejemplo, el

sistema Simplex introducido por Deming y Morgan y sus múltiples variantes. El simplex

muestra problemas de convergencia en superficies de respuestas multimodales complejas y de

muy alta dimensionalidad.

Los algoritmos genéticos trabajan mediante mecanismos de múltiples búsquedas evolutivas en

paralelo, y superan fácilmente en consecuencias estas dificultades, siendo enormemente

robustos para la localización de un óptimo global con precisión aceptable. Las exigencias de

cálculo y de memoria de ordenador son superiores y, de momento, no existe una oferta

comercial de paquetes suficientemente apropiados para su implementación directa en el

laboratorio analítico.

13

FIGURA 27.- Técnicas matemáticas usadas en Quimiometría

(B.G.M. Vandeginste, Anal. Chim. Acta, 150 (1983) 199-206)

14

FIGURA 28. La rosa de los opuestos

(P. GELADI, Analysis (Europa) April (1995) 34)

FIGURA 29. Anfangsgründe der Stöchyometrie

(H. MALISSA, Mikrochim. Acta [Wien] 1986II, 3)

15

FIGURA 30. Breve resumen histórico de la Quimiometría, en una escala no lineal

(K. ESBENSEN, P. GELADI, J. Chemometrics, 4 (1990) 389)

TABLA 6. Algunos de los primeros contribuidores a la Quimiometría

16

TABLA 7. Lista de las aportaciones que los contribuidores, en su caso, reconocen como

mejores

FIGURA 31. Tareas implicadas en el estudio de problemas químicos complejos

(R.R. MEGLEN, Chem. Intell. Lab. Syst., 3 (1988) 17)

17

FIGURA 32. Diagrama esquemático que ilustra el proceso iterativo usado en análisis

exploratorio de datos y reconocimiento de patrones aplicado.


FIGURA 33. Dendogramas de mapping bidimensionales empleados en la identificación

de objetos según su pertenencia a diferentes clases


18

FIGURA 34. Ambito y competencias de las siglas COBAC (Computer Based Analytical

Chemistry)

(J.A. PEREZ-BUSTAMANTE DE MONASTERIO. Quim. Anal., 10 (1991) 249)

leccion 5 - quimiometria€¦ · información para un mundo que tiene planteados muchos problemas...

Documents