tratamiento quimiométrico de datos cromatográficos. aplicación a la clasificación tecnológica...

Download Tratamiento quimiométrico de datos cromatográficos. Aplicación a la clasificación tecnológica de manzanas de sidra

If you can't read please download the document

Upload: daniel-martin-yerga

Post on 07-Jun-2015

1.246 views

Category:

Education


1 download

TRANSCRIPT

  • 1. Tratamiento quimiomtrico de datos cromatogrficos. Aplicacin a la clasificacin tecnolgica de manzanas de sidraObjetivo Se pretende utilizar una serie de anlisis quimiomtricos para el tratamiento de los datos cromatogrficos obtenidos a partir de una cromatografa de gases de distintas clases de manzanas. Con ello se puede obtener un modelo que puede predecir la clasificacin de diferentes muestras de manzanas. Todas los anlisis quimiomtricos se realizan en el programa Statgraphics excepto la seleccin de variables que se utiliza PARVUS. Exploracin de datos El anlisis exploratorio de los datos se realiza para obtener informacin sobre las variables, sobre los objetos y sobre su relacin.Se realiz un test de normalidad de las variables para dos casos: anlisis univariante y anlisis multivariante. En el primero de los casos, se realiz el anlisis para alguna de las variables como ejemplo, y todas las variables analizadas siguen la distribucin normal. En el anlisis multivariante, algunas variables se desviaban en pequea medida de esta distribucin, pero esta pequeas diferencias no es causa para la eliminacin de esas variables en posteriores anlisis multivariantes.Se realiz una bsqueda de outliers, que son valores de las variables que no estn distribuidos homogneamente. Para ello se realiza una grfica de cajas y bigotes, donde los puntos que estn en el exterior de esta grfica, si los hubiera, deberan ser eliminados.En la figura se puede ver el ejemplo de una grfica de cajas y bigotes, para la variable hexanol. Para las variables realizadas, no se encontr ningn punto fuera de la grfica. Seleccin de variables En los anlisis multivariantes (como es el caso que se est estudiando), el nmero de objetos debe ser dos o tres veces el nmero de variables. Por lo que se deben seleccionar correctamente las variables con las cual trabajar en los siguientes anlisis, que sern las que menos correlacionadas estn.

2. Se realiz una seleccin de variables utilizando como criterio el peso de clasificacin (peso de Fisher), es decir, fueron seleccionadas las variables que diferencian en mejor medida las diferentes clases de manzanas. Esta seleccin se realiz frente a un conjunto de entrenamiento, que es un conjunto de muestras ya clasificadas conociendo los valores de las variables para ellas. Se debe realizar un autoescalado de las variables, para que valores absolutos altos de las variables no tengan mayor peso que los valores bajos. Se aade un valor de corte para seleccionar variables que tengan un peso estadstico por encima de esta valor (en el caso estudiado 0.05). Se obtienen las variables ms significativas que son las siguientes: Peso estadistico (%) but hex 50.13 hexanol 11.81hept et 0.68prop et 0.27 __met_1_propanol 0.09AgrupamientoEl objetivo del anlisis de agrupamiento es agrupar objetos que tengan caractersticas similares. Anlisis de conglomerados (dendograma) Con este anlisis se obtiene una representacin de la correlacin que existe entre las variables analizadas y objetos. Se obtiene el siguiente dendograma, donde se puede observar la similitud entre las diferentes muestras, segn el criterio de distancia eucldea: Dendograma Mtodo del Vecino Ms Cercano,Euclideana Cuadrada 543 Distancia 210123456789 11 12 13 14 20 21 16 17 18 19 10 15 Se puede observar en el dendograma, como las muestras ms correlacionadas son los distintos ensayos para una misma muestra (por ejemplo entre 1 y 2), despus hay ms correlacin para manzanas de la misma cosecha (entre 1-2 y 3-4), y hay menor correlacin entre distintos tipos de manzanas. 3. Anlisis de componentes principales El objetivo es obtener una combinacin de las variables que agrupe los datos segn su variablidad y expliquen la mayor parte de la varianza del sistema. Este ensayo se realiza con las variables seleccionadas en PARVUS. Se obtienen dos grficas con este anlisis:Grfica de sedimentacin: determina las componentes (combinaciones lineales de las variables, que retienen la informacin de las originales) que estn por encima de una varianza determinada. Con estas componentes se puede explicar con alta probabilidad la variabilidad de la mayor parte del sistema.Grfica de Sedimentacin 32,5 2Eigenvalor 1,5 10,5 0 0 1234 5 Componente Grfica de dispersin 2D: es una representacin de los dos componentes con las mayores varianzas. En este caso entre las dos explican el 70% de la variablilidad del sistema.Bigrfica 3,6 prop et2,6 hept et Componente 21,6__met_1_propanol0,6 -0,4 hex but hexanol-1,4-2,8-1,8 -0,8 0,21,22,2 3,2Componente 1 4. Se consigue una mayor separacin entre las muestras de los diferentes tipos de manzana, como se puede ver en la grfica. Se observa que las variables but hex y hexanol, permiten diferenciar el tipo de manzana Clara del resto. En el caso de la Coloradona, se consigue diferenciar mediante las variables prop et y hep et. Mientras que para diferenciar la Ernestina del resto, se usara la variable 2-met-1-propanolClasificacinSe realiz un anlisis clasificatorio para poder predecir el grupo al que pertenece una muestra de manzanas a partir de otras variables cuantitativas. El factor discriminante utilizado es los diferentes grupos de manzanas (Clara, Coloradona y Ernestina). Se utilizan las variables seleccionadas con PARVUS: but hex, hexanol, hep et, prop et y 2-met_1_propanol. Con este anlisis se obtienen unas combinaciones lineales de las variables seleccionadas con el objetivo de diferenciar entre los grupos de manzanas (mayor varianza) al tiempo que minimizar (menor varianza) entre las muestras de un mismo grupo. Grfica de Funciones Discriminantes 10 Col_28 1 7 2 3 4 CentroidesFuncin 2 1 -2 -5 -8 -7-4-125811Funcin 1 La grfica representa las dos funciones discriminantes obtenidas con este anlisis que mejor diferencian los grupos. Se puede observar que las diferentes muestras de cada grupo de manzana estn alineadas en la grfica, por lo que se consigue separar en buena medida los diferentes grupos de manzanas (de manera probabilstica). De este modo, teniendo el anlisis de una muestra se podra determinar con una alta probabilidad a que grupo de manzanas pertenece.