proceso de construcción de los modelospegasus.javeriana.edu.co/~cis1410is02/descargas/anex…  ·...

62
Anexo 4 -Modalidad Practica Pontificia Universidad Javeriana Bogotá 2014-1 Proceso de construcción de los modelos Para los contaminantes Ozono y Material Particulado Alex Ariel Arias Ríos

Upload: duongminh

Post on 02-Feb-2018

212 views

Category:

Documents


0 download

TRANSCRIPT

Anexo 4 -Modalidad Practica

Proceso de construcción de los modelosPara los contaminantes Ozono y Material ParticuladoAlex Ariel Arias Ríos

2014-1Pontificia Universidad Javeriana Bogotá

Contenido1. Introducción...............................................................................................................32. Construcción del Modelo RAO3...................................................................................3

2.1 Contenido del modelo RAO3..................................................................................32.1.1 Atributos que hacen parte del Antecedente de cada regla................................42.1.2 Atributo que hace parte del consecuente..........................................................4

2.2 Algoritmo PredictiveApriori...................................................................................42.2.1 Ejecución del Algoritmo...................................................................................52.2.2 Parámetros requeridos por el Algoritmo para ambas ejecuciones....................62.2.3 Resultados Obtenidos.......................................................................................8

2.3 Algoritmo Apriori....................................................................................................92.3.1 Ejecución del Algoritmo.................................................................................102.3.2 Parámetros requeridos por el Algoritmo........................................................112.3.3 Resultados Obtenidos.....................................................................................13

2.4 Presentación de los resultados de los modelos RAO3 y RAPM10.......................153. Construcción del Modelo RAPM10............................................................................17

3.1 Contenido del Modelo RAPM10...........................................................................173.1.1 Atributos que hacen parte del Antecedente de cada regla..............................173.1.2 Atributo que hace parte del consecuente........................................................18

3.2 Algoritmo Apriori..................................................................................................183.2.1 Ejecución del Algoritmo.................................................................................183.2.2 Parámetros requeridos por el Algoritmo........................................................193.2.3 Resultados Obtenidos.....................................................................................203.2.4 Presentación de las Reglas de Asociación para el modelo RAPM10.............22

Archivos que contienen los modelos RAPM10 y RAO3................................................234. Construcción del Modelo CO3....................................................................................24

4.1 Selección de los atributos de entrada.....................................................................244.1.1 Detección de atributos de entrada por medio de la Red de Dependencias de Microsoft.................................................................................................................247.1.2 Método de Selección de Características de Microsoft para detectar los atributos de entrada..................................................................................................25

4.2 Algoritmo K- means..............................................................................................264.2.1 Ejecución del Algoritmo.................................................................................274.2.2 Resultados Obtenidos.....................................................................................284.2.3 Presentación de los resultados del modelo CO3.............................................29

5. Construcción del Modelo CPM10...............................................................................29

5.1 Selección de los atributos de entrada.....................................................................295.2 Algoritmo K- means..............................................................................................30

5.2.1 Ejecución del Algoritmo.................................................................................305.2.2 Resultados Obtenidos.....................................................................................32

Archivos que contienen los modelos CPM10 y CO3......................................................336. Construcción del Modelo CAO3.................................................................................33

6.1 Selección de los Atributos de entrada...................................................................336.1.1 Aplicación del Método selección de características para elegir el conjunto de entradas....................................................................................................................34

6.2 Selección del Atributo Objetivo............................................................................356.3 Ejecución del Algoritmo de Microsoft..................................................................35

6.3.1 Creación de la Estructura de Minería de Datos..............................................356.3.2 Vista en general del Modelo de Árboles de decisión.....................................366.3.3 Configuración de los parámetros del algoritmo.............................................36

6.4 Resultados Obtenidos............................................................................................376.4.2 Visor Red de Dependencias............................................................................376.4.3 Selección de las ramas del Árbol....................................................................38

6.5 Archivo que contiene el nombre del modelo CAO3.............................................397. Construcción del Modelo CAPM10............................................................................39

7.1 Selección de los Atributos de entrada...................................................................397.1.1 Aplicación del Método selección de características para elegir el conjunto de entradas....................................................................................................................40

7.2 Selección del Atributo Objetivo............................................................................417.3 Ejecución del Algoritmo de Microsoft..................................................................41

7.3.2 Vista en general del Modelo de Árboles de decisión.....................................417.3.3 Configuración de los parámetros del algoritmo.............................................42

7.4 Resultados Obtenidos............................................................................................427.4.1 Visor Árbol de Decisión.................................................................................427.4.2 Visor Red de Dependencias............................................................................437.4.3 Selección de las ramas del Árbol....................................................................43

7.5 Archivo que contiene el nombre del modelo CAPM10........................................44

1. Introducción

El presente documento describe el proceso de construcción y presentación de los

resultados extraídos de los modelos de minería de datos, para esto se utilizaron los

registros históricos entregados por la RMCAB, con el fin de establecer patrones que se

enfoquen en las relaciones que hay entre las variables climáticas como : Velocidad del

viento, temperatura, Radiación solar global, precipitación; Las variables derivadas:

Trimestres del año, hora pico, clasificación horaria, fin de semana; Los contaminantes:

Material Particulado (PM10),Ozono troposférico(o3) y sus componentes: Nox y No2

(especificadas en el documento de “vista minable).

La motivación para realizar este documento es el definir nuevos modelos con nuevas

tecnologías y herramientas que se salgan de los trabajos tradicionales que se realizan

con relación a la calidad del aire, dando así un nuevo motivo para investigaciones

futuras con base a los nuevos modelos generados en el presente proyecto.

2. Construcción del Modelo RAO3

Este modelo implementa la técnica de reglas de asociación para O3. En este capítulo se

presenta el proceso que se realizó para crear el modelo de reglas de asociación por

medio de la selección de los algoritmos que implementan la técnica.

2.1 Contenido del modelo RAO3

Este modelo está compuesto por reglas (patrones) que contienen información acerca de

la relación que hay entre los atributos de entrada con el atributo objetivo que en este

caso es el O3.

Para este modelo los estados del atributo objetivo son: bueno, moderado y desfavorable.

Un ejemplo de una regla de asociación generada por el modelo es la siguiente:

Vel Viento=LEVE Temperatura=MENOS TIBIO ClasificacionHora=TARDE ==> OZONO=BUENO

Como se puede observar, tanto el antecedente como el consecuente están compuestos

por atributos de la vista minable procesada, donde cada atributo tiene un conjunto de

estados que en el caso del antecedente si estos del ejemplo llegan a cumplirse el Ozono

sería bueno.

2.1.1 Atributos que hacen parte del Antecedente de cada regla

Teniendo en cuenta la relación antecedente-consecuente, con el fin de generar todas las

relaciones posibles entre las variables climatológicas, las variables derivadas y los

contaminantes, es importante incluir la mayoría de los atributos de los registros

históricos como antecedentes que cumplen con los requisitos que debe tener para

pertenecer a este grupo. A continuación se presentan los atributos que pertenecieron al

antecedente de las reglas:

Vel Viento

Lluvia

NOX

NO2

RadiacionSG

Temperatura

Hora

ClasificacionHora

Trimestres del Año

Mes

Hora Pico

Fin de Semana

2.1.2 Atributo que hace parte del consecuente

Para efectos de este trabajo de grado y en especial esta sección, el consecuente fue

únicamente el atributo Ozono, así que las reglas obtenidas en los resultados del modelo

son combinaciones de los posibles estados de los atributos del antecedente dando como

único resultado un estado del atributo O3.

2.2 Algoritmo PredictiveApriori

Este algoritmo fue motivo de selección ya que tiene la habilidad de presentar las reglas

de una forma más detallada (utilizando el atributo hora sin necesidad de categorizarlo) y

con la presentación de una sola métrica llamada Predictive Accuracy (contiene el

cálculo del Soporte y la confianza en la misma ecuación).

2.2.1 Ejecución del Algoritmo

El motivo de dividir las ejecuciones del algoritmo es para evitar tener reglas de

asociación con atributos redundantes como por ejemplo los atributos Hora,

ClasificacionHoraria y HoraPico que si quedan juntos como antecedentes en algunas

reglas de asociación, dichas reglas contendrían información repetida y por ende esta

regla podría ser inútil para los involucrados.

2.2.1.1 Tipo de ejecución número 1

En la primera ejecución del algoritmo se generaron reglas de asociación donde la

variable temporal Hora tiene estados específicos (es decir que contiene información de

hora por hora), así que estas reglas se clasifican como “Reglas detalladas”.

2.2.1.2 Tipo de ejecución número 2

En la segunda ejecución se obtuvieron reglas de asociación que se generen con información valiosa con el fin de entender la dinámica de la ciudad relacionada con la congestión vehicular se utiliza la variable temporal utilizada fue: HoraPico.

A continuación se presenta un gráfico que explica con detalle el proceso de ejecución que se le aplicó a este algoritmo.

Ilustración 1 Plan de Ejecución Algoritmo PredictiveAprioriFuente: Autor

2.2.1.3 Selección de los atributos para la ejecución número 1

Los atributos que se listan a continuación hacen parte de la primera ejecución que se

realiza con el algoritmo.

Hora Vel Viento Temperatura Radiación Solar_G NO2 NOX Fin de Semana Trimestres del Año Lluvia Mes

Aunque los atributos “Mes” y “Trimestres del Año” resulten siendo redundantes en la

generación de reglas, fue importante incluirlas para encontrar comportamientos

similares entre ellas, sin embargo se hizo un proceso de selección de reglas de

asociación en las que se combaten las reglas redundantes, esta sección se encuentra más

adelante en el documento.

2.2.1.4 Selección de los atributos para la ejecución número 2

Estos atributos difieren del anterior en especial por el atributo “Hora Pico” ya que en la

ejecución 1 se obtienen resultados de reglas con horas especificas (como 2 p.m., 10

a.m., etc...), sin embargo se quería facilitar la interpretación de los resultados y en

búsqueda de entender la problemática de calidad del aire relacionado con normas de

congestión vehicular representado por el atributo “Hora Pico”. A continuación se

encuentra la lista de atributos pertenecientes a la ejecución 2:

Hora Pico Fin de Semana NOX NO2 Radiación Solar_G Vel Vientos Temperatura Mes Trimestres del Año Mes

2.2.2 Parámetros requeridos por el Algoritmo para ambas ejecuciones

A continuación se muestran los parámetros que se deben definir antes de comenzar la

ejecución del algoritmo, seguido de la asignación de los resultados.

Ilustración 2 Interfaz de la configuración de los Parámetros para el AlgoritmoFuente: Herramienta Weka

Parámetros DescripciónCar Si se habilita esta opción es porque quiere

que las reglas de asociación sean extraídas a otro lugar de trabajo.

classIndex Índice del atributo de clase que se desea colocar como consecuente. Si queda por defecto se toma el último atributo de la base de datos.

numRules Numero de reglas que desea encontrar.Tabla 1 Descripción de los Parámetros del Algoritmo

Fuente: Autoro Para el campo Car se asignó el valor “false” ya que no necesitamos exportar los

resultados a formato texto y es importante revisar las reglas generadas con el fin de

observar si hay soluciones triviales o inexplicables y esta revisión se realiza en la

interfaz de resultados de weka.

o Para el parámetro classIndex que recibe datos positivos enteros se definió el número

2, el cual era la posición del atributo Ozono que es nuestro atributo objetivo.

o En cuanto al parámetro numRules se probó con varias cantidades, donde para cada

una de estas cantidades se ejecutaban y se miraba el valor de la medición de la

última regla (ya que el orden de las reglas generadas son de carácter descendentes de

acuerdo a su medición) y si el valor era inferior a 0.25 (con el fin de buscar reglas

con estados del atributo objetivo Ozono poco comunes), esta cantidad se desechaba

cambiándola por una cantidad menor de reglas y cuando la última regla tuviera el

valor de la medida de precisión mayor e igual a 0.25 se dejaba con dicha cantidad en

este parámetro con el fin de encontrar reglas verdaderamente interesantes. El valor

asignado al parámetro fue 2.500.

2.2.3 Resultados Obtenidos

Este proceso que se menciona a continuación ha sido aplicado en todas las ejecuciones

por lo cual se trata a nivel general, en lo único que difiere es la cantidad de reglas

encontradas que se especifican a continuación.

Ejecución No. Reglas Encontradas

1 1.0002 987

Tabla 2 Reglas encontradas por Ejecución

Fuente: Autor

El algoritmo Tertius se descartó de la selección ya que su rendimiento en el proceso de

generación del modelo fue muy bajo llegando a desbordar la memoria del computador

después de 1 hora de espera, se probó con un conjunto de datos pequeño de 5.000

registros donde la demora fue de 20 minutos (lo cual es ineficiente por parte del

algoritmo ya que el equipo como se observó en la sección de especificación del equipo

tiene los requerimientos físicos suficientes para realizar este proceso en un tiempo

considerable) y sus resultados no arrojan lo esperado ya que no maneja soporte ni

confianza para cada regla, lo cual es difícil saber si las reglas generadas son confiables o

no.

Los resultados obtenidos fueron reglas de asociación acompañadas de la medida probabilística Accurancy Predictive de la siguiente forma:

Ilustración 3 Vista general de las reglas generadas por el algoritmoFuente: Herramienta Weka

Donde al lado de cada regla de asociación se encuentra un valor con la etiqueta acc que

significa la medida del algoritmo, los números que están al lado del antecedente y

consecuente son la cantidad de registros que contienen las especificaciones de la regla y

se presentan de forma descendente de acuerdo a la medida acc.

2.2.3.1 Reglas de Asociación seleccionadas

Después de seleccionar las reglas de asociación de acuerdo a los criterios definidos en el

documento Técnica de Modelado y Diseño de Pruebas la proporción de reglas de

asociación encontradas son las siguientes:

Ejecución

Cantidad de Reglas encontradas

1 1032 60

Tabla 3 Reglas seleccionadasFuente: Autor

2.3 Algoritmo Apriori

Apriori, es uno de los algoritmos más populares que genera reglas de asociación, una de

sus ventajas es que busca reducir el número de conjuntos de estados considerados , con

el fin de generar reglas de mayor interés y rendimiento en tiempos de respuestas,

además el usuario especifica el soporte mínimo que quiere que tengan las reglas de

asociación generadas.

2.3.1 Ejecución del Algoritmo

Este procedimiento requirió conocer cada uno de los parámetros de entrada que pedía el

algoritmo y estudiar los posibles valores que dichos parámetros podrían tomar, además

fue necesario realizar un proceso de análisis y selección de las reglas generadas. La

dinámica en cuanto a ejecuciones del algoritmo fueron similares al de PredictiveApriori.

Fue necesario realizar dos ejecuciones con dos conjuntos de datos diferentes por cada

ejecución, en las siguientes secciones se especifican las ejecuciones y a qué conjunto de

datos pertenece cada una de ellas.

2.3.1.1 Tipo de Ejecución 1

El conjunto de datos que se utilizó para la ejecución 1, se caracteriza por encontrar

reglas de asociación a nivel general relacionado con las variables temporales, este

conjunto de datos es uno de los más completos y claves para la generación de reglas, ya

que como este algoritmo no trabaja muy bien con datos continuos ni con atributos

discretos con muchas categorías, fue necesario crear la variable derivada

ClasificacionHora, la cual agrupa de forma más general los valores del atributo “Hora”.

2.3.1.2 Tipo de Ejecución 2

El objetivo de realizar esta ejecución fue con el fin de complementar los resultados

generados del algoritmo anterior y corroborar la veracidad de los resultados de los dos

algoritmos, así mismo se considera importante tener el soporte y la confianza de las

reglas que sean similares en los dos resultados de dichos algoritmos. Este conjunto de

datos remplaza el atributo ClasificacionHora por Hora Pico con el fin de evitar

redundancia en los resultados.

2.3.1.3 Selección de los atributos para el tipo de ejecución 1

A continuación se muestran los atributos seleccionados para esta ejecución:

ClasificacionHora Vel Viento Temperatura RadiaciónSolarG NO2 NOX

Fin de Semana Trimestres del Año Lluvia Mes

2.3.1.4 Selección de los atributos para la Ejecución 2

A continuación se muestran los atributos seleccionados para esta ejecución:

Fin de Semana

NOX

NO2

Mes

RadiaciónSolarG

Vel vientos

Temperatura

Lluvia

Trimestres del Año

Hora pico

2.3.2 Parámetros requeridos por el Algoritmo

Para obtener unos resultados coherentes y apropiados del algoritmo Apriori fue

necesario definir cada uno de los parámetros que recibe el algoritmo aparte del proceso

realizado a la vista minable. En la siguiente imagen se muestran los parámetros

establecidos junto con el significado de cada uno de ellos.

Ilustración 4 Interfaz de los parámetros para el algoritmo A priori

Fuente: Herramienta Weka

Parámetros SignificadoCar Si quiere que las reglas de asociación sean

extraídas a otro lugar de trabajo.classIndex Índice del atributo de la clase. Se

establece -1 para que tome el último atributo de la clase.

Delta Iterativamente disminuye el soporte hasta llegar al alcance mínimo que se pide de soporte.

lowerBoundMinSupport Soporte mínimo en el que se pueden generar las reglas de asociación.

metricType Establece el tipo de métrica con el cual se generan las reglas de asociación.

minMetric Considera solo las reglas con las puntaciones más altas que el valor establecido.

numRules Numero de reglas que se quieren encontrar.

outputItemSets Si se habilitan los conjuntos de elementos.removeAllMissingCols Elimina columnas con todos los valores

faltantes.significanceLevel Establece el nivel de significancia.upperBoundMinSupport Límite superior de soporte.verbose Si se activa este parámetro se ejecutan las

reglas de asociación en modo detallado.Tabla 4 Definición de los parámetros del algoritmo

Fuente: AutorEn la ilustración 4 los valores que se ven en la interfaz son los que están por defecto,

así que fue necesario configurar los parámetros con el fin de realizar la ejecución del

algoritmo de forma correcta.

El parámetro car se define con el valor “false” ya que no necesitamos exportar los

resultados a ningún archivo externo.

El parámetro classIndex se define con el número 2 que es la ubicación de la

columna del atributo Ozono.

El parámetro Delta se define con el valor 0.05.

El parámetro lowerBoundMinSupport queda con un soporte mínimo de 0.10 ya que

es importante encontrar una buena proporción de reglas de asociación útiles para los

involucrados.

El parámetro metricType queda de tipo “lift”, ya que este tipo de métrica muestra las

reglas de asociación con la medida de mejora y confianza y cubren el análisis de

utilidad de cada regla.

El parámetro minMetric se estableció en 1.0 con el fin de tener reglas de asociación

con un puntaje de mejora útil.

Los parámetros outputItemSets y removeAllMissingCols se definen con la variable

booleana “false”.

Para el parámetro upperBoundMinSupport se establece el valor 1.0 que es el

máximo límite que puede tomar el soporte de cada regla.

Por ultimo para el parámetro verbose se definió en “true” con el fin de obtener las

reglas de asociación con los detalles respectivos que son el valor de la confianza y la

frecuencia de los antecedentes y consecuente.

El parámetro numRules es dependiente del parámetro lowerBoundMinSupport ya

que el algoritmo para cuando encuentre reglas por debajo del umbral especificado,

así que el número de reglas que se especifico fue con un valor muy alto de 10.000

reglas con el fin de saber el tope de las reglas con el umbral bajo especificado.

2.3.3 Resultados Obtenidos

Posterior a la configuración de los parámetros para la ejecución del algoritmo vienen los

resultados provistos por el algoritmo y el tratamiento de las reglas de asociación con el

fin de utilizar reglas útiles e interesantes. Cabe recalcar que este proceso se aplica de

igual manera para las dos ejecuciones.

A continuación se presentan las reglas generadas para cada conjunto de datos que

representan una ejecución.

Ejecución No. Reglas Encontradas

1 16542 1728

Tabla 5 Reglas encontradas para cada ejecuciónFuente: Autor

Como se puede observar en la tabla de resultados, la cantidad de reglas de asociación

encontradas con dichos parámetros no alcanzan a cumplir el objetivo que se estableció

en la configuración del algoritmo, por lo cual es posible que la probabilidad de soporte

de estas reglas de asociación mediante el Algoritmo Apriori sean más interesantes que

las del PredictiveApriori ya que este algoritmo esta optimizado para seleccionar reglas

apropiadas [30].

A continuación se presenta una vista general del entorno de resultados que genera la

herramienta con el fin de conocer el estado inicial de cada una de las reglas generadas:

Ilustración 5 Vista general de las reglas de asociación generadasFuente: Herramienta Weka

Cada regla de asociación esta ordenada descendentemente de acuerdo al valor de la

medida de mejora, así que no hay un orden en las combinaciones de los atributos que

hacen parte del antecedente de las reglas, en la parte superior de la interfaz de resultados

sale el número de iteraciones que realizo el algoritmo para seleccionar las mejores

reglas, en este caso fueron 14 iteraciones para la ejecución 1 y 2.

2.3.3.1 Selección de Reglas de Asociación (poda)

Después de seleccionar las reglas de asociación de acuerdo a los criterios de selección

de reglas, la proporción de reglas de asociación encontradas fueron las siguientes:

Ejecución

Cantidad de Reglas encontradas

1 652 25

Tabla 6 Reglas encontradas después de la selección

Fuente: Autor

2.4 Presentación de los resultados de los modelos RAO3 y RAPM10

La visualización utilizada para el modelo de reglas de asociación contiene la

información detallada de cada regla junto con el algoritmo utilizado para ella con el fin

de observar de forma legible y fácil la información generada por esta técnica.

A continuación se presenta el formato de la reglas de asociación para el algoritmo

Apriori:

Ilustración 1 Formato reglas de asociación para el algoritmo A prioriFuente: Autor

Este formato tiene un color de prioridad de acuerdo al nivel de peligrosidad para la

salud que puede presentar cada contaminante junto con las métricas de confianza,

soporte y mejora con el fin de que los involucrados puedan conocer que tan útil puede

ser esta regla. Es importante recalcar que este formato también es utilizado para el

modelo RAPM10.

En la siguiente ilustración se puede observar el formato que contiene el algoritmo

predictiveApriori:

Ilustración 2 Formato reglas de asociación para el algoritmo PredictiveAprioriFuente: Autor

En este formato se puede observar que se mantiene la misma prioridad de colores para

alertas tempranas que se manejó en la imagen anterior, seguido de la métrica de

confianza llamada AccuracyPredictivie.

En la siguiente ilustración se puede observar un ejemplo de la portada de presentación

que contiene el archivo de los modelos de reglas de asociación, donde se puede observar

que las reglas están divididas por grupos según los nombres de los atributos

antecedentes con el fin de tener un orden y mejor navegabilidad en el archivo. En cada

grupo se encuentran las reglas que contienen uno o más de los dichos atributos

antecedentes correspondientes al globo azul.

Ilustración 3 Ejemplo de presentación del archivo que contiene las reglas de asociación

3. Construcción del Modelo RAPM10

Este modelo implementa la técnica de reglas de asociación para PM10. En este capítulo

se presenta el proceso que se realizó para crear el modelo de reglas de asociación por

medio de la selección de los algoritmos que implementan la técnica.

3.1 Contenido del Modelo RAPM10

Teniendo en cuenta la fase de preparación de los datos, en especial la discretización del atributo objetivo PM10 , dicho atributo puede tomar los siguientes estados: bueno, moderado y desfavorable.

Un ejemplo más específico de las reglas de asociación generadas de PM10 es el siguiente:

Vel Viento = LEVE Trimestres = TRIMESTRE 3 ClasificaciónHora = MADRUGADA Temperatura = MENOS TIBIO Lluvia = ESCASA -> PM10 = BUENO

Como se puede observar, tanto el antecedente como el consecuente están compuestos

por atributos de la vista minable, donde cada atributo tiene un conjunto de estados que

en el caso del antecedente si estos del ejemplo llegan a cumplirse el PM10 sería bueno.

3.1.1 Atributos que hacen parte del Antecedente de cada regla

Teniendo en cuenta la relación antecedente-consecuente, con el fin de generar todas las

relaciones posibles entre las variables climatológicas, las variables derivadas y los

contaminantes, se incluyeron la mayoría de los atributos de los registros históricos como

antecedentes que cumplen con los requisitos que debe tener para pertenecer a este

grupo.

Sin embargo para el caso del PM10 se excluyeron los atributos NOX y NO2 ya que

hacen parte del contaminante O3 y además la correlación entre estos atributos con el

PM10 es muy baja. Se utilizó el atributo derivado PromRadiacionSG ya que genero

reglas más interesantes (es decir con un porcentaje de confianza alto).

A continuación se presentan los atributos que pertenecieron al antecedente de las reglas:

Vel Viento Lluvia PromRadiacionSG Temperatura ClasificacionHora Trimestres del Año Hora Pico Fin de Semana

3.1.2 Atributo que hace parte del consecuente

Para efectos de este trabajo de grado, el consecuente fue únicamente el atributo PM10 ,

así que las reglas obtenidas en los resultados del modelo son combinaciones de los

posibles estados de los atributos del antecedente dando como único resultado un estado

del atributo PM10 .

3.2 Algoritmo Apriori

En esta sección se presenta el procedimiento realizado para la creación de las reglas de

asociación mediante el algoritmo Apriori.

3.2.1 Ejecución del Algoritmo

Este procedimiento requirió conocer cada uno de los parámetros de entrada que pedía el

algoritmo y estudiar los posibles valores que dichos parámetros podrían tomar, además

fue necesario realizar un proceso de análisis y selección de las reglas generadas.

3.2.1.1 Tipo de Ejecución 1

El conjunto de datos que se utilizó para la ejecución 1, se caracteriza por encontrar

reglas de asociación a nivel general relacionado con las variables temporales, este

conjunto de datos es uno de los más completos y claves para la generación de reglas, ya

que como este algoritmo no trabaja muy bien con datos continuos ni con atributos

discretos con muchas categorías, fue necesario crear la variable derivada

ClasificacionHora, la cual agrupa de forma más general los valores del atributo “Hora”.

3.2.1.2 Tipo de Ejecución 2

El objetivo de realizar esta ejecución fue con el fin de complementar los resultados

generados del algoritmo anterior, así mismo se considera importante tener el soporte y

la confianza de las reglas que sean similares en los dos resultados de dichos algoritmos

para extraer información interesante. Este conjunto de datos remplaza el atributo

ClasificacionHora por HoraPico con el fin de evitar redundancia en los resultados.

3.2.1.3 Selección de los atributos para el tipo de ejecución 1

A continuación se muestran los atributos seleccionados para esta ejecución:

ClasificacionHora Vel Viento Temperatura PromRadiacionSG Fin de Semana Trimestres del Año

Lluvia

3.2.1.4 Selección de los atributos para la Ejecución número 2

A continuación se muestran los atributos seleccionados para esta ejecución:

Fin de Semana

PromRadiaciónSG

Vel vientos

Temperatura

Lluvia

Trimestres del Año

Hora pico

3.2.2 Parámetros requeridos por el Algoritmo

Para obtener unos resultados apropiados del algoritmo Apriori fue necesario definir

cada uno de los parámetros que recibe el algoritmo aparte del proceso realizado a la

vista minable.

En la ilustración 4 de la sección 2.3.2 Parámetros requeridos por el Algoritmo Apriori

se muestran los parámetros por defecto establecidos junto con el significado de cada

uno de ellos. A continuación se muestra la configuración de parámetros realizada:

El parámetro car se define con el valor “false” ya que no necesitamos exportar los

resultados a ningún archivo externo.

El parámetro classIndex se define con el número 4 que es la ubicación de la

columna del atributo PM10 .

El parámetro Delta se define con el valor 0.05.

El parámetro lowerBoundMinSupport queda con un soporte mínimo de 0.10 ya que

es importante encontrar una buena proporción de reglas de asociación útiles para los

involucrados.

El parámetro metricType queda de tipo “lift”, ya que este tipo de métrica muestra las

reglas de asociación con la medida de mejora y confianza y cubren el análisis de

utilidad de cada regla.

El parámetro minMetric se estableció en 0.60 con el fin de tener reglas de

asociación con un puntaje confiable.

Los parámetros outputItemSets y removeAllMissingCols se definen con la variable

booleana “false”.

Para el parámetro upperBoundMinSupport se establece el valor 1.0 que es el

máximo límite que puede tomar el soporte de cada regla.

Por ultimo para el parámetro verbose se definió en “true” con el fin de obtener las

reglas de asociación con los detalles respectivos que son el valor de la confianza y la

frecuencia de los antecedentes y consecuente.

El parámetro numRules es dependiente del parámetro lowerBoundMinSupport ya

que el algoritmo para cuando encuentre reglas por debajo del umbral especificado,

así que el número de reglas que se especifico fue con un valor muy alto de 10.000

reglas con el fin de saber el tope de las reglas con el umbral bajo especificado.

3.2.3 Resultados Obtenidos

Posterior a la configuración de los parámetros para la ejecución del algoritmo vienen los

resultados provistos por el algoritmo y el tratamiento de las reglas de asociación con el

fin de utilizar reglas útiles e interesantes. Cabe recalcar que este proceso se aplica de

igual manera para las dos ejecuciones.

Los resultados del algoritmo PredictiveApriori no fueron los esperados para el caso del

PM10 , ya que todas las reglas generadas en dicho algoritmo fueron catalogadas como

“innecesarias” para cumplir los objetivos del trabajo de grado ya que no contenían como

atributo consecuente los estados del PM10.

A continuación se presentan las reglas generadas para cada conjunto de datos que

representan una ejecución.

Ejecución No. Reglas Encontradas

1 20002 1760

Tabla 7 Reglas encontradas para cada ejecuciónFuente: Autor

Como se puede observar en la tabla de resultados, la cantidad de reglas de asociación

encontradas con dichos parámetros no alcanzan a cumplir el objetivo de la cantidad de

reglas que se estableció en la configuración del algoritmo, por lo cual esta cantidad de

reglas generadas llegan al límite inferior de soporte establecido.

A continuación se presenta una vista general del entorno de resultados que genera la

herramienta con el fin de conocer el estado inicial de cada una de las reglas generadas.

Ilustración 4 Vista general de las reglas de asociación generadasFuente: Herramienta Weka

Cada regla de asociación esta ordenada descendentemente de acuerdo al valor de la

medida de mejora, en la parte superior de la interfaz de resultados sale el número de

iteraciones que realizo el algoritmo para seleccionar las mejores reglas, en este caso

fueron 18 iteraciones para la ejecución 1 y 12 iteraciones para la ejecución 2.

3.2.3.1 Selección de Reglas de Asociación (poda)

Después de seleccionar las reglas de asociación de acuerdo a los criterios de selección

de reglas, la proporción de reglas de asociación encontradas fueron las siguientes:

Ejecución

Cantidad de Reglas encontradas

1 822 12

Tabla 8 Reglas encontradas después de la selección

Fuente: Autor

3.2.4 Presentación de las Reglas de Asociación para el modelo RAPM10

La visualización utilizada para el modelo de reglas de asociación se encuentra en un

archivo en Excel que contiene 8 grupos compuestos por reglas de asociación, donde se

encuentran reglas de asociación que contienen uno o más de los antecedentes que

componen cada grupo formado. Los grupos están representados en un globo azul. A

continuación se presenta una vista general de los grupos de Reglas de Asociación:

Ilustración 5 Vista general de los grupos del Modelo de Reglas de AsociaciónFuente: Autor

Si se selecciona un grupo lo lleva directamente a la plantilla donde se encuentran las

reglas de asociación que contienen esos antecedentes. Para una mejor gestión y

comprensión de los resultados fue necesario crear un formato para cada regla de

asociación de la siguiente forma:

Ilustración 8 Formato Reglas de AsociaciónFuente: Autor

Como se puede observar en la ilustración 8, cada regla de asociación tiene la

información necesaria para conocer su confiabilidad por sus métricas de soporte,

confianza y mejora, los colores representan el nivel de preocupación en la salud de la

población, definido por la EPA. El id de la regla está construido con las iniciales de los

grupos a que pertenece dicha regla.

Archivos que contienen los modelos RAPM10 y RAO3

Los resultados generados se encuentran almacenados en el mismo archivo que contiene

los resultados del algoritmo PredictiveApriori y Apriori, para diferenciarlos hay varios

criterios:

1. El id de las reglas de asociación generadas por el algoritmo Apriori comienzan con

la letra ‘A’.

2. Las métricas que tienen las reglas de asociación generadas por el algoritmo Apriori

están definidas como: Soporte y Confianza; A diferencia de las del algoritmo

PredictiveApriori que están regidas con la medida Accurancy Predictive.

3. Las reglas generadas por los dos algoritmos se encuentran agrupadas en dos

columnas paralelas, donde cada columna tiene el nombre del Algoritmo aplicado.

El archivo que tiene los resultados de cada algoritmo y las reglas de asociación se

encuentra ordenado descendentemente, para el caso del algoritmo Apriori se ordena de

acuerdo con la medida probabilística de confianza y para el algoritmo PredictiveApriori

se ordena de acuerdo a la medida probabilística Predictive Accurancy.

El archivo que contiene los resultados de la técnica de los modelos RAO3 se encuentra

con el siguiente nombre:

RAO3.xls

El archivo que contiene los resultados de la técnica de los modelos RAPM10 se

encuentra con el siguiente nombre:

RAPM10.xls

4. Construcción del Modelo CO3

Este modelo implementa la técnica de Agrupamiento (Clustering) para O3. En este

capítulo se presenta el proceso que se realizó para crear el modelo de Clustering por

medio de la selección de los algoritmos que implementan la técnica.

4.1 Selección de los atributos de entrada

El procedimiento realizado para la selección de atributos se apoyó en la herramienta de

SQL server Analysis Services con dos funcionalidades provistas por el mismo. A

continuación se presentan las funcionalidades:

4.1.1 Detección de atributos de entrada por medio de la Red de Dependencias de Microsoft

Esta herramienta contiene una opción de red de dependencias para las técnicas de

clasificación, dicha red de dependencias analiza el conjunto de datos y muestra los

atributos que deben pertenecer al conjunto de datos de entrada con el atributo predictor

(que en este caso sería el O3) para obtener buenos resultados provistos por el algoritmo,

teniendo una certeza optima ya que se basa meramente en los registros históricos.

Es importante recalcar que se incluyeron todos los atributos de la base de datos

incluidas las variables derivadas. A continuación se muestra la red provista por la

herramienta:

Ilustración 6 Red de dependencias con el O3Fuente: Herramienta Visual Studio Data Tools 2012

La ilustración muestra una barra en el lado izquierdo que quiere decir que entre más

abajo este el deslizador en la barra, la dependencia de dichos atributos con el predictor

es más fuerte. Para este caso dicha barra se dejó en la mitad con el fin de tener una

buena porción de atributos de entrada y se pudo observar que se eliminó la relación de

dependencia entre el atributo Mes y Ozono2 dejando como conclusión que la relación

entre estos dos atributos no era tan fuerte como para utilizarlo como atributo de entrada.

Las variables derivadas como Hora Pico y los atributos como Lluvia no aparecieron en

la red de dependencias, lo cual según este método estas dos variables no son buena

opción para pertenecer en el conjunto de entrada de la técnica. Sin embargo el atributo

lluvia se incluyó en el conjunto de entrada con el fin de identificar posibles tendencias

entre el Ozono y dicha variable.

Los demás atributos que aparecen apuntando al Ozono entran como conjunto de entrada

para el algoritmo que elegido.

7.1.2 Método de Selección de Características de Microsoft para detectar los atributos de entrada

En esta sección se muestra la interfaz de selección de la herramienta, donde se

encuentran todos los atributos del módulo de origen de datos, se escogen todos los

atributos terminados con la letra ‘n’, que quiere decir que el atributo esta normalizado.

La herramienta de Microsoft tiene una opción que sugiere los atributos que

necesariamente deben estar definidos en la entrada (selección de características) de

acuerdo a la dependencia del atributo predictivo que en este caso es el Ozono. Este

método se encuentra en la interfaz de la selección de los datos de aprendizaje que

aparece a continuación:

Ilustración 10 Interfaz para la selección de atributos de entradaFuente: Herramienta Visual Studio Data Tools 2012

En la ilustración 21 se muestra la sugerencia hecha por Analisys Services junto con el

puntaje de importancia de dicho atributo en la generación del modelo.

Ilustración 7 Interfaz de los atributos de entrada seleccionados por la herramientaFuente: Herramienta Visual Studio Data Tools 2012

Lo que quiere decir que los atributos: RadiacionSolarN, TemperaturaN y VelVientoN

son los atributos más influyentes para la generación del algoritmo.

4.2 Algoritmo K- means

Este algoritmo se encarga de segmentar la base de datos en grupos para tener una

descripción detallada y fácil de interpretar. En este capítulo se muestra el procedimiento

realizado para la implementación de la técnica de Clustering que hace parte del modelo

CO3.

4.2.1 Ejecución del Algoritmo

Para la ejecución del algoritmo se utilizaron todos los datos de entrenamiento los cuales

se asignaron al componente de vista de origen de datos y fue necesario realizar cambios

en los parámetros que se encuentran con valores por defecto.

4.2.1.1 Configuración de los parámetros del algoritmo

Este proceso es uno de los más importantes para la ejecución de algoritmos

pertenecientes a la técnica de minería, ya que si la configuración de los parámetros no es

adecuada, puede afectar el comportamiento, el rendimiento y la precisión del modelo de

minería de datos resultante. Después de las iteraciones realizadas, los parámetros que

más se ajustaron fueron los siguientes:

Nombre del Parámetro Valor Establecido

Descripción

CLUSTER_COUNT 5El número de clusters asignados es 5 y el proceso de selección se ve en la sección de a continuación.

CLUSTER_SEED Valor por defecto

Este valor queda con un valor por defecto de 0 ya que la idea es que el algoritmo comience la generación de clusters de acuerdo a la distancia y desde el principio.

CLUSTERING_METHOD 3

El numero 3 fue seleccionado ya que corresponde al algoritmo mediana-K- escalable (K-means).

MAXIMUM_INPUT_ATTRINUTES 12

En este caso se colocaron la cantidad del atributos de entrada, contando el id y el atributo predictor.

MAXIMUM_STATES Valor por defecto.

Se deja el valor por defecto que es 100.

MINIMUM_SUPPORT 3MODELLING_CARDINALITY Valor por

defectoEl número por defecto es 10.

SAMPLE_SIZE 30.000 Si se establece el número 0, todo el conjunto de datos de entrenamiento se agruparán en un único paso lo que genera problemas de memoria y rendimiento.

STOPPING_TOLERANCE Valor por defecto

El valor por defecto que queda es 10.

Tabla 9 Definición y asignación de valores de los parámetros de la técnicaFuente: Autor

4.2.1.2 Selección de los K grupos de Clusters

Para determinar el número de clústeres que se iban a generar, se utilizaron dos métodos

de clustering jerárquico. Estos métodos son:

Aglomerativo, este método muestra los resultados en forma de un dendograma (ver

figura 19), en la que visualmente se realizó un corte que da la cantidad de 5

clústeres.

EM (Expectation-Maximization), se basa en probabilidades con base en la muestra

de datos e indico que el número de clústeres era 6.

Se ejecutó el algoritmo con los dos números de clústeres y por mejor distribución se

utilizó el K del método aglomerativo.

Ilustración 18 Dendograma para la definición de los k ClustersFuente: Herramienta RapidMiner

4.2.2 Resultados Obtenidos

Posterior a la configuración de parámetros, selección del conjunto de entrenamiento y la

selección de los atributos pertenecientes a la entrada del algoritmo, para utilizar las

herramientas que provee Analisys Services fue necesario crear un atributo ‘ID’ en la

vista minable, que fuera la llave primaria de la base de datos, este id se creó de acuerdo

al tamaño de la base de datos y no altera en el proceso de generación del modelo.

A continuación se muestra una imagen de la estructura del modelo de agrupamiento:

Ilustración 13 Estructura del Modelo de Clustering para OzonoFuente: Herramienta Visual Studio Data Tools 2012

En la ilustración anterior se puede apreciar los atributos que componen la estructura del

modelo de agrupamiento, la definición de la técnica que se utiliza en el modelo y la

función que desempeña cada atributo (es decir cuáles son los atributos de entrada,

predictivos y primarios). Cabe recalcar que el carácter ‘N’ que acompaña a cada

nombre del atributo es simplemente una diferenciación con el atributo con los datos en

estado inicial en el momento de realizar el proceso de normalización.

4.2.3 Presentación de los resultados del modelo CO3

La herramienta de Visual Studio Data Tools proporciona gráficos e información

detallada de cada clúster creado, dando así una facilidad al lector de interpretar los

resultados del proceso de generación de conocimiento. Con el fin de que los

stakeholders vieran los resultados sin tener que instalar la herramienta de entorno para

crear los modelos, se exporto la información en un documento que contiene todas las

gráficas con su posterior explicación. Esta visualización está dividida en 4 secciones las

cuales muestran los resultados del algoritmo en diferentes representaciones.

5. Construcción del Modelo CPM10

Este modelo implementa la técnica de Agrupamiento (Clustering) para el PM10. En este

capítulo se presenta el proceso que se realizó para crear el modelo de Clustering por

medio de la selección de los algoritmos que implementan la técnica.

5.1 Selección de los atributos de entrada

Para la creación automática de la Red de Dependencias se incluyeron todos los atributos

de la base de datos (incluidas las variables derivadas). A continuación se muestra la red

provista por la herramienta:

Ilustración 9 Red de Dependencias PM10

Fuente: Herramienta Visual Studio Data Tools 2012

La barra deslizante se dejó en la mitad con el fin de tener una buena porción de atributos

de entrada y se pudo observar que la mayoría de los atributos de la vista minable tienen

vínculos fuertes con el PM10, lo que quiere decir que los atributos que aparecen en la

ilustración 31 sirven como variables de entrada para el algoritmo arrojando resultados

óptimos. Hay un caso especial que también sucedió en la selección de los atributos de

entrada para el modelo de Clustering del Ozono y es que el atributo lluvia no tiene

ningún vínculo con el atributo PM10 según la red de dependencias, así que para este

modelo dicho atributo no se incluye como entrada.

5.2 Algoritmo K- means

Uno de los motivos de selección de este algoritmo fue por el éxito de los resultados

generados en el modelo Clustering de O3 .

5.2.1 Ejecución del Algoritmo

En esta sección se pretende explicar el procedimiento que se realizó para ejecutar el

algoritmo de K-means.

5.2.1.1 Configuración de los parámetros del algoritmo

Este proceso es uno de los más importantes para la ejecución de algoritmos

pertenecientes a la técnica de minería, ya que si la configuración de los parámetros no es

adecuada, puede afectar el comportamiento, el rendimiento y la precisión del modelo de

minería de datos resultante.

Nombre del Parámetro Valor Establecido

Descripción

CLUSTER_COUNT 5Se asignó el K para 5 clusters y la selección de esta cantidad de grupos se encuentra en la sección siguiente.

CLUSTER_SEED Valor por defecto

Este valor queda con un valor por defecto de 0 ya que la idea es que el algoritmo comience la generación de clusters de acuerdo a la distancia y desde el principio.

CLUSTERING_METHOD 3

MAXIMUM_INPUT_ATTRINUTES

9En este caso se colocaron la cantidad del atributos de entrada, contando el id y el atributo predictor.

MAXIMUM_STATESValor por defecto.

Se deja el valor por defecto que es 100.

MINIMUM_SUPPORT 3 El número mínimo de casos que pueden entrar en cada clúster son 2.

MODELLING_CARDINALITY Valor por defecto

El número por defecto es 10.

SAMPLE_SIZE 30.000STOPPING_TOLERANCE Valor por

defectoEl valor por defecto que queda es 10.

Tabla 1 Definición y asignación de valores de los parámetros de la técnicaFuente: Autor

5.2.1.2 Selección de los K grupos de Clusters

Para determinar el número de clústeres que se iban a generar, se utilizaron dos métodos

de clustering jerárquico:

Aglomerativo, este método muestra los resultados en forma de un dendograma (ver figura

19), en la que visualmente se realizó un corte que da la cantidad de 5 clústeres.

EM (Expectation-Maximization), se basa en probabilidades con base en la muestra de

datos e indico que el número de clústeres era 6.

Se ejecutó el algoritmo con los dos números de clústeres y por mejor distribución se

utilizó el K del método aglomerativo.

Ilustración 35 Dendograma para la definición de los k ClustersFuente: Herramienta RapidMiner

5.2.2 Resultados Obtenidos

Posterior a la configuración de parámetros, selección del conjunto de entrenamiento y la

selección de los atributos pertenecientes a la entrada del algoritmo, para utilizar las

herramientas que provee Analisys Services fue necesario crear un atributo ‘ID’ en la

vista minable, que fuera la llave primaria de la base de datos, este id se creó de acuerdo

al tamaño de la base de datos y no altera en el proceso de generación del modelo.

A continuación se muestra una imagen de la estructura del modelo de agrupamiento:

Ilustración 10 Estructura del Modelo de Clustering para PM10

Fuente: Herramienta Visual Studio Data Tools 2012

En la ilustración anterior se puede apreciar los atributos que componen la estructura del

modelo de agrupamiento, la definición de la técnica que se utiliza en el modelo y la

función que desempeña cada atributo (es decir cuáles son los atributos de entrada,

predictivos y primarios). Cabe recalcar que el carácter ‘N’ que acompaña a cada

nombre del atributo es simplemente una diferenciación con el atributo con los datos en

estado inicial en el momento de realizar el proceso de normalización.

Archivos que contienen los modelos CPM10 y CO3

Para que fuera de facilidad para los involucrados en abrir los archivos que contienen los

resultados de los modelos, fue necesario importarlos a un documento en Word con una

breve explicación de cada pestaña provista por la herramienta Visual Studio Data Tools

2010. El archivo que contiene los modelos se encuentra con el siguiente nombre:

Modelos CO3 y CPM10.docx

6. Construcción del Modelo CAO3

Este modelo implementa la técnica de Clasificación para el O3. En este capítulo se

presenta el proceso que se realizó para crear el modelo de Clasificación por medio de la

selección de los algoritmos que implementan la técnica.

6.1 Selección de los Atributos de entrada

La selección de los atributos de entrada para las técnicas de clasificación, es de los

procesos más importantes para la creación de la estructura de minería ya que una buena

selección de los atributos hace que el modelo sea preciso con conjuntos de prueba reales

(externos a los del entrenamiento) y así dicho modelo pueda ser usado por los

involucrados. Por ende fue necesario definir los atributos de entrada utilizando tres

criterios: el primero gracias a las dependencias encontradas de algunos de los atributos

de la base de datos con el atributo predictor (los resultados de las correlaciones que se

encuentran con detalle en el documento de vista minable), el segundo es gracias a la

asesoría de expertos en el tema y el tercero es por la funcionalidad de la herramienta

Analysis Services 2010 cuyo nombre es Selección de características.

6.1.1 Aplicación del Método selección de características para elegir el conjunto de entradas

Ilustración 11 Interfaz para seleccionar las variables de entrada por la herramientaFuente: Herramienta Visual Studio Data Tools 2012

Podemos observar que los atributos más influyentes para la creación del modelo son:

Temperatura, ClasificacionHora y PromRadiacionSG lo que hace que se definan como

atributos de entrada junto con todos los demás que están seleccionados con una ‘x’, a

excepción del atributo Radiacionsolar (RSG) ya que se encuentra en un mejor puntaje

su atributo sinónimo, entonces no sería coherente tener dos atributos sinónimo.

A continuación se presentan los atributos de entrada utilizados para los algoritmos de

clasificación:

Vel Viento

NOX

NO2

Temperatura

ClasificacionHora

Trimestres del Año

PromRadiacionSG

Es importante recalcar que para cada algoritmo hubo un segundo proceso de selección

de atributos de entrada basado en los atributos anteriormente nombrados, con el fin de

eliminar redundancias en algunos atributos y seleccionar de manera eficiente los

atributos de entrada para cada uno de los modelos y así mejorar la precisión de los

modelos generados.

6.2 Selección del Atributo Objetivo

El atributo predictivo seleccionado es el Ozono, ya que el objetivo del trabajo de grado

es encontrar relaciones entre las variables climatológicas con el contaminante de Ozono

para así crear un prototipo que al final estime el valor de concentración del Ozono dado

unos atributos de entrada influyente, así que la mejor representación a nivel del modelo

es tener el ozono como atributo predictivo.

Este atributo contiene cuatro estados que tienen el índice de concentración de Ozono y

se representan en cuatro clases donde se van asignar los estados de los atributos de

entrada. Los estados son los siguientes:

BUENO

MODERADO

DESFAVORABLE

Cabe recalcar que para que el modelo quede útil, el último estado detectado en el

conjunto de registros históricos que en este caso es DESFAVORABLE, se encuentra para

valores AQI mayores e iguales 151.

6.3 Ejecución del Algoritmo de Microsoft

Esta sección muestra detalladamente el proceso realizado para aplicar el algoritmo de

Arboles de decisión de Microsoft. La herramienta utilizada fue Visual Studio Analisys

Services.

6.3.1 Creación de la Estructura de Minería de Datos

Esta estructura [65] es importante ya que allí se definen los datos de entrada y la técnica

que va a generar el modelo de minería de datos. Es importante recalcar que una misma

estructura de minería de datos puede tener varios modelos con diferentes técnicas pero

que comparten el mismo dominio.

A continuación se muestra el procedimiento para la creación de la estructura que va a

contener el modelo de árboles de decisión.

Ilustración 12 Interfaz de la técnica seleccionadaFuente: Herramienta Visual Studio Data Tools 2012

6.3.2 Vista en general del Modelo de Árboles de decisión

Como se puede apreciar en la ilustración 35 se encuentran los datos que hacen parte de

la entrada del algoritmo y el atributo que predictivo, los atributos que tienen la categoría

“omitir”, es porque al utilizar el método de selección de características, el mismo

método selecciona automáticamente los atributos con mejor puntaje, pero previamente a

utilizarlos fue necesario seleccionar cual era el atributo predictivo y el id. Sin embargo

el usuario puede modificar esta categoría de acuerdo a su conveniencia. Para este caso

especial fue necesario omitir el atributo RadiacionSolar que quedo seleccionado como

atributo de entrada ya que la variable derivada PromRadiacion SG lo reemplaza en su

utilidad, mejorando así la interpretación y la precisión del modelo.

Ilustración 13 Interfaz Modelo de Árboles de decisiónFuente: Herramienta Visual Studio Data Tools 2012

6.3.3 Configuración de los parámetros del algoritmo

Antes de realizar la ejecución del algoritmo de minería es importante realizar la

configuración de los parámetros con el fin de generar resultados que se ajusten a la

medida del proyecto. A continuación se presenta la configuración de los parámetros que

llevo a la generación del modelo CAO3:

Parámetro ValorCOMPLEXITY_PENALTY 0.5FORCE_REGRESSOR No Aplica.MAXIMUM_INPUT_ATRIBUTES DefaultMAXIMUM_OUTPUT_ATRIBUTE Default

SMINIMUM_SUPPORT 10SCORE_METHOD 1SPLIT_METHOD 3

Tabla 2 Definición y asignación de valores a los parámetrosFuente: Autor

6.4 Resultados Obtenidos

Los colores que representan los estados del atributo de predicción Ozono están

asignados de la siguiente forma:

Estado del atributo Ozono ColorBUENOMODERADODESFAVORABLE

Tabla 3 Convenciones de los estados del atributo de OzonoFuente: Autor

6.4.2 Visor Red de Dependencias

Como su nombre lo indica [66], muestra dependencias entre los atributos de entrada con

el atributo predictivo. A continuación se presenta la red de dependencias con un vínculo

de importancia media entre los atributos:

Ilustración 14 Visor de red de dependencias para técnica de clasificaciónFuente: Herramienta Visual Studio Data Tools 2012

Se puede observar en la imagen que la mayoría de los atributos de entrada del algoritmo

tienen vínculos fuertes con el atributo predictivo, lo cual hace que la precisión del

algoritmo pueda ser buena, sin embargo en el documento de Plan de Puerbas, se

encuentra con detalles los resultados de la precisión de los modelos de Minería de datos

utilizados.

6.4.3 Selección de las ramas del Árbol

Aunque el algoritmo de árboles de decisión de Microsoft contiene métodos que

controlan y evitan el sobreajuste, es importante realizar la validación de las tareas que se

sugieren para evitarlo de forma manual. El proceso para evitar el sobreajuste se divide

en 2 partes [39]:

6.4.3.1 Eliminando variables independientes

Para este modelo se realizaron varias ejecuciones de prueba, en las que se incluyeron

atributos como: Lluvia, Hora Pico y Fin de Semana, estos atributos por no tener una

relación con el contaminante PM10 gracias a los resultados arrojados en la red de

dependencias, la función de selección de características y las correlaciones de Pearson,

el árbol de decisión no incluyo estas variables a pesar de que en algunas pruebas se

incluyeron como atributos de entrada, así que para no afectar su rendimiento en tiempos

de respuesta fue necesario eliminarlas ya que se identificaron como variables

independientes.

Los resultados de las ejecuciones que contenían el atributo RadiacionSolar arrojaban en

su mayoría arboles de profundidad alta (es decir mayor a 14 niveles), anchura extensa,

en los resultados de precisión se obtenían cerca del 50% de falsos positivos y negativos

(matriz de contingencia) y el histograma de distribución que presenta cada nodo interno

contenía 2 o 3 estados influyentes de igual probabilidad de frecuencia. Por tal motivo

este atributo se eliminó de la lista de entrada del modelo final y se sustituyó por la

variable derivada PromRadiacionSG, gracias a la intervención del experto en el tema de

Minería de Datos quien detecto estas anomalías.

6.4.3.2 Poda del Árbol

Este proceso está basado en la confiabilidad del árbol y consiste en eliminar las reglas

(hojas, ramas o subárboles) que no son de carácter general, es decir que son reglas

textuales de los datos que no ocurren con frecuencia. La importancia de realizar el

proceso de Poda (ya sea por parte del algoritmo o del usuario), es que va a mejorar el

desempeño del árbol y clasificara de forma correcta tanto los registros del set de

entrenamiento como los registros del set de prueba.

6.4.3.2.1 Pre-poda

Se puede observar que el parámetro MINIMUN_SUPPORT está en el soporte mínimo

ideal que debe aceptar cada nodo interno que en este caso es de 10 y se definió en los

parámetros de dicho algoritmo.

Después de observar detalladamente el árbol y los gráficos de precisión se encontró que

las amenazas de sobreajuste no son significativas, sin embargo en la sección análisis de

resultados se encuentran las ramas interesantes y cuyo nivel de precisión es aceptable

por las normas exigidas por los expertos.

6.5 Archivo que contiene el nombre del modelo CAO3

El archivo del árbol de decisión que representa el modelo CAO3 se encuentra en tipo imagen

con el fin de facilitar la visualización del mismo. El archivo contiene el siguiente nombre:

ModeloCAO3.jpg

7. Construcción del Modelo CAPM10

Este modelo implementa la técnica de Clasificación para el PM10. En este capítulo se

presenta el proceso que se realizó para crear el modelo de Clasificación por medio de la

selección de los algoritmos que implementan la técnica.

7.1 Selección de los Atributos de entrada

La selección de los atributos de entrada para las técnicas de clasificación, es de los

procesos más importantes para la creación de la estructura de minería ya que una buena

selección de los atributos hace que el modelo sea preciso con conjuntos de prueba reales

(externos a los del entrenamiento) y así dicho modelo pueda ser usado por los

involucrados. Por ende fue necesario definir los atributos de entrada utilizando tres

criterios: el primero gracias a las dependencias encontradas de algunos de los atributos

de la base de datos con el atributo predictor (los resultados de las correlaciones que se

encuentran con detalle en el documento de vista minable), el segundo es gracias a la

asesoría de expertos en el tema y el tercero es por la funcionalidad de la herramienta

Analysis Services 2010 cuyo nombre es Selección de características.

7.1.1 Aplicación del Método selección de características para elegir el conjunto de entradas

A continuación se presentan los atributos de entrada utilizados para los algoritmos de

clasificación:

Vel Viento Radiación Solar Temperatura ClasificacionHora Trimestres del Año Lluvia Fin se Semana Hora Pico NO2 NOX PromRadiacionS

A continuación se presentan los resultados obtenidos por la función:

Ilustración 15 Función Selección de Características Fuente: Herramienta Visual Studio Data Tools 2012

7.2 Selección del Atributo Objetivo

El atributo predictivo seleccionado es el PM10, ya que uno de los objetivos del trabajo

de grado es encontrar relaciones entre las variables climatológicas con el contaminante

de PM10 para así crear un prototipo que al final estime el valor de concentración del

PM10 dado unos atributos de entrada influyente, así que la mejor representación a nivel

del modelo es tener el ozono como atributo predictivo.

Este atributo contiene tres estados que representan el índice de concentración de PM10.

Los estados son los siguientes:

BUENO

MODERADO

DESFAVORABLE

Con el fin de darle una utilidad al modelo con otros conjuntos de datos, el último estado

detectado en el conjunto de registros históricos que en este caso es DESFAVORABLE,

se encuentra para valores AQI mayores e iguales 151.

7.3 Ejecución del Algoritmo de Microsoft

Esta sección muestra detalladamente el proceso realizado para aplicar el algoritmo de

Arboles de decisión de Microsoft. La herramienta utilizada fue Visual Studio Analisys

Services.

7.3.2 Vista en general del Modelo de Árboles de decisión

Como se puede apreciar en la siguiente ilustración se encuentran los datos que hacen

parte de la entrada del algoritmo junto con el atributo que predictivo, los atributos que

tienen la categoría “omitir”, es porque al utilizar el método de selección de

características, el mismo método selecciona automáticamente los atributos con mejor

puntaje, pero previamente a utilizarlos fue necesario seleccionar cual era el atributo

predictivo y el id. Sin embargo el usuario puede modificar esta categoría de acuerdo a

su conveniencia. Para este caso especial fue necesario omitir el atributo Radiacion Solar

que quedo seleccionado como atributo de entrada ya que la variable derivada Prom

RadiaciónS lo reemplaza generando así un mejor análisis con mejor precisión.

Ilustración 16 Estructura modelo CAPM10Fuente: Herramienta Visual Studio Data Tools 2012

7.3.3 Configuración de los parámetros del algoritmo

Antes de realizar la ejecución del algoritmo de minería es importante realizar la

configuración de los parámetros con el fin de generar resultados que se ajusten a la

medida del proyecto. A continuación se presentan los parámetros definidos para la

generación del modelo:

Parámetro ValorCOMPLEXITY_PENALTY 0.5

FORCE_REGRESSOR No Aplica.MAXIMUM_INPUT_ATRIBUTES Default

MAXIMUM_OUTPUT_ATRIBUTES DefaultMINIMUM_SUPPORT 20

SCORE_METHOD 3SPLIT_METHOD 3

Tabla 4 Definición y asignación de valores a los parámetrosFuente: Autor

7.4 Resultados Obtenidos

Esta sección pretende presentar los resultados obtenidos por el modelo CAPM10.

7.4.1 Visor Árbol de Decisión

Los colores que representan los estados del atributo de predicción PM10 están

asignados de la siguiente forma:

Estado del PM10 ColorBUENOMODERADODESFAVORABLE

Tabla 5 Convenciones de los estados del atributo de PM10Fuente: Autor

7.4.2 Visor Red de Dependencias

A continuación se presenta la red de dependencias con un vínculo de importancia media

entre los atributos:

Ilustración 17 Visor de red de dependencias para técnica de clasificaciónFuente: Herramienta Visual Studio Data Tools 2012

7.4.3 Selección de las ramas del Árbol

Aunque el algoritmo de árboles de decisión de Microsoft contiene métodos que

controlan y evitan el sobreajuste, es importante realizar la validación de las tareas que se

sugieren para evitarlo de forma manual. El proceso para evitar el sobreajuste se divide

en 2 partes:

7.4.3.1 Eliminando variables independientes

Para este modelo se realizaron varias ejecuciones de prueba, en las que se incluyeron

atributos como: Lluvia, Hora Pico, Fin de Semana, NOX y NO2, estos atributos por no

tener una relación con el contaminante PM10 gracias a los resultados arrojados en la red

de dependencias, la función de selección de características y las correlaciones de

Pearson, el árbol de decisión no incluyo estas variables a pesar de que en algunas

pruebas se incluyeron como atributos de entrada, así que para no afectar su rendimiento

en tiempos de respuesta fue necesario eliminarlas ya que se identificaron como variables

independientes.

Los resultados de las ejecuciones que contenían el atributo RadiacionSolar arrojaban en

su mayoría arboles de profundidad alta (es decir mayor a 14 niveles), anchura extensa,

en los resultados de precisión se obtenían cerca del 50% de falsos positivos y negativos

(matriz de contingencia) y el histograma de distribución que presenta cada nodo interno

contenía 2 o 3 estados influyentes de igual probabilidad de frecuencia. Por tal motivo

este atributo se eliminó de la lista de entrada del modelo final y se sustituyó por la

variable derivada PromRadiacionSG, gracias a la intervención del experto en el tema de

Minería de Datos quien detecto estas anomalías.

7.4.3.2 Poda del Árbol

Este proceso está basado en la confiabilidad del árbol y consiste en eliminar las reglas

(hojas, ramas o subárboles) que no son de carácter general, es decir que son reglas

textuales de los datos que no ocurren con frecuencia. La importancia de realizar el

proceso de Poda (ya sea por parte del algoritmo o del usuario), es que va a mejorar el

desempeño del árbol y clasificara de forma correcta tanto los registros del set de

entrenamiento como los registros del set de prueba. Para este proceso también se

tuvieron en cuenta los patrones generados por los modelos generados por las técnicas de

reglas de asociación y agrupamiento.

7.4.3.2.1 Pre-poda

Se puede observar que el parámetro MINIMUN_SUPPORT está en el soporte mínimo

ideal que debe aceptar cada nodo interno que en este caso es de 20 y se definió en los

parámetros de dicho algoritmo.

7.5 Archivo que contiene el nombre del modelo CAPM10

El archivo del árbol de decisión que representa el modelo CAPM10 se encuentra en tipo

imagen con el fin de facilitar la visualización del mismo. El archivo contiene el siguiente

nombre:

ModeloCAPM10.jpg