minerÍa de datos: herramientas, tÉcnicas y …...del mismo de forma que puedan construir una base...

MINERÍA DE DATOS: HERRAMIENTAS, TÉCNICAS Y METODOLOGÍAS

Martínez de Pisón, J1P;Pernía Espinoza, A2.; González Marcos, A1.

1UNIVERSIDAD DE LA RIOJA. Área de Proyectos de Ingeniería. 2UNIVERSIDAD DE LOS ANDES. Dpto. de Circuitos y Medidas

RESUMEN

Actualmente, la capacidad de acceso y almacenamiento de la información que

tienen las empresas crece a pasos agigantados pero no así la capacidad para

asimilarla.

En este artículo se presentan, a modo introductorio, un estudio de las diferentes

herramientas informáticas existentes, metodologías y técnicas de minería de datos

que más se están utilizando en la actualidad para el análisis de la información.

Mediante éstas herramientas y técnicas se pueden obtener patrones y estructuras

de información muy valiosas para la industria que pueden ayudar, mediante el

análisis de los grandes volúmenes de datos de históricos almacenados, a mejorar la

calidad y reducir los costes de los procesos productivos así como comprender mejor

las causas que generan fallos en los mismos.

ABSTRACT

Nowadays, the business information access and storage capacity grows very fast but

isn’t the same with the assimilation capacity.

This paper presents the state of the art of different data mining tools, methodologies

and techniques for the information analysis.

Through the manage of this tools and techniques to analyse huge amount of stored

process data, we can obtain very useful industrial information patterns and structures

that can help to improve the processes quality and reduce its costs. Also we can

have a better understanding of failures causes to make suitable decisions.

359

1. INTRODUCCIÓN

El desarrollo tecnológico ha aumentado considerablemente la mejora de los

sistemas de almacenamiento de datos de las empresas. El problema es, que a

medida que aumenta nuestra capacidad para almacenar y acceder a la información,

más problemas tenemos para tratarla. Un ejemplo claro lo podemos ver en la

“revolución” que ha supuesto Internet y en cómo la información que se genera dentro

de cualquier campo de nuestro interés aumenta considerablemente cada año,

mientras que a su vez, cada vez nos vemos más incapaces de asimilarla.

En la industria, igualmente, la preocupación de las empresas por producir “mejor y

más barato”, la búsqueda constante de reducir “incertidumbre” en el proceso de

fabricación y el aumento creciente de la información que se tiene de los procesos

productivos, hace que crezca, cada vez más, la necesidad por analizarla [Castejón

et al (2001)]. Bien es cierto, que esta necesidad solo aparece cuando la empresa

tiene un volumen de históricos realmente importante del proceso.

Por otro lado, lógicamente, el tener un aceptable grado de automatización y

datawarehouse es requisito indispensable, ya que si no se dispone de la

infraestructura necesaria para capturar y almacenar convenientemente la

información, difícilmente se podrá obtener nada de ella [Ordieres (2000)]. Esto

implica que las empresas, antes de poder mejorar el proceso de producción con la

minería de datos, deben invertir en mejorar los sistemas de automatización y control

del mismo de forma que puedan construir una base de datos con históricos del

proceso completa y de buena calidad.

Las herramientas de data mining y estadística multivariante son útiles en este

momento, cuando ya tenemos un volumen de información importante y de buena

calidad. Los campos de aplicación de estas nuevas técnicas dentro de la industria

son numerosos: control de calidad, identificación de sistemas, determinación de

causas en fallos del proceso, detección de anomalías, prevención de fallos,

modelización de sistemas, obtención de reglas y patrones de comportamiento,

búsqueda de causas y relaciones entre variables, etc.

360

2. TÉCNICAS DE MINERÍA DE DATOS

Como vemos, se puede decir que la minería de datos es un conjunto de

metodologías y herramientas que mediante el análisis de grandes cantidades de

datos nos ayudan a obtener patrones de comportamiento o tendencias ocultas que

pueden ser muy útiles en la toma de decisiones [Mtnez. de Pisón et al (2001)].

Para alcanzar buenos resultados es necesario comprender que la minería de datos

no se basa en una metodología estándar y genérica que resuelve todo tipo de

problemas, sino que consiste en una metodología dinámica e iterativa que va a

depender del problema planteado, de la disponibilidad de la fuentes de datos, del

conocimiento de las herramientas necesarias, de la metodología desarrollada y de

los requerimientos y recursos de la empresa.

Los que si resulta necesario, es conocer qué técnicas pueden utilizarse en esa

búsqueda de patrones o tendencias ocultas y qué podemos incluir dentro del área de

la minería de datos. Realmente, los métodos y técnicas pueden categorizarse en

diferentes formas [Wang (1999)], aunque muchas de éstas pueden ser asociadas a

otros campos (estadística, programación evolutiva, etc.) según el uso que se haga

de ellas. Fundamentalmente se dividen en:

• Técnicas de Clusterizado: A partir de una base de datos de observaciones, se

busca agruparlas dentro de un número de clases preestablecidas o no,

generalmente mediante criterios de distancia o similitud, de forma que las

observaciones que pertenezcan a una de las clases sean similares entre si y

distintas con las de otras clases. Algunas técnicas muy utilizadas son: K-

Means, las Redes SOM (Self Organization Maps), Sistema de clasificación

automática Bayesiana (Autoclass), Teoría de Resonancia Adaptativa (ART y

ART2), otro tipo de redes neuronales, etc.

• Clasificadores: Tratan de buscar unas leyes o patrones que “expliquen”,

dentro de un cierta “incertidumbre” y partiendo de una base de datos de

observaciones, el comportamiento de unas variables frente a otras. Se dividen

fundamentalmente en: generadores de árboles de decisión, generadores de

reglas, modelos de regresión, redes neuronales, redes funcionales,

clasificadores bayesianos, algoritmos genéticos, métodos visuales,

clasificadores fuzzy, etc.

361

• Técnicas de Reducción de Dimensión y Visualización de la Información:

Tienen como objetivo reducir el número de variables y visualizar la nube de

puntos N-Dimensionales para poder detectar estructuras o características de

forma visual. Podemos encontrar en este grupo técnicas muy utilizadas como

por ejemplo: Análisis de Componentes Principales (PCA), proyector Sammon,

PCA no lineal, proyector Andrews, Proyección Pursuit, RADVIZ, Gráficos de

Coordenadas Paralelas, etc.

Poll

Data mining tools you regularly use: [967 choices, 551 voters]

SPSS Clementine (128) 13% Weka (101) 10% SAS (100) 10% CART/MARS (89) 9% SPSS/AnswerTree (76) 8% SAS Enterprise Miner (67) 7% Other commercial tools (65) 7% Other free/open-source tools (57) 6% MATLAB (52) 5% Microsoft SQLServer/Excel (40) 4% Insightful Miner (36) 4% IBM Intelligent Miner (35) 4% KXEN (35) 4% C4.5 / C4.8 (29) 3% Angoss (26) 3% Megaputer Polyanalyst (10) 1% Neuralware (8) 1% Oracle Suite (Darwin) (8) 1% Quadstone (3) 0.3% ThinkAnalytics (2) 0.2%

Figura 1. Herramienta de Minería de Datos usadas habitualmente (Junio de 2002).

(http://www.kdnuggets.com/polls/data_mining_tools_2002_june2.htm)

Algunas de las técnicas descritas anteriormente, pueden ser aplicadas con alguna

de las herramientas que se describen a continuación (para más detalle consultar [1]).

3. HERRAMIENTAS INFORMÁTICAS

En la Figura 1 podemos apreciar, el resultado de una encuesta hecha en el conocido

portal sobre Minería de Datos y Gestión del Conocimiento, KDnuggets [KDnuggets

(2002)], donde se pregunta al encuestado sobre la herramienta de Data Mining que

habitualmente usa.

362

Este tipo de encuesta es particularmente importante, porque nos da una idea de las

aplicaciones que más están usando los profesionales y nos puede ayudar a decidir

correctamente cuando tengamos que adquirir uno de estos programas.

La lista que aparece en la Figura 1 es una pequeña muestra de las múltiples

aplicaciones que existen en el mercado. De ella destacan programas comerciales

que forman parte de familias de aplicaciones estadísticas como por ejemplo: SAS

(SAS, SAS EnterpriseMiner), o SPSS (SPPS Clementine, SPSS AnswerTree) y que

son preferencia de aquellos que habitualmente trabajan con estos paquetes.

Figura 2. Ejemplo del programa comercial (PolyAnalyst (www.megaputer.com)).

Por otro lado, este tipo de aplicaciones comerciales contrastan con otras

desarrolladas íntegramente en el campo de la Minería de Datos como por ejemplo:

CART/MARS, IBM-I-Miner, Angoss, Megaputer PolyAnalyst, KXEN, etc.; y que

fundamentalmente abarcan métodos estadísticos y de visualización combinados con

algoritmos, bastante eficientes, más propios de Minería de Datos (clasificadores,

generadores de reglas, clusterizado, etc.).

Habitualmente, estas herramientas disponen de sus propios entornos gráficos y

suelen permitir al usuario hacer múltiples tareas, pero siempre acotados a las

especificaciones de cada aplicación. El grado de eficiencia de cada herramienta

depende de múltiples factores: tipos de algoritmos, funciones de tratamiento de la

información, eficiencia de los algoritmos, generadores de informes, formas de pasar

la información, etc.; aunque generalmente, los primeros de la lista cubren bastante

bien las expectativas que se espera de ellos. Algunos de ellos, como el que se

muestra en la Figura 2, pueden ser descargados de la red y evaluados durante un

corto periodo de tiempo.

363

Por otro lado, en la segunda posición de la lista, se alza la herramienta WEKA. Esta

aplicación es de libre distribución (licencia GPL) y destaca por la cantidad de

algoritmos que presenta así como por la eficiencia de los mismos. Esta aplicación

está desarrollada por miembros de la Universidad de Waikato (Nueva Zelanda) y es

una muy buena opción, tal y como muestra la encuesta, frente a las costosas

distribuciones comerciales.

-4 -2 0 2 4

010

0030

0050

00

Distribución de Bobinas con (Error40)

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Distribución de Bobinas con (Error 40, ]$LARGO

Freq

uenc

y

0 1000 2000 3000 4000 5000 6000

05

1015

010

0030

0050

00


0 1000 2000 3000 4000 5000 60000

e+00

2 e

-04

4 e

-04


N = 144 Bandwidth = 148.3

Den

sity

Figura 3. Algunas de múltiples posibilidades que ofrece el programa R para visualización de datos.

Según nuestra experiencia, hemos obtenido excelentes resultados con las

herramientas de libre distribución siguientes:

• R: Herramienta excelente para el análisis de datos basada en el conocido

programa estadístico S-Plus y con un manejo de las matrices y variables

equivalente a MATLAB. Este programa es muy útil para el análisis estadístico,

transformación y manipulación de los datos. Está compuesto de múltiples

librerías para realizar: gráficos y análisis estadísticos de todo tipo, regresiones

lineales y no lineales, modelizado, clusterizado, etc.; y sigue en continua

evolución. Cabe destacar la excelente asesoría técnica (responden las

364

preguntas en pocas horas) llevada a cabo principalmente por algunos de los

principales profesores e investigadores en estadística del mundo.

• WEKA: Programa de libre distribución que abarca algoritmos clasificadores de

todo tipo, generadores de reglas, herramientas de clusterizado, etc. Esta

aplicación proporciona gran cantidad de herramientas para la realización de

tareas propias de minería de datos y permite la programación en JAVA de

algoritmos más sofisticados.

• SNNS: Aplicación de libre distribución para el desarrollo, entrenamiento y

testeo de multitud de tipos diferentes de redes neuronales. Muy útil para

desarrollar clasificadores sofisticados y modelos basados en redes

neuronales.

• XmdvTool, Xgobi, IBM-OpenDX, Visipoint: Otras herramientas con licencia

GPL que tienen diferentes funciones de visualización muy útiles para

encontrar patrones ocultos en los datos.

Figura 4. Generación de un árbol con un clasificador del programa WEKA (izquierda) y diagrama de

coordenadas paralelas realizado con el programa XmdvTool (derecha)

4. CONCLUSIONES

Hoy en día, existen herramientas de libre distribución, realmente sorprendentes. Las

que se acaban de enumerar, y muchas otras, permiten múltiples posibilidades. Los

programas R y WEKA, usados conjuntamente, no solo se pueden utilizar como

herramientas de aplicación, sino también, como auténticos entornos de

programación. Esta característica, como es lógico, unido a que su coste es cero por

365

ser programas con licencia GPL, aporta múltiples ventajas para los campos de

investigación y docencia en el aprendizaje y desarrollo de la Minería de Datos.

En este artículo hemos pretendido orientar sobre las técnicas y herramientas más

adecuadas que existen actualmente en el campo de la minería de datos. Si

analizamos el creciente aumento en la capacidad de almacenar información y en la

sensibilidad que tienen las empresas en la mejora de la calidad a partir del análisis

de la información que se tiene, vemos el increíble potencial futuro que se encierra en

estas herramientas.

5. AGRADECIMIENTOS

Esta comunicación está parcialmente soportada por el contrato del M.C.Y.T. DPI-

2001-1408, por el Plan Riojano de I+D y por la empresa Metzeler Ibérica S.A.

Los autores expresan el máximo reconocimiento a las entidades colaboradoras.

6. REFERENCIAS

• CASTEJÓN, M.; ORDIERES, J.B.; DE COS, F.J.; MTNEZ DE PISÓN, F.J.

(2001). Control de Calidad. Metodología para el análisis previo a la modelización

de datos en procesos industriales. Fundamentos teóricos y aplicaciones prácticas

con R. Logroño: Universidad de La Rioja. Servicio de Publicaciones.

• KDDNUGGETS (2002). Dirección Web: http://www.kdnuggets.com. Portal de

Data Mining, Web Mining & Knowledge Discovery.

• MTNEZ DE PISÓN, F.J.; ORDIERES, J.B.; CASTEJÓN, M.; DE COS, F.J.;

PERNÍA, A. (2001) Gestión del Conocimiento y Minería de Datos. Murcia: Actas

del XVII Congreso Nacional de Ingeniería de Proyectos.

• ORDIERES, J.B.; CASTEJÓN, M.; DE COS, F.J.; MTNEZ DE PISÓN, F.J. (2000)

Análisis de la Importancia del Acero en la Condiciones de Laminación en

Caliente. XIV España: Congreso Nacional de Ingeniería Mecánica.

• WANG, XUE Z. Data Mining and Knowledge Discovery for Process. (1999).

London: Springer-Verlag.

366

7. CORRESPONDENCIA

Persona de Contacto: Fco. Javier Martínez de Pisón Ascacíbar. Dirección: Edificio Departamental. C/ Luis de Ulloa, 20. 26004 Logroño (La Rioja). Área de Proyectos de Ingeniería. Departamento de Ingeniería Mecánica. Universidad de La Rioja. Teléfonos: 941-299232, 941-299625. Fax: 941-299478. Email: [email protected]

367

minerÍa de datos: herramientas, tÉcnicas y …...del mismo de forma que puedan construir una base...

Documents