minerÍa de datos: herramientas, tÉcnicas y …...del mismo de forma que puedan construir una base...

9
MINERÍA DE DATOS: HERRAMIENTAS, TÉCNICAS Y METODOLOGÍAS Martínez de Pisón, J 1P ;Pernía Espinoza, A 2 .; González Marcos, A 1 . 1 UNIVERSIDAD DE LA RIOJA. Área de Proyectos de Ingeniería. 2 UNIVERSIDAD DE LOS ANDES. Dpto. de Circuitos y Medidas RESUMEN Actualmente, la capacidad de acceso y almacenamiento de la información que tienen las empresas crece a pasos agigantados pero no así la capacidad para asimilarla. En este artículo se presentan, a modo introductorio, un estudio de las diferentes herramientas informáticas existentes, metodologías y técnicas de minería de datos que más se están utilizando en la actualidad para el análisis de la información. Mediante éstas herramientas y técnicas se pueden obtener patrones y estructuras de información muy valiosas para la industria que pueden ayudar, mediante el análisis de los grandes volúmenes de datos de históricos almacenados, a mejorar la calidad y reducir los costes de los procesos productivos así como comprender mejor las causas que generan fallos en los mismos. ABSTRACT Nowadays, the business information access and storage capacity grows very fast but isn’t the same with the assimilation capacity. This paper presents the state of the art of different data mining tools, methodologies and techniques for the information analysis. Through the manage of this tools and techniques to analyse huge amount of stored process data, we can obtain very useful industrial information patterns and structures that can help to improve the processes quality and reduce its costs. Also we can have a better understanding of failures causes to make suitable decisions. 359

Upload: others

Post on 25-Jan-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

  • MINERÍA DE DATOS: HERRAMIENTAS, TÉCNICAS Y METODOLOGÍAS

    Martínez de Pisón, J1P;Pernía Espinoza, A2.; González Marcos, A1.

    1UNIVERSIDAD DE LA RIOJA. Área de Proyectos de Ingeniería. 2UNIVERSIDAD DE LOS ANDES. Dpto. de Circuitos y Medidas

    RESUMEN

    Actualmente, la capacidad de acceso y almacenamiento de la información que

    tienen las empresas crece a pasos agigantados pero no así la capacidad para

    asimilarla.

    En este artículo se presentan, a modo introductorio, un estudio de las diferentes

    herramientas informáticas existentes, metodologías y técnicas de minería de datos

    que más se están utilizando en la actualidad para el análisis de la información.

    Mediante éstas herramientas y técnicas se pueden obtener patrones y estructuras

    de información muy valiosas para la industria que pueden ayudar, mediante el

    análisis de los grandes volúmenes de datos de históricos almacenados, a mejorar la

    calidad y reducir los costes de los procesos productivos así como comprender mejor

    las causas que generan fallos en los mismos.

    ABSTRACT

    Nowadays, the business information access and storage capacity grows very fast but

    isn’t the same with the assimilation capacity.

    This paper presents the state of the art of different data mining tools, methodologies

    and techniques for the information analysis.

    Through the manage of this tools and techniques to analyse huge amount of stored

    process data, we can obtain very useful industrial information patterns and structures

    that can help to improve the processes quality and reduce its costs. Also we can

    have a better understanding of failures causes to make suitable decisions.

    359

  • 1. INTRODUCCIÓN

    El desarrollo tecnológico ha aumentado considerablemente la mejora de los

    sistemas de almacenamiento de datos de las empresas. El problema es, que a

    medida que aumenta nuestra capacidad para almacenar y acceder a la información,

    más problemas tenemos para tratarla. Un ejemplo claro lo podemos ver en la

    “revolución” que ha supuesto Internet y en cómo la información que se genera dentro

    de cualquier campo de nuestro interés aumenta considerablemente cada año,

    mientras que a su vez, cada vez nos vemos más incapaces de asimilarla.

    En la industria, igualmente, la preocupación de las empresas por producir “mejor y

    más barato”, la búsqueda constante de reducir “incertidumbre” en el proceso de

    fabricación y el aumento creciente de la información que se tiene de los procesos

    productivos, hace que crezca, cada vez más, la necesidad por analizarla [Castejón

    et al (2001)]. Bien es cierto, que esta necesidad solo aparece cuando la empresa

    tiene un volumen de históricos realmente importante del proceso.

    Por otro lado, lógicamente, el tener un aceptable grado de automatización y

    datawarehouse es requisito indispensable, ya que si no se dispone de la

    infraestructura necesaria para capturar y almacenar convenientemente la

    información, difícilmente se podrá obtener nada de ella [Ordieres (2000)]. Esto

    implica que las empresas, antes de poder mejorar el proceso de producción con la

    minería de datos, deben invertir en mejorar los sistemas de automatización y control

    del mismo de forma que puedan construir una base de datos con históricos del

    proceso completa y de buena calidad.

    Las herramientas de data mining y estadística multivariante son útiles en este

    momento, cuando ya tenemos un volumen de información importante y de buena

    calidad. Los campos de aplicación de estas nuevas técnicas dentro de la industria

    son numerosos: control de calidad, identificación de sistemas, determinación de

    causas en fallos del proceso, detección de anomalías, prevención de fallos,

    modelización de sistemas, obtención de reglas y patrones de comportamiento,

    búsqueda de causas y relaciones entre variables, etc.

    360

  • 2. TÉCNICAS DE MINERÍA DE DATOS

    Como vemos, se puede decir que la minería de datos es un conjunto de

    metodologías y herramientas que mediante el análisis de grandes cantidades de

    datos nos ayudan a obtener patrones de comportamiento o tendencias ocultas que

    pueden ser muy útiles en la toma de decisiones [Mtnez. de Pisón et al (2001)].

    Para alcanzar buenos resultados es necesario comprender que la minería de datos

    no se basa en una metodología estándar y genérica que resuelve todo tipo de

    problemas, sino que consiste en una metodología dinámica e iterativa que va a

    depender del problema planteado, de la disponibilidad de la fuentes de datos, del

    conocimiento de las herramientas necesarias, de la metodología desarrollada y de

    los requerimientos y recursos de la empresa.

    Los que si resulta necesario, es conocer qué técnicas pueden utilizarse en esa

    búsqueda de patrones o tendencias ocultas y qué podemos incluir dentro del área de

    la minería de datos. Realmente, los métodos y técnicas pueden categorizarse en

    diferentes formas [Wang (1999)], aunque muchas de éstas pueden ser asociadas a

    otros campos (estadística, programación evolutiva, etc.) según el uso que se haga

    de ellas. Fundamentalmente se dividen en:

    • Técnicas de Clusterizado: A partir de una base de datos de observaciones, se

    busca agruparlas dentro de un número de clases preestablecidas o no,

    generalmente mediante criterios de distancia o similitud, de forma que las

    observaciones que pertenezcan a una de las clases sean similares entre si y

    distintas con las de otras clases. Algunas técnicas muy utilizadas son: K-

    Means, las Redes SOM (Self Organization Maps), Sistema de clasificación

    automática Bayesiana (Autoclass), Teoría de Resonancia Adaptativa (ART y

    ART2), otro tipo de redes neuronales, etc.

    • Clasificadores: Tratan de buscar unas leyes o patrones que “expliquen”,

    dentro de un cierta “incertidumbre” y partiendo de una base de datos de

    observaciones, el comportamiento de unas variables frente a otras. Se dividen

    fundamentalmente en: generadores de árboles de decisión, generadores de

    reglas, modelos de regresión, redes neuronales, redes funcionales,

    clasificadores bayesianos, algoritmos genéticos, métodos visuales,

    clasificadores fuzzy, etc.

    361

  • • Técnicas de Reducción de Dimensión y Visualización de la Información:

    Tienen como objetivo reducir el número de variables y visualizar la nube de

    puntos N-Dimensionales para poder detectar estructuras o características de

    forma visual. Podemos encontrar en este grupo técnicas muy utilizadas como

    por ejemplo: Análisis de Componentes Principales (PCA), proyector Sammon,

    PCA no lineal, proyector Andrews, Proyección Pursuit, RADVIZ, Gráficos de

    Coordenadas Paralelas, etc.

    Poll

    Data mining tools you regularly use: [967 choices, 551 voters]

    SPSS Clementine (128) 13% Weka (101) 10% SAS (100) 10% CART/MARS (89) 9% SPSS/AnswerTree (76) 8% SAS Enterprise Miner (67) 7% Other commercial tools (65) 7% Other free/open-source tools (57) 6% MATLAB (52) 5% Microsoft SQLServer/Excel (40) 4% Insightful Miner (36) 4% IBM Intelligent Miner (35) 4% KXEN (35) 4% C4.5 / C4.8 (29) 3% Angoss (26) 3% Megaputer Polyanalyst (10) 1% Neuralware (8) 1% Oracle Suite (Darwin) (8) 1% Quadstone (3) 0.3% ThinkAnalytics (2) 0.2%

    Figura 1. Herramienta de Minería de Datos usadas habitualmente (Junio de 2002).

    (http://www.kdnuggets.com/polls/data_mining_tools_2002_june2.htm)

    Algunas de las técnicas descritas anteriormente, pueden ser aplicadas con alguna

    de las herramientas que se describen a continuación (para más detalle consultar [1]).

    3. HERRAMIENTAS INFORMÁTICAS

    En la Figura 1 podemos apreciar, el resultado de una encuesta hecha en el conocido

    portal sobre Minería de Datos y Gestión del Conocimiento, KDnuggets [KDnuggets

    (2002)], donde se pregunta al encuestado sobre la herramienta de Data Mining que

    habitualmente usa.

    362

  • Este tipo de encuesta es particularmente importante, porque nos da una idea de las

    aplicaciones que más están usando los profesionales y nos puede ayudar a decidir

    correctamente cuando tengamos que adquirir uno de estos programas.

    La lista que aparece en la Figura 1 es una pequeña muestra de las múltiples

    aplicaciones que existen en el mercado. De ella destacan programas comerciales

    que forman parte de familias de aplicaciones estadísticas como por ejemplo: SAS

    (SAS, SAS EnterpriseMiner), o SPSS (SPPS Clementine, SPSS AnswerTree) y que

    son preferencia de aquellos que habitualmente trabajan con estos paquetes.

    Figura 2. Ejemplo del programa comercial (PolyAnalyst (www.megaputer.com)).

    Por otro lado, este tipo de aplicaciones comerciales contrastan con otras

    desarrolladas íntegramente en el campo de la Minería de Datos como por ejemplo:

    CART/MARS, IBM-I-Miner, Angoss, Megaputer PolyAnalyst, KXEN, etc.; y que

    fundamentalmente abarcan métodos estadísticos y de visualización combinados con

    algoritmos, bastante eficientes, más propios de Minería de Datos (clasificadores,

    generadores de reglas, clusterizado, etc.).

    Habitualmente, estas herramientas disponen de sus propios entornos gráficos y

    suelen permitir al usuario hacer múltiples tareas, pero siempre acotados a las

    especificaciones de cada aplicación. El grado de eficiencia de cada herramienta

    depende de múltiples factores: tipos de algoritmos, funciones de tratamiento de la

    información, eficiencia de los algoritmos, generadores de informes, formas de pasar

    la información, etc.; aunque generalmente, los primeros de la lista cubren bastante

    bien las expectativas que se espera de ellos. Algunos de ellos, como el que se

    muestra en la Figura 2, pueden ser descargados de la red y evaluados durante un

    corto periodo de tiempo.

    363

  • Por otro lado, en la segunda posición de la lista, se alza la herramienta WEKA. Esta

    aplicación es de libre distribución (licencia GPL) y destaca por la cantidad de

    algoritmos que presenta así como por la eficiencia de los mismos. Esta aplicación

    está desarrollada por miembros de la Universidad de Waikato (Nueva Zelanda) y es

    una muy buena opción, tal y como muestra la encuesta, frente a las costosas

    distribuciones comerciales.

    -4 -2 0 2 4

    010

    0030

    0050

    00

    Distribución de Bobinas con (Error40)

    Theoretical Quantiles

    Sam

    ple

    Qua

    ntile

    s

    Distribución de Bobinas con (Error 40, ]$LARGO

    Freq

    uenc

    y

    0 1000 2000 3000 4000 5000 6000

    05

    1015

    010

    0030

    0050

    00

    Distribución de Bobinas con (Error40)

    0 1000 2000 3000 4000 5000 60000

    e+00

    2 e

    -04

    4 e

    -04

    Distribución de Bobinas con (Error40)

    N = 144 Bandwidth = 148.3

    Den

    sity

    Figura 3. Algunas de múltiples posibilidades que ofrece el programa R para visualización de datos.

    Según nuestra experiencia, hemos obtenido excelentes resultados con las

    herramientas de libre distribución siguientes:

    • R: Herramienta excelente para el análisis de datos basada en el conocido

    programa estadístico S-Plus y con un manejo de las matrices y variables

    equivalente a MATLAB. Este programa es muy útil para el análisis estadístico,

    transformación y manipulación de los datos. Está compuesto de múltiples

    librerías para realizar: gráficos y análisis estadísticos de todo tipo, regresiones

    lineales y no lineales, modelizado, clusterizado, etc.; y sigue en continua

    evolución. Cabe destacar la excelente asesoría técnica (responden las

    364

  • preguntas en pocas horas) llevada a cabo principalmente por algunos de los

    principales profesores e investigadores en estadística del mundo.

    • WEKA: Programa de libre distribución que abarca algoritmos clasificadores de

    todo tipo, generadores de reglas, herramientas de clusterizado, etc. Esta

    aplicación proporciona gran cantidad de herramientas para la realización de

    tareas propias de minería de datos y permite la programación en JAVA de

    algoritmos más sofisticados.

    • SNNS: Aplicación de libre distribución para el desarrollo, entrenamiento y

    testeo de multitud de tipos diferentes de redes neuronales. Muy útil para

    desarrollar clasificadores sofisticados y modelos basados en redes

    neuronales.

    • XmdvTool, Xgobi, IBM-OpenDX, Visipoint: Otras herramientas con licencia

    GPL que tienen diferentes funciones de visualización muy útiles para

    encontrar patrones ocultos en los datos.

    Figura 4. Generación de un árbol con un clasificador del programa WEKA (izquierda) y diagrama de

    coordenadas paralelas realizado con el programa XmdvTool (derecha)

    4. CONCLUSIONES

    Hoy en día, existen herramientas de libre distribución, realmente sorprendentes. Las

    que se acaban de enumerar, y muchas otras, permiten múltiples posibilidades. Los

    programas R y WEKA, usados conjuntamente, no solo se pueden utilizar como

    herramientas de aplicación, sino también, como auténticos entornos de

    programación. Esta característica, como es lógico, unido a que su coste es cero por

    365

  • ser programas con licencia GPL, aporta múltiples ventajas para los campos de

    investigación y docencia en el aprendizaje y desarrollo de la Minería de Datos.

    En este artículo hemos pretendido orientar sobre las técnicas y herramientas más

    adecuadas que existen actualmente en el campo de la minería de datos. Si

    analizamos el creciente aumento en la capacidad de almacenar información y en la

    sensibilidad que tienen las empresas en la mejora de la calidad a partir del análisis

    de la información que se tiene, vemos el increíble potencial futuro que se encierra en

    estas herramientas.

    5. AGRADECIMIENTOS

    Esta comunicación está parcialmente soportada por el contrato del M.C.Y.T. DPI-

    2001-1408, por el Plan Riojano de I+D y por la empresa Metzeler Ibérica S.A.

    Los autores expresan el máximo reconocimiento a las entidades colaboradoras.

    6. REFERENCIAS

    • CASTEJÓN, M.; ORDIERES, J.B.; DE COS, F.J.; MTNEZ DE PISÓN, F.J.

    (2001). Control de Calidad. Metodología para el análisis previo a la modelización

    de datos en procesos industriales. Fundamentos teóricos y aplicaciones prácticas

    con R. Logroño: Universidad de La Rioja. Servicio de Publicaciones.

    • KDDNUGGETS (2002). Dirección Web: http://www.kdnuggets.com. Portal de

    Data Mining, Web Mining & Knowledge Discovery.

    • MTNEZ DE PISÓN, F.J.; ORDIERES, J.B.; CASTEJÓN, M.; DE COS, F.J.;

    PERNÍA, A. (2001) Gestión del Conocimiento y Minería de Datos. Murcia: Actas

    del XVII Congreso Nacional de Ingeniería de Proyectos.

    • ORDIERES, J.B.; CASTEJÓN, M.; DE COS, F.J.; MTNEZ DE PISÓN, F.J. (2000)

    Análisis de la Importancia del Acero en la Condiciones de Laminación en

    Caliente. XIV España: Congreso Nacional de Ingeniería Mecánica.

    • WANG, XUE Z. Data Mining and Knowledge Discovery for Process. (1999).

    London: Springer-Verlag.

    366

  • 7. CORRESPONDENCIA

    Persona de Contacto: Fco. Javier Martínez de Pisón Ascacíbar. Dirección: Edificio Departamental. C/ Luis de Ulloa, 20. 26004 Logroño (La Rioja). Área de Proyectos de Ingeniería. Departamento de Ingeniería Mecánica. Universidad de La Rioja. Teléfonos: 941-299232, 941-299625. Fax: 941-299478. Email: [email protected]

    367