minería de datos

7
MINERÍA DE DATOS MINERÍA DE DATOS Bajo el nombre de minería de datos se engloban un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico y mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación. PROCESO Un proceso típico de minería de datos parte de la selección del conjunto de datos, tanto en lo que se refiere a las variables dependientes, como a las variables objetivo, como posiblemente al muestreo de los registros disponibles. A continuación se analiza las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos. Como consecuencia de este análisis, al conjunto de datos de entrada se le aplican una serie de transformaciones con el objetivo de prepararlo para aplicar la técnica de minería de datos que mejor se adapte a los datos y al problema. Finalmente se selecciona la técnica de minería, se construye el modelo predictivo, de clasificación o segmentación, y se evalúan los resultados contrastando con un conjunto de datos previamente reservado para validar la generalidad del modelo. Por último, los modelos obtenidos por técnicas de minería de datos se aplican incorporándolos en los sistemas de análisis de información de las empresas, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group, que está estandarizando el lenguaje PMML (Predictive Modelling Markup Language), de manera que los modelos de minería de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de análisis de la información hacen uso de este estándar. Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseñadas para proyectos de minería de datos en las que centralizan información potencialmente útil de todas sus áreas de negocio, etc. 1

Upload: carlos-alberto-yarleque-yarleque

Post on 28-Sep-2015

4 views

Category:

Documents


2 download

DESCRIPTION

Minería de Datos

TRANSCRIPT

MINERA DE DATOSMINERA DE DATOS

Bajo el nombre de minera de datos se engloban un conjunto de tcnicas encaminadas a la extraccin de conocimiento procesable, implcito en las bases de datos.

Las bases de la minera de datos se encuentran en la inteligencia artificial y en el anlisis estadstico y mediante los modelos extrados utilizando tcnicas de minera de datos se aborda la solucin a problemas de prediccin, clasificacin y segmentacin.

PROCESO

Un proceso tpico de minera de datos parte de la seleccin del conjunto de datos, tanto en lo que se refiere a las variables dependientes, como a las variables objetivo, como posiblemente al muestreo de los registros disponibles. A continuacin se analiza las propiedades de los datos, en especial los histogramas, diagramas de dispersin, presencia de valores atpicos y ausencia de datos. Como consecuencia de este anlisis, al conjunto de datos de entrada se le aplican una serie de transformaciones con el objetivo de prepararlo para aplicar la tcnica de minera de datos que mejor se adapte a los datos y al problema. Finalmente se selecciona la tcnica de minera, se construye el modelo predictivo, de clasificacin o segmentacin, y se evalan los resultados contrastando con un conjunto de datos previamente reservado para validar la generalidad del modelo.

Por ltimo, los modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos en los sistemas de anlisis de informacin de las empresas, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group, que est estandarizando el lenguaje PMML (Predictive Modelling Markup Language), de manera que los modelos de minera de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de anlisis de la informacin hacen uso de este estndar.

Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre informacin contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseadas para proyectos de minera de datos en las que centralizan informacin potencialmente til de todas sus reas de negocio, etc.

No obstante, actualmente est cobrando una importancia cada vez mayor la minera de datos desestructurados como informacin contenida en ficheros de texto, en Internet, etc.

EJEMPLOS DE USO DE LA MINERA DE DATOS

El ejemplo clsico aparte de algo rancio y, posiblemente, apcrifo de aplicacin de la minera de datos tiene que ver con la deteccin de hbitos de compra en supermercados. Un estudio muy citado detect que los viernes haba una cantidad inusualmente elevada de clientes que adquiran a la vez paales y cerveza. Se detect que se deba a que dicho da solan acudir al supermercado padres jvenes cuya perspectiva para el fin de semana consista en quedarse en casa cuidando de su hijo y viendo la televisin con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocndolas prximas a los paales para fomentar las ventas compulsivas.

Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas industrias como la banca, las telecomunicaciones, etc. existe un comprensible inters en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes y en funcin de su valor se les podran hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo ltimo de retenerlos. La minera de datos ayuda a determinar qu clientes son los ms proclives a darse de baja estudiando sus patrones de comportamiento y comparndolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado.

Un caso anlogo es el de la deteccin de transacciones de blanqueo de dinero o de fraude en el uso de tarjetas de crdito o de servicios de telefona mvil e, incluso, en la relacin de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones caractersticos que permiten, con cierto grado de probabilidad, distinguirlas de las legtimas y desarrollar as mecanismos para tomar medidas rpidas frente a ellas.Tambin es un rea en boga el del anlisis del comportamiento de los visitantes sobre todo, cuando son clientes potenciales en una pgina de Internet. O la utilizacin de la informacin obtenida por medios ms o menos legtimos sobre ellos para ofrecerles propaganda adaptada especficamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente qu otro ofrecerle teniendo en cuenta la informacin histrica disponible acerca de los clientes que han comprado el primero.

MINERA DE DATOS Y OTRAS DISCIPLINAS ANLOGAS

Suscita cierta polmica el definir las fronteras existentes entre la minera de datos y disciplinas anlogas, como pueden serlo la estadstica, la inteligencia artificial, etc. Hay quienes sostienen que la minera de datos no es sino estadstica envuelta en una jerga de negocios que la conviertan en un producto vendible. Otros, en cambio, encuentran en ella una serie de problemas y mtodos especficos que la hacen distinta de otras disciplinas.El hecho es, que en la prctica la totalidad de los modelos y algoritmos de uso general en minera de datos redes neuronales, rboles de regresin y clasificacin, modelos logsticos, anlisis de componentes principales, etc. gozan de una tradicin relativamente larga en otros campos.

DE LA ESTADSTICA

Ciertamente, la minera de datos bebe de la estadstica, de la que toma las siguientes tcnicas:

Anlisis de varianza, mediante el cual se evala la existencia de diferencias significativas entre las medias de una o ms variables continas en poblaciones distintas. Regresin: define la relacin entre una o ms variables y un conjunto de variables predictoras de las primeras. Prueba chi-cuadrado: por medio de la cual se realiza el contraste la hiptesis de dependencia entre variables. Anlisis de agrupamiento o clustering: permite la clasificacin de una poblacin de individuos caracterizados por mltiples atributos (binarios, cualitativos o cuantitativos) en un nmero determinado de grupos, con base en las semejanzas o diferencias de los individuos. Anlisis discriminante: permite la clasificacin de individuos en grupos que previamente se han establecido, permite encontrar la regla de clasificacin de los elementos de estos grupos, y por tanto una mejor identificacin de cules son las variables que definan la pertenencia al grupo. Series de tiempo: permite el estudio de la evolucin de una variable a travs del tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales.

DE LA INFORMTICA

De la informtica toma las siguientes tcnicas:

Algoritmos genticos: Son mtodos numricos de optimizacin, en los que aquella variable o variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento de informacin. Aquellas configuraciones de las variables de anlisis que obtengan mejores valores para la variable de respuesta, correspondern a segmentos con mayor capacidad reproductiva. A travs de la reproduccin, los mejores segmentos perduran y su proporcin crece de generacin en generacin. Se puede adems introducir elementos aleatorios para la modificacin de las variables (mutaciones). Al cabo de cierto nmero de iteraciones, la poblacin estar constituida por buenas soluciones al problema de optimizacin, pues las malas soluciones han ido descartndose, iteracin tras iteracin. Inteligencia Artificial: Mediante un sistema informtico que simula un sistema inteligente, se procede al anlisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadraran los Sistemas Expertos y las Redes Neuronales. Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prcticas extradas del conocimiento de expertos. Principalmente a base de inferencias o de causa-efecto. Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor ventaja ante nuevas situaciones desconocidas para el experto. Redes neuronales: Genricamente, son mtodos de proceso numrico en paralelo, en el que las variables interactan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con los que tenan que haber salido, basndose en unos datos de prueba, dando lugar a un proceso de retroalimentacin mediante el cual la red se reconfigura, hasta obtener un modelo adecuado.

PROTOCOLO DE UN PROYECTO DE MINERA DE DATOS

Un proyecto de minera de datos tiene varias fases necesarias que son, esencialmente:

Comprensin del negocio y del problema que se quiere resolver Determinacin, obtencin y limpieza de los datos necesarios Creacin de modelos matemticos Validacin, comunicacin, etc. de los resultados obtenidos

Integracin, si procede, de los resultados en un sistema transaccional o similar

La relacin entre todas estas fases slo es lineal sobre el papel. En realidad, es mucho ms compleja y esconde toda una jerarqua de subfases. A travs de la experiencia acumulada en proyectos de minera de datos se han ido desarrollando metodologas que permiten gestionar esta complejidad de una manera ms o menos uniforme. Ejemplos de ellas son CRISP-DM y SEMMA.

TENDENCIAS

La Minera de Datos ha sufrido transformaciones en los ltimos aos de acuerdo con cambios tecnolgicos, de estrategias de marketing, la extensin de los modelos de compra en lnea, etc. Los ms importantes de ellos son:

La importancia que han cobrado los datos no estructurados (texto, pginas de Internet, etc.) La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc. La exigencia de que los procesos funcionen prcticamente en lnea (por ejemplo, que frente a un fraude con una tarjeta de crdito, sta pueda ser cancelada casi al instante)

MINERA DE DATOS BASADA EN TEORA DE LA INFORMACIN

Todas las herramientas tradicionales de minera de datos asumen que los datos que usarn para construir los modelos contienen la informacin necesaria para lograr el propsito buscado: obtener suficiente conocimiento que pueda ser aplicado al negocio para obtener un beneficio.El problema es que esto no necesariamente es cierto. Adems, existe otro problema mayor an. Una vez construido el modelo no es posible conocer si el mismo ha capturado toda la informacin disponible en los datos. Por esta razn la prctica comn es realizar varios modelos con distintos parmetros para ver si alguno logra mejores resultados.

Un relativamente nuevo enfoque al anlisis de datos soluciona estos problemas haciendo que la prctica de la minera de datos se parezca ms a una ciencia que a un arte.

En 1948 Claude Shannon public un trabajo llamado Una Teora Matemtica de la Comunicacin. Posteriormente esta pas a llamarse Teora de la Informacin y sent las bases de la comunicacin y la codificacin de la informacin. Shannon propuso una manera de medir la cantidad de informacin a ser expresada en bits.En 1999 Dorian Pyle public un libro llamado Data Preparation for Data Mining en el que propone una manera de usar la Teora de la Informacin para analizar datos. En este nuevo enfoque, una base de datos es un canal que transmite informacin. Por un lado est el mundo real que captura datos generados por el negocio. Por el otro estn todas las situaciones y problemas importantes del negocio. Y la informacin fluye desde el mundo real y a travs de los datos, hasta la problemtica del negocio.

Con esta perspectiva y usando la Teora de la Informacin, es posible medir la cantidad de informacin disponible en los datos y qu porcin de la misma podr utilizarse para resolver la problemtica del negocio. Como un ejemplo prctico, podra encontrarse que los datos contienen un 65% de la informacin necesaria para predecir qu cliente rescindirn sus contratos. De esta manera, si el modelo final es capaz de hacer predicciones con un 60% de acierto, se puede asegurar que la herramienta que gener el modelo hizo un buen trabajo capturando la informacin disponible. Ahora, si el modelo hubiese tenido un porcentaje de aciertos de solo el 10%, por ejemplo, entonces intentar otros modelos o incluso con otras herramientas podra valer la pena.

La capacidad de medir informacin contenida en los datos tiene otras ventajas importantes.

Al analizar los datos desde esta nueva perspectiva se genera un mapa de informacin que hace innecesario la preparacin previa de los datos, una tarea absolutamente imprescindible si se desea buenos resultados, pero que lleva enorme cantidad de tiempo.

Es posible seleccionar un grupo de variables ptimo que contenga la informacin necesaria para realizar un modelo de prediccin.

Una vez que las variables fueron procesadas con el fin de crear el mapa de informacin y luego seleccionadas aquellas que aportan la mayor informacin, la eleccin de la herramienta que se usar para crear el modelo deja de tener importancia, ya que el mayor trabajo fue realizado en los pasos previos.

VASE TAMBIN

Minera de textos Minera de datos espacial Data warehousing o Almacenamiento de datos Inteligencia Empresarial Estadstica Web mining Sistemas de informacin ejecutiva Sistemas de soporte a decisiones Almacn operacional de los datos

ENLACES EXTERNOS

Monogrfico sobre Data Minig Program de Minera de Datos, University of Central Florida Tutorial de Data mining y su relacin con otros conceptos de Business Intelligence Minera de Datos (tutoriales) Cursos de Minera de Datos Red Espaola de Minera de Datos Artculo para Principiantes Minera de datos Tesis que describe plan para enfocar campaas bancarias utilizando minera de datos Minera de Datos en Dataprix WEKA: Software libre, licencia GPL, escrito en lenguaje Java, que incluye una gran variedad de algoritmos de minera de datos, fundamentalmente de clasificacin Data Time Minera de textos Organizacin de Categoras por pas* Minera de datos en la Blaa Manual de Business Intelligence (en espaol) Diseo de variables en bases de datos multidimensionales(en espaol)

1