Download - Ex Posicion We Ka
-
8/18/2019 Ex Posicion We Ka
1/30
MINERIA DE DATOS
CON WEKA
PRESENTADO POR
•Maria Rosa Díaz
-
8/18/2019 Ex Posicion We Ka
2/30
¿Minería de Datos?
Objetivo de la Minería de Datos
¿Para
que sirve la Minería de Datos?
El proceso de KDD Fases del KDD
Que es WEKA?
Historia de WEKA
Interfaz
Uso Básico de WEKA.
Conclusiones.
-
8/18/2019 Ex Posicion We Ka
3/30
• En (Clark P., 2000), se define la minería de datos como el proceso de extraer
conocimiento útil y comprensible, previamente desconocido, desde grandes
cantidades de datos almacenados en distintos formatos.
• A partir del análisis de los datos podemos conocer a los clientes, optimizar
las comunicaciones, explicar el pasado buscando anticipar y predecir
comportamientos futuros con datos almacenados en las bases de datos.
-
8/18/2019 Ex Posicion We Ka
4/30
• Sobre el objetivo de la Minería de DatosHernández, Ramírez y Ferri sostienen “De una
manera simplista pero ambiciosa podríamos
decir que el objetivo de la minería de datos es
convertir datos en conocimiento”
(2004, p. 6)
• Estos es, pasar de tener un conjunto de datos
aislados, a convertirlos en información, luego en
conocimiento, el conocimiento en inteligencia, yesa inteligencia en rentabilidad
-
8/18/2019 Ex Posicion We Ka
5/30
Básicamente, el DATAMINING surge para intentar ayudar a
comprender el contenido de una base de datos.
De forma general, los datos son la materia prima bruta.
En el momento que el usuario les atribuye algún significado especial
pasan a convertirse en información.
Cuando los especialistas elaboran o encuentran un modelo, haciendo
que la interpretación que surge entre la información y ese modelo
represente un valor agregado, entonces nos referimos al
conocimiento(Knowledge Data Discovery (KDD).
-
8/18/2019 Ex Posicion We Ka
6/30
AREAS DE APLICACION
• Ámbitos financieros y
de negocios
• Salud
• Sistemas informáticos
• Ciencia
-
8/18/2019 Ex Posicion We Ka
7/30
EJEMPLOS
En los negocios
Los hábitos de compra en los
supermercados
Los fraudes
Los recursos humanos
El comportamiento por Internet
El terrorismo
La ciencia y la ingeniería
-
8/18/2019 Ex Posicion We Ka
8/30
Fuente: Hernández, Ramírez y Ferri . Introducción a la Minería de Datos, Madrid, pág.. 13
-
8/18/2019 Ex Posicion We Ka
9/30
Fuente: Hernández, Ramírez y Ferri . Introducción a la Minería de Datos, Madrid, pág.. 20
-
8/18/2019 Ex Posicion We Ka
10/30
1. Orange:
2. RapidMiner
3. WEKA
4. JHepWork
5. KNIME
-
8/18/2019 Ex Posicion We Ka
11/30
-
8/18/2019 Ex Posicion We Ka
12/30
• En 1993, la Universidad de Waikato en Nueva Zelanda,inició el desarrollo de la versión original de WEKA.
• En 1997 se decidió escribir su código en java,
adicionándole la implementación de nuevos algoritmos de
modelado.• En el 2005, WEKA recibe el galardón “Data Mining
and Knowledge Discovery Services” (Servicios de
Minería de Datos y Descubrimiento del Conocimiento),
por parte de ACM.• En 2006 Pentaho Corporation adquirió una licencia
exclusiva para usar WEKA en Inteligencia de Negocios
-
8/18/2019 Ex Posicion We Ka
13/30
Explorer: Entorno visual que ofreceuna interfaz gráfica para el uso de los
paquetes.
Experimenter: Entorno centrado en laautomatización de tareas de manera que
se facilite la realización de experimentos agran escala.
KnowledgeFlow: Permite generarproyectos de minería de datos mediante la
generación de flujos de información.
Simple CLI: Entorno consola para
invocar directamente con java a lospaquetes de weka
-
8/18/2019 Ex Posicion We Ka
14/30
Fichas del modo Explorer:Preprocess:Selección de la fuente de
datos y preparación para el filtrado.
Classification: Facilidades para
aplicar esquemas de clasificación y
regresión, entrenar modelos y evaluar
supervisión.
Cluster: Integra varios métodos de
agrupamiento.
Associate: Incluye unas pocas
técnicas de reglas de negocio.
Select Attributes: Búsqueda
supervisada de subconjuntos de datos
representativos..
Visualice: En este apartado podemos
estudiar el comportamiento de losdatos mediante técnicas de
visualización.
Selección de la fuente de
datos y peparación (filtrado
-
8/18/2019 Ex Posicion We Ka
15/30
• Para dar explicación al funcionamiento de la herramientase utilizara el fichero de datos titanic.arff : Corresponde a
las características de los 2.201pasajeros del Titanic.
• Se consideraran cuatro variables:
• clase (0 = tripulación, 1 = primera, 2 = segunda, 3 = tercera),• edad (1 = adulto, 0 = niño)
• sexo (1 = hombre, 0 = mujer)
• sobrevivió (1 = sí, 0 = no).
-
8/18/2019 Ex Posicion We Ka
16/30
Secuencia de Operaciones
Selección de
Filtros para
los datos
Desglose del
atributo
seleccionado
Estadística
de los datos
Nombres de
los atributos
-
8/18/2019 Ex Posicion We Ka
17/30
-
8/18/2019 Ex Posicion We Ka
18/30
Elección del
Clasificador
Opciones
adicionales para
hacer el test,
Comienza la
construcción del
clasificador
Porcentaje demasiado optimista, no conviene usarlo
Selección de test distintos del entrenamiento.
Porcentaje de registros a ser utilizados
Porcentaje de acierrtos esperados
-
8/18/2019 Ex Posicion We Ka
19/30
-
8/18/2019 Ex Posicion We Ka
20/30
-
8/18/2019 Ex Posicion We Ka
21/30
-
8/18/2019 Ex Posicion We Ka
22/30
-
8/18/2019 Ex Posicion We Ka
23/30
-
8/18/2019 Ex Posicion We Ka
24/30
Resultados.
-
8/18/2019 Ex Posicion We Ka
25/30
Recomendaciones de
información de la
relación de todos los
registros que ingresamos
-
8/18/2019 Ex Posicion We Ka
26/30
Variable que nos recomienda
Elegir variable mas
influyente
Método
Algoritmo Evaluador
Determinar cuales son los atributos mas
relevantes, para saber cual es la variable
mas influyente en todo el proceso.
-
8/18/2019 Ex Posicion We Ka
27/30
Definición de tamaño de las
graficas.
Muestra gráficamente la
distribución de todos los
atributos, representando en
los ejes todos los pares de
combinación de los atributos,
nos permite ver
correlaciones y asociaciones
entre atributos de forma
grafica.
-
8/18/2019 Ex Posicion We Ka
28/30
La minería de datos es muy importante dentro del proceso global de extracción de datosocultos, previamente desconocidos y potencialmente útiles (KDD), por lo cual merece una
gran atención y estudio por parte de aquellos quienes tienen la oportunidad de aplicar su
concepto y llevar a cabo el proceso de minería de datos dentro de las organizaciones.
La información que sale como resultado de este proceso es clave o principal, la cual al ser
bien manejada e interpretada puede aplicarse como apoyo al proceso de toma de
decisiones en una empresa.
Weka es una herramienta robusta, excelente a la hora de realizar implementaciones de
minería de datos con sus diferentes técnicas y múltiples algoritmos existentes, sin
embargo la capacidad que provee WEKA en el análisis de patrones de información la
convierte en una excelente herramienta de apoyo en la toma de decisiones.
-
8/18/2019 Ex Posicion We Ka
29/30
•Harjinder S. Gill, P. C. (1996). Data Warehousing "La integracion de la informacion para la mejor
oma de decisiones". Mexico D.F., Mexico: Prentice Hall Hispanoamericaba.
•Machine Learning Group at the University of Waikato. Weka 3: Data Mining Software in Java;
[Citado 2014 Enero 3] Disponible en: http://www.cs.waikato.ac.nz/ml/weka/•http://www.ing.unlpam.edu.ar/home/archivos/mineria_datos.pdf
•Clark P., B. (2000). Data Minning, Practical Machine Learning Tools and Techniques with Java
mplementations. Morgan Kaufmann Publishers.
•Harjinder S. Gill, P. C. (1996). Data Warehousing "La integracion de la informacion para la mejor
oma de decisiones". Mexico D.F., Mexico: Prentice Hall Hispanoamericaba.
•Ramirez, J. H. (2004). Introduccion a la Mineria de Datos. Madrid: Pearson Prentice Hall.
http://www.cs.waikato.ac.nz/ml/weka/http://www.cs.waikato.ac.nz/ml/weka/
-
8/18/2019 Ex Posicion We Ka
30/30