Download - Parte1
Descubrimiento de Conocimiento en Bases de Datos
“Proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y deseablemente entendibles a partir de datos”
proceso: KDD es iterativo, al encontrar información útil en los datos, se realizan mejores preguntas
válido: generalizable para el futuro novedoso: desconocido con anterioridad útil: aplicable, útil para nuestra meta entendible: nos lleva a comprensión
Descubrimiento de Conocimiento en Bases de datos Implícitamente existe una medida
(definida por el usuario), que determina qué tan interesantes pueden ser los patrones.
Existe un pre- y post-procesamiento significativo de datos
La extracción de patrones (minería) de los datos ocupa solo el 15%-20% del esfuerzo total del proceso de KDD
Metas
Procesar automáticamente grandes cantidades de datos crudos,
Identificar los patrones más significativos y relevantes, y
Presentarlos como conocimiento apropiado para satisfacer las metas del usuario.
Areas Relacionadas
KDD es un nuevo campo multidisciplinario
Recono. de patrones
Softcomputing
Aprend.Computa.
EstadísticaBase de datos
Cómputo de altodesempeño
Visualización
KDD
Areas Relacionadas
Tecno. BD y Bodegas de Datos: maneras eficientes de almacenar, accesar y manipular datos
Aprend., estadística, soft computing*: desarrollo de técnicas para extraer conocimiento de datos
Reconocimiento de patrones: desarrollo de herramientas de clasificación
Visualización: interfaz entre humanos y datos/patrones Cómputo de alto desempeño: mejora de desempeño de
algoritmos debido a su complejidad y cantidad de datos
(*) redes neuronales, lógica difusa, algoritmos genéticos, razonamiento probabilístico
Componentes:
InterfaceEvaluación
Extracc.Patrones
BD
ConocimientoDel dominio
InterfaceBD
Control
Foco deAtención
Proceso de KDD
Proceso general de descubrimiento de conocimiento útil a partir de datos
=> KDD involucra interacciones complejas con herramientas heterogéneas.
Proceso de KDD
Proceso general de descubrimiento de conocimiento útil a partir de datos
Tradicionalmente una simple tabla en ASCII Tendencia a Bodegas de Datos que están optimizadas para
proceso analítico Herramientas de KDD pueden incluir mecanismos para
almacenar y accesar datos
Proceso de KDD
Proceso general de descubrimiento de conocimiento útil a partir de datos
Selección de conjunto o subconjunto de bases de datos Selección de subconjunto de variables a usar en DM Seleccción de muestras de datos (instancias)
Proceso de KDD
Proceso general de descubrimiento de conocimiento útil a partir de datos
Limpieza de datos y preprocesamiento Eliminación de ruido y casos extremos (si apropiado y
necesario) Manejo de datos faltantes y desconocidos
Proceso de KDD
Proceso general de descubrimiento de conocimiento útil a partir de datos
Transformación al formato requerido por el algoritmo específico de minería de datos
Proceso de KDD
Proceso general de descubrimiento de conocimiento útil a partir de datos
Búsqueda de patrones de interés en una forma particular de representación
– Pueden expresarse como un modelo, o – Como un patrón que expresa cierta dependencia entre datos
Incluye clasificación, regresión, clustering, r. neuronales...
Proceso de KDD
Proceso general de descubrimiento de conocimiento útil a partir de datos
El modelo:– Su función (clasificación, regresión, clustering, …)– Forma de representarlo (función lineal, conjunto de reglas, …)
Criterio de preferencia– Qué modelo dentro de un conjunto de modelos es el mejor?– Qué conjunto de parámetros del modelo?
Estrategia de búsqueda
Proceso de KDD
Proceso general de descubrimiento de conocimiento útil a partir de datos
Proceso de KDD
Crucial! Interpretación de los patrones descubiertos, puede beneficiarse
grandemente usando visualización Puede borrar patrones redundantes o irrelevantes Los patrones pueden compararse con conocimiento
previamente almacenado (o extraido)
Proceso de KDD
Proceso general de descubrimiento de conocimiento útil a partir de datos
Realizar acciones Incorporar el conocimiento descubierto en un sistema de
desempeño Documentar el conocimiento y reportarlo a personas
interesadas