capítulo v minería de datos

Report

Post on 12-Jul-2015

267 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Minera de Datos

ndice

IntroduccinPreprocesado

Modelos descriptivosModelos predictivos

Validacin

ndice

IntroduccinPreprocesado

Modelos descriptivosModelos predictivos

Validacin

Aproximacin

Una visin simplificada de la minera de datos

Datos

Minera de datos

Modelos

Los modelos son el producto de la minera de datos... ...y dan soporte a las estrategias de decisin que se tomen

Datos y Modelos => Conocimiento

Los datos se obtienen de:

Modelos descriptivos: identificanpatrones que explican o resumen los datos

Bases de datos (relacionales, espaciales, temporales, documentales, multimedia, etc) World Wide Web

Reglas de asociacin: expresan patrones decomportamiento en los datos

Clustering: agrupacin de casos homogneos

Modelos predictivos: estiman valores devariables de inters (a predecir) a partir de valores de otras variables (predictoras)

Regresin: Variable a predecir continua Clasificacin supervisada: Variable apredecir discreta

Definiciones

Data Mining (Minera de datos)

Proceso de extraer conocimiento util y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos (Witten and Frank, 2000)

Knowledge Discovery in Databases - KDD (Descubrimiento de Conocimiento en Bases de Datos)

Proceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y, en ltima instancia, comprensibles, a partir de los datos (Fayyad y col. 1996)

Estadstica vs Minera de datosEs tadis ticaCon s t r u ccin d e m od elos Scor e B s q u ed a Tr an s p ar en cia Valid acin Seleccin d e var iab lesCe id o a p r em is a s y t e or e m a s Ver os im ilit u d d e los d a t os d a d o el m od elo Tes t d e la r a z n d e la ver os im ilit u d M s co m p lica d os d e in t er p r et a r No Filt er

Mine ria de dato sMa yor lib er t a d e n la con s t r u ccin , in t er p r et a b le M s d ir ect o, PBC p or eje m p lo Met a h eu r s t icos M s cla r os y s en cillos S Wr a p p er

OLAP vs Minera de datos

OLAP (On Line Analytical Processing) o FASMI (Fast Analysis ofShared Multidimensional Information)

OLAPCu l es la p r op or cin m ed ia d e accid en t es en t r e fu m ad or es y n o fu m ad or es ? Cu l es la fact u r a t elefn ica m ed ia d e m is clien t es y d e los q u e h an d ejad o la com p a ia? Cu n t o es la com p r a m ed ia d iar ia d e t ar jet as r ob ad as y legt im as ?

Mine ra de dato sCu l es la m ejor p r ed iccin p ar a accid en t es ?

Dejar a X la com p a ia? Qu fact or es afect an a los ab an d on ad os ? Cu les s on los p at r on es d e com p r a as ociad os con el fr au d e d e t ar jet as ?

Aplicaciones

FinancierasComercio

SegurosEducacin

MedicinaBioinformtica

Otras reas

Ejemplo (I)Agente comercial: Debo conceder una hipoteca a un cliente?

Datos:

Minera de datosModelo generado:

If Defaulter-accounts > 0 then Returns-credit = no If Defaulter-accounts = 0 and [(Salary > 2500) or (Credit-p > 10)] then Returns-credit = yes

Ejemplo (II)Supermercado: Cundo los clientes compran huevos, tambin compran aceite?

Datos:

Minera de datosModelo generado:

Eggs -> Oil: Confianza = 75%, Soporte = 37%

Ejemplo (III)Gestin de personal de una empresa: Qu clases de empleados hay contratados?

Datos:

Minera de datosModelo generado:Grupo 1: Sin nios y en una casa alquilada. Bajo nmero de uniones. Muchos das enfermos Grupo 2: Sin nios y con coche. Alto nmero de uniones. Pocos das enfermos. Ms mujeres y en una casa alquilada Grupo 3: Con nios, casados y con coche. Ms hombres y normalmente propietarios de casa. Bajo nmero de uniones

Ejemplo (IV)Tienda de TV: Cuntas televisiones planas se vendern el prximo mes?

Datos:

Minera de datosModelo generado:

Modelo lineal: nmero de televisiones para el prximo mesV(month)flatTV = 0.62 V(Month-1)flat-TV + 0.33 V(Month-2)flat-TV + 0.12 V(Month-1)DVD-Recorder 0.05

CRISP-DM

KDD

La minera de datos se encuadra dentro de un proceso mucho mayor conocido como KDD (Knowledge Discoveryfrom Databases)

Fases del proceso iterativo e interactivo1. Integracin y recopilacin de datos 2. Seleccin, limpieza y transformacin 3. Minera de datos 4. Evaluacin e interpretacin

5. Difusin y uso

KDD Knowledge Discovery in Databases

Fase 1

Integracin y recopilacin de datos

Decisiones estratgicas basadas en el anlisis, la planificacin y la prediccin: datos en varios departamentos Cada fuente de datos distintos formatos de registro, diferentes grados de agregacin, diferentes claves primarias, .... Integracin de mltiples bases de datos: almacenes de datos (data warehousing) Almacn de datos aconsejable cuando el volumen de informacin es grande. No estrictamente necesario (archivos de texto, hojas de clculo, ...)

Fase 2

Seleccin, limpieza y transformacin

Calidad del conocimiento descubierto depende (adems del algoritmo de minera) de la calidad de los datos analizados Presencia de datos que no se ajustan al comportamiento general de los datos (outliers) Presencia de datos perdidos (missing values) Seleccin de variables relevantes (feature subset selection) Seleccin de casos aleatoria en bases de datos de tamao ingente Construccin de nuevas variables que faciliten el proceso de minera de datos Discretizacin de variables continuas

Fase 3

Minera de datos

Modelos descriptivos

Reglas de asociacin Clustering

Modelos predictivos

Regresin: regresin lineal, regresin logsticaClasificacin supervisada: clasificadores Bayesianos, redes neuronales, rboles de clasificacin, induccin de reglas, KNN, combinacin de clasificadores

Fase 4

Evaluacin e interpretacin

Tcnicas de evaluacin: validacin simple (training + test), validacin cruzada con k-fold, bootstrap Reglas de asociacin: cobertura (soporte), confianza Clustering: variabilidad intra y entre Regresin: error cuadrtico medio

Clasificacin supervisada: porcentaje de bien clasificados, matriz de confusin, anlisis ROCModelos precisos, comprensibles (inteligibles) e interesantes (tiles y novedosos)

Fase 5

Difusin y uso

Difusin: necesario distribuir, comunicar a los posibles usuarios, integrarlo en el know-how de la organizacin Medir la evolucin del modelo a lo largo del tiempo (patrones tipo pueden cambiar) Modelo debe cada cierto tiempo de ser:

Reevaluado Reentrenado Reconstruido

Herramientas

Weka, Clementine, etc.Knime. KoNstanz Information MinEr

Flujo de datos utilizando nodosConexin con otras aplicaciones Ampliacin de nodos

Knime

ndice

IntroduccinPreprocesado

Modelos descriptivosModelos predictivos

Validacin

Datos

La parte ms importante de la minera de datos, son precisamente, los datosAdems de su obtencin, uno de los pasos ms importantes es el preprocesado Diversas tcnicas segn la necesidad

Obtencin de datos en Knime

Representacin de datos en Knime

Missing values

Es posible que los mtodos a utilizar no traten bien los campos con valores faltantes (missing values)Hay que detectarlos y tratarlos Ignorar, eliminar columna, filtrar fila, reemplazar el valor, etc.

Missing values en Knime

Discretizacin

Consiste en la conversin de un valor numrico en un valor nominal ordenado que representa un intervaloEn ciertas tcnicas de clasificacin es necesario que todos los datos sean discretos

Discretizacin en Knime

Numerizacin

Es el proceso inverso a la discretizacinPasar valores nominales a numricos

Es menos comnHay dos tipos:

Numerizacin 1 a nNumerizacin 1 a 1

Numerizacin en Knime

ndice

IntroduccinPreprocesado

Modelos descriptivosModelos predictivos

Validacin

Tareas descriptivas

Agrupamiento (clustering)Correlaciones y factorizaciones

Reglas de asociacinDependencias funcionales

Deteccin de valores e instancias anmalas

Tabla de mtodosNo m b re Agru p am ien t o Re d es n eu ro n ales rb o les d e d ecis i n ID3 , C4 .5 , C5 .0 rb o les d e d ecis i n CART Ot ro s rb o les d e d ecis i n Re d es d e Ko h o n en Regres i n lin eal y lo gart m ica Regres i n lo gs t ica Km ean s Ap rio ri Naive Bayes Vecim o s m s p r xim o s An lis is fact o rial y d e co m p . p r in cip ales Two s t ep , Co b web Algo rit m o s gen t ico s y evo lu t ivo s Mq u in as d e vect o res s o p o rt e CN2 ru les (co b ert u ra) An lis is d is crim in a n t e m u lt ivar ia n t e X X X X X X X X X X X X X X X X DESCRIPTIVO Reglas d e as o ciaci n Co rrelacio n es / Fact o riz acio n es

Clasificacin no supervisada

Datos: parte de un conjunto de datos u objetos cada uno caracterizado por varias variables

Se trata de obtener grupos de objetos

Clustering

Dados unos datos sin etiquetar, el objetivo es encontrar grupos naturales de instancias

a) Particional

b) Jerrquico

Tipos de clustering

Clustering particional

Particin de los objetos en grupos o clusters. Todos los objetos pertenecen a alguno de los k clusters, los cuales son disjuntos. Problema => eleccin de k

Clustering ascendente jerrquico

Crear un dendograma, es decir, crear un conjunto de agrupaciones anidadas hasta construir un rbol jerrquico

K-medias

Mtodo ms utilizado de clustering particionalLa idea es situar los prototipos o centros en el espacio, de forma que los datos pertenecientes al mismo prototipo tengan caractersticas similares Los datos se asignan a cada centro segn la menor distancia, normalmente usando la distancia eucldea Una vez introducidos todos los datos, se desplazan los prototipos hasta el centro de masas de su nuevo conjunto, esto se repite hasta que no se desplazan ms.

K-medias en Knime

Jerrquico

Dependiendo de la manera de construir el rbol:

Aglomerativos: hojas -> raz Divisivos: raz -> hojas

Dependiendo de cmo se calcule la distancia de enlace entre grupos:

Enlace simpleEnlace completo Enlace en la media

Clustering jerrquico en Knime

ndice

IntroduccinPreprocesado

Modelos descriptivosModelos predictivos

Validacin

Tareas predictivas

ClasificacinClasificacin suave

Estimacin de probabilidad de clasificacinCategorizacin

Preferencia o priorizacinRegresin

Tabla de mtodosNom b r e Red es n eu r on ales r b oles d e d ecis in ID3 , C4 .5 , C5 .0 r b oles d e d ecis in CART Otr os r b oles d e d ecis in Red es d e Koh on en Regr es in lin eal y logar tm ica Regr es in logs tica Km ean s Ap r ior i Naive Bayes Vecim os m s p r xim os An lis is factor ial y d e com p . p r in cip ales Twos tep , Cob web Algor itm os gen ticos y evolu tivos Mq u in as d e vector es s op or te CN2 r u les (cob er tu r a) An lis is d is cr im in an te m u ltivar ian te X X X X X X X X X X X DESCRIPTIVO Clas ificacin X X X X X X Regr es in X

Clasificacin supervisada

Datos: N objetos con n+1 variables (n predictoras + clase)

Inducir automaticamente un modelo clasificatorio

Paradigmas de clasificacin supervisada

Arboles de clasificacion (Quinlan, 1986; Breiman y col. 1984) Clasificadores kNN (Covert y Hart, 1967; Dasarathy, 1991) Regresion logstica (Hosmer y Lemeshow, 1989)

Mtodos Bayesianos (Mitchell, 1997)Sistemas clasificadores (Holland, 1975) Redes neuronales (McCulloch y Pitts, 1943) Induccin de reglas (Clark y Nibblet, 1989; Cohen, 1995; Holte, 1993) Mquinas de soporte vectorial (Cristianini y ShaweTaylor, 2000) Anlisis discriminante (Fisher, 1936)

rboles de clasificacin

Mtodo ms facil de utilizar y de entenderConjunto de condiciones organizadas en una estructura jerrquica Las opciones posibles a partir de una condicin son excluyentes ID3, C4.5, C5.0, CART, etc.

Mtodos bayesianos

Basados en la teora de la probabilidad (teorema de Bayes)Nave Bayes es el clasificador principal Uso de redes bayesianas

Se usan en tareas descriptivas y predictivas

Clasificadores k-NN

Se asigna la clase mayoritaria entre los k vecinos ms proximosSe utiliza una funcin distancia Problema: Establecer un valor de k adecuado

Cuando se asigna la clase del ejemplo ms prximo solamente, es 1-NN

Clasificacin en Knime

ndice

IntroduccinPreprocesado

Modelos descriptivosModelos predictivos

Validacin

Tipos de validacin

Validacin interna

Es en la que se aprende, clasifica y valida con los datos de un mismo conjunto

Validacin externa

Se aprende un modelo con un conjunto de datos, y se valida con unos datos que no han sido empleados en el aprendizaje

Hold-out

Separar los datos disponibles en dos subconjuntos de datos: training set (para aprender un modelo) y test set (el resto de los datos) Se calcula la accuracy sobre el test set para estimar el error del modelo obtenido con el training set

K-fold-Cross-Validation

Se particiona aleatoriamente en k subconjuntos el conjunto de datos disponible.Para cada uno de los subconjuntos obtenidos, se utilizar de test set para evaluar el modelo obtenido con el resto de subconjuntos Se realiza la media de las evaluaciones realizadas para obtener el resultado final

Leave one out

Se deja una instancia de los datos como test set y se aprende con el resto del conjuntoEste proceso se repite para cada instancia Se obtiene el resultado final realizando la media de todas las ejecuciones

0.632 Bootstrap

Se divide en dos partes

Se aprende y se valida con el mismo conjunto de datos N iteraciones de:

Se seleccionan con reemplazo el mismo nmero de instancias que se tengan del conjunto de datos inicialSe utiliza el conjunto de datos creado como training set y se evalua con el conjunto formado por las instancias que no han sido seleccionadas en el paso anterior Se obtiene la media de las N iteraciones

Resultado final: e = 0.632xEresubstitution + 0.368xEiteraciones

Validacin en Knime

Bootstrap en Knime

top related

capítulo v minería de datos

Documents

v simposio minería y metalurgia (minimetal) min5-p20...

biorremediación capítulo v

v congreso internacional de minería, petróleo y energía

capítulo v (diencefalo)

indice capítulo v

lectura capítulo v

capítulo v metodología

capítulo v - core

capítulo v – 1812

capítulo 4-minería, minerales y desarrollo sustentable en...

minería emergente v.3

capítulo i v

capÍtulo v resultados

capítulo v. otros

v - capÍtulo 2

capítulo v. acción

capÍtulo v anualidades

capítulo v cointegración

capÍtulo v diseÑo

capítulo v - usta