capítulo v minería de datos
Post on 12-Jul-2015
267 Views
Preview:
TRANSCRIPT
Minera de Datos
ndice
IntroduccinPreprocesado
Modelos descriptivosModelos predictivos
Validacin
ndice
IntroduccinPreprocesado
Modelos descriptivosModelos predictivos
Validacin
Aproximacin
Una visin simplificada de la minera de datos
Datos
Minera de datos
Modelos
Los modelos son el producto de la minera de datos... ...y dan soporte a las estrategias de decisin que se tomen
Datos y Modelos => Conocimiento
Los datos se obtienen de:
Modelos descriptivos: identificanpatrones que explican o resumen los datos
Bases de datos (relacionales, espaciales, temporales, documentales, multimedia, etc) World Wide Web
Reglas de asociacin: expresan patrones decomportamiento en los datos
Clustering: agrupacin de casos homogneos
Modelos predictivos: estiman valores devariables de inters (a predecir) a partir de valores de otras variables (predictoras)
Regresin: Variable a predecir continua Clasificacin supervisada: Variable apredecir discreta
Definiciones
Data Mining (Minera de datos)
Proceso de extraer conocimiento util y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos (Witten and Frank, 2000)
Knowledge Discovery in Databases - KDD (Descubrimiento de Conocimiento en Bases de Datos)
Proceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y, en ltima instancia, comprensibles, a partir de los datos (Fayyad y col. 1996)
Estadstica vs Minera de datosEs tadis ticaCon s t r u ccin d e m od elos Scor e B s q u ed a Tr an s p ar en cia Valid acin Seleccin d e var iab lesCe id o a p r em is a s y t e or e m a s Ver os im ilit u d d e los d a t os d a d o el m od elo Tes t d e la r a z n d e la ver os im ilit u d M s co m p lica d os d e in t er p r et a r No Filt er
Mine ria de dato sMa yor lib er t a d e n la con s t r u ccin , in t er p r et a b le M s d ir ect o, PBC p or eje m p lo Met a h eu r s t icos M s cla r os y s en cillos S Wr a p p er
OLAP vs Minera de datos
OLAP (On Line Analytical Processing) o FASMI (Fast Analysis ofShared Multidimensional Information)
OLAPCu l es la p r op or cin m ed ia d e accid en t es en t r e fu m ad or es y n o fu m ad or es ? Cu l es la fact u r a t elefn ica m ed ia d e m is clien t es y d e los q u e h an d ejad o la com p a ia? Cu n t o es la com p r a m ed ia d iar ia d e t ar jet as r ob ad as y legt im as ?
Mine ra de dato sCu l es la m ejor p r ed iccin p ar a accid en t es ?
Dejar a X la com p a ia? Qu fact or es afect an a los ab an d on ad os ? Cu les s on los p at r on es d e com p r a as ociad os con el fr au d e d e t ar jet as ?
Aplicaciones
FinancierasComercio
SegurosEducacin
MedicinaBioinformtica
Otras reas
Ejemplo (I)Agente comercial: Debo conceder una hipoteca a un cliente?
Datos:
Minera de datosModelo generado:
If Defaulter-accounts > 0 then Returns-credit = no If Defaulter-accounts = 0 and [(Salary > 2500) or (Credit-p > 10)] then Returns-credit = yes
Ejemplo (II)Supermercado: Cundo los clientes compran huevos, tambin compran aceite?
Datos:
Minera de datosModelo generado:
Eggs -> Oil: Confianza = 75%, Soporte = 37%
Ejemplo (III)Gestin de personal de una empresa: Qu clases de empleados hay contratados?
Datos:
Minera de datosModelo generado:Grupo 1: Sin nios y en una casa alquilada. Bajo nmero de uniones. Muchos das enfermos Grupo 2: Sin nios y con coche. Alto nmero de uniones. Pocos das enfermos. Ms mujeres y en una casa alquilada Grupo 3: Con nios, casados y con coche. Ms hombres y normalmente propietarios de casa. Bajo nmero de uniones
Ejemplo (IV)Tienda de TV: Cuntas televisiones planas se vendern el prximo mes?
Datos:
Minera de datosModelo generado:
Modelo lineal: nmero de televisiones para el prximo mesV(month)flatTV = 0.62 V(Month-1)flat-TV + 0.33 V(Month-2)flat-TV + 0.12 V(Month-1)DVD-Recorder 0.05
CRISP-DM
KDD
La minera de datos se encuadra dentro de un proceso mucho mayor conocido como KDD (Knowledge Discoveryfrom Databases)
Fases del proceso iterativo e interactivo1. Integracin y recopilacin de datos 2. Seleccin, limpieza y transformacin 3. Minera de datos 4. Evaluacin e interpretacin
5. Difusin y uso
KDD Knowledge Discovery in Databases
Fase 1
Integracin y recopilacin de datos
Decisiones estratgicas basadas en el anlisis, la planificacin y la prediccin: datos en varios departamentos Cada fuente de datos distintos formatos de registro, diferentes grados de agregacin, diferentes claves primarias, .... Integracin de mltiples bases de datos: almacenes de datos (data warehousing) Almacn de datos aconsejable cuando el volumen de informacin es grande. No estrictamente necesario (archivos de texto, hojas de clculo, ...)
Fase 2
Seleccin, limpieza y transformacin
Calidad del conocimiento descubierto depende (adems del algoritmo de minera) de la calidad de los datos analizados Presencia de datos que no se ajustan al comportamiento general de los datos (outliers) Presencia de datos perdidos (missing values) Seleccin de variables relevantes (feature subset selection) Seleccin de casos aleatoria en bases de datos de tamao ingente Construccin de nuevas variables que faciliten el proceso de minera de datos Discretizacin de variables continuas
Fase 3
Minera de datos
Modelos descriptivos
Reglas de asociacin Clustering
Modelos predictivos
Regresin: regresin lineal, regresin logsticaClasificacin supervisada: clasificadores Bayesianos, redes neuronales, rboles de clasificacin, induccin de reglas, KNN, combinacin de clasificadores
Fase 4
Evaluacin e interpretacin
Tcnicas de evaluacin: validacin simple (training + test), validacin cruzada con k-fold, bootstrap Reglas de asociacin: cobertura (soporte), confianza Clustering: variabilidad intra y entre Regresin: error cuadrtico medio
Clasificacin supervisada: porcentaje de bien clasificados, matriz de confusin, anlisis ROCModelos precisos, comprensibles (inteligibles) e interesantes (tiles y novedosos)
Fase 5
Difusin y uso
Difusin: necesario distribuir, comunicar a los posibles usuarios, integrarlo en el know-how de la organizacin Medir la evolucin del modelo a lo largo del tiempo (patrones tipo pueden cambiar) Modelo debe cada cierto tiempo de ser:
Reevaluado Reentrenado Reconstruido
Herramientas
Weka, Clementine, etc.Knime. KoNstanz Information MinEr
Flujo de datos utilizando nodosConexin con otras aplicaciones Ampliacin de nodos
Knime
ndice
IntroduccinPreprocesado
Modelos descriptivosModelos predictivos
Validacin
Datos
La parte ms importante de la minera de datos, son precisamente, los datosAdems de su obtencin, uno de los pasos ms importantes es el preprocesado Diversas tcnicas segn la necesidad
Obtencin de datos en Knime
Representacin de datos en Knime
Missing values
Es posible que los mtodos a utilizar no traten bien los campos con valores faltantes (missing values)Hay que detectarlos y tratarlos Ignorar, eliminar columna, filtrar fila, reemplazar el valor, etc.
Missing values en Knime
Discretizacin
Consiste en la conversin de un valor numrico en un valor nominal ordenado que representa un intervaloEn ciertas tcnicas de clasificacin es necesario que todos los datos sean discretos
Discretizacin en Knime
Numerizacin
Es el proceso inverso a la discretizacinPasar valores nominales a numricos
Es menos comnHay dos tipos:
Numerizacin 1 a nNumerizacin 1 a 1
Numerizacin en Knime
ndice
IntroduccinPreprocesado
Modelos descriptivosModelos predictivos
Validacin
Tareas descriptivas
Agrupamiento (clustering)Correlaciones y factorizaciones
Reglas de asociacinDependencias funcionales
Deteccin de valores e instancias anmalas
Tabla de mtodosNo m b re Agru p am ien t o Re d es n eu ro n ales rb o les d e d ecis i n ID3 , C4 .5 , C5 .0 rb o les d e d ecis i n CART Ot ro s rb o les d e d ecis i n Re d es d e Ko h o n en Regres i n lin eal y lo gart m ica Regres i n lo gs t ica Km ean s Ap rio ri Naive Bayes Vecim o s m s p r xim o s An lis is fact o rial y d e co m p . p r in cip ales Two s t ep , Co b web Algo rit m o s gen t ico s y evo lu t ivo s Mq u in as d e vect o res s o p o rt e CN2 ru les (co b ert u ra) An lis is d is crim in a n t e m u lt ivar ia n t e X X X X X X X X X X X X X X X X DESCRIPTIVO Reglas d e as o ciaci n Co rrelacio n es / Fact o riz acio n es
Clasificacin no supervisada
Datos: parte de un conjunto de datos u objetos cada uno caracterizado por varias variables
Se trata de obtener grupos de objetos
Clustering
Dados unos datos sin etiquetar, el objetivo es encontrar grupos naturales de instancias
a) Particional
b) Jerrquico
Tipos de clustering
Clustering particional
Particin de los objetos en grupos o clusters. Todos los objetos pertenecen a alguno de los k clusters, los cuales son disjuntos. Problema => eleccin de k
Clustering ascendente jerrquico
Crear un dendograma, es decir, crear un conjunto de agrupaciones anidadas hasta construir un rbol jerrquico
K-medias
Mtodo ms utilizado de clustering particionalLa idea es situar los prototipos o centros en el espacio, de forma que los datos pertenecientes al mismo prototipo tengan caractersticas similares Los datos se asignan a cada centro segn la menor distancia, normalmente usando la distancia eucldea Una vez introducidos todos los datos, se desplazan los prototipos hasta el centro de masas de su nuevo conjunto, esto se repite hasta que no se desplazan ms.
K-medias en Knime
Jerrquico
Dependiendo de la manera de construir el rbol:
Aglomerativos: hojas -> raz Divisivos: raz -> hojas
Dependiendo de cmo se calcule la distancia de enlace entre grupos:
Enlace simpleEnlace completo Enlace en la media
Clustering jerrquico en Knime
ndice
IntroduccinPreprocesado
Modelos descriptivosModelos predictivos
Validacin
Tareas predictivas
ClasificacinClasificacin suave
Estimacin de probabilidad de clasificacinCategorizacin
Preferencia o priorizacinRegresin
Tabla de mtodosNom b r e Red es n eu r on ales r b oles d e d ecis in ID3 , C4 .5 , C5 .0 r b oles d e d ecis in CART Otr os r b oles d e d ecis in Red es d e Koh on en Regr es in lin eal y logar tm ica Regr es in logs tica Km ean s Ap r ior i Naive Bayes Vecim os m s p r xim os An lis is factor ial y d e com p . p r in cip ales Twos tep , Cob web Algor itm os gen ticos y evolu tivos Mq u in as d e vector es s op or te CN2 r u les (cob er tu r a) An lis is d is cr im in an te m u ltivar ian te X X X X X X X X X X X DESCRIPTIVO Clas ificacin X X X X X X Regr es in X
Clasificacin supervisada
Datos: N objetos con n+1 variables (n predictoras + clase)
Inducir automaticamente un modelo clasificatorio
Paradigmas de clasificacin supervisada
Arboles de clasificacion (Quinlan, 1986; Breiman y col. 1984) Clasificadores kNN (Covert y Hart, 1967; Dasarathy, 1991) Regresion logstica (Hosmer y Lemeshow, 1989)
Mtodos Bayesianos (Mitchell, 1997)Sistemas clasificadores (Holland, 1975) Redes neuronales (McCulloch y Pitts, 1943) Induccin de reglas (Clark y Nibblet, 1989; Cohen, 1995; Holte, 1993) Mquinas de soporte vectorial (Cristianini y ShaweTaylor, 2000) Anlisis discriminante (Fisher, 1936)
rboles de clasificacin
Mtodo ms facil de utilizar y de entenderConjunto de condiciones organizadas en una estructura jerrquica Las opciones posibles a partir de una condicin son excluyentes ID3, C4.5, C5.0, CART, etc.
Mtodos bayesianos
Basados en la teora de la probabilidad (teorema de Bayes)Nave Bayes es el clasificador principal Uso de redes bayesianas
Se usan en tareas descriptivas y predictivas
Clasificadores k-NN
Se asigna la clase mayoritaria entre los k vecinos ms proximosSe utiliza una funcin distancia Problema: Establecer un valor de k adecuado
Cuando se asigna la clase del ejemplo ms prximo solamente, es 1-NN
Clasificacin en Knime
ndice
IntroduccinPreprocesado
Modelos descriptivosModelos predictivos
Validacin
Tipos de validacin
Validacin interna
Es en la que se aprende, clasifica y valida con los datos de un mismo conjunto
Validacin externa
Se aprende un modelo con un conjunto de datos, y se valida con unos datos que no han sido empleados en el aprendizaje
Hold-out
Separar los datos disponibles en dos subconjuntos de datos: training set (para aprender un modelo) y test set (el resto de los datos) Se calcula la accuracy sobre el test set para estimar el error del modelo obtenido con el training set
K-fold-Cross-Validation
Se particiona aleatoriamente en k subconjuntos el conjunto de datos disponible.Para cada uno de los subconjuntos obtenidos, se utilizar de test set para evaluar el modelo obtenido con el resto de subconjuntos Se realiza la media de las evaluaciones realizadas para obtener el resultado final
Leave one out
Se deja una instancia de los datos como test set y se aprende con el resto del conjuntoEste proceso se repite para cada instancia Se obtiene el resultado final realizando la media de todas las ejecuciones
0.632 Bootstrap
Se divide en dos partes
Se aprende y se valida con el mismo conjunto de datos N iteraciones de:
Se seleccionan con reemplazo el mismo nmero de instancias que se tengan del conjunto de datos inicialSe utiliza el conjunto de datos creado como training set y se evalua con el conjunto formado por las instancias que no han sido seleccionadas en el paso anterior Se obtiene la media de las N iteraciones
Resultado final: e = 0.632xEresubstitution + 0.368xEiteraciones
Validacin en Knime
Bootstrap en Knime
top related