tp 1 metodologia crisp dm
TRANSCRIPT
TP 1 - Metodologa CRISP-DM
ndice
Tarea 1: Determinar los objetivos del negocio 4
Salida 4
Ejemplos
4
Tarea 2: Evaluacin de la situacin 5
Salida
5
Ejemplo 6
Tarea 3: Determinacin de metas de la minera de datos 7
Salidas
7
Ejemplos
7
Tarea 4: Elaboracin del plan de Proyecto 8
Salidas
8
8
Tarea 1: Recoleccin Inicial de datos 8
Salidas 8
Ejemplos 8
Tarea 2: Descripcin de los datos 9
Salidas
9
Ejemplos 9
Tarea 3: Exploracin de los datos 10
Salidas 10
Ejemplos 10
Tarea 4: Verificacin de la calidad de los datos 10
Salidas
11
Ejemplos
11
11
Tarea 1: Seleccin de Datos 11
Salidas 12
Ejemplos
12
Tarea 2: Limpieza de datos 12
Salidas 12
Ejemplos
12
Tarea 3: Construccin de datos 13
Salidas
13
Ejemplos 13
Tarea 4: Integracin de datos 13
Salidas 14
Ejemplos
14
14
Tarea 1: Seleccin de tcnica de modelado 14
Salidas 14
Ejemplos 14
Tarea 2: Generacin del diseo de pruebas 15
Salidas
15
Ejemplos 15
Tarea 3: Construccin del modelo 15
Salidas 15
Ejemplos 16
Tarea 4: Evaluacin del modelo 16
Salidas
16
Ejemplos
17
17
Tarea 1: Evaluacin de resultados 17
Salida
17
Ejemplos
18
Tarea 2: Proceso de revisin
18
Salida 18
Ejemplos 18
Tarea 3: Determinacin de prximos pasos 19
Salida
19
Ejemplos
19
19
Tarea 1: Planificacin del despliegue 19
Salida 19
Ejemplos 19
Tarea 2: Planificacin del monitoreo y mantenimiento 20
Salida 20
Ejemplos 20
Tarea 3: Produccin del Informe Final 20
Salida 20
Ejemplos
20
Tarea 4: Revisin del proyecto 21
Salida 21
Ejemplos 21
Primera etapa: Entendimiento del negocio
Tarea 1: Determinar los objetivos del negocio
Esta tarea tiene como meta permitirle al analista entender cul es la verdadera necesidad que tiene el cliente. Generalmente existen muchos objetivos y restricciones y estos deben ser balanceados correctamente. La meta es poder determinar en una etapa temprana aquellos factores que pueden influenciar el resultado final. De esta forma se ahorra mucho esfuerzo innecesario a la hora del desarrollo del proyecto de minera de datos.
Salida
1. Contexto (Background):
Modelo esttico del negocio. Registra la informacin de la situacin del mismo al momento de iniciar el proyecto. Proporciona una visin del contexto: en qu rea se est trabajando, cules son los problemas identificados y por qu el data mining podra solucionarlos.
Esta compuesto por la misin de la empresa, los clientes y la competencia que esta posee. Tambin pueden incluirse una lista de productos o servicios que brinda.
2. Objetivos del negocio:
Describe el objetivo principal del cliente, as como tambin posibles preguntas acerca del negocio que ste quiere responder a travs de la minera de datos.
1. Factores crticos del xito:
Describir los criterios que van a permitir determinar si se alcanzaron resultados exitosos desde la perspectiva del negocio. Estos pueden bien ser cuantificables y especficos o mas generales. En este ultimo caso, debe determinarse quien va a ser el que lo determine.
Ejemplos
.1 Contexto:
La empresa pertenece al rubro automotriz. Posee una fuerte presencia en varios segmentos del mercado automotor. Ofrece modelos de alta gama, utilitarios, 4x4 y en los ltimos aos ha incursionado en el nuevo segmento de crossover.La casa matriz est radicada en Japn, pero posee varias fbricas en Latinoamrica.El negocio se divide en distintas regiones (Asia, Europa, Norteamrica y Amrica Latina), donde existen modelos acordes a las necesidades y gustos del consumidor de cada regin en particular.Sus clientes son hombres solteros o grupos familiares pertenecientes a sectores medios-altos.La misin principal de la empresa es producir en la mayor cantidad de regiones, automviles que se destaquen por su innovacin tcnica, alto confort y bajo consumo energtico.
.2 Objetivos del negocio:
El rea de Marketting est interesada en conocer qu factores determinan que un grupo dado de clientes se decida por la compra de un determinado modelo o lnea de modelos.
Identificar las necesidades de determinados grupos de clientes en cada regin a partir de los datos de ventas de los ltimos aos.
Obtener y clasificar los motivos de Conquista y Lealtad a partir de las caractersticas de los distintos clientes.
.3 Factores Crticos del xito:
Lograr la clasificacin de clientes con un umbral de certidumbre del 70%.
Mejorar el conocimiento de cada regin obteniendo un conjunto de reglas de asociacin que permita mejorar el nivel de penetracin en el mercado en un 10%.
Detectar las causas por las cuales un cliente dado decide cambiar el modelo de automvil, permitiendo reducir en un 10% el cambio hacia una marca de la competencia en clientes habituales.
Tarea 2: Evaluacin de la situacin
En esta tarea se realiza un anlisis mas detallado para encontrar todos los recursos, restricciones y suposiciones que deben ser considerados al establecer los objetivos del anlisis de datos y la meta del proyecto.
Salida
.1 Inventario de recuros (Project Management)
Listar todos los recursos disponibles para el proyecto incluyendo personal (expertos en mineria de datos, tecnicos, etc), de datos (planillas, acceso a un datawarehouse, etc), de hardware y software.
.2 Requerimientos, supuestos y restricciones (Project Management)
Lista con todos los requerimientos del proyecto incluyendo los planificacin de los plazos, forma de presentacion de los datos y de calidad de los resultados.Tambin deben incluirse suposiciones acerca del modelo de negocio que pueden ser chequeados durante el proceso de minera de datos, y otros que no y son vitales para el proyecto.Por ltimo debe contener restricciones que permitan desarrollar el proyecto en forma correcta como por ejemplo por ejemplo la disponibilidad y volumen de los datos, tecnologas, etc.
.3 Riesgos y contingencias (Project Management)
Lista de los riesgos o eventos que pueden ocurrir demorar o incluso hacer que falle el proyecto. Deben inclurise tambien los planes de contingencia para mitigar estos contratiempos.
.4 Terminologa (Glosario)
Glosario de terminologa relevante al proyecto. Este glosario debe abarcar tanto trminos propios del negocio como aquellos especficos de data mining.
.5 Anlisis de Costo/Beneficio (Project Management, aunque generalmente lo hace en conjunto con el CFO)
Anlisis costo-beneficio del proyecto. El mismo debe ser muy especfico y utilizar, por ejemplo, trminos monetarios.
Ejemplo
.4 Terminologa
a. Del negocio:Crossover: Es un trmino de marketting para vehculos que derivan de una plataforma de automvil pero tomando prestadas caractersticas de un SUV.SUV: proviene de las siglas, en ingls, de Vehculo Deportivo Utilitario (Sport Utility Vehicule). Es un vehculo todoterreno ligero, mezclando caractersticas de un todoterreno convencional y un vehculo de turismo.Utilitarios: Trmino de marketting relacionado a los vehculos utilizados para una tarea especfica, generalmente relacionada al transporte de mercaderas o grupos de personas.
b. De la minera de datos:Clusterizacin: Algoritmo que determina grupos de entidades que poseen alguna relacin entre s, relacin que no est determinada a priori o no se conoce un mecanismo exacto de clasificacin. En el caso del negocio que estamos estudiando, la clusterizacin nos mostrara diversos grupos de clientes agrupados por caractersticas como nivel de ingreso, cantidad de hijos, etc.Reglas de asociacin: mtodo utilizado para descubrir relaciones interesantes entre variables de una base de datos cuyo tamao es considerable. En nuestro negocio, una relacin interesante podra ser que un cliente que vive en determinada regin, posee un determinado ingreso pero no tiene familia ni est casado, opta preferentemente por vehculos familiares.
Tarea 3: Determinacin de metas de la minera de datos
Se establecen los objetivos del proyecto desde el punto de vista tcnico del data mining.
Salidas.1 Metas de la Minera de Datos Objetivos concretos del proyecto que permiten cumplir con los objetivos del negocio.
.2 Criterios de aceptacin de la minera de datos
Describe los criterios para saber si se obtienen resultados exitosos en trminos tcnicos. Por ejemplo, un cierto nivel de aciertos en las predicciones.
Ejemplos
.1 Metas de la Minera de Datos
Obtener grupos caractersticos de clientes, con un nivel caracterstico en sus miembros del 80% (es decir, que la clase de cada grupo determine a sus integrantes con una exactitud del 80%).
Obtener un conjunto de reglas de asociacin sobre las caractersticas de los clientes que permitan tomar acciones de marketting especficas.
.2 Criterios de aceptacin de la mineria de datos
Desde el punto de vista del responsable del rea de Marketting, obtener un conjunto de grupos de clientes fcilmente identificables desde el punto de vista del negocio, de manera de poder determinar a qu grupo pertenecera un posbile cliente y sobre eso basar los esfuerzos de las campaas de marketting existentes.
Por otro lado, que las reglas de asociacin le permitan generar nuevas campaas cuya efectividad sea medible en cuanto al crecimiento de las ventas.
Tarea 4: Elaboracin del plan de Proyecto
Se elabora el plan que posee una secuencia de pasos a realizar durante el resto del proyecto, incluyendo la seleccin de herramientas y tcnicas.
Salidas
.1 Plan de Proyecto (Project Management)
Detalla todas las etapas del proyecto a ser realizadas, indicando para cada una la duracin y los recursos a utilizar. Contiene planes detallados para cada fase. Es un documento dinmico que se va reajustando durante la ejecucin del proyecto.
.2 Evaluacin Incial de herramientas y tcnicas
Esto es muy importante ya que las herramientas posiblemente condicionen el desarrollo del proyecto.
Segunda etapa:Comprensin de los datos
Tarea 1: Recoleccin Inicial de datos
Adquirir los datos (o acceder a los mismos) listados en los recursos disponibles del proyecto. Esto incluye la carga de los datos de ser necesario.
Salidas
.1 Reporte de recoleccin Inicial de datos
Listado con el conjunto de los datos obtenidos junto con informacin acerca de donde provienen, los mtodos usados para adquirirlos y aquellos problemas que fueron encontrados en dicho proceso.En caso de haber inconvenientes, deben detallarse cuales fueron las soluciones que se utilizaron para resolverlos. Esta informacin tambin es til para futuros proyectos.
Ejemplos
.1 Reporte de Recoleccin Inicial de Datos
VENTAS
Tipo: Base de Datos Oracle 8i
Locacin: Servidor local de la empresa
Mtodos de acceso: Drivers ODBC
Encuestas de satisfaccin
Tipo: Planillas Excel 2007
Locacin: Archivo compartido en la intranet de la empresa
Mtodos de Accesos: Drivers ODBC, UNC
Problemas Encontrados: No todos los archivos poseen la misma estructura
DW de MARKETTING
Tipo: Base de Datos OLAP SQL Server Analysis Services 2005
Locacin: Servidor Local de la empresa
Mtodos de Acceso: Queries MDX
Tarea 2: Descripcin de los datos
Examinar superficialmente las propiedades de los datos adquiridos.
Salidas
.1 Reporte de descripcin de los datos
Describir los datos que fueron adquiridos incluyendo el formato de los datos, cantidad de los mismos, etc.
Ejemplos
.1 Reporte de descripcin de los datos
VENTAS: la base de datos pertenece a la aplicacin transaccional utilizada para registrar las ventas globlales de la compaa. Contiene alrededor de 90 tablas, muchas de las cuales se encuentran duplicadas por regin. Para el proyecto actual, interesan las siguientes:
[REGION]_Clientes: contiene un listado de los clientes, por regin. Contiene en promedio unos 2000 registros, con los siguientes datos: Nombre y Apellido (texto), # Documento (numrico), Nacionalidad (numrico, identificador primario en otra tabla), Profesin (numrico, identificador primario en otra tabla), Cantidad de Hijos (numrico), Fecha de Alta (fecha), entre otros.
[REGION]_Reservas: Contiene registros relativos a la reservaciones realizados por un cliente. Esto es, un registro de las futuras ventas an no realizadas. Dado que es una especie de tabla temporal, la cantidad de registros que tiene es baja, alrededor de 100.
[REGION]_Ventas: Contiene un registro de las ventas realizadas en la regin. Posee alrededor de 100.000 registros, con informacin desde el ao 2004.
Encuestas de Satisfaccin
Se disponen un total de 3500 encuestas realizadas a los clientes, e incluyen tanto encuestas a clientes que acababan de comprar un auto o clientes que han trado un auto para ponerlo a la venta (a travs del servicio de toma de autos usados que poseen las concesionarias).
El formato del archivo excel contiene 25 preguntas, algunas de carcter general, y otras especficas de la transaccin. No todas las encuestas mostraron un formato idntico.
Tarea 3: Exploracin de los datos
Esta tarea esta en focada en contestar las preguntas del proyecto de minera, como por ejemplo ver la distribucion de los atribuits claves, relaciones entre atributos.
Se pueden utilizar consultas, graficos o reportes.
Salidas
.1 Reporte de exploracin de los datos
Describe los resultados de la exploracion de datos. Si es adecuado, pueden incluirse tambien grficos.
Ejemplos
.1 Reporte de Exploracin de Datos
VENTAS
Un anlisis de histograma revela que la mayora de las ventas registradas corresponden al bienio 2007-2008.
La mayor cantidad de ventas se registran en la Regin Amrica del Norte (alrededor del 40% del total).
Encuestas de satisfaccin
El 90% de las encuestas pertenecen a clientes que realizaron una compra. El 10% restante, de los clientes que vendieron su vehculo usado
El 25% de las encuestas poseen un formato distinto a la mayora. Al parecer, esto se debe a un cambio en el formato realizado en el ao 2006.
Tarea 4: Verificacin de la calidad de los datos
Examinar la calidad de los datos corroborando la completitud de los datos, la inexistencia de errores (y en el caso de haberlos cuan frecuentes son), la falta de valores, etc.
Salidas
.1 Reporte de Calidad de datos.
Listar los resultados obtenidos. En caso de encontrar errores, plantear posibles soluciones a los mismos.
Ejemplos
.1 Reporte de Calidad de Datos
VENTAS
Un anlisis de las tablas *_Cliente arroj que un alto porcentaje de los clientes registrados no poseen ventas asociadas, y a la vez otro porcentaje (menor que el anterior) carece de ciertos datos (por ejemplo, cantidad de hijos, Nacionalidad, profesin).Posible solucin: desestimar los clientes que no tengan ventas asociadas.
Existen reservas que fueron canceladas y otras que figuran como completadas, pero no se encuentra el registro correspondiente en las tablas de Ventas.Posible solucin: excluir las reservas que no cumplan con dicha regla de negocio.
Encuestas de Satisfaccin
En el caso de las encuestas realizadas a los clientes que pusieron sus autos usados en venta, la mayora carece de respuestas completas.Posible solucin: dado que carecen de sentido para el proyecto actual, podran desestimarse las encuestas de este tipo.
El 40% de todas las encuestas posee campos incompletos.Posible solucin: contemplar solo las preguntas que contengan un cierto nivel de respuestas completas.
SHAPE
Tercer etapa: Preparacin de los datos
Tarea 1: Seleccin de Datos
Esta tarea consta en decidir que data va a ser utilizada para el anlisis. Criterios a tener en cuenta pueden ser la relevacia para el objetivo del proyecto, la calidad o restricciones tcnicas (por ejemplo limite del volumen de datos con el cual se puede trabajar o tipos de datos).
Salidas
.1 Criterios para la inclusin/exclusin.
Ejemplos
.1 Criterios para la inclusin/exclusin:
VENTAS:
Se incluirn las tablas *_CLIENTES y *_VENTAS, con todos sus campos.
Se excluirn los clientes que no posean ventas asociadas.
Encuestas de satisfaccin:
Se incluirn slo aquellas realizadas a clientes que acaban de finalizar una compra.
Se excluirn las preguntas que, dentro del grupo seleccionado ms arriba, posean un 80% de completitud (es decir, se responden en el 80% de las encuentas) o bien si la cantidad excede la cantidad de 2000.
Tarea 2: Limpieza de datos
El objetivo es preparar los datos de una forma adecuada para las tcnicas de anlisis seleccionadas.Por otro lado tambien se corrigen los problemas de calidad detectados en las etapas anteriores.Esto implica por ejemplo elegir subconjuntos de datos o insertar valores por defecto.
Salidas
.1 Reporte de limpieza de datos
Este reporte describe que decisiones y acciones fueron tomadas para corregir los problemas de calidad reportados anteriormente.
Ejemplos
.1 Reporte de limpieza de datos.
VENTAS
Un anlisis de las tablas *_Cliente arroj que un alto porcentaje de los clientes registrados no poseen ventas asociadas, y a la vez otro porcentaje (menor que el anterior) carece de ciertos datos (por ejemplo, cantidad de hijos, Nacionalidad, profesin).
Solucin aceptada: Se resolvi en la tarea anterior, al no considerar los clientes que no poseen ventas asociadas.
Existen reservas que fueron canceladas y otras que figuran como completadas, pero no se encuentra el registro correspondiente en las tablas de Ventas.
Solucin aceptada: Se resolvi descartando las tablas de Reservas, dado que no aportan mucho al proyecto.
Encuestas de Satisfaccin
En el caso de las encuestas realizadas a los clientes que pusieron sus autos usados en venta, la mayora carece de respuestas completas.Solucin aceptada: Se resolvi en la tarea anterior, descartando las encuestas de vehculos usados.
El 40% de todas las encuestas posee campos incompletos.Solucin aceptada: Se resolvi en la tarea anterior.
Tarea 3: Construccin de datos
En esta tarea se realizan operaciones constructivas sobre los datos como por ejemplo obtener nuevos atributos derivados, transformar valores para que correspondan con estos o agregar registros.
Salidas
.1 Atributos derivados
.2 Registros generados
Ejemplos
.1 Atributos derivados
VENTAS
Se agrearon los campos:
Edad (calculado como la diferecia entre la fecha actual y la fecha de nacimiento, en aos cumplidos completamente)
Cantidad de meses desde la ltima compra (cantidad de meses que pasaron desde la fecha ltima de compra hasta la fecha actual)
Encuestas de Satisfaccin
Se agregaron los campos:
Promedio de respuestas satisfactorias (cantidad de respuestas "Muy de acuerdo" o "De acuerdo" con respecto al total de preguntas)
Porcentaje de completitud de los datos (cantidad de respuestas distintas de "NS/NC" con respecto al total)
Cantidad de meses transcurridos desde la encuenta (cantidad de meses que pasaron desde la fecha de realizada la encuenta hasta la fecha actual)
.1 Registros generados
No se generaron registros adicionales.
Tarea 4: Integracin de datos
Ac se combinan datos de diferentes fuentes creando nuevos registros.
Salidas
.1 Datos combinados
Ejemplos
.1 Datos combinados
No se realizaron datos combinados ya que se van a trabajar distintos modelos sobre las fuentes, por separado. Por lo cual no se requiere la combinacin de mltiples fuentes de datos.
SHAPE
Cuarta etapa: Modelado
Tarea 1: Seleccin de tcnica de modelado
El objetivo de esta tarea es elegir la/s tcnica/s de modelado que van a ser utilizadas sobre el set de datos. Si muchas tecnicas son elegidas, esta tarea debe aplicarse para cada una individualmente.
Salidas
.1 Tcnica de modelado
.2 Supuestos del modelado
Las tecnicas de modelado por lo general requieren que los datos tengan determinadas caracteristicas. En esta salida es donde se escriben las mismas.
Ejemplos
.1 Tcnica de modelado
Clusterizacin: se va a utilizar para determinar reglas que permitan determinar la pertenencia de un futuro cliente a un determinado tipo de cliente.
Reglas de Asociacin: se van a utilizar reglas de asociacin para descrubir patrones, a partir de las encuentas, que permitan conocer ms acerca de cmo y por qu un cliente decide cambiar de modelo y/o de marca.
.1 Supuestos del modelado
Se contar con la cantidad de registros y con la calidad requerida por el algoritmo.
Se contar con la cantidad de encuestas que permitan obtener el nivel pedido de exactitud y se contar con un analista del negocio que asista en el proceso de validacin de reglas detectadas.
Tarea 2: Generacin del diseo de pruebas
El objetivo es disear las pruebas que van a utilizarse para probar la calidad y validez de los resultados arrojados por el modelo que luego va a ser implementado.
Salidas
.1 Diseo de pruebas
Ejemplos
.1 Diseo de pruebas
Clusterizacin
Se va a dividir el total de registros en dos grupos, generados en forma aleatoria: Conjunto de entrenamiento (training set), que contendr aproximadamente el 70% del conjunto total; y un Conjunto de validacin (testing set) que ser utilizado para validar los grupos detectados por el algoritmo.
Se va generar una poblacin con una distribucin conocida, similar al conjunto de datos original, utilizando un producto diseado para tal fin.
Reglas de asociacin
Se validarn las reglas detectadas con un grupo de analistas del negocio provistos por el cliente.
Se gener un grupo de posibles reglas vlidas para generar una nueva pasada con los nuevos datos.
Tarea 3: Construccin del modelo
Ejecutar la/s herramienta/s de modelado elegida/s sobre el conjunto de datos preparados para crear el/los modelos resultantes.
Salidas
.1 Configuracin de parmetros
Configurar los parametros que utiliza la herramienta elegida.
.2 Modelos
.3 Descripcin de los modelos
Esta es una interpretacin del modelo resultante. Tambin deben documentarse todas las dificultades encontradas con sus significados.
Ejemplos
.1 Configuracin de parmetros
Clusterizacin:
Grado de representatividad de los grupos detectados
Cantidad de grupos a generar
Reglas de asociacin:
Grado de veracidad de las reglas con respecto a los datos disponibles.
.1 Modelos
Los modelos generados por las herramientas, en nuestro caso, los algoritmos de clusterizacin y las reglas de asociacin.
.1 Descripcin de los modelos
Ac se describiran los modelos generados a partir de las herramientas utilizadas, como ser cules son los calculos que se realizaron, que decisiones se tomaron,etc.
Tarea 4: Evaluacin del modelo
En esta tarea sea interpretan los modelos de acuerdo al dominio del problema, el criterio de xito y los test definidos anteriormente. Tambin se comparan los modelos calificando los resultados de cada uno.En esta tarea no se evalua el resultado de los modelos si no que se analiza el desempeo y calidad de los mismos.Ambas tareas pueden ser realizadas en conjunto con analisistas del negocio (generalmente los clientes) para tener una mejor vision de los resultados en el contexto del problema.
Salidas
.1 Evaluacin del modelo
Esta salida consiste en resumir los resultados, listar las cualidades de cada uno de los modelos obtenidos y categorizar los resultados segn su calidad.
.2 Configuracin revisada de parmetros
En base al resultado de las evaluaciones de los modelos, se pueden revisar los parametros de los mismos y modificarlos para obtener mejores resultados. Los modelos pueden volver a ser generados hasta obtener resultados que sean satisfactorios.
Ejemplos
.1 Evaluacin del modelo
Modelo de Clusterizacin
Algoritmo 1
Grado de veracidad: 71%
Cantidad de registros omitidos: 10%
Algoritmo 2
Grado de veracidad: 90%
Cantidad de registros omitidos: 35%
Reglas de asociacin
Algoritmo 1
reglas detectadas: 100
Promedio de veracidad contrastada con los datos: 50%
Algoritmo 2
reglas detectadas 19
Promedio de veracidad contrastada con los datos: 75%
.1 Configuracin revisada de parmetros
Se revisaron los parmetros del algoritmo 2 para disminuir la cantidad de registros omitidos, al dismunir el grado de representatividad.
Se ajustaron los parmetros del algoritmo 1 de Reglas de asociacin para aumentar el promedio de veracidad.
SHAPE
Quinta etapa: Evaluacin
Tarea 1: Evaluacin de resultados
En esta etapa se evalan los resultados del modelo desde la perspectiva del negocio. Se analiza el nivel en el que el resultado se acerca al negocio y se trata de determinar si por alguna razon el modelo es deficiente.
Salida
.1 Evaluacin de los resultados de la minera de datos con respecto a los Factores Crticos del xito.
.2 Modelos aprobados
Listar los modelos que cumplen con los criterios de xito con los que se evalu anteriormente
Ejemplos
.1 Evaluacin de los resultados de la minera de datos con respecto a los Factores Crticos del xito.
Utilizando el algoritmo 1 de clusterizacin, se logr que, al contrastarlo con el Conjunto de datos de prueba, se lograra el 69% de exactitud, cercano al 70% de los FCE.
Utilizando el algoritmo 2 de reglas de asociacin, se logr detectar 5 reglas de asociacin, que, de ser implementadas por el departamento de marketting, lograran solo una mejora del 5% en la fidelidad de los clientes.
.1 Modelos aprobados
Se aprob el modelo de clusterizacin utilizado con el algoritmo 1.
Se rechaz el modelo de reglas de asociacin, dado que no cumple con los FCE.
Tarea 2: Proceso de revisin
El objetivo de esta tarea es revisar todo el proceso en busca de las tareas que pudieron haber no sido salteadas u olvidadas. Esta revisin tambin involucra analizar cuestiones de calidad sobre la construccin del modelo.
Salida
.1 Revisin de procesos
Lista con las tareas que fueron olvidadas y que deben realizarse.
Ejemplos
.1 Revisin de procesos
Se revisaron los algoritmos utlizados para la deteccin de reglas de asocicin y se consideraron otros algoritmos adicionales. Se detectaron fallas en la limpieza de datos, que quitaban representatividad al resultado final.
De los algoritmos nuevos propuestos, se dicidi inlcuir el 3 a partir de que se logr mejorar la calidad de los datos requeridos por ste.
Tarea 3: Determinacin de prximos pasos
En esta tarea los coordinadores del proyecto deciden si se continua con la etapa de implementacin o es adecuado repetir alguna de las etapas anteriores para corregir aquellos posibles errores encontrados o para obtener mejores resultados. Generalmente volver a realizar una iteracion esta influenciado por el presupuesto y recursos que posee el proyecto.
Salida
.1 Lista de posibles acciones (Project Management)
.2 Decisin (Project Management)
Ejemplos
.1 Lista de posibles acciones (Project Management)
.2 Decisin (Project Management)
SHAPE
Sexta etapa: Implementacin
Tarea 1: Planificacin del despliegue
En sta tarea se toma el resultado de la etapa anterior y se elabora una estrategia de despliegue. Esta estrategia permite aplicar los resultados del data mining en el negocio.Algunas actividades importantes dentro de esta tarea son:
Listar los resultados a utilizar en el despliegue.
Desarrollar y evaluar distintos planes de despliegue.
Decidir como realizar el despliegue del modelo, y como va a ser monitoreado el uso de los resultados.
Determinar como se van a medir los beneficios por la utilizacin de los resultados del data mining.
Salida
.1 Plan de despliegue (Project Management)
Descripcin del plan de despliegue que incluye la sucesin de pasos a realizar y como hacerlos.
Ejemplos
.1 Plan de despliegue (Project Management)
Tarea 2: Planificacin del monitoreo y mantenimiento
En esta tarea se planifica una estrategia de mantenimiento, que ayuda a evitar perodos innecesarios de mal uso de los resultados del data mining. Esto es importante en el caso en que el data mining forma parte del dia a dia del negocio. Tambin es necesario monitorear los resultados y para ello se desarrolla un plan detallado de monitoreo.
Salida
.1 Plan de monitoreo y mantenimiento (Project Management)
Descripcin de los planes de monitoreo y mantenimiento que incluyen una lista de pasos a efectuar y como realizar cada uno de ellos.
Ejemplos
.1 Plan de monitoreo y mantenimiento (Project Management)
Tarea 3: Produccin del Informe Final
Al final del proyecto se escribe un informe final. Este informe puede ser tanto un resumen del proyecto como tambin una presentacin final de los resultados del data mining.
Salida
.1 Reporte Final (Project Management)
Contiene la identificacin de los resultados obtenidos, la descripcin del proceso, los costos, las desviaciones respecto del plan original, descripcin de planes de implementacin y recomendaciones para el trabajo futuro.
.1 Presentacin Final (Project Management)
Contiene un subconjunto de la informacin incluida en el reporte final, pero estructurada en una forma diferente (a modo de presentacin).
Ejemplos
.1 Reporte Final (Project Management)
.2 Presentacin Final (Project Management)
Tarea 4: Revisin del proyecto
Analizar que se hizo bien y que se hizo mal durante la realizacin de todo el proyecto. Se determina que cosas necesitan ser mejoradas.
Salida
.1 Documentacin de lecciones aprendidas (Project Management)
Resume las experiencias obtenidas durante el proyecto.
Ejemplos
.1 Documentacin de lecciones aprendidas (Project Management)