tp 1 metodologia crisp dm

Upload: victor-hugo-gutierrez-carvajal

Post on 13-Oct-2015

12 views

Category:

Documents


0 download

TRANSCRIPT

TP 1 - Metodologa CRISP-DM

ndice

Tarea 1: Determinar los objetivos del negocio 4

Salida 4

Ejemplos

4

Tarea 2: Evaluacin de la situacin 5

Salida

5

Ejemplo 6

Tarea 3: Determinacin de metas de la minera de datos 7

Salidas

7

Ejemplos

7

Tarea 4: Elaboracin del plan de Proyecto 8

Salidas

8

8

Tarea 1: Recoleccin Inicial de datos 8

Salidas 8

Ejemplos 8

Tarea 2: Descripcin de los datos 9

Salidas

9

Ejemplos 9

Tarea 3: Exploracin de los datos 10

Salidas 10

Ejemplos 10

Tarea 4: Verificacin de la calidad de los datos 10

Salidas

11

Ejemplos

11

11

Tarea 1: Seleccin de Datos 11

Salidas 12

Ejemplos

12

Tarea 2: Limpieza de datos 12

Salidas 12

Ejemplos

12

Tarea 3: Construccin de datos 13

Salidas

13

Ejemplos 13

Tarea 4: Integracin de datos 13

Salidas 14

Ejemplos

14

14

Tarea 1: Seleccin de tcnica de modelado 14

Salidas 14

Ejemplos 14

Tarea 2: Generacin del diseo de pruebas 15

Salidas

15

Ejemplos 15

Tarea 3: Construccin del modelo 15

Salidas 15

Ejemplos 16

Tarea 4: Evaluacin del modelo 16

Salidas

16

Ejemplos

17

17

Tarea 1: Evaluacin de resultados 17

Salida

17

Ejemplos

18

Tarea 2: Proceso de revisin

18

Salida 18

Ejemplos 18

Tarea 3: Determinacin de prximos pasos 19

Salida

19

Ejemplos

19

19

Tarea 1: Planificacin del despliegue 19

Salida 19

Ejemplos 19

Tarea 2: Planificacin del monitoreo y mantenimiento 20

Salida 20

Ejemplos 20

Tarea 3: Produccin del Informe Final 20

Salida 20

Ejemplos

20

Tarea 4: Revisin del proyecto 21

Salida 21

Ejemplos 21

Primera etapa: Entendimiento del negocio

Tarea 1: Determinar los objetivos del negocio

Esta tarea tiene como meta permitirle al analista entender cul es la verdadera necesidad que tiene el cliente. Generalmente existen muchos objetivos y restricciones y estos deben ser balanceados correctamente. La meta es poder determinar en una etapa temprana aquellos factores que pueden influenciar el resultado final. De esta forma se ahorra mucho esfuerzo innecesario a la hora del desarrollo del proyecto de minera de datos.

Salida

1. Contexto (Background):

Modelo esttico del negocio. Registra la informacin de la situacin del mismo al momento de iniciar el proyecto. Proporciona una visin del contexto: en qu rea se est trabajando, cules son los problemas identificados y por qu el data mining podra solucionarlos.

Esta compuesto por la misin de la empresa, los clientes y la competencia que esta posee. Tambin pueden incluirse una lista de productos o servicios que brinda.

2. Objetivos del negocio:

Describe el objetivo principal del cliente, as como tambin posibles preguntas acerca del negocio que ste quiere responder a travs de la minera de datos.

1. Factores crticos del xito:

Describir los criterios que van a permitir determinar si se alcanzaron resultados exitosos desde la perspectiva del negocio. Estos pueden bien ser cuantificables y especficos o mas generales. En este ultimo caso, debe determinarse quien va a ser el que lo determine.

Ejemplos

.1 Contexto:

La empresa pertenece al rubro automotriz. Posee una fuerte presencia en varios segmentos del mercado automotor. Ofrece modelos de alta gama, utilitarios, 4x4 y en los ltimos aos ha incursionado en el nuevo segmento de crossover.La casa matriz est radicada en Japn, pero posee varias fbricas en Latinoamrica.El negocio se divide en distintas regiones (Asia, Europa, Norteamrica y Amrica Latina), donde existen modelos acordes a las necesidades y gustos del consumidor de cada regin en particular.Sus clientes son hombres solteros o grupos familiares pertenecientes a sectores medios-altos.La misin principal de la empresa es producir en la mayor cantidad de regiones, automviles que se destaquen por su innovacin tcnica, alto confort y bajo consumo energtico.

.2 Objetivos del negocio:

El rea de Marketting est interesada en conocer qu factores determinan que un grupo dado de clientes se decida por la compra de un determinado modelo o lnea de modelos.

Identificar las necesidades de determinados grupos de clientes en cada regin a partir de los datos de ventas de los ltimos aos.

Obtener y clasificar los motivos de Conquista y Lealtad a partir de las caractersticas de los distintos clientes.

.3 Factores Crticos del xito:

Lograr la clasificacin de clientes con un umbral de certidumbre del 70%.

Mejorar el conocimiento de cada regin obteniendo un conjunto de reglas de asociacin que permita mejorar el nivel de penetracin en el mercado en un 10%.

Detectar las causas por las cuales un cliente dado decide cambiar el modelo de automvil, permitiendo reducir en un 10% el cambio hacia una marca de la competencia en clientes habituales.

Tarea 2: Evaluacin de la situacin

En esta tarea se realiza un anlisis mas detallado para encontrar todos los recursos, restricciones y suposiciones que deben ser considerados al establecer los objetivos del anlisis de datos y la meta del proyecto.

Salida

.1 Inventario de recuros (Project Management)

Listar todos los recursos disponibles para el proyecto incluyendo personal (expertos en mineria de datos, tecnicos, etc), de datos (planillas, acceso a un datawarehouse, etc), de hardware y software.

.2 Requerimientos, supuestos y restricciones (Project Management)

Lista con todos los requerimientos del proyecto incluyendo los planificacin de los plazos, forma de presentacion de los datos y de calidad de los resultados.Tambin deben incluirse suposiciones acerca del modelo de negocio que pueden ser chequeados durante el proceso de minera de datos, y otros que no y son vitales para el proyecto.Por ltimo debe contener restricciones que permitan desarrollar el proyecto en forma correcta como por ejemplo por ejemplo la disponibilidad y volumen de los datos, tecnologas, etc.

.3 Riesgos y contingencias (Project Management)

Lista de los riesgos o eventos que pueden ocurrir demorar o incluso hacer que falle el proyecto. Deben inclurise tambien los planes de contingencia para mitigar estos contratiempos.

.4 Terminologa (Glosario)

Glosario de terminologa relevante al proyecto. Este glosario debe abarcar tanto trminos propios del negocio como aquellos especficos de data mining.

.5 Anlisis de Costo/Beneficio (Project Management, aunque generalmente lo hace en conjunto con el CFO)

Anlisis costo-beneficio del proyecto. El mismo debe ser muy especfico y utilizar, por ejemplo, trminos monetarios.

Ejemplo

.4 Terminologa

a. Del negocio:Crossover: Es un trmino de marketting para vehculos que derivan de una plataforma de automvil pero tomando prestadas caractersticas de un SUV.SUV: proviene de las siglas, en ingls, de Vehculo Deportivo Utilitario (Sport Utility Vehicule). Es un vehculo todoterreno ligero, mezclando caractersticas de un todoterreno convencional y un vehculo de turismo.Utilitarios: Trmino de marketting relacionado a los vehculos utilizados para una tarea especfica, generalmente relacionada al transporte de mercaderas o grupos de personas.

b. De la minera de datos:Clusterizacin: Algoritmo que determina grupos de entidades que poseen alguna relacin entre s, relacin que no est determinada a priori o no se conoce un mecanismo exacto de clasificacin. En el caso del negocio que estamos estudiando, la clusterizacin nos mostrara diversos grupos de clientes agrupados por caractersticas como nivel de ingreso, cantidad de hijos, etc.Reglas de asociacin: mtodo utilizado para descubrir relaciones interesantes entre variables de una base de datos cuyo tamao es considerable. En nuestro negocio, una relacin interesante podra ser que un cliente que vive en determinada regin, posee un determinado ingreso pero no tiene familia ni est casado, opta preferentemente por vehculos familiares.

Tarea 3: Determinacin de metas de la minera de datos

Se establecen los objetivos del proyecto desde el punto de vista tcnico del data mining.

Salidas.1 Metas de la Minera de Datos Objetivos concretos del proyecto que permiten cumplir con los objetivos del negocio.

.2 Criterios de aceptacin de la minera de datos

Describe los criterios para saber si se obtienen resultados exitosos en trminos tcnicos. Por ejemplo, un cierto nivel de aciertos en las predicciones.

Ejemplos

.1 Metas de la Minera de Datos

Obtener grupos caractersticos de clientes, con un nivel caracterstico en sus miembros del 80% (es decir, que la clase de cada grupo determine a sus integrantes con una exactitud del 80%).

Obtener un conjunto de reglas de asociacin sobre las caractersticas de los clientes que permitan tomar acciones de marketting especficas.

.2 Criterios de aceptacin de la mineria de datos

Desde el punto de vista del responsable del rea de Marketting, obtener un conjunto de grupos de clientes fcilmente identificables desde el punto de vista del negocio, de manera de poder determinar a qu grupo pertenecera un posbile cliente y sobre eso basar los esfuerzos de las campaas de marketting existentes.

Por otro lado, que las reglas de asociacin le permitan generar nuevas campaas cuya efectividad sea medible en cuanto al crecimiento de las ventas.

Tarea 4: Elaboracin del plan de Proyecto

Se elabora el plan que posee una secuencia de pasos a realizar durante el resto del proyecto, incluyendo la seleccin de herramientas y tcnicas.

Salidas

.1 Plan de Proyecto (Project Management)

Detalla todas las etapas del proyecto a ser realizadas, indicando para cada una la duracin y los recursos a utilizar. Contiene planes detallados para cada fase. Es un documento dinmico que se va reajustando durante la ejecucin del proyecto.

.2 Evaluacin Incial de herramientas y tcnicas

Esto es muy importante ya que las herramientas posiblemente condicionen el desarrollo del proyecto.

Segunda etapa:Comprensin de los datos

Tarea 1: Recoleccin Inicial de datos

Adquirir los datos (o acceder a los mismos) listados en los recursos disponibles del proyecto. Esto incluye la carga de los datos de ser necesario.

Salidas

.1 Reporte de recoleccin Inicial de datos

Listado con el conjunto de los datos obtenidos junto con informacin acerca de donde provienen, los mtodos usados para adquirirlos y aquellos problemas que fueron encontrados en dicho proceso.En caso de haber inconvenientes, deben detallarse cuales fueron las soluciones que se utilizaron para resolverlos. Esta informacin tambin es til para futuros proyectos.

Ejemplos

.1 Reporte de Recoleccin Inicial de Datos

VENTAS

Tipo: Base de Datos Oracle 8i

Locacin: Servidor local de la empresa

Mtodos de acceso: Drivers ODBC

Encuestas de satisfaccin

Tipo: Planillas Excel 2007

Locacin: Archivo compartido en la intranet de la empresa

Mtodos de Accesos: Drivers ODBC, UNC

Problemas Encontrados: No todos los archivos poseen la misma estructura

DW de MARKETTING

Tipo: Base de Datos OLAP SQL Server Analysis Services 2005

Locacin: Servidor Local de la empresa

Mtodos de Acceso: Queries MDX

Tarea 2: Descripcin de los datos

Examinar superficialmente las propiedades de los datos adquiridos.

Salidas

.1 Reporte de descripcin de los datos

Describir los datos que fueron adquiridos incluyendo el formato de los datos, cantidad de los mismos, etc.

Ejemplos

.1 Reporte de descripcin de los datos

VENTAS: la base de datos pertenece a la aplicacin transaccional utilizada para registrar las ventas globlales de la compaa. Contiene alrededor de 90 tablas, muchas de las cuales se encuentran duplicadas por regin. Para el proyecto actual, interesan las siguientes:

[REGION]_Clientes: contiene un listado de los clientes, por regin. Contiene en promedio unos 2000 registros, con los siguientes datos: Nombre y Apellido (texto), # Documento (numrico), Nacionalidad (numrico, identificador primario en otra tabla), Profesin (numrico, identificador primario en otra tabla), Cantidad de Hijos (numrico), Fecha de Alta (fecha), entre otros.

[REGION]_Reservas: Contiene registros relativos a la reservaciones realizados por un cliente. Esto es, un registro de las futuras ventas an no realizadas. Dado que es una especie de tabla temporal, la cantidad de registros que tiene es baja, alrededor de 100.

[REGION]_Ventas: Contiene un registro de las ventas realizadas en la regin. Posee alrededor de 100.000 registros, con informacin desde el ao 2004.

Encuestas de Satisfaccin

Se disponen un total de 3500 encuestas realizadas a los clientes, e incluyen tanto encuestas a clientes que acababan de comprar un auto o clientes que han trado un auto para ponerlo a la venta (a travs del servicio de toma de autos usados que poseen las concesionarias).

El formato del archivo excel contiene 25 preguntas, algunas de carcter general, y otras especficas de la transaccin. No todas las encuestas mostraron un formato idntico.

Tarea 3: Exploracin de los datos

Esta tarea esta en focada en contestar las preguntas del proyecto de minera, como por ejemplo ver la distribucion de los atribuits claves, relaciones entre atributos.

Se pueden utilizar consultas, graficos o reportes.

Salidas

.1 Reporte de exploracin de los datos

Describe los resultados de la exploracion de datos. Si es adecuado, pueden incluirse tambien grficos.

Ejemplos

.1 Reporte de Exploracin de Datos

VENTAS

Un anlisis de histograma revela que la mayora de las ventas registradas corresponden al bienio 2007-2008.

La mayor cantidad de ventas se registran en la Regin Amrica del Norte (alrededor del 40% del total).

Encuestas de satisfaccin

El 90% de las encuestas pertenecen a clientes que realizaron una compra. El 10% restante, de los clientes que vendieron su vehculo usado

El 25% de las encuestas poseen un formato distinto a la mayora. Al parecer, esto se debe a un cambio en el formato realizado en el ao 2006.

Tarea 4: Verificacin de la calidad de los datos

Examinar la calidad de los datos corroborando la completitud de los datos, la inexistencia de errores (y en el caso de haberlos cuan frecuentes son), la falta de valores, etc.

Salidas

.1 Reporte de Calidad de datos.

Listar los resultados obtenidos. En caso de encontrar errores, plantear posibles soluciones a los mismos.

Ejemplos

.1 Reporte de Calidad de Datos

VENTAS

Un anlisis de las tablas *_Cliente arroj que un alto porcentaje de los clientes registrados no poseen ventas asociadas, y a la vez otro porcentaje (menor que el anterior) carece de ciertos datos (por ejemplo, cantidad de hijos, Nacionalidad, profesin).Posible solucin: desestimar los clientes que no tengan ventas asociadas.

Existen reservas que fueron canceladas y otras que figuran como completadas, pero no se encuentra el registro correspondiente en las tablas de Ventas.Posible solucin: excluir las reservas que no cumplan con dicha regla de negocio.

Encuestas de Satisfaccin

En el caso de las encuestas realizadas a los clientes que pusieron sus autos usados en venta, la mayora carece de respuestas completas.Posible solucin: dado que carecen de sentido para el proyecto actual, podran desestimarse las encuestas de este tipo.

El 40% de todas las encuestas posee campos incompletos.Posible solucin: contemplar solo las preguntas que contengan un cierto nivel de respuestas completas.

SHAPE

Tercer etapa: Preparacin de los datos

Tarea 1: Seleccin de Datos

Esta tarea consta en decidir que data va a ser utilizada para el anlisis. Criterios a tener en cuenta pueden ser la relevacia para el objetivo del proyecto, la calidad o restricciones tcnicas (por ejemplo limite del volumen de datos con el cual se puede trabajar o tipos de datos).

Salidas

.1 Criterios para la inclusin/exclusin.

Ejemplos

.1 Criterios para la inclusin/exclusin:

VENTAS:

Se incluirn las tablas *_CLIENTES y *_VENTAS, con todos sus campos.

Se excluirn los clientes que no posean ventas asociadas.

Encuestas de satisfaccin:

Se incluirn slo aquellas realizadas a clientes que acaban de finalizar una compra.

Se excluirn las preguntas que, dentro del grupo seleccionado ms arriba, posean un 80% de completitud (es decir, se responden en el 80% de las encuentas) o bien si la cantidad excede la cantidad de 2000.

Tarea 2: Limpieza de datos

El objetivo es preparar los datos de una forma adecuada para las tcnicas de anlisis seleccionadas.Por otro lado tambien se corrigen los problemas de calidad detectados en las etapas anteriores.Esto implica por ejemplo elegir subconjuntos de datos o insertar valores por defecto.

Salidas

.1 Reporte de limpieza de datos

Este reporte describe que decisiones y acciones fueron tomadas para corregir los problemas de calidad reportados anteriormente.

Ejemplos

.1 Reporte de limpieza de datos.

VENTAS

Un anlisis de las tablas *_Cliente arroj que un alto porcentaje de los clientes registrados no poseen ventas asociadas, y a la vez otro porcentaje (menor que el anterior) carece de ciertos datos (por ejemplo, cantidad de hijos, Nacionalidad, profesin).

Solucin aceptada: Se resolvi en la tarea anterior, al no considerar los clientes que no poseen ventas asociadas.

Existen reservas que fueron canceladas y otras que figuran como completadas, pero no se encuentra el registro correspondiente en las tablas de Ventas.

Solucin aceptada: Se resolvi descartando las tablas de Reservas, dado que no aportan mucho al proyecto.

Encuestas de Satisfaccin

En el caso de las encuestas realizadas a los clientes que pusieron sus autos usados en venta, la mayora carece de respuestas completas.Solucin aceptada: Se resolvi en la tarea anterior, descartando las encuestas de vehculos usados.

El 40% de todas las encuestas posee campos incompletos.Solucin aceptada: Se resolvi en la tarea anterior.

Tarea 3: Construccin de datos

En esta tarea se realizan operaciones constructivas sobre los datos como por ejemplo obtener nuevos atributos derivados, transformar valores para que correspondan con estos o agregar registros.

Salidas

.1 Atributos derivados

.2 Registros generados

Ejemplos

.1 Atributos derivados

VENTAS

Se agrearon los campos:

Edad (calculado como la diferecia entre la fecha actual y la fecha de nacimiento, en aos cumplidos completamente)

Cantidad de meses desde la ltima compra (cantidad de meses que pasaron desde la fecha ltima de compra hasta la fecha actual)

Encuestas de Satisfaccin

Se agregaron los campos:

Promedio de respuestas satisfactorias (cantidad de respuestas "Muy de acuerdo" o "De acuerdo" con respecto al total de preguntas)

Porcentaje de completitud de los datos (cantidad de respuestas distintas de "NS/NC" con respecto al total)

Cantidad de meses transcurridos desde la encuenta (cantidad de meses que pasaron desde la fecha de realizada la encuenta hasta la fecha actual)

.1 Registros generados

No se generaron registros adicionales.

Tarea 4: Integracin de datos

Ac se combinan datos de diferentes fuentes creando nuevos registros.

Salidas

.1 Datos combinados

Ejemplos

.1 Datos combinados

No se realizaron datos combinados ya que se van a trabajar distintos modelos sobre las fuentes, por separado. Por lo cual no se requiere la combinacin de mltiples fuentes de datos.

SHAPE

Cuarta etapa: Modelado

Tarea 1: Seleccin de tcnica de modelado

El objetivo de esta tarea es elegir la/s tcnica/s de modelado que van a ser utilizadas sobre el set de datos. Si muchas tecnicas son elegidas, esta tarea debe aplicarse para cada una individualmente.

Salidas

.1 Tcnica de modelado

.2 Supuestos del modelado

Las tecnicas de modelado por lo general requieren que los datos tengan determinadas caracteristicas. En esta salida es donde se escriben las mismas.

Ejemplos

.1 Tcnica de modelado

Clusterizacin: se va a utilizar para determinar reglas que permitan determinar la pertenencia de un futuro cliente a un determinado tipo de cliente.

Reglas de Asociacin: se van a utilizar reglas de asociacin para descrubir patrones, a partir de las encuentas, que permitan conocer ms acerca de cmo y por qu un cliente decide cambiar de modelo y/o de marca.

.1 Supuestos del modelado

Se contar con la cantidad de registros y con la calidad requerida por el algoritmo.

Se contar con la cantidad de encuestas que permitan obtener el nivel pedido de exactitud y se contar con un analista del negocio que asista en el proceso de validacin de reglas detectadas.

Tarea 2: Generacin del diseo de pruebas

El objetivo es disear las pruebas que van a utilizarse para probar la calidad y validez de los resultados arrojados por el modelo que luego va a ser implementado.

Salidas

.1 Diseo de pruebas

Ejemplos

.1 Diseo de pruebas

Clusterizacin

Se va a dividir el total de registros en dos grupos, generados en forma aleatoria: Conjunto de entrenamiento (training set), que contendr aproximadamente el 70% del conjunto total; y un Conjunto de validacin (testing set) que ser utilizado para validar los grupos detectados por el algoritmo.

Se va generar una poblacin con una distribucin conocida, similar al conjunto de datos original, utilizando un producto diseado para tal fin.

Reglas de asociacin

Se validarn las reglas detectadas con un grupo de analistas del negocio provistos por el cliente.

Se gener un grupo de posibles reglas vlidas para generar una nueva pasada con los nuevos datos.

Tarea 3: Construccin del modelo

Ejecutar la/s herramienta/s de modelado elegida/s sobre el conjunto de datos preparados para crear el/los modelos resultantes.

Salidas

.1 Configuracin de parmetros

Configurar los parametros que utiliza la herramienta elegida.

.2 Modelos

.3 Descripcin de los modelos

Esta es una interpretacin del modelo resultante. Tambin deben documentarse todas las dificultades encontradas con sus significados.

Ejemplos

.1 Configuracin de parmetros

Clusterizacin:

Grado de representatividad de los grupos detectados

Cantidad de grupos a generar

Reglas de asociacin:

Grado de veracidad de las reglas con respecto a los datos disponibles.

.1 Modelos

Los modelos generados por las herramientas, en nuestro caso, los algoritmos de clusterizacin y las reglas de asociacin.

.1 Descripcin de los modelos

Ac se describiran los modelos generados a partir de las herramientas utilizadas, como ser cules son los calculos que se realizaron, que decisiones se tomaron,etc.

Tarea 4: Evaluacin del modelo

En esta tarea sea interpretan los modelos de acuerdo al dominio del problema, el criterio de xito y los test definidos anteriormente. Tambin se comparan los modelos calificando los resultados de cada uno.En esta tarea no se evalua el resultado de los modelos si no que se analiza el desempeo y calidad de los mismos.Ambas tareas pueden ser realizadas en conjunto con analisistas del negocio (generalmente los clientes) para tener una mejor vision de los resultados en el contexto del problema.

Salidas

.1 Evaluacin del modelo

Esta salida consiste en resumir los resultados, listar las cualidades de cada uno de los modelos obtenidos y categorizar los resultados segn su calidad.

.2 Configuracin revisada de parmetros

En base al resultado de las evaluaciones de los modelos, se pueden revisar los parametros de los mismos y modificarlos para obtener mejores resultados. Los modelos pueden volver a ser generados hasta obtener resultados que sean satisfactorios.

Ejemplos

.1 Evaluacin del modelo

Modelo de Clusterizacin

Algoritmo 1

Grado de veracidad: 71%

Cantidad de registros omitidos: 10%

Algoritmo 2

Grado de veracidad: 90%

Cantidad de registros omitidos: 35%

Reglas de asociacin

Algoritmo 1

reglas detectadas: 100

Promedio de veracidad contrastada con los datos: 50%

Algoritmo 2

reglas detectadas 19

Promedio de veracidad contrastada con los datos: 75%

.1 Configuracin revisada de parmetros

Se revisaron los parmetros del algoritmo 2 para disminuir la cantidad de registros omitidos, al dismunir el grado de representatividad.

Se ajustaron los parmetros del algoritmo 1 de Reglas de asociacin para aumentar el promedio de veracidad.

SHAPE

Quinta etapa: Evaluacin

Tarea 1: Evaluacin de resultados

En esta etapa se evalan los resultados del modelo desde la perspectiva del negocio. Se analiza el nivel en el que el resultado se acerca al negocio y se trata de determinar si por alguna razon el modelo es deficiente.

Salida

.1 Evaluacin de los resultados de la minera de datos con respecto a los Factores Crticos del xito.

.2 Modelos aprobados

Listar los modelos que cumplen con los criterios de xito con los que se evalu anteriormente

Ejemplos

.1 Evaluacin de los resultados de la minera de datos con respecto a los Factores Crticos del xito.

Utilizando el algoritmo 1 de clusterizacin, se logr que, al contrastarlo con el Conjunto de datos de prueba, se lograra el 69% de exactitud, cercano al 70% de los FCE.

Utilizando el algoritmo 2 de reglas de asociacin, se logr detectar 5 reglas de asociacin, que, de ser implementadas por el departamento de marketting, lograran solo una mejora del 5% en la fidelidad de los clientes.

.1 Modelos aprobados

Se aprob el modelo de clusterizacin utilizado con el algoritmo 1.

Se rechaz el modelo de reglas de asociacin, dado que no cumple con los FCE.

Tarea 2: Proceso de revisin

El objetivo de esta tarea es revisar todo el proceso en busca de las tareas que pudieron haber no sido salteadas u olvidadas. Esta revisin tambin involucra analizar cuestiones de calidad sobre la construccin del modelo.

Salida

.1 Revisin de procesos

Lista con las tareas que fueron olvidadas y que deben realizarse.

Ejemplos

.1 Revisin de procesos

Se revisaron los algoritmos utlizados para la deteccin de reglas de asocicin y se consideraron otros algoritmos adicionales. Se detectaron fallas en la limpieza de datos, que quitaban representatividad al resultado final.

De los algoritmos nuevos propuestos, se dicidi inlcuir el 3 a partir de que se logr mejorar la calidad de los datos requeridos por ste.

Tarea 3: Determinacin de prximos pasos

En esta tarea los coordinadores del proyecto deciden si se continua con la etapa de implementacin o es adecuado repetir alguna de las etapas anteriores para corregir aquellos posibles errores encontrados o para obtener mejores resultados. Generalmente volver a realizar una iteracion esta influenciado por el presupuesto y recursos que posee el proyecto.

Salida

.1 Lista de posibles acciones (Project Management)

.2 Decisin (Project Management)

Ejemplos

.1 Lista de posibles acciones (Project Management)

.2 Decisin (Project Management)

SHAPE

Sexta etapa: Implementacin

Tarea 1: Planificacin del despliegue

En sta tarea se toma el resultado de la etapa anterior y se elabora una estrategia de despliegue. Esta estrategia permite aplicar los resultados del data mining en el negocio.Algunas actividades importantes dentro de esta tarea son:

Listar los resultados a utilizar en el despliegue.

Desarrollar y evaluar distintos planes de despliegue.

Decidir como realizar el despliegue del modelo, y como va a ser monitoreado el uso de los resultados.

Determinar como se van a medir los beneficios por la utilizacin de los resultados del data mining.

Salida

.1 Plan de despliegue (Project Management)

Descripcin del plan de despliegue que incluye la sucesin de pasos a realizar y como hacerlos.

Ejemplos

.1 Plan de despliegue (Project Management)

Tarea 2: Planificacin del monitoreo y mantenimiento

En esta tarea se planifica una estrategia de mantenimiento, que ayuda a evitar perodos innecesarios de mal uso de los resultados del data mining. Esto es importante en el caso en que el data mining forma parte del dia a dia del negocio. Tambin es necesario monitorear los resultados y para ello se desarrolla un plan detallado de monitoreo.

Salida

.1 Plan de monitoreo y mantenimiento (Project Management)

Descripcin de los planes de monitoreo y mantenimiento que incluyen una lista de pasos a efectuar y como realizar cada uno de ellos.

Ejemplos

.1 Plan de monitoreo y mantenimiento (Project Management)

Tarea 3: Produccin del Informe Final

Al final del proyecto se escribe un informe final. Este informe puede ser tanto un resumen del proyecto como tambin una presentacin final de los resultados del data mining.

Salida

.1 Reporte Final (Project Management)

Contiene la identificacin de los resultados obtenidos, la descripcin del proceso, los costos, las desviaciones respecto del plan original, descripcin de planes de implementacin y recomendaciones para el trabajo futuro.

.1 Presentacin Final (Project Management)

Contiene un subconjunto de la informacin incluida en el reporte final, pero estructurada en una forma diferente (a modo de presentacin).

Ejemplos

.1 Reporte Final (Project Management)

.2 Presentacin Final (Project Management)

Tarea 4: Revisin del proyecto

Analizar que se hizo bien y que se hizo mal durante la realizacin de todo el proyecto. Se determina que cosas necesitan ser mejoradas.

Salida

.1 Documentacin de lecciones aprendidas (Project Management)

Resume las experiencias obtenidas durante el proyecto.

Ejemplos

.1 Documentacin de lecciones aprendidas (Project Management)