ejercicio weka
TRANSCRIPT
1
Ejercicio práctico de Minería de Datos Problema a resolver
Este conjunto de datos se utilizó en el “CoIL 2000 Challenge”. Contiene información sobre los clientes de una compañía de seguros. Los datos se componen de 86 variables, e incluye datos de productos contratados y datos socio-‐demográficos derivados de los ZIP codes. Los datos fueron recolectados para responder la siguiente pregunta: ¿Puede predecir quiénes estarían interesados en comprar una póliza de seguro de un Caravan y dar una explicación de por qué? Los datos de entrenamiento corresponden a 5822 registros. El concurso constaba de dos tareas: • Predecir qué clientes estarían potencialmente interesados en una póliza de seguro
para un Caravan.
• Describir a los clientes reales o potenciales; y, de ser posible, explicar por qué estos clientes compran una póliza de Caravan.
Descripción de los datos Se quiere predecir si un cliente está interesado en una póliza de seguro para un Caravan a partir de otros datos sobre el cliente. Los datos fueron suministrados por una compañía holandesa de Data Mining, Sentient Machine Research, y se basa en datos reales. El conjunto de entrenamiento contiene más de 5000 registros, incluida la información de si tienen o no tienen una póliza de seguro para un Caravan. El conjunto de prueba contiene 4000 clientes, de los cuales sólo los organizadores sabían si tenían la póliza de seguro correspondiente. Cada registro se compone de 86 atributos, que contiene datos socio-‐demográficos (atributo 1-‐43) y posesión de productos (atributos 44-‐86). Los datos socio-‐demográficos se obtienen a partir de ZIP codes. Todos los clientes que viven en zonas con el mismo código postal tienen los mismos valores. El atributo 86, “CARAVAN:Number of mobile home policies”, es la variable a predecir. Para ver una descripción detallada de cada atributo, consulte el siguiente link: • http://www.liacs.nl/~putten/library/cc2000/data.html
2
En el sitio Web del curso (Aula Virtual) usted podrá encontrar los siguientes tres archivos: • ticdata2000.arff
o Datos de entrenamiento en formato utilizado por Weka. Para esta aplicación, tiene la ventaja de que contiene metadata correspondiente a cada atributo.
• ticeval2000.arff o Datos de prueba en formato ARFF
• ticdictionary.txt o Breve descripción de cada atributo
Objetivo El objetivo de la actividad es que usted analice los datos provistos y construya modelos de predicción. La predicción consiste en establecer qué clientes comprarían la póliza de seguro para el Caravan. Esto se puede expresar como una categoría binaria (compraría o no) o como una probabilidad de compra. En el concurso original, se pedía a los participantes encontrar el conjunto de 800 clientes en el conjunto de prueba que tuvieran una mayor probabilidad de comprar la póliza de seguro. Para cada solución presentada, se contaba el número de asegurados reales que coincidían con la predicción, y esto daba la puntuación de una solución. Usted deberá explicar las técnicas o algoritmos utilizados, y qué obtuvo con cada uno de ellos. En nuestro caso, interesa más el proceso realizado que los resultados finales que se obtengan. Se deben realizar las siguientes tareas como mínimo: 1. Explorar los datos
¿Existen relaciones entre los atributos? ¿Todas las variables sirven para predecir la clase? ¿Conviene hacer algún tipo de preprocesamiento? Recuerde que las decisiones que se tomen aquí son cruciales para poder obtener un resultado de buena calidad.
2. Se le pide comparar el desempeño de al menos 3 técnicas distintas.
¿Con cuáles se obtiene un mejor desempeño? ¿Puede explicar los resultados obtenidos? ¿Cuál recomendaría? ¿Por qué?
3. Finalmente, se le pide que encuentre un árbol de clasificación que tenga un
desempeño similar a la mejor técnica que haya encontrado en el paso anterior. Cumpla con dicho objetivo, justificando sus acciones.
3
Sobre la entrega
a. El trabajo se desarrollará en grupos de 3 personas. Todos deben pertenecer al mismo grupo.
b. Deberán desarrollar un informe digital, lo más detallado posible. c. La entrega será a través del sitio del curso (Aula Virtual), a más tardar el lunes
11 de noviembre a las 23:30 horas. d. El trabajo se revisará el 12, 13 o 14 de noviembre en su grupo
correspondiente. e. La entrega incluye:
i. Informe digital (formato DOC o PDF) ii. Archivo arff final, el que utilizó para entregar sus resultados