ejercicio weka

3

Click here to load reader

Upload: perla-espinoza-gomez

Post on 04-Jan-2016

3 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Ejercicio WEKA

1

 

Ejercicio  práctico  de  Minería  de  Datos      Problema  a  resolver  

Este   conjunto   de   datos   se   utilizó   en   el   “CoIL   2000   Challenge”.  Contiene   información   sobre   los   clientes   de   una   compañía   de  seguros.  Los  datos  se  componen  de  86  variables,    e  incluye  datos  de  productos  contratados  y  datos  socio-­‐demográficos  derivados  de  los  ZIP  codes.    Los  datos  fueron  recolectados  para  responder  la  siguiente  pregunta:  ¿Puede  predecir  quiénes   estarían   interesados   en   comprar  una  póliza  de   seguro  de  un  Caravan   y   dar  una  explicación  de  por  qué?    Los  datos  de  entrenamiento  corresponden  a  5822  registros.    El  concurso  constaba  de  dos  tareas:    • Predecir  qué  clientes  estarían  potencialmente  interesados  en  una  póliza  de  seguro  

para  un  Caravan.    

• Describir   a   los   clientes   reales   o   potenciales;   y,   de   ser   posible,   explicar   por   qué  estos  clientes  compran  una  póliza  de  Caravan.  

   Descripción  de  los  datos  Se   quiere   predecir   si   un   cliente   está   interesado   en   una   póliza   de   seguro   para   un  Caravan  a  partir  de  otros  datos  sobre  el  cliente.  Los  datos   fueron  suministrados  por  una   compañía   holandesa   de  Data  Mining,   Sentient  Machine   Research,     y   se   basa   en  datos  reales.  El  conjunto  de  entrenamiento  contiene  más  de  5000  registros,  incluida  la  información   de   si   tienen   o   no   tienen   una   póliza   de   seguro   para   un   Caravan.   El  conjunto  de  prueba  contiene  4000  clientes,  de  los  cuales  sólo  los  organizadores  sabían  si  tenían  la  póliza  de  seguro  correspondiente.    Cada   registro   se   compone   de   86   atributos,   que   contiene   datos   socio-­‐demográficos  (atributo   1-­‐43)   y   posesión   de   productos   (atributos   44-­‐86).   Los   datos   socio-­‐demográficos  se  obtienen  a  partir  de  ZIP  codes.  Todos  los  clientes  que  viven  en  zonas  con   el   mismo   código   postal   tienen   los   mismos   valores.   El   atributo   86,  “CARAVAN:Number  of  mobile  home  policies”,  es  la  variable  a  predecir.    Para  ver  una  descripción  detallada  de  cada  atributo,  consulte  el  siguiente  link:  • http://www.liacs.nl/~putten/library/cc2000/data.html    

Page 2: Ejercicio WEKA

2

En   el   sitio   Web   del   curso   (Aula   Virtual)   usted   podrá   encontrar   los   siguientes   tres  archivos:  • ticdata2000.arff  

o Datos   de   entrenamiento   en   formato   utilizado   por   Weka.   Para   esta  aplicación,   tiene   la   ventaja   de   que   contiene  metadata   correspondiente   a  cada  atributo.  

• ticeval2000.arff    o Datos  de  prueba  en  formato  ARFF  

• ticdictionary.txt  o Breve  descripción  de  cada  atributo  

   Objetivo  El   objetivo   de   la   actividad   es   que   usted   analice   los   datos   provistos   y   construya  modelos  de  predicción.    La  predicción  consiste  en  establecer  qué  clientes  comprarían  la  póliza  de  seguro  para  el  Caravan.   Esto   se   puede   expresar   como   una   categoría   binaria   (compraría   o   no)   o  como  una  probabilidad  de  compra.    En   el   concurso   original,   se   pedía   a   los   participantes   encontrar   el   conjunto   de   800  clientes  en  el  conjunto  de  prueba  que  tuvieran  una  mayor  probabilidad  de  comprar  la  póliza  de  seguro.  Para  cada  solución  presentada,  se  contaba  el  número  de  asegurados  reales  que  coincidían  con  la  predicción,  y  esto  daba  la  puntuación  de  una  solución.    Usted  deberá  explicar  las  técnicas  o  algoritmos  utilizados,  y  qué  obtuvo  con  cada  uno  de  ellos.  En  nuestro  caso,  interesa  más  el  proceso  realizado  que  los  resultados  finales  que  se  obtengan.    Se  deben  realizar  las  siguientes  tareas  como  mínimo:    1. Explorar  los  datos  

¿Existen  relaciones  entre  los  atributos?  ¿Todas  las  variables  sirven  para  predecir  la   clase?   ¿Conviene   hacer   algún   tipo   de   preprocesamiento?   Recuerde   que   las  decisiones  que   se   tomen  aquí   son  cruciales  para  poder  obtener  un   resultado  de  buena  calidad.  

 2. Se  le  pide  comparar  el  desempeño  de  al  menos  3  técnicas  distintas.  

¿Con   cuáles   se   obtiene   un   mejor   desempeño?   ¿Puede   explicar   los   resultados  obtenidos?  ¿Cuál  recomendaría?  ¿Por  qué?  

 3. Finalmente,   se   le   pide   que   encuentre   un   árbol   de   clasificación   que   tenga   un  

desempeño  similar  a  la  mejor  técnica  que  haya  encontrado  en  el  paso  anterior.    Cumpla  con  dicho  objetivo,  justificando  sus  acciones.    

Page 3: Ejercicio WEKA

3

 Sobre  la  entrega  

a. El  trabajo  se  desarrollará  en  grupos  de  3  personas.  Todos  deben  pertenecer  al  mismo  grupo.  

b. Deberán  desarrollar  un  informe  digital,  lo  más  detallado  posible.  c. La  entrega  será  a  través  del  sitio  del  curso  (Aula  Virtual),  a  más  tardar  el  lunes  

11  de  noviembre  a  las  23:30  horas.  d. El   trabajo   se   revisará   el   12,   13   o   14   de   noviembre   en   su   grupo  

correspondiente.  e. La  entrega  incluye:  

i. Informe  digital  (formato  DOC  o  PDF)  ii. Archivo  arff  final,  el  que  utilizó  para  entregar  sus  resultados