minería de datos

Upload: cathe-morev

Post on 01-Mar-2016

221 views

Category:

Documents


0 download

DESCRIPTION

chrun

TRANSCRIPT

1.1 Anlisis Exploratorio de DatosEl primer paso para acercarse a un problema de la minera de datos es profundizar en los datos, identificar las relaciones interesantes entre los atributos, y formular algunas hiptesis iniciales, es decir, las posibles asociaciones entre los atributos y la clase. Herramientas grficas que pueden ayudar en esta fase.(1) Busca posibles variables correlacionadas. Por ejemplo, saber si los datos muestran que el nmero de minutos y cantidad cargadas tienden a aumentar a medida que el nmero de llamadas aumenta.R: Existe una correlacin entre total de minutos en el da y el cargo en el da

Existe tambin una correlacin entre total de minutos en la tarde y el cargo en la tarde

Existe tambin una correlacin entre total de minutos en la noche y el cargo en la noche

Existe tambin una correlacin entre total de minutos internacionales y el cargo por minuto internacional

(2) Existen variables que pueden ser eliminadas? Justifica tu respuesta y mencionar los posibles beneficios de hacerlo (si los hay).R: State es una variable anmala por lo tanto no se tendr en cuenta para el modelo. Are acode es una variable anmala por lo tanto no se tiene en cuenta para el modelo. Phone number se debe quitar puesto que si se deja probablemente al ejecutar el algoritmo, me indique que para usuarios con ese nmero en especfico se queden o se retiren (cual sea el resultado), pero no servira porque solo hay un usuario con ese nmero. Total day charge como tiene una relacin directa con el total de minutos en el da se puede expresar en dicha variable por lo tanto no es necesaria para el modelo. Total evening charge como tiene una relacin directa con el total de minutos en la tarde se puede expresar en dicha variable por lo tanto no es necesaria para el modelo. Total night charge como tiene una relacin directa con el total de minutos en la noche se puede expresar en dicha variable por lo tanto no es necesaria para el modelo. Total international charge como tiene una relacin directa con el total de minutos internacionales se puede expresar en dicha variable por lo tanto no es necesaria para el modelo.

(3) Investigar la proporcin de usuarios que abandonan y los usuarios que no abandonan entre los clientes que han (no) seleccionados un plan internacional (Plan Inter). Qu se puede concluir?R: Con datos sin normalizar

Con datos Normalizados

En valores numricos sera

Podemos concluir que, como existe una pequea relacin entre los planes internacionales y la permanencia de los clientes en la compaa, por lo tanto, ofrecer un buen plan internacional sera una buena estrategia para conservar los clientes. Puesto que los clientes con planes internacionales se estn retirando en una proporcin considerable.(4) Investigar las posibles relaciones entre el nmero de llamadas de servicio al cliente y el churn. Qu se puede concluir?

R: Histograma con datos normalizados de la relacin entre el nmero de llamadas de servicio al cliente y el churn.

Podemos observar que de las cero llamadas a las tres son pocas las personas que se retiran pero a partir de la cuarta llamada en adelante hay una proporcin grande de clientes que se retira. Por lo tanto se puede concluir que si las personas realizan 4 o ms llamadas al servicio al cliente es porque deben estar molestas o disgustadas con el servicio. Por lo tanto se debern emplear estrategias para mantener feliz al cliente como por ejemplo ofrecerle un mes gratis de llamadas al realizar la tercera llamada.

(5) Investigar las posibles relaciones entre el Da Min Total y churn. Qu se puede concluir?

R: Histograma de la relacin entre el Da Min Total y churn.

Se puede ver en el histograma que con planes de ms de 200 minutos en el da la gente se est retirando en grandes proporciones. Se puede concluir que faltan intensivos para las personas que son grandes consumidores de minutos en el da o que la competencia est ofreciendo mejores precios por estos minutos diurnos.

(6) Investigar las posibles relaciones entre el Total Evening Min y churn. Qu se puede concluir?

R: Histograma de la relacin entre el Total Evening Min y churn.

(7) Investigar las posibles relaciones entre las variables restantes y churn.

R: Histogramas de las dems variables

(8) Resumir en una tabla los resultados obtenidos hasta el momento, sobre el valor predictivo de cada atributo con respecto al churn.

VariableDisposicin

StateOmitido

Account lengthUtilizado

rea codeOmitido

Phone numberOmitido

International planUtilizado

Voice mail planUtilizado

Number of voice mail messageUtilizado

Total day minutesUtilizado

Total day callsUtilizado

Total day chargeOmitido

Total evening minutesUtilizado

Total evening callsUtilizado

Total evening chargeOmitido

Total night minutesUtilizado

Total night callsUtilizado

Total night chargeOmitido

Total international minutesUtilizado

Total international callsUtilizado

Total international chargeOmitido

Customer service callUtilizado

(9) Compare sus conclusiones con los resultados obtenidos mediante el uso de un filtro de seleccin de atributos en Weka. No olvide indicar qu filtro que ha usado y dar una breve descripcin.R:

1.1.1 Exploracin multivariantes RelacionesA continuacin, se le pide que investigue posibles asociaciones multivariantes de atributos numricos con churn.(1) Estudiar el grfico de dispersin de n de llamadas de servicio al cliente frente Minutos totales da. Identificar las posibles zonas de alto churn (si los hay).(2) Estudie el grfico de dispersin de total Da Min frente total de noche Min. Identificar las posibles zonas de alto churn (si los hay) y tratar de cuantificar la tasa de abandono de clientes en estas reas con respecto a todo el conjunto de datos.

1.2 La construccin de un clasificador: rboles de decisinElaborar un rbol de decisin con el algoritmo J48 disponible en WEKA. Este algoritmo es una implementacin de una versin ligeramente mejorada del C4.5. Incluya en su informe una figura con el rbol de decisin que haya obtenido.(1) Describa brevemente J48 e indique los parmetros que ha utilizado para ejecutarlo.R:

-J48 construye rboles de decisin desde un grupo de datos de entrenamiento. En cada nodo del rbol, J48 elige un atributo de los datos que ms eficazmente dividen el conjunto de muestras en subconjuntos enriquecidos en una clase u otra. Su criterio es el normalizado para ganancia de informacin que resulta en la eleccin de un atributo para dividir los datos. El atributo con la mayor ganancia de informacin normalizada se elige como parmetro de decisin. El algoritmo J48 divide recursivamente en sublistas ms pequeas.Nos incluye informacin sobre la evaluacin del modelo. En este problema, el rbol aprendido con validacin cruzada tiene una precisin mxima (93.6994%) por lo tanto las medidas de error son 6.3006%.

(2) Qu se puede concluir de la modelo que ha obtenido? Compare sus conclusiones con los que ha obtenido anteriormente (seccin 1.1).

De 3333 datos, 3185(95.6%) estn bien clasificados. En cambio nos aparecen 148(4.4%) que estn mal clasificados. El rbol de decisin con tamao 48 y numero de niveles 25.

(3) Seleccione algunas medidas de desempeo y evaluar el modelo con validacin cross. Justificar la eleccin de las medidas de rendimiento.

Sabemos que en la validacin cruzada los datos de muestra se dividen en subconjuntos. Uno de los subconjuntos se utiliza como datos de prueba y el resto como datos de entrenamiento. El proceso de validacin cruzada es repetido durante k iteraciones, con cada uno de los posibles subconjuntos de datos de prueba. Al hacer la evaluacin con cross-validation podemos observar que tiene un menor porcentaje de datos clasificados 3123(93.7%) y no clasificados 210(6.3%).

(4) Comparar el rendimiento de este clasificador con un clasificador que siempre predice la clase de la mayora.1.3 La construccin de un clasificador: ReglasConstruir un conjunto de reglas con algoritmo JRip. Este algoritmo es la versin WEKA de RIPPER. Usted puede considerar para eliminar unos cuantos atributos. Si es as, indicar qu atributos se han eliminado y por qu. Incluya en su informe las reglas que ha obtenido(1) Describa brevemente JRip e indique los parmetros que ha utilizado para ejecutarlo(2) Qu se puede concluir de la modelo que ha obtenido? Compare sus conclusiones con los que ha obtenido anteriormente (seccin 1.1 y seccin 1.2).(3) El uso de las medidas de desempeo que ha seleccionado para la evaluacin del modelo generado por J48, evaluar el modelo actual y comparar su rendimiento con el anterior (obtenido en la seccin 1.2).(4) Comparar el rendimiento de este clasificador con un clasificador que siempre predice la clase de la mayora.1.4 Aprendizaje de coste razonableTengamos en cuenta que el costo para una empresa de perder un cliente es ms alto que el costo de ofrecer algunos incentivos a un cliente, incluso cuando no es probable que churn todos modos.(1) Se plantean sus datos cualquier problema en este punto de vista? Si es as describir el problema.(2) Describir cmo el problema puede ser abordado. Utilice entonces las herramientas disponibles en WEKA para construir otro modelo de acuerdo con las ideas que habis explicado.(3) Qu se puede concluir de la modelo que ha obtenido? Compare sus conclusiones con los que ha obtenido anteriormente (secciones 1.1, 1.2 y 1.3).(4) Comparar el rendimiento del modelo que haya obtenido con las anteriores. Investigar si las diferencias son estadsticamente significativas.1.5 ClusteringInvestigar el uso de tcnicas de agrupamiento (por ejemplo, con K-means), segmentar los clientes con el fin de obtener grupos de clientes con caractersticas de uso de servicios similares.(1) Perfil de los grupos, es decir, qu se puede aprender acerca de los tipos de registros que caen en cada grupo. Justificar el nmero de grupos que ha elegido.(2) investigar si se puede utilizar la informacin obtenida por la agrupacin para ayudarle en el problema de clasificacin churn.