modelos de clasi cación sensibles al costo para una base

Facultad de Estadística

Trabajo de Grado

Enero 2017

Modelos de clasi�cación sensibles al costo para una base de churn

Cost-sensitive classi�cation models for a churn base

Fredi Alexsander Barón [email protected]

Resumen

En el siguiente trabajo se analizan los modelos sensibles al costo mediante la metodología metacost pa-ra el análisis del churn o tasa de rotación de una empresa de televisión por suscripción Dicho análisisempieza desde la descripción del churn como métrica empresarial, para luego mostrar una construcciónde los modelos sensibles al costo aplicando metacost y concluir la efectividad del mismo con respecto aotros modelos. El trabajo anterior fue realizado en la plataforma python.

Palabras clave: Churn,Churner,Metacost,Matriz de costos.

Abstract

In the following work, the cost-sensitive models were analyzed using the metacost methodology forchurn analysis or the rate of rotation of a subscription television company. This analysis starts from thedescription of the churn as a business metric, to then show a construction of the cost-sensitive models thatapply metacost and conclude the e�ectiveness of the same with respect to other models. The previouswork was done on the python platform.

Keywords: Churn,Churner,Metacost, Cost matrix.

1. Antecedentes

En la actualidad las empresas están diseñando diferentes estrategias para ser más e�cientes y tener mayorpartición en ventas dentro de su categoría. Lo cual se ve re�ejado en la necesidad de analizar diferentesindicadores para tomar decisiones a mediano y largo plazo.

Lo anterior es una de las razones por las cuales, la producción estadística ha irrumpido e incrementado suacción los diferentes sectores, además de su fácil aplicabilidad y capacidad de dar respuesta a diferentespreguntas de tipo gerencial con el análisis de su propia información.

Algunos de los objetivos empresariales a los que esta rama de las matemáticas ha intentado dar respuestason; como aumentar sus ganancias, disminuir sus costos, como aumentar o mantener a sus clientes.

Para el último objetivo empresarial se ha desarrollado un indicador denominado rate churn (tasa derotación de negocio), ya que puede indicar la respuesta del cliente con el servicio, la �jación de precios

aEstudiante de estadística Universidad Santo Tomás Bogotá

1

2 Fredi Alexsander Barón Mora.

y la fuga de clientes, es decir determinar cuando un cliente cancela una suscripción, como lomenciona Ahn (2006).

En el caso del trabajo de grado se enfatizara en la última parte, en la parte denominada como Churnde clientes. Para la estimación de rotación futura, se realiza un proceso conocido como el modeladopredictivo rotación, lo cual se hace por medio de modelos de clasi�cación.

Estos métodos presentan un gran problema cuando se contempla su pronóstico, ya que se asignan pesosiguales a los errores que se generan en la clasi�cación, es decir, al generar una clasi�cación verdadera,cuando no lo es (Falso positivo), o en caso contrario, cuando se predice una clasi�cación negativa cuandono lo es (Falso negativo).

Esto parece ser lógico para la estructura sobre la cual se construyen los algoritmos de clasi�cación, pero,en diferentes contextos lo anterior representa una di�cultad bastante grande para la persona que decideaplicarlos.

Para mitigar el impacto de los errores ya de�nido, se creó la teoría de los modelos de clasi�cación sensi-bles al costo, que permite dar mayor peso al error que el contexto de�na más importante, aunque sobreestos métodos la información es limitada lo cual es una di�cultad, puesto que en general se encuentranaplicaciones de estos y poca información estructural sobre los mismos.

Además la aplicación de los modelos de clasi�cación sensibles al costo, solo puede hacerse mediante apli-caciones informáticas especializadas, las cuales son pocas y ponen una barrera a las personas que lasquieran utilizar, puesto que las instrucciones no son su�cientes para un correcto uso, como ocurre en laplataforma Python con la librería costcla.

De igual manera las opciones presentadas en la librería costcla, no se enfocan directamente al tratamientode las bases de churn lo que implica una di�cultad a un mayor, para la aplicación de los algoritmos.

Pascual (2005) analiza los Métodos de coste sensitivo para clasi�cación para una base de credit scoring,comparando los resultados con diferentes modelos y algoritmos utilizados habitualmente, obteniendounos resultados superiores en cuanto a predicción. Pero no existe presentación formal de los métodossiendo esta una di�cultad grande para los lectores, puesto que si se presentara podría ser una guía paraentender el funcionamiento de dichos modelos.

Los modelos de clasi�cación sensibles al costo se han estudiado en documentos anteriores, donde se es-peci�ca que la información anterior de los mismos es muy poca, ya que las bases para el trabajo de losmismos son de difícil adquisición como lo menciona Correa(2015a).

2. Churn

Para hablar de churn, es importante de�nir algunos conceptos que tienen que ver directamente con estaactividad, como se muestra a continuación:

Cliente: El signi�cado de este concepto a cambiado con el tiempo ya que se ha analizado desde elcontexto de la producción hasta el contexto del social marketing. En la decada de los sesenta el

Facultad de Estadística Trabajo de Grado Enero 2017

Modelos de clasi�cación sensibles al costo 3

cliente era comprendido como la persona que consumiría lo que se le ofreciera, pero con el cambioen la economía, al aumentar la competencia entre empresas acompañada de la globalización, paso atener un papel fundamental en la producción del bien o servicio. De igual manera, se ha observadoque es más economico retener clientes existentes que reclutar nuevos clientes Donio(2006).

Cliente Churn (Churner): Se denomina churner a aquel cliente que presenta propensión a terminarel contrato o suscripción de una empresa por una necesidad particular insatisfecha.

Churn: Describe el número o porcentaje de clientes regulares que abandonan la relación con el pro-veedor de servicios, siendo una variable muy importante para las empresas prestadoras de servicios,puesto que la tasa de churn de un cliente tiene un fuerte impacto en el valor a largo plazo, porqueafecta la duración del servicio y los ingresos futuros de la compañía.

Lealtad: Hace referencia al índice de clientes quisieran quedarse con la compañía, ya que sientenque sus necesidad de servicio están totalmente cubiertas, es el mayor objetivo de una campaña deretención.

Según lo anterior Hadden(2007) a�rma que el costo de ganar un nuevo cliente es mucho mayor que elcosto de preservar uno existente, por lo que las compañías de telefonía móvil han cambiado considerable-mente la atención de la adquisición de clientes a la retención de clientes. Como resultado, la predicciónde churn ha surgido como una aplicación crucial en la rama del Business Intelligence (BI), donde se tienecomo objetivo identi�car a los clientes que están a punto de transferir su adquisición de servicio a uncompetidor.

Ademas kojo(2011) establece que un buen sistema de predicción de churn no sólo debe determinar conprecisión los potenciales churners con éxito, sino que además proporcionan un pronóstico de horizontesu�cientemente largo en sus predicciones.Una vez que un potencial churner se identi�ca, el departamentode retención de la compañía generalmente hace contacto y, si el cliente está establecido para ser un riesgode rotura, toma medidas apropiadas para preservar su negocio. Por lo tanto, un horizonte de pronósticolargo es una ventaja obvia, ya que cuanto más lejos está el cliente de tomar la decisión de churn, másfácil es evitar que la decisión a un costo signi�cativamente menor.

2.1. Causas de churn

En un entorno intensamente competitivo, los clientes reciben numerosos incentivos para cambiar de suhabitual suministradora de servicio por suscripción y a su vez determinan los mismos como necesidadesinsatisfechas para quedarse. Según Geppert(2002) las principales causas para de churn son las siguientes:

Precio: Especialmente en los mercados inalámbricos y de larga distancia, los operadores a menu-do ofrecen promociones de precios, como tarifas mensuales relativamente bajas, ofertas de granvolumen (número �jo de minutos a un precio razonable por mes) y tarifas bajas por minuto. Es-tos incentivos de precios pueden proporcionar a los clientes residenciales, en particular, incentivospoderosos para cambiar al operador. Algo similar ocurre con las empresas de televisión ya queofrecen más canales a sus suscriptores nuevos, más canales premium por un periodo de tiempo de�-nido, facilidades de pago y servicios adicionales, como pregrabado y películas por orden entre otros.



Calidad de servicio: La falta de capacidades de conexión o de calidad en lugares donde el clienterequiere servicio puede hacer que los clientes abandonen su compañía actual en favor de uno conalcance más amplio o una red más robusta. En el caso de los servicios de televisión se ve unaclara diferencia entre la cobertura de las que prestan el servicio vía satélite y las que no, ya que enzonas rurales de buen poder adquisitivo, el servicio satelital está muy por encima de su competencia.

Fallas técnicas: Las constantes interrupciones del servicio de televisión, o fallas en la buena re-cepción de la señal presentan un gran reto para las empresas prestadoras. Falta de capacidad derespuesta del operador: La respuesta lenta o nula a las quejas de los clientes es un camino seguropara un desastre de relaciones con los clientes. Las promesas quebradas, los largos tiempos de espe-ra cuando el cliente informa de problemas, y múltiples quejas relacionadas con el mismo problema,seguramente darán lugar al churn de los clientes.

Deslealtad de la marca (o lealtad a otra): Los problemas de marca pueden surgir debido a pro-blemas de servicio o de otro tipo experimentados a lo largo del tiempo, fusiones o adquisicionesque involucren a la compañía titular o entrada en el mercado de otra compañía con fuerte reco-nocimiento y reputación. La lealtad marginal de la marca a menudo puede ser superada por losincentivos de los competidores.

Preocupaciones por la privacidad: Los consumidores tienen una creciente conciencia de que lasempresas con las que tratan tienen mucha información sobre ellos, incluyendo sus hábitos de gasto,información �nanciera personal, información de salud y similares. El rompimiento de las promesasde privacidad, los problemas de privacidad publicados, el telemercadeo y otros problemas estáncausando que muchos clientes consideren su privacidad personal como un activo y están mante-niendo a sus proveedores de servicios responsables de mantener las promesas de privacidad.

Carencia de características: Los clientes pueden cambiar de operador por características no pro-porcionadas por su compañía actual. Esto podría incluir la incapacidad de un transportista enparticular para ser el .one-stop shop"para todas las necesidades de comunicaciones del cliente.

Nueva tecnología o producto introducido por los competidores: Las nuevas tecnologías, como losdatos de alta velocidad o las ofertas de servicios de gran valor, crean oportunidades signi�cativaspara que los operadores atraigan a los clientes de los competidores a cambiar.

Nuevos competidores entran en el mercado: La mera existencia de competidores viables para eloperador histórico puede hacer que algunos clientes desleales revienten. Además, a medida quelos competidores entran en nuevos mercados, suelen ofrecer incentivos a corto o largo plazo a losnuevos suscriptores para aumentar su cuota de mercado.

Litigios sobre facturación o servicio: Errores de facturación, pagos incorrectamente aplicados ydisputas sobre interrupciones del servicio pueden hacer que los clientes cambien de compañía.

Dependiendo de las situaciones, el churn correspondiente puede ser evitable, y a eso es lo que le apues-tan las empresas de servicio, ya que las causas de no hacerlo pueden ser bastante perjudiciales para estas.

Las anteriores causas muestran como diferentes factores afectan la percepción del servicio por parte de losclientes, además como la empresa debe tener en cuenta estas circunstancias para realizar la formulación



de la oferta que se realizara al cliente en caso de ser detectado como churner, buscando disminuir laprobabilidad de rechazo de la misma y por ende la retención sea exitosa.

2.2. Efectos del churn

Evitar la fuga de los clientes es fundamental para la supervivencia de los proveedores de servicios móviles,ya que se estima que el costo de adquirir un nuevo cliente es de aproximadamente $ 300 o más si se tieneen cuenta la publicidad, el marketing y el apoyo técnico, etc.

Por otro lado, el costo de retención de un cliente actual es generalmente tan bajo como el costo de unallamada de retención de un solo cliente o una solicitud de correo simple. El alto costo de adquisición haceque sea fundamental para los proveedores de servicios móviles establecer formas de predecir el comporta-miento de churn y ejecutar acciones adecuadas antes de que los clientes puedan dejar la empresa. Ademásde la pérdida de ingresos, la rotación de clientes signi�ca mayores costos de activación y desactivación.Según Gepper(2002) en el sector inalámbrico mundial, éstos ascienden a 10.000 millones de dólares alaño, según un estudio de agosto de 2001 de International Data Corporation.

A su vez Gepper(2002) establece que para equilibrar una alta tasa de rotación, las empresas se ven obli-gadas para obtener nuevos clientes. Pero el costo de adquirir cada nuevo cliente oscila entre 350a 475 y losproveedores necesitan retener a estos nuevos clientes por más de cuatro años para alcanzar el equilibrio.El reemplazo de clientes antiguos por otros nuevos conlleva otras cargas. Además de la comercializacióny la publicidad, las empresas incurren en costos asociados con el suministro de nuevos clientes, así comoel aumento de los riesgos asociados con los problemas de facturación y otras cuestiones de garantía deingresos.

El churn del cliente también genera otro tipo de costos, como lo es la pérdida de valor de la marca cuandolos clientes insatisfechos cuentas a otros sus experiencias, oportunidades perdidas de venta cruzada deproductos y servicios complementarios y un potencial efecto dominó con respecto a la base de clientesrestante de la compañía. La desactivación y desconexión de los clientes crea un riesgo inherente de dete-rioro de ingresos y márgenes, especialmente cuando se trata de múltiples proveedores de servicios.

2.3. Retención de clientes

La retención de clientes se contempla como solución a la decisión de rescindir los contratos, evitandosufrir las consecuencias del mismo. Dicha retención depende primordialmente de la predicción de fuga,ya sea tanto para la identi�cación de los clientes con tendencias a retirarse, como la determinación desu rentabilidad futura en caso de hacerlo, permitiendo focalizar los esfuerzos de retención en los clientesmás apropiados.



Figura 1: Ciclo de retención de clientes.Weber(2005)

En esta �gura, se observa el ciclo básico de una campaña de retención, donde se analizan los datos delos clientes para realizar diferentes modelos de churn, para luego sobre los modelos ya determinados cal-cular el valor de tiempo promedio de vida para escoger los más importantes para posteriormente aplicarsobre estos las medidas de retención. Lo anterior genera una reacción en los clientes, si es positiva, suinformación volverá a ingresar como insumo para generar nuevos modelos.

Weber(2005) sostiene que en diferentes estudios se ha mostrado los bene�cios de disminuir el churn yaumentar los porcentajes de retención en las instituciones. Puesto que al tener una cartera con un mayornúmero de clientes, se realizan en promedio un mayor número de transacciones, aumentando las utilidadesde la institución. Además, si se logra una mayor permanencia de un cliente en la institución, se obtienenlos bene�cios asociados a la disminución de los costos operacionales, las referencias y al incremento enlas transacciones, como se muestra a continuación.



Figura 2: Bene�cio generado por un cliente a lo largo del tiempo que permanece dentro de la institución,Weber(2005)

Esta gra�ca muestra los efectos y el bene�cio económico generado por un cliente a través del tiempo. Seanaliza como a medida que aumentan los años todos los bene�cios crecen, aumentando las ganancias dela compañía. Se puede establecer que a medida que el cliente permanece por más años en la suscripción,las ganancias de la empresa con respecto a este son muy superiores. Pero es de destacar la proporción delcosto de adquisición del cliente con respeto a las ganancias, ya que es similar al de permanecer una añoen la compañía, lo cual con�rma que perder un cliente, no solo implica, perder la inversión inicial de cap-tación, sino que además se deja de percibir los bene�cios que el cliente hubiese permanecido en la empresa.

De acuerdo a lo anterior Larivére(2003) a�rma que según un estudio realizado en el banco ECB (Eu-ropean Central Bank) , muestra los bene�cios generados al disminuir el porcentaje de clientes fugadosanualmente y cómo se ven afectados los �ujos futuros de la compañía durante un periodo de 25 años. Endicho estudio se de�nen la tasa de retención como la relación entre el número de clientes que permanecenen la institución y la cartera total de clientes.

TR = (1− NCF

NCT) ∗ 100 % (1)

Donde;

TR= Tasa de retención

NCF=Número de clientes fugados al año

NCT=Número de clientes total



A continuación se muestra el bene�cio acumulado generado por los clientes respecto a distintas tasas deretención.

Figura 3: Bene�cio acumulado respecto de la tasa de retención, Lariviére(2003)

Se puede analizar que a medida que aumenta la tasa de retención, el bene�cio también aumenta, se puedeobservar que la situación ideal es la representada por la línea correspondiente a una tasa de retenciónigual al 100%, lo cual signi�caría que se retiene a la totalidad de los clientes cada año. Pero esta situa-ción es prácticamente imposible debido a que existen numerosas circunstancias que el banco no puedemanejar, como lo pueden ser, la muerte de un cliente o el cambio de su residencia al extranjero.

Al aumentar la tasa de retención de un 1% (de un 93% a un 94%), respecto de una cartera de 1.000.000de clientes, las utilidades generadas por la retención de este segmento crecen en aproximadamente 30millones de euros durante el periodo de evaluación, Lariviére(2003). Es de resaltar la inviabilidad deremediar la fuga de clientes con una mayor captación de clientes nuevos, ya que por un lado, los clientesnuevos son potencialmente riesgosos para la empresa y por otro se sabe que captar un cliente nuevo esentre 5 y 6 veces más costoso que retener a uno antiguo Weber(2005).

En sinteis, las actividades para retener clientes generan una serie de bene�cios para una institución �-nanciera que justi�can el desarrollo de modelos de predicción especializados para la predicción de fuga.

3. Modelos sensibles al costo

En diferentes contextos, es necesario identi�car los cambios que se puedan presentar en la estructurapropia del negocio, ya sean a corto, mediano o largo plazo. Es por esto que e1l análisis y manejo de lainformación presentan una relevante importancia, además de esto, los modelos de predicción son unarespuesta directa de la estadística para esta situación.



Según Correa(2015a), los modelos predictivos permiten disminuir de forma signi�cativa la incertidumbrede un posible cambio en condiciones normales. Las campañas de retención son un ejemplo claro dondese aplican dichos modelos, ya que permiten predecir la probabilidad de que un cliente se desvincule de lasuscripción usando la información histórica, determinada por las variables de comportamiento y socio-económicas, permitiendo maximizar los resultados de estas campañas.

La minería de datos muestra una clara estructura de los modelos predictivos, abordando la situaciónya descrita desde los algoritmos de aprendizaje, con el �n de aprender los diferentes patrones tanto delos usuarios que abandonan como de los no usuarios que abandonan, y así realizar un estimación de losusuarios que pueden terminar con la suscripción. Sin embargo, los actuales algoritmos de clasi�caciónno son una respuesta precisa, desde el punto de vista de los objetivos comerciales, puesto que, en estosmodelos faltan incluir los costos �nancieros y bene�cios reales durante las fases de formación y evaluacióndel mismo.

En este punto el campo de estudio denominado Machine Learning retoma los estudios desarrolladospor el campo de la minería de datos y los complementa, implementando en la formación de los modelospredictivos el costo �nanciero real. El cual está determinado por la inversión por suscriptor en unacampaña de �delización y el impacto �nanciero de no detectar un churner (cliente o suscriptor que dejande utilizar los servicios que ofrece una empresa) real frente a predecir erróneamente un no abandonocomo un usuario churner.

Correa(2015b) a�rma que los modelos de predicción utilizados para identi�car la pérdida de clientes,que tienen en cuenta el costo real anteriormente de�nido, se denominan modelos de clasi�caciónsensibles al costo. Estos modelos presentan un mayor rendimiento en función de su capacidad de pre-dicción y la optimización de costos generando un aumento en el ahorro de costos reales de hasta el 26,4%.

De los anteriores planteamientos se deduce que los modelos de clasi�cación sensibles al costo se ajus-tan de forma superior a las necesidades económicas de las empresas relacionadas con el uso de clientespor suscripción, ya que los modelos predictivos clásicos determinan un mismo valor para los posibleserrores de la predicción.Es decir, asume el mismo costo económico tanto para los clientes que deseanterminar la suscripción y predice que no lo harán, como para los clientes que desean continuar con lasuscripción pero el modelo los predice como clientes que pretender terminarla. Lo cual pone en aprietosa la persona que realiza las campañas de retención ya que el presupuesto se destina según estos resultados.

En relación con este último, los modelos de clasi�cación sensibles al costo, analizan el costo real de cadapredicción obtenida por el modelo, determinando valores diferentes para cada tipo de error ya nombrado.Permitiendo establecer una acción de retención por cliente, en otras palabras, hacer una oferta para quedesista de su posible cancelación de la suscripción, obteniendo una optimización de los recursos para lasmismas.

3.1. Campañas de rotación

Se denomina campaña de rotación, a todas aquellas medidas que realiza la empresa prestadora del servi-cio por suscripción, para que sus clientes actuales continúen con la suscripción y no abandonen el servicio.Generalmente las empresas realizan ofertas, descuentos o promociones que consideran harán retractar-se al cliente de la decisión de cancelar, como consecuencia de esto las empresas deben destinar granpresupuesto para dicho �n, pero se asume como un gasto necesario pues como a�rma Correa(2015b) laretención de un cliente es aproximadamente cinco veces menos caro que adquirir uno nuevo.



Es evidente entonces que el principal interés de las empresas de suscripción, es aumentar el número desuscriptores, mientras hace lo posible por retener los que ya tiene, puesto que las ganancias están repre-sentadas directamente por la cantidad de personas que se encuentran suscritas, obligando a las campañasde retención a obtener buenos resultados.

Dichas campañas empiezan por generar una estimación e identi�cación de los suscritos actuales que pre-tenden terminar con el contrato, para posteriormente realizar una propuesta buscando in�uenciar así sudecisión. Es por esto que predecir cuales son los posibles clientes a abandonar la compañía se vuelve tanimportante, puesto que ofrecer una promoción a un cliente que no pretenda irse es un gasto innecesario,haciendo que la campaña pierda e�ciencia desde el punto de vista económico.

A continuación se muestra un diagrama con los diferentes pasos en los que consiste una campaña deretención .

Figura 4: Diagrama campaña de rotación, Verbraken(2012)

En la grá�ca anterior se puede analizar las diferentes etapas de una campaña normal de retención, em-pezando con el ingreso de nuevos clientes a la base de datos de la empresa. Luego se observa un sectorde los clientes con intención de terminar su contrato de suscripción

En ese punto es donde el modelo de predicción tiene su campo de acción ya que este permite identi�carlos clientes que pretenden retirarse antes de que hagan efectiva tal decisión. Teniendo claro este grupode personas, se realiza una oferta para retenerlos, pero puede que las personas no gusten de la oferta, yaque no responde a la necesidad insatisfecha que cada uno tiene.

Para lo anterior se estima que un cliente puede aceptar dicha oferta con una probabilidad Γ determinadapor información histórica, permitiendo analizar la mejor propuesta de forma individual. Pero tambiénpuede ocurrir que el modelo realice una mala clasi�cación, es decir prediga a una persona que no piensaabandonar el contrato como una persona que lo piensa hacer, generando un gasto adicional para la em-presa ya que siempre se aceptara la oferta.

Al aplicar los resultados de las predicciones del modelo de rotación, también se puede clasi�car un cliente



que se piense retirar pero la predicción determina que es un cliente que no desea hacerlo, lo cual es gravepuesto que estos clientes no reciben una oferta y terminaran por cancelar la suscripción. Por último,está el caso para los clientes que no desean abandonar la suscripción y se predicen como clientes que noabandonaran, para estos no hay necesidad de hacer una oferta de retención, ya que continuarán siendoparte de la base de clientes.

Correa (2015a) a�rma que una campaña de rotación tiene tres puntos principales. En primer lugar, evi-tar falsos positivos ya que hay un costo �nanciero de hacer una oferta si no fuera necesario. En segundolugar, a los verdaderos positivos, dar a la oferta adecuada que maximizan Γ al tiempo que maximiza elbene�cio de la empresa. Y por último, para disminuir el número de falsos negativos.

Los modelos que son creados para identi�car las personas que pueden ser posibles sujetos churn, es decirclientes con propensión a retirarse, en cualquiera de los cuatro casos anteriores, se denominan modelode rotación, los cuales se pueden realizar empleando algunas metodologías como:

Regresion Logistica

Random Forest

Redes Neuronales

Navy Bayes

Verbeke(2012), estudió el comportamiento de dichos modelos de rotación , determinando que al momentode evaluar su �abilidad se utilizan medidas convencionales como, errores de clasi�cación, curva ROC,Kolmogorov-Smirnov entre otros. Pero dichas medidas suponen que los errores de clasi�cación equivoca-da tienen el mismo costo, lo cual no es aconsejable en este tipo de modelos ya que no identi�car a unusuario rentable que abandona o un usuario que abandona no rentable, tiene una diferencia de costos�nancieros bastante considerable.

3.2. Evaluación de una campaña de rotación

Para evaluar las campañas de rotación de un algoritmo de clasi�cación o modelo, se utiliza una matrizde confusión puesto que las predicciones toman valores de cero (el usuario no desea �nalizar la a�liación)o uno (el usuario desea �nalizar la a�liación como se muestra a continuación).

Tabla 1: Clasi�cación de errores en matriz de confusión,citeCorrea2015a

Actual positive (y=1) Actual negative (y=0)Predicted Positive (c=1) True Positive (TP) False Positive (FP)Predicted Negative (c=0) False Negative (FN) True Positive (TN)

Al observar las diferentes posiciones de la matriz, se pueden analizar los valores de predicción estimadospor el modelo. Los criterios de evaluación de esté tienen estan relacionados por dichos valores, lo cual espoco útil para las campañas en mención, puesto que los errores de clasi�cación erróneos están determi-nando un mismo costo.

Los criterios más utilizados para de�nir la �abilidad de un modelo tradicional son:



[∗] Accuracy =TP + TN

TP + TN + FP + FN(2)

[∗] Recall =TP

TP + FN(3)

[∗] Precision =TP

TP + FP(4)

[∗] F1Score = 2 ∗ Precision ∗RecallPrecision+Recall

(5)

Con lo evidenciado anteriormente las clasi�caciones erróneas no tienen el mismo costo, puesto que esdiferente cuando se clasi�ca erróneamente a un cliente que no piensas abandonar el contrato como a uncliente que sí. Además las medidas de precisión ya de�nidas anteriormente asume que la distribución declase entre los ejemplos es constante y equilibrad, por lo general la distribución de un conjunto de datosrotación son asimétricos Verbeke(2012).

3.3. Campañas de rotación analizando el costo

Considerando la importancia de estimar los costos de una errónea predicción, se han desarrollado dife-rentes estudios, donde se proponen diferentes ecuaciones que relacionan las predicciones del modelo consu costo �nanciero real.

En primera instancia se encunetra una medida que permite relacionar las ganancias, la cual consiste enmultiplicar los valores de la matriz de confusión por el bene�cio económico de cada caso.

Beneficio1 = (TP + FP )[(ΓCLV + C0(1− Γ)(−Ca))π1Γ− C0 − Ca]−A (6)

Donde;

A es el costo administrativo �jo para la ejecución de la campaña.

C0 es el costo medio de la oferta de retención

Ca el costo de ponerse en contacto con el cliente

π1 la tasa de desconexión previa

CLV el valor promedio de vida del cliente.



Más adelante Verbraken(2012), propone tomar el promedio en lugar del bene�cio total y se descarta elcosto �jo A �jo, la ecuación de bene�cio puede expresarse como:

Beneficio2 = TP (Γ(CLV − C0 − Ca) + (1− Γ)Ca) + FP (−C0 − Ca) (7)

Pero las ecuaciones anteriores presentan la desventaja que determinan un mismo CLV y C0 para todoslos clientes, lo cual no ocurre en el contexto real. Ya que todos los clientes tienen un muy diferente CLV,y no todas las ofertas tienen el mismo impacto sobre todas las personas, ni se pueden realizar las mismasa todos.

Después de analizar las formulas se puede concluir que es muy importante y necesario analizar el costode todas las clasi�caciones realizadas en la matriz de confusión, es decir, falsos positivos, verdaderospositivos, falsos negativos y verdaderos negativos.

Figura 5: Diagrama campaña de rotación analizando todos los impactos de la predicción, Verbra-ken(2012).

En el diagrama anterior se puede analizar los costos para las diferentes etapas de la campaña. Inicia conun modelo que permite predecir en que categoría está el cliente, es decir si predice que el cliente piensaretirarse de la compañía y efectivamente el cliente tiene interés en retirarse se realizara una oferta quepodrá aceptar con una probabilidad igual a Γi.

Si en el anterior caso el cliente acepta, el costo real es igual al costo de la oferta C0 más el costo adminis-trativo de contacto con el cliente Ca, pero si el cliente rechaza la oferta el costo corresponde al ingresoque la persona pudo generar, es decir el costo del valor promedio de vida CLV mas C0 mas Ca.

Si el modelo predice que la persona piensa en retirarse y la persona no tiene intención de hacerlo entoncesaceptara la oferta provocando un costo equivalente a CLV mas Ca. Si en el anterior caso el cliente acepta,el costo real es igual al costo de la oferta C0 más el costo administrativo de contacto con el cliente Ca.

Por ultimo si el modelo predice que la persona no cancelara la suscripción, y el cliente no está pensandoen retirase el costo de retención es igual a cero, pero si el cliente si está pensando en retirarse no se lehará ninguna propuesta para que continúe propiciando un costo igual a costo del valor promedio de vida



CLV.

En ese sentido, y basándose en la matriz de costo, citeCorrea2015a siguiendo el marco sensibles a loscostes de�ne una estadística de la siguiente manera:

Costi = yi(ciCTPiCFNi

+ (1− yi)(ciCFPi+ (1− ci)CTNi

(8)

Costi = yi(ci(ΓiC0i − CLVi − Ca)− C0i + CLVi) + ci(C0i+Ca) (9)

Para un total de

Cost =

N∑i=0

Costi (10)

Además, con el objetivo de disponer de una medida comparable entre diferentes bases de datos, losahorros se pueden de�nir como:

Savings =Costl − Cost

CostL(11)

Donde Costl está de�nido como el minino costo de clasi�car toda los ejemplos como negativos (f0), o elcoste de clasi�car todos los ejemplos como positivos (f1). Se estima que en casi todos los casos la clasesin costo será la clase negativa, puesto que la distribución de un base de churn está sesgada hacia los nochurners, es decir hacia las personas que no piensan retirase.

Lo anterior se puede expresar como:

Cost =

N∑i=0

yiCLVi (12)

Esto es consistente con la idea de que si no se utiliza ningún modelo, el costo total sería la suma de losvalores contemplados por la de vida media de los clientes que pretenden �nalizar el contrato.

A continuacion se muestra una matriz de confusión, cuyos valores estan determinados por un modelosensible al costo:

Tabla 2: Matriz de confusión con un modelo sencible al costoActual positive (y=1) Actual negative (y=0)

Predicted Positive (c=1) CTPi= ΓiC0 + (1− Γi)(CLVi + Ca) CFPi

= C0i + Ca

Predicted Negative (c=0) CFNi = CV Li CTNi = 0

En la tabla se puede analizar que para cada valor de la matriz de confusión, se tde�ne un costo que lasempresas deben asumir. El costo se ve ligado directamente a las predicciones del modelo inicial, lo cual



hace fundamental tener un buen modelo que prediga de la forma mas exacta posible.

3.4. Campañas de rotación analizando el costo

Una variable muy importante para realizar la valoración del costo es el costo promedio de vida del clienteCLV, el cual hace referencia a la cantidad de tiempo que el cliente puede estar suscrito a la empresagenerando ganancias para la misma. Por lo tanto se establece la rentabilidad del cliente como la diferenciaentre los ingresos y los gastos generados por un cliente i durante un periodo �nanciero t, de la siguientemanera:

CPi,t = USi,t (13)

Donde, Si,t hace referencia al consumo de los clientes i durante el periodo de tiempo t , µ representa lautilidad marginal promedio por unidad de uso del producto.

Pero lo que realmente nos importa es poder de�nir el ingreso esperado que un cliente particular, gene-rará en el futuro, en otras palabras, el cálculo de la suma esperada de los ingresos futuros de descuentociteCorrea2015a. Determinando la siguiente ecuación:

CLVi =

T∑t=1

USi,t

(1 + r)t(14)

Teniendo en cuenta lo anterior se puede suponer que Si,t+1 = Si,t(1 + g), donde g representa un creci-miento constante en el consumo de los clientes. Teniendo en estó el valor de vida del cliente se puedeescribir como:

CLVi =

T∑t=1

(1 + g)t

(1 + r)tUSi,1 (15)

En el caso de que g<r, se puede expresar como una serie geometrica de la siguiente manera:

CLVi =

T∑t=1

USi,1

(r − g)(16)

4. Meta-Cost

En los modelos sensibles al costo, pueden aplicarse diferentes metodologías, sin embargo Domingos (1999)propone que la mejor manera de ajustar dichos modelos a las bases de churn es el método de MetaCost.

Él empieza por determinar la probabilidad de cada clase j P (j|x) para un ejemplo dado x, donde lapredicción óptima de Bayes para x es la clase i que minimiza el riesgo de la condición:

R(i|x) =∑j

P (j|x)C(i, j) (17)



El riesgo condicional R(i|x) es el costo esperado de predecir que x pertenezca a la clase x, donde lapredicción optima de Bayes garantiza obtener el costo más bajo posible según Elkan (2001), ya que es elmenor costo esperado sobre todos los ejemplos posibles x, ponderados por sus probabilidades P(x).

Por otro lado, se observa que C(i,j) y P (j|x) junto con la regla anterior implican una partición del espa-cio de ejemplo x en regiones j posiblemente no convexas, tal que la clase j es la predicción optima en laregión j es decir la menos costosa. Por lo tanto el objetivo de la clasi�cación cos-sensitive es encontrarlas regiones entre estas regiones, explícita o implícitamente.

Esto es complicado por su dependencia de la matriz de costos C: en general, como los ejemplos de clasi�-cación errónea de la clase j se vuelven más costosos para clasi�car erróneamente a otros, la región dondej debería predecirse se expandirá a expensas de las regiones de otras clases, incluso si las probabilidadesde clases P (j|x) permanecen sin cambios.

Domimgos (1999) a�rma que en efecto, no se puede saber cuáles son las predicciones óptimas, inclusopara los ejemplos preclasi�cados en el conjunto de entrenamiento; pero dependiendo del costo de la ma-triz, estas pueden o no pueden coincidir con las clases que fueron etiquetadas con los ejemplos. Si losejemplos en el entrenamiento fueron etiquetados con su clase óptima de acuerdo a su matriz de costos, unclasi�cador basado en errores podría aplicarse para identi�car las fronteras óptimas, porque los ejemplospodrían ser ahora marcados de acuerdo a estas fronteras.

Además se puede analizar que si la muestra es grande, realizando el procedimiento anterior, basado enerrores llegaría a identi�car el óptimo, minimizando el costo de las fronteras. Con una muestra �nita, elaprendizaje en principio no encontrará la peor frontera, pero podría encontrar las fronteras óptimas depérdida cero-uno dado el conjunto de entrenamiento original.

El procedimiento metacost se basa en esta idea. Con el �n de reetiquetar los ejemplos de entrenamientocon sus clases "óptimas", se necesita encontrar una manera de estimar sus probabilidades de clase P (j|x).Pero es diferente identi�car probabilidades de clase para ejemplos no vistos y que la calidad de estasestimaciones sea importante sólo en la medida en que in�uye en las fronteras �nales producidas. Las es-timaciones de probabilidad pueden ser bastante de�cientes y aun así conducir a una clasi�cación óptima,siempre y cuando la clase que minimice el riesgo condicionado por las estimaciones de probabilidad seala misma que la minimice dada la verdadera.

Una posibilidad sería utilizar técnicas estándar de estacionalidad de probabilidad, como la estimaciónde la densidad del núcleo, sin embargo, el aprendizaje exitoso de un clasi�cador costo-sensible usandoeste enfoque requeriría que el sesgo de aprendizaje mecánico (los supuestos implícitos) del clasi�cador ydel estimador de probabilidad deba ser válido para el dominio de la aplicación. Estrictamente hablando,esto es imposible a menos que el clasi�cador y el estimador de densidad sean iguales, además se haencontrado que un desajuste entre la estimación de la probabilidad y las etapas de clasi�cación afectanel rendimiento en un contexto similar al actual, como lo establece Domingos(1999).

Por ejemplo, los arboles de decisión y las reglas de inducción son algunos de los más efectivos para domi-nios de muy alta dimensión como los que se encuentran a menudo en KDD, pero estos son precisamentelos dominios que se usan comúnmente como técnicas de estimación, se suele usar la densidad de nucleó ymodelos mixtos siendo los menos efectivos. En este punto el usuario debe elegir un clasi�cador particular,ya que sus características son adecuadas para el dominio, y por lo tanto se utilizara un clasi�cador y nootro.



Muchos clasi�cadores producen estimaciones de probabilidad de clase como un subproducto del apren-dizaje, pero a menudo son muy pobres. Por ejemplo, la mayoría de personas utiliza el árbol de decisión,una regla que permite conducir las probabilidades de clase a cero o uno, dentro de cada hoja y las esti-maciones de manera correspondiente.

En relación con este último y debido a que algunos clasi�cadores no pueden producir probabilidades declase, Metacost permite su uso, pero no lo requiere. Un método más robusto y generalmente aplicablepara obtener la estimación de probabilidad de clase de un clasi�cador es sugerido por investigacionesrecientes sobre conjuntos de modelos. Elkan (2001) ha encontrado que la mayoría de los aprendizajesmodernos son altamente inestables, ya que aplicarlos a conjuntos de entrenamiento ligeramente diferen-tes tiende a producir modelos muy diferentes y predicciones correspondientemente diferentes para losmismos ejemplos, mientras que la exactitud general permanece ampliamente sin cambios. Esta precisiónpuede mejorarse mucho aprendiendo varios modelos de esta manera (o usando otras variaciones) y luegocombinando sus predicciones, por ejemplo, con la metodología de votación.

El procedimiento metacost calcula las probabilidades de las clases aprendiendo múltiples clasi�cadoresy, para cada ejemplo, se usa la fracción de cada clase de la votación total como una estimación de suprobabilidad dada por el ejemplo. Especí�camente, metacost utiliza una variante de la metodología bag-ging como el método establecido para realizar las estimaciones de probabilidad.

En el procedimiento de bagging, dado un conjunto de entrenamiento de tamaño s, usa remuestreo "boots-trap"tomando muestras con la sustitución del conjunto de entrenamiento, así se produce un nuevo con-junto de entrenamiento del mismo tamaño, donde cada uno de los ejemplos originales puede apareceruna vez, más de una vez, o no en absoluto. Este procedimiento se repite m veces, y los m modelos resul-tantes son agregados por el voto uniforme (cuando se presenta un ejemplo no clasi�cado, las etiquetasdel conjunto están con la clase predicha por el mayor número de modelos).

Metacos di�ere del ensacado en que el número n de ejemplos en cada re-muestreo puede ser menor que eltamaño del conjunto de entrenamiento s, esto le permite ser más e�ciente. Si el clasi�cador que se utilizaproduce probabilidades por clase, el voto de una clase se estima como el promedio ponderado de susprobabilidades dadas los modelos y el ejemplo. También, al estimar las probabilidades de clase para unejemplo de entrenamiento dado, metacost permite tomar todos los modelos generados en consideración,o solo aquellos que fueron aprendidos en las re-muestras del ejemplo. Como el ejemplo no fue incluidoen el primer tipo de estimación es probable que tenga menor varianza, por lo que se basa en un mayornúmero de muestras, mientras que es probable que tenga un sesgo estadístico más bajo, ya que no estáin�uenciado por la propia clase del ejemplo en el conjunto de entrenamiento.

En pocas palabras, metacost funciona por: formar múltiples réplicas boostrap del conjunto de entrena-miento, y aprender un clasi�cador en cada uno; luego estimar la probabilidad de cada clase para cadaejemplo por la fracción de votos que recibe de la clase; Utilizando la ecuación 1 para reetiquetar cadaejemplo de entrenamiento con la clase óptima estimada logrando identi�car el clasi�cador al conjunto deentrenamiento reetiquetado, logrando obtener el valor de costo mínimo.

5. ANALISIS BASE CHURN

A continuación se aplicara la metodología MetaCost a una base de churn, la cual corresponde a una em-presa prestadora del servicio de televisión por suscripción. Dicha base se utilizara de forma con�dencial,por lo tanto en el trabajo a desarrollar no se hará referencia al nombre corporativo ni a ninguna persona



de la base en particular.

La base de información de la empresa de televisión por suscripción esta con formada por 48 variables y9379 registros, dentro de las cuales se encuentra información de tipo personal, familiar, socioeconómico,espacial, canales exclusivos y tarifas entre otros. Para efectos del estudio no se profundizara en el estudiode la base, ya que se busca determinar el comportamiento de los clientes, para identi�car patrones yrealizar modelos predictivos.

En primera instancia, para cumplir con la con�dencialidad de la información se realizó un renombra-miento de las variables de la siguiente manera.

Figura 6: Base de información renombrada

Luego se realiza el cálculo de las variables correspondientes al costo de la predicción, es decir los valoresde la matriz de confusión determinados para modelos sensibles al costo, como se determinó en la tabla2 del capítulo dos, es decir, costo de los falsos positivos CFP, costo falso negativo CFN, costo de losverdaderos positivos CTP y costo verdaderos negativos CTN.

Figura 7: Matriz de costos calculada

Se identi�ca la proporción de la variable dependiente target, la cual relaciona la información de los clien-tes churner o no churner de la empresa.



Se puede observar como el porcentaje de clientes churner corresponde aproximadamente al 5%, mientrasque las personas que no son churner es casi el 95%. Aunque parezca un porcentaje bajo, el nivel de dineroal que corresponde es un volumen bastante considerable ya que este servicio mueve grandes sumas dedinero mensualmente, por lo que la empresa trabaja en disminuirlo a medida que aumenta sus clientes.

Además se de�ne los conjuntos de entrenamiento y prueba para la realización de los diferentes modelos.

Figura 8: Partición de la base en el conjunto de entrenamiento y prueba

Después se realiza un bagging con la información de la base, para posteriormente condicionar los va-lores de estas probabilidades y generar el procedimiento denominado Metacost , como se expresó en elcapítulo anterior. Metacost es un mejoramiento del baging ya que es más robusto y por lo tanto generapredicciones más precisas en cuanto al costo esperado de las posibles cancelaciones de suscripción.



Figura 9: Generando el procedimiento Metacost a partir del Bagging

Luego se determinó realizar la estimación con el modelo sensible al costo para la empresa de suscripción,mediante la metodología Metacost. Primero se estimo el modelo con los parametros por defecto que pre-senta python y posteriormente se realizarón cien modi�caciones ciclicas de los mismos buscando obtenerel menor costo minimo de los cien resultados.

De igual manera se realizó con los modelos denominados bagging, regresión logística, random forest,navy bayes y kneighbors classi�er, con el �n de identi�car la minima cantidad de dinero que predice cadamodelo y asi poder compararlo con el modelo Metacost.

MODELO COSTO MÍNIMO

METACOST 139281.47138REGRESIÓN LOGÍSTICA 190800.00002

BAGGING 190800.00002KNEIGHBORS CLASSIFIER 190800.00002

RANDOM FOREST 191768.17145NAVY BAYES 247910.46271

En la anterior tabla se puede observar como el modelo metacost puede llegar a obtener un valor de costominímo de 139281,47138 dolares, siendo el menor valor de los diferentes modelos calculados, es decir elmodelo metacost permite ahorrar 139281 dolares como minímo a la empresa.



Figura 10: Valor mínimo obtenido por modelo

Por último se analizarón los modelos, desde el punto de vista de su e�ciencia predictiva, lo cual se hacemediante la metrica denominada accuracy, nombrada en en el capitulo cuatro, permitiendo comparar losmodelos no solo desde la perspectiva del costo minimo, si no desde su consistencia predictiva, obteniendolos siguientes resultados:

MODELO ACCURACY

METACOST 0.962376REGRESIÓN LOGÍSTICA 0.942743

BAGGING 0.942742KNEIGHBORS CLASSIFIER 0.942744

RANDOM FOREST 0.942743NAVY BAYES 0.305588

En la anterior tabla se observa como el valor de la accuracy es similar para la mayoria de los modelosy ademas son valores muy aceptables ya que el maximo valor podria ser uno. El accuracy del modelometacost es el mas alto por lo que implica que sus predicciones son las mejores.

Es de destacar el poco valor de accuracy que presenta el modelo navy bayes, lo cual corrobora su malapredicción con�rmando que su valor de costo minímo estaba bastante desfasado, lo cual explicaria sugran diferencia con los demas.



Figura 11: Medida de accuracy por modelo

Los modelos realizados por la metodología metacost presenta un gran comportamiento desde el puto devista de con�abilidad y desde el punto de vista del costo, es decir para una compañia es mucho maseconomico realizar este tipo de modelos para sus campañas de retención, puesto que aumenta sus pro-babilidades de disminuir el churn y al mismo tiempo disminuye los costos, aumentado la e�ciencia de lasmismas.

6. Conclusiones

El churn o campaña de rotación es un elemento muy importante para las ganancias de las diferentesempresas ya que si no se presta atención a la retención de clientes y solo se busca tener clientesnuevos, el bene�cio económico se verá reducido ya que recuperar el dinero invertido en publicidady otras actividades, para adquirir el cliente solo se recupera con la continuidad de este durante unperiodo de tiempo determinado. Es decir entre más tiempo el cliente se encuentre en la compañía,mayores ganancias captara la empresa.

El modelo realizado con la metodología Metacost presenta un gran ahorro en cuanto al costo deretención de los clientes con respecto a otros modelos usualmente utilizados, ya que determina unvalor de inversión cercano a 139281 dolares. Lo anterior implica un ahorro de alrededor de 51518dólares y esto al día de hoy se traduce a 154554000 millones de pesos en ahorro para la empresasolamente en una campaña de retención.



El modelo de costo sensible planteado por la metodología Metacost muestra una �abiliad similara los otros modelos en cuanto a la medida de accuracy, ya que los sobrepasa por muy poco lo cualhace con�able sus predicciones.

7. Agradecimientos

Deseo extender un agradecimiento a mi asesor Alejandro Correa, pues sin ningun otro interes particular,me oriento durante todo el proceso y consolidación del texto presentado anteriormente. Siendo un refe-rente ejemplar como profesional y persona, de quien pude aprender bastante en el marco del MachineLearning.



Referencias



A. Código en la plataforma python



A. Código en plataforma python


modelos de clasi cación sensibles al costo para una base

Documents