Página 1 © Management Solutions 2015 Todos los derechos reservados Octubre 2015
© M
anag
emen
t Sol
utio
ns 2
015.
Tod
os lo
s de
rech
os re
serv
ados
Tecnología
El scoring bancario en los tiempos del Big Data
Análisis y ejercicio práctico
Página 2 © Management Solutions 2015 Todos los derechos reservados
1 El mundo ya ha cambiadoDigitalización de los negocios
El mundo se está transformando, y lo hace a gran velocidad. Estamos siendo testigos de una revolución tecnológica de magnitudes nunca antes observadas.
Página 3 © Management Solutions 2015 Todos los derechos reservados
1 El mundo ya ha cambiadoDigitalización de los negocios
El mundo se está transformando, y lo hace a gran velocidad. Estamos siendo testigos de una revolución tecnológica de magnitudes nunca antes observadas.
Página 4 © Management Solutions 2015 Todos los derechos reservados
1 El sector bancario ya ha cambiadoEvolución del negocio digital bancarioEl sector financiero no es ajeno a ese cambio, conjugando una reestructuración sin
precedentes con un cambio de perfil del usuario muy acusado
Página 5 © Management Solutions 2015 Todos los derechos reservados
1 El sector bancario ya ha cambiadoEvolución del negocio digital bancarioEl sector financiero no es ajeno a ese cambio, conjugando una reestructuración sin
precedentes con un cambio de perfil del usuario muy acusado
Página 6 © Management Solutions 2015 Todos los derechos reservados
2 La información como oportunidadNiveles de información a disposición
Las entidades del sector financiero, gracias a esta transformación, disponen de gran cantidad de información pública, con la que hacer perfiles detallados no solo a sus
clientes actuales, sino también a sus clientes potenciales
Página 7 © Management Solutions 2015 Todos los derechos reservados
2 La información como oportunidadAlmacenamiento
Aunque se genere gran cantidad de información, esta no sería útil si no pudiera almacenarse. Sin embargo, el coste el almacenamiento se ha visto reducido en grandes
cantidades
Página 8 © Management Solutions 2015 Todos los derechos reservados
2 La información como oportunidadProcesamiento
Aunque se genere gran cantidad de información, esta no sería útil si no pudiera procesarse. Sin embargo, la capacidad de procesamiento se ha visto multiplicada por
las nuevas arquitecturas Big Data
Página 9 © Management Solutions 2015 Todos los derechos reservados
2 La información como oportunidadProcesamiento
Aunque se genere gran cantidad de información, esta no sería útil si no pudiera procesarse. Sin embargo, la capacidad de procesamiento se ha visto multiplicada por
las nuevas arquitecturas Big Data
Página 10 © Management Solutions 2015 Todos los derechos reservados
2 La información como oportunidadModelización
Aunque se genere gran cantidad de información, esta no sería útil si no pudiera entenderse. Por ello ha surgido un nuevo rol multidisciplinar para hacer frente al
problema: el data scientist
Página 11 © Management Solutions 2015 Todos los derechos reservados
3 Aplicación prácticaEl scoring bancario en tiempos del big data
Las entidades bancarias han sido muy activas en la modelización de eventos desde hace años. Los modelos de scoring pertenecen al ámbito de riesgos, intentando
clasificar a los clientes potenciales en función de su probabilidad de impago
Página 12 © Management Solutions 2015 Todos los derechos reservados
3 Aplicación prácticaInformación sobre clientes potencialesLas entidades financieras conocen muy bien a sus clientes actuales. Sin embargo,
tienen carencias de información en relación con sus clientes potenciales, especialmente del sector de particulares por la protección de la legislación a la
divulgación de datos de carácter personal
Balance de situación (Informa) Bureaus de crédito negativos (Ej:RAI /
ASNEF) Axesor BD de procesos judiciales Cuestionarios específicos
Clientes potenciales empresas Clientes potenciales Particulares
Bureaus de crédito negativos (Ej:RAI / ASNEF)
BD de procesos judiciales Cuestionarios específicos
¿Pero y si añadimos la información de las redes sociales?
Página 13 © Management Solutions 2015 Todos los derechos reservados
3 Aplicación prácticaEjercicio de análisisEl estudio desarrollado utilizó datos reales anonimizados de una cartera con 72.000
clientes potenciales, descargando variables desde diferentes redes sociales e intentando mejorar un modelo existente con ellas
Captura tradicional Captura redes sociales
Srcrapeo (Python + APIs)
Limpieza de información (VBA)
Almacenamiento (ficheros)
Modelización conjunta (R)
Modelo
Página 14 © Management Solutions 2015 Todos los derechos reservados
3 Aplicación prácticaVariables significativas detectadas
El análisis de la información detectó variables públicas que eran significativas de cara a evaluar el incumplimiento, permitiendo crear un módulo “social” del modelo que
permitía mejorar el poder predictivo del scoring…
Variable Descripción Peso relativoDuración cargo actual Duración en meses del cargo actual 18%Antigüedad laboral Antigüedad laboral en meses 15%Mínima duración en cargo Mínima duración en un cargo en su trayectoria profesional 15%Máxima duración en cargo Máxima duración en un cargo en su trayectoria profesional 13%Sector de actividad Categorización INE del sector profesional 12%Número de trabajos Número de trabajos actuales e históricos 9%Tiempo sin estudiar Tiempo transcurrido desde sus últimos estudios 7%Idiomas Número de idiomas que habla 7%Ratio cargos/años Número de cargos / número de años de trayectoria profesional 4%
Página 15 © Management Solutions 2015 Todos los derechos reservados
3 Aplicación prácticaVariables significativas detectadas…pero hay determinadas lecciones aprendidas a tener en cuenta en este tipo de
ejercicios que dan pistas sobre cómo acometer la implantación real de este tipo de algoritmos
Calidad de información
• La cantidad y la calidad de la información disponible en las redes sociales son notablemente inferiores a las de los datos internos del banco: solo un 24% de los clientes tienen datos, y de estos, solo el 19% tienen información completa o casi completa.
1
Desambiguación
• Además, la extracción de datos de redes sociales se caracteriza por un problema de desambiguación: las personas físicas no se identifican de manera inequívoca con un documento de identidad en la red, por lo que existe una probabilidad de error en la identificación de cada cliente con su perfil en las redes sociales. Para este estudio se han descartado los clientes en los que esta probabilidad se ha estimado superior al 25%.
2
Variables cualitativasLas variables extraídas de las redes sociales, además, son en su mayoría cualitativas y pueden tomar una gran cantidad de valores, lo que dificulta su tratamiento, pero a cambio permite construir variables de una gran riqueza.
3
Complementariedad
• El poder predictivo del modelo de scoring basado en redes sociales emplea 9 variables numéricas y categóricas (algunas discretizadas) que cubren varios aspectos del perfil profesional del cliente (en especial su historial laboral, pero también el sector, los estudios y los idiomas) y alcanza un poder predictivo equiparable al del modelo original, con una ROC del 72%.
• La combinación de ambos modelos, sin embargo, eleva sustancialmente el poder predictivo, hasta alcanzar un 79%.
4