Cómo afrontamos el reto desde Minsait
Dando el salto al mundo Big Data
Valencia, Noviembre de 2018
2
González Rodríguez, Noelia
Data Science Tribe Lead
Minsait an Indra Company
@noeliagorod
Moreno Martínez, Víctor
Data Science Senior Consultant
Minsait an Indra Company
3
¿Quiénes somos?
Contexto y oportunidades
Explosión de la conectividad y
generación de datos
Sofisticación de los algoritmos de
análisis
Mayor capacidad de procesamiento y
almacenamiento
5
6
Explosión de la conectividad y generación de datos
http://otae.com/internet-en-tiempo-real/
7
Explosión de tecnología (Sensores)
Pulseras de Actividad
Whithings Smart bodyanalyser
iBGStar
8
Explosión de tecnología (Futuro de los Sensores)
Los datos ….
Videos, imágenes
Sensores
Webs
Redes Sociales
Smartphones
Open data
Documentos
Hábitos de consumoFeedback
10
Para poder optimizar los resultados, debemos ser capaces de explotar eficazmente los datos
Smart health
Smart use of all Health Data
10
All Health Data
ENTIDAD 1 ENTIDAD 2PRUEBAS OTROS
SMART USE OF HEALTH DATA
Campañas de prevención
Programas de salud
Vigilancia epidemiológica
Medicina personalizada
CIUDADANO DIGITAL
Políticas de salud
WEARABLES Y APPS
Estrategias de salud
Reorganización de recursos
www
Visión holística del uso de la información en el sistema de salud
Fuente: Minsait
All Health Data
nu
ev
otr
ad
icio
na
l
institucional personal social
Internet of Things
Redes sociales
Ambiental
Analytics
Historial clínico Carpeta personal Epidemiológico
Wearables
Apps
Omics
CRM Interoperabilidad+
Fuente: Minsait
13
Mayor capacidad de procesamiento y almacenamiento…
Ley de Moore: cada dos años se
duplicaba la potencia de los procesadores
Fuentes: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=5415663http://radar.oreilly.com/2011/08/building-data-startups.html
Límites tecnológicos
Es necesario buscar un nuevo paradigma de cómputo…
14
Sofisticación de los algoritmos de análisis
Evolución Tecnológica Ámbito de aplicación
Inteligencia Artificial
Machine learning
IoT
Big Data
Data mining
Business Intelligence
Análisis a medida y hojas de cálculo
Valo
r añ
adid
o
Analítica Prescriptiva
Analítica Predictiva
Analítica de
Diagnóstico
Analítica Descriptica
¿Qué va a ocurrir?
¿Por qué ha ocurrido?
¿Qué ha ocurrido?
¿Cómo podemos hacer que ocurra?
Propuesta de actuaciones basadas en modelos de comportamiento
Identificación de patrones de conducta y causa- efecto
Análisis de operaciones pasadas
Decisiones automáticas y en tiempo real. Aprendizaje continuo
15
La metodología analítica necesaria para dotar de mayor inteligencia al tratamiento de la información incluye diferentes áreas y técnicas específicas
Clusterización
Regresión
Reducción de dimensionalidad
Detección de anomalías
Importancia de atributos
Reglas de asociación
Procesamiento de Lenguaje Natural
Minería de Grafos
Deep Learning
Clasificación
Técn
icas
Data
Sci
en
ce
Es una técnica de agrupamiento que permite separar conjuntos de variables con etiquetas de familias en función de los atributos de sus registros.
Técnica que permite predecir el valor que tomará una variable numérica en función de un conjunto de variables predictivas.
Técnica que permite disminuir el número de variables de un problema a aquellas que explican en mayor porcentaje la información de los datos.
Detección de registros con comportamiento atípico, que no pertenecen a patrones esperados de la distribución de datos.
Es una técnica que identifica y valora por importancia las variables que mejor explican un atributo de negocio determinado.
Permite establecer acciones que serán consecuencia de un conjunto de condiciones de negocio que se den para una observación.
Conjunto de técnicas para hallar patrones e insights en datos no estructurados. Revela información relevante a partir de texto.
Conjunto de técnicas analíticas que permiten extraer información valor en datos estructurados en forma de redes.
Desarrollo de soluciones que permiten inferir conclusiones de negocio a través del procesamiento masivo de redes neuronales, imágenes y video.
Permite separar registros de una variable de negocio en grupos determinadosa partir de una serie de variables explicativas.
Frequent Subgraph MiningLynk AnalysisPath-Based Algorithm
Redes ConvolucionalesRedes RecurrentesRedes Embebidas
K-MeansClustering JerárquicoClustering Mixto Óptimizado..
Procesos GaussianosRelevance Vector MachineXGBoost...
PCAMCARotación Varimax, …
1-class SVMBagging de atributosLógica Fuzzy, …
Random Forest FRLogit AILasso Tuning, …
AprioriEclatFP Growth, …
NERDirichlet Topic ModelingNeural Network Classification…
LogitCARTSVC, NNC, …
Agrupamiento de clientes según variables de negocio y valor de cliente.
Predicción de pricing asociado a un perfil de cliente
Reducción a pocas variables relevantes un DWH con más de 1300 variables explicativas
Registros con comportamiento sospechoso por petición de siniestros
Variables decisivas en orden de prioridad a la hora de determinar la vinculación
¿Qué características comparten los compradores de seguro de vida?
Análisis de contenidos de formularios de quejas y reclamaciones de clientes.
Detección de clientes con comportamiento fraudulento a través de redes sociales.
Detección de usuarios a través de una foto tomada por una cámara o imagen
Clasificación de clientes con alto potencial de fuga y fieles.
Técnicas Explicación Algoritmos ejemplo Ejemplo
Sofisticación de los algoritmos de análisis
Fuente: Minsait
Data Science & Inteligencia Artificial
• Diseño de modelos predictivos de
aplicación práctica en el negocio
(casos de uso de negocio)
• Creación del repositorio de modelos/
casos de uso de alto impacto en los
diferentes ámbitos del negocio
• Identificación, captura,
agregación y depurado
de fuentes de datos
• Estructurados
• No estructurados
• Creación del repositorio
(data lake o data pool):
almacenamiento de
datos en repositorio
homogéneo y común,
utilizando tecnologías big
data y cloud
• Conjunto de algoritmos a
aplicar según el tipo de
información, los análisis y
los modelos a desarrollar
• Plataforma de
modelización en base a
los datos y los
algoritmos, con
aprendizaje automático
para optimizar la
predicción (ej. redes
neuronales y machine
learning)
Herramientas (enablers)
17
Ecosistema
02
18
Es fácil perderse en un mar de logos…
19
Interactive
Stream
ExploratoryD
ata
se
rvic
es (
RA
W IN
GE
ST
ION
)
Contextual
Discovery
Apoyo toma decisión
Modelos predictivos
Machine Learning
Reporting
& Adhoc
Path
Analytics
Aggregate Analytics
Op
erat
ion
alTa
ctic
al
Touchpoint
Aplications
Embebido
On-Demand
Push
Smart Systems
& Devices
Workflow &
interaction
Automation
Alerts &
Respond
Location-
Based
Services
Analytics
Services
Business
Application
s
Data
Lake
Da
ta &
Qu
ery
ma
na
ge
ment
Escucha Analiza Actúa
Data Governance
SOURCES INGEST & PROCESS STORE ANALYZE PUBLISH & VIEW
Elementos del Big Data…
IngestaAlmacenamiento
Cómputo
Visualización
Publicación
Gestión y orquestación
20
… y roles que intervienen
Fuente: https://medium.com/@vegi/data-scientist-vs-data-analyst-vs-data-engineer-using-word-cloud-902ab83d0879
21
Mitos alrededor del Big Data 03
22
Todo el mundo lo hace…
Hablar de CAPEX y OPEX
Nuevas posibilidades gracias a tecnologías cloud
23
Lo importante es el tamaño…
Cuantos más datos mejor…
• Calidad frente a calidad
• Objetivo claro (KPI)
• Limpieza de datos
• Validez (antigüedad) de los datos
24
Eso es cosa de los de TI…
Toda la organización debe involucrarse en crear una
cultura de datos
El equipo de TI es sólo uno los players que entra en
acción
• Unidades de negocio
• Dirección
• TI
• …
25
La implantación de Big Data debe contemplar todos los aspectos necesarios para dotar a cualquier compañía de capacidad para explotarlo…
Cómo se afrontan estos proyectos desde Minsait
Alineación Estrategia de la compañía
Modelo de Gobierno y gestión del
Dato
Casos de Negocio
Gestión de la demanda
InfraCloud,
onPremise,Hibridos,..
Distribución y desarrollos
Integración Continua DEVOPS
Productivizacion
Estrategia
Tecnología
Ámbitos de Colaboración
Implantación Big Data
Data LakesData Labs
Data Science
Real Time
Modelo Adopción
Gobierno & Seguridad
26
El Big Data es para grandes problemas…
Sólo sirve para resolver aquellos problemas
identificados como relevantes para la compañía,
y para los que dedica un equipo de DS, DE,…
Un usuario de negocio podrá obtener valor a
partir de los datos y análisis disponibilizados si
tiene el conocimiento y las herramientas
adecuadas
Fuente: https://blog.k2datascience.com/data-careers-analyst-vs-scientist-vs-engineer-2e9e297e978e
27
El Big Data es para grandes compañías…
Una PyMe puede sacar partido de los datos para
adaptarse a los cambios del mercado antes que
competidores más grandes y lentos…
Lanzar una estrategia Big Data supone un coste de
arranque (CAPEX) y de mantenimiento (OPEX) que no
cualquier empresa puede permitirse…
Tendencias como la computación en la nube están
democratizando el uso de grandes infraestructuras de
computo (pay per use).
28
Todos los datos son iguales…
Existen muchos tipos de información que por su
naturaleza no pueden ser tratados de la misma manera:
• Datos numéricos
• Texto
• Imágenes
• …
Esto afecta tanto a su recolección como a su tratamiento
29
Es una moda pasajera…
El dato es un activo que permite a la compañía
obtener un valor diferencial
Cada día aparecen nuevos tipos de datos, y en mayor
cantidad
La tecnología evolucionará, pero la esencia del Big
Data perdurará
30
Casos de uso en el sector 04
31
Áreas dónde se más se utiliza el Big Data en Salud:
32Modelización E2E del proceso asistencial de obesidad.
Análisis y optimización del modelo de gestión de la obesidad
Alcance:
Desarrollo de acciones para establecer un proyecto de aproximación a las Consejerías de Sanidad/Servicios
Regionales de Salud en relación al proceso de seguimiento de la obesidad en el ámbito sanitario público, con foco
especial en el impacto de la obesidad mórbida y su tratamiento quirúrgica.
Resultados:
Segmentación de pacientes y herramienta de modelización E2E. Análisis multivariable
Morbilidades asociadas y su prevalencia Análisis integral de costes
Detalle costes quirúrgicos
Con el objetivo de:
• Realizar la modelización teórica para las CCAA queparticipan en el proyecto
• Construir una herramienta tecnológica de modelizaciónque pueda recoger posteriormente la informacióngenerada y sobre la que se basará el posterior desarrollodel proyecto una vez obtenidos los datos de las CCAA.
33
Suites de soluciones tecnológicas que apoyan en la estrategia de comercialización
de la vacuna
Estrategia de comercialización de la vacunación
Alcance:
Proceso de lanzamiento de una nueva vacuna, con especial atención a la gestión de palancas de crecimiento y
caracterización y previsión de la demanda, así como a la simulación de escenarios multivariable de financiación:
Resultados:
Conjunto de soluciones tecnológicas de apoyo a GSK en su
estrategia de comercialización de la vacunación.
Caracterización de la población Simulación de escenarios
Caracterización stakeholdersInteligencia social
• Caracterización exhaustiva del mercado y la población objetivo
de la vacuna mediante la aplicación de herramientas de BI,
dato social y de geo-referenciación
• Identificación y caracterización de stakeholders mediante
soluciones de inteligencia social.
34Mejora de la atención clínica
Análisis y estratificación de pacientes
Alcance
Determinación de la distribución de la población y del consumo
de recursos en la sanidad. Prevención de las necesidades
futuras en el ámbito de la sanidad,
Resultados
Algoritmo de clasificación de población en base a su estado
clínico.
Modelo:
• Segmentación según un Modelo Piramidal de Kaiser particularizado
para las características específicas de la población gallega.
• Predicción de la evolución de segmento de un paciente.
Desafíos:
• Resumen del estado clínico de los pacientes.
• Capacidad de regeneración periódica consistente para análisis de
evolución.
• Detección de anomalías en el estado de la población.
35Resultados confidenciales.
Modelo de prevención de quejas y reclamacionesAlcance:
Modelo para predecir la probabilidad de que un usuario interponga una queja o reclamación y para entender las
causas de la insatisfacción latente en los usuarios.
• Conocer las causas que originan insatisfacción en los usuarios.
• Entender cómo influyen estas causas en la producción de quejas y reclamaciones.
• Conocer relaciones desconocidas entre las variables de la entidad y la producción
de quejas.
• Analítica descriptiva: diagnóstico de las quejas y reclamaciones para entender la
relación entre las diferentes variables de la entidad. (Calculo de interacciones previas
a la reclamación, índice de insatisfacción).
• Analítica predictiva: diseño de un Benchmark de Analítica Predictiva (Relevance
Vector Machine, Gaussian Process Regression, Random Forest, SVM) teniendo en
cuenta las interacciones con la institución, habiendo reducido previamente la
redundancia de información en las variables predictivas.
Resultados:
Definición de un MODELO DE PREVENCIÓN de quejas y reclamaciones que permitirá detectar atributos desencadenantes
de inconformidad de los usuarios con la institucióny reducir el número de quejas a través de reglas de negocio específicas.
36
Alcance:
Algoritmo de optimización de recurso en el Call Center de gestión de usuarios, con alcance a todas las geografías de la
compañía. El proyecto ha constado de las siguientes partes:
Resultados:
Business Case derivado de mejora en los niveles de atención al cliente en una selección de geografías valorado en hasta
2,5M€.
Optimización de la gestión de recursos del Call Center a partir del incremento en
nivel de servicio, llegando a mejorar en hasta 2,5M€ frente al estado actual
• Análisis de la operativa actual del Call Center:
• Predicción de demanda para todas las geografías
• Dimensionado de colas en base a nivel de servicio requerido y a la
demanda prevista por el modelo de series temporales
• Definición del Business Case, asociado a mejorar el nivel de servicio en
determinadas geografías para incrementar el nivel de ventas
• Optimización de la operativa:
• Propuesta de agrupación de localizaciones en función del Business Case
estimado
• Propuesta de nivel de servicio óptimo para cada una de las nuevas
localizaciones
Dimensionado óptimo de Call Center
Mis oportunidades
La tecnología ha pasado de ser una palanca más a convertirse en una pieza central
de la estrategia del negocio
No es una época de cambios,es un cambio de época
39
¡¡MUCHAS GRACIAS POR SU ATENCIÓN!!
González Rodríguez, Noelia
Data Science Tribe Lead
Minsait an Indra Company
606 66 78 53
Moreno Martínez, Víctor
Data Science Senior Consultant
Minsait an Indra Company
696 59 72 36