Supervisión del analísis de la base de datos (Big Data)Consejos de un profesional sobre la gestión y
el uso de Big Data
Definir términos, conceptos y elementosclaves del proyecto DS
Preguntas claves para una ejecución exitosadel proyecto DS
ESQUEMA
• Heterogeneidad de los datos
• Curso de modularidad
• Datos que son fuertes y ruidosos• Localidad de
los datos
• Ingeniería de funciones
• Principio de Bonferroni
• Procesando rendimientos
• Procesamiento y transmisión en tiemporeal
• La maldición de dimensionalidad
• No linealidadBIG
DATA
COLOCANDO IA, ML Y DL EN UN CONTEXTO CRONOLÓGICO
INTELLIGENCIA ARTIFICIAL
IA PRECOZ DESPIERTA ENTUSIASMO
EL APRENDIZAJE AUTOMÁTICO COMIENZA A FLORECER
AVANCES EN EL APRENDIZAJE PROFUNDO CONDUCEN A UN CRECIMIENTO DE IA
1950
s
1960
s
1970
s
1980
s
1990
s
2000
s
2010
s
APRENDIZAJE AUTOMATICO
APRENDIZAJE PROFUNDO
Datos de entradaInformación (+ Respuestas)
RendimientoModelo óptimo
Aprendizajeautomático
Algoritmos + técnicas
• Relaciones• Patrones
• Dependencias• Estructuras
escondidas
DIAGRAMA DE LA CIENCIA DE DATOS V2.0
QUE ES LA CIENCIA DE DATOS?
DES
AR
OLL
O D
EL
AN
ALI
SIS
ANH
ELAD
OAV
ANZA
DO
ENTENDIENDO LOS PADRONES
IDENTIFICANDO FACTORES Y CAUSAS
SIMULACIONES Y SISTEMAS DE OPTIMIZACION
PREDICCIONES Y PROBABILIDADES
ENTENDIENDO EL CONTEXTO SOCIAL Y SU SIGNIFICADO
INTELIGENCIA EMPRESARIAL
TRANSSACIONAL ESTRATÉGICOVALOR EMPRESARIAL
CUALIDAD DE DATOS
DESCRIPTIVO
DIAGNÓSTICO
PREDICTIVO
SEMANTICA
PROGRAMMER
ANALISTA COMERCIAL
STATISTICIAN
VISUALIZACIÓN DE DATOS
PERSPICACIA EMPRESARIAL
BIG DATAAnálisis de textoAnálisis de redes
Análisis geoespacialAnálisis de medios
socialesAnálisis de sentimento
Imagenes
CIENTIFICO DE DATOS
ANALISTA COMERCIAL
PROGRAMADOR
Definir términos, conceptos y elementosclaves del proyecto DS
Preguntas claves para una ejecución exitosadel projecto DS
ESQUEMA
Vestibulum congue tempus
Lorem ipsum
CREANDO UN MODELO
ACQUISICION DE DATOS E
INGENIERIA DE CARACTERISTICAS
INGENIERO DE DATOS
CIENTIFICO DE DATOS
CIENTIFICO DE DATOS
DOMAIN EXPERT
DEVOPS
EL CICLO DE VIDA DE UN PROYECTO DS
MODELO DE DESPLIEGUE Y EVALUACION
PREGUNTAS QUE NECESITAN UNA RESPUESTA
✓ ¿Tenemos una línea de base sin ML?✓ ¿Estamos formulando nuestra pregunta de una manera correcta?✓ ¿Tenemos la experiencia de dominio necesaria?✓ ¿Tenemos los datos correctos?✓ ¿Cómo seleccionamos el algoritmo más apropriado?✓ ¿Es la producción de DS “la solución” o un “componente” de un sistema?
¿Entiende el personal que no hace parte del personal científico cómocambian sus trabajos?
✓ ¿Qué oportunidades creamos paras los malos actores?✓ ¿Cómo medimos nuestro éxito?
PREGUNTAS CLAVES PARA UNA EJECUCIÓN EXITOSA DE UN PROYECTO
DS
✓ ¿Existe una solución en su lugar?
✓ ¿Cómo podría un ser humano resolver este problema de pequeñaescala?
✓ ¿La preparación para la creación del modelo propocionará el 90% de beneficios sin el modelo en si?
✓ ¿Qué otras técnicas analíticas aparte de ML son importantes?
¿TENEMOS UNA LINEA DE BASE SIN ML?l
¿ESTAMOS CORRECTAMENTE FORMULANDO NUESTRA PREGUNTA ?
• ¿Podemos enviar pacientes con
neumonía a casa y liberar una cama?
• patient home and free up a bed?
• NEGOCIO
• CIENCIA DE DATOS
¿Qué pacientes de neumonía tendráncomplicaciones?
Restricción no declarada: no cambie el comportamiento histórico• .
Las personas con asma fueron clasificadaserróneamente como de bajo riesgo por un sistema de IA diseñado para predecir la neumonía.
• CORRELACIÓN VS. CAUSALIDAD
• DESCRIPTIVO VS. PRESCRIPTIVO
TENEMOS LOS DATOS CORRECTOS:
●Comience con el dominio
donde tiene los datos hi no
necesariamente donde la
mayoría de datos se
encuentran.
●Basura adentro basuraafuera
Ctidd lid d
Exploraciónvs.
Explotación
Punto de orgullo-“confia en los
datos”
Problema de la caja negra
“Applied ML esingenieria de
características”
¿TENEMOS LA EXPERIENCIA DE DOMINIO NECESARIA?
COMING UP WITH FEATURES IS DIFFICULT, TIME-CONSUMING, REQUIRES EXPERT KNOWLEDGE. 'APPLIED MACHINE LEARNING' IS BASICALLY FEATURE ENGINEERING.
— ANDREW NGMACHINE LEARNING AND AI VIA BRAIN
SIMULATIONS
Extracción de características
Importancia de la característica
Construcción de la característica
Selección de la característica
INGENIERIA DE CARACTERISTICAS
Vestibulum congue tempus
Lorem ipsum
CREANDO UN MODELO
ACQUISICION DE DATOS E
INGENIERIA DE CARACTERISTICAS
EL CICLO DE VIDA DE UN PROYECTO DS
MODELO DE DESPLIEGUE Y EVALUACION
PREGUNTAS QUE NECESITAN UNA
RESPUESTA
✓ Precisión
✓ Tiempo de entrenamiento
✓ Complejidad de los datos
✓ Numéro de parametros
✓ Numéro de características
✓ Interpretación
✓ Rapidez
✓ Necesidad de un entrenamiento incremental
SELECCIONANDO EL ALGORITMO MAS APROPRIADO
SELECCIONANDO EL ALGORITMO MAS APROPRIADOHOJA DE TRAMPA DEL ALGORITMO PARA UN APRENDIZAJE AUTOMÁTICO
LA COMPENSACION ENTRE SESGO Y VARIANZA
Low
Bi
asH
igh
Bias
Erro
r
Baja Varianza Alta varianza
Complejidad del modelo
VarianceSesgo
Error total
Vestibulum congue tempus
Lorem ipsum
Vestibulum congue tempus
Lorem ipsum
PREGUNTAS QUE NECESITAN UNA
RESPUESTA
MODELO DE DESPLIEGUE Y EVALUACION
ACQUISICION DE DATOS E
INGENIERIA DE CARACTERISTICAS
CREANDO UN MODELO
EL CICLO DE VIDA DE UN PROYECTO DS
¿ES EL MODELO “LA SOLUCION O UN “COMPONENT DE UN SISTEMA?
Source: http://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf
• Mantenga a los miembros del equipo muy cerca para unainteracción de alta velocidad.
• Capacite a las personas para quesepan “pescar”: esto solo aumentala capacidad de su organizaciónpara que sea motivada a obtenermás datos
• Mantenga la communicación abierta
¿ENTIENDE EL PERSONAL DE LA CIENCIA DE DATOS COMO
ESTAN CONECTADOS SUS ROLES?
Ingeniero de datos
Cientifico do datos Experto de dominio
• Las mejores prácticas de software bien establecidas no funcionan con ML
• La metodología Agile necesita seractualizada
• Impactos de PM, UX, QA, devops, etc.
¿LOS TRABAJADORES QUE NO SON CIENTÍFICOS DE DATOS ENTIENDEN CÓMO CAMBIAN SUS EMPLEOS?
Source: Panda, https://blog.openai.com/adversarial-example-research/ Stop, https://arstechnica.com/cars/2017/09/hacking-street-signs-with-stickers-could-confuse-self-driving-cars/
RECOGNIZED AS “45 MPH” SIGN
¿Qué oportunidades estamos creando para actores de mala fe?
¿Cómo medimos el éxito?
✓ Precisión de la clasificación
✓ Perdida logarítmica
✓ Matriz de confusión
✓ Area debajo de la curva (AUC)
✓ F1 score
✓ Mean absolute error
✓ Mean squared error
¿ómo medimos el éxito?
✓ Típicamente multifactorial sin una respuesta correcta
✓ Si el resultado es limitado a las métricas del modelo sospeche que
algo raro está pasando.
✓ Es importante ser comprensibles y confiables
Oficinas en losEstados Unidos, Bosnia, Serbia y
Macedonia
5Programadores
de tiempocompleto y
científicos de datos
120+Índice de
aceptación
8%
Alto aumentode clientes
20+ Proveedorpreferido de
Googe Ventures Cuánto hanrecaudado
todosnuestrosclientes
$1.5 bn
Estamos trabajandojuntos con Mckinsey
para obtener un proyecto de
transformación digital para las empresas
Fortune 500
¿ENTENDEMOS LO QUE ES PARTICULAR EN NUESTRO CASO DE USO?
ESPECTRO DEL USO DE LOS CASOS DS/ML
Control Optimización Percepción Predicción Decisionesaugmentadas
• Robotica• Vehículos
autónomos• Fábricas
oscuras
• Selección de la ruta
• Inventario• Precio
• Reconocimientofacial
• Traducción de un idioma
• Análisis de los sentimientos
• Detección de fraude
• Riesgo de la perdida de clientes
• Recomendacionesde productos
• Portfolio del producto
• Plan de negocio• Diagnóstico
médico