que es la ciencia de datos y cual es su uso?

31
Que es la Ciencia de Datos, el aprendizaje automático (ML), el Big Data y cuales son sus usos? Juan Pablo Mora Director Programa MBA, Universidad Javeriana MS in Urban Data Science NYU CUSP

Upload: others

Post on 04-Oct-2021

15 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Que es la Ciencia de Datos y cual es su uso?

Que es la Ciencia de Datos, el aprendizaje automático (ML), el Big Data y cuales son sus usos?

Juan Pablo Mora

Director – Programa MBA, Universidad Javeriana

MS in Urban Data Science – NYU CUSP

Page 2: Que es la Ciencia de Datos y cual es su uso?

Qué es la Ciencia de Datos?

La ciencia de los datos es un paso evolutivo en campos interdisciplinarios como el análisis de

negocios que incorpora la informática, el modelado, las estadísticas, la analítica y las

matemáticas en uno solo proceso (NYU center for Data Science).

Matemática y

estadística

Ciencias de la

computación

Conocimiento de

dominio

Unicornio

Machine

Learning

InvestigaciónIngeniería

Scripting, SQL

Python, R Scala

Data Pipelines

Big Data/ Apache

Spark, Hadoop

NoSQL

Conocimiento de dominio

Supply Chain

CRM

Finanzas

Costos

Recursos humanos

Matemáticas

computacionales

Algebra Líneal

Cálculo multivariado

Page 3: Que es la Ciencia de Datos y cual es su uso?

… Pero la ciencia de datos tiene varias definiciones

“El científico de Datos es aquel “que puede crear

puentes entre los datos crudos y el análisis –

haciéndolos accesibles . Es un rol democratizarte en la

medida que lleva los datos a la gente común, hacienda

el mundo un poco mejor paso a paso.”

“Hay un chiste en twitter que dice que la definición mas perfecta

de un científico de datos es la de un analista de datos que vive

en Silicon valley en California,”

“Los científicos de datos están involucrados con el agrupamiento de

datos desde distintas fuentes, su edición en formas mas tratables y

entendibles de forma que cuenten una historia que pueda ser

presentada por ellos para ser entendida por todos”

Page 4: Que es la Ciencia de Datos y cual es su uso?

… Y una de ellas es como contar historias con los datos

Page 5: Que es la Ciencia de Datos y cual es su uso?

… Y una de ellas es como contar historias con los datos

Page 6: Que es la Ciencia de Datos y cual es su uso?

Machine Learning Vs Big data Vs Inteligencia Artificial

Set de herramientas

Herramienta

Campo

Page 7: Que es la Ciencia de Datos y cual es su uso?

Machine Learning Vs Big data Vs Inteligencia Artificial

Page 8: Que es la Ciencia de Datos y cual es su uso?

Qué es Inteligencia artificial

“La inteligencia artificial (IA) es el área de la ciencia de la computación que se enfoca

en la creación de máquinas inteligentes que actuan y reaccionan como los humanos.

Algunas de las actividades que las computadoras diseñadas con IA hacen son:

• Reconocimiento del habla

• Aprendizaje

• Planeación

• Resolución de problemas”

Techopedia, 2019.

Page 9: Que es la Ciencia de Datos y cual es su uso?

Qué es Big data

“El concepto de big data se puede definir como las múltiples fuentes de información de alto

volúmen, alta velocidad y alta variedad que exigen de formas innovadoras y costo efectivas

para ser procesadas con el fin de generar descubrimientos, procesos de desición y

automatización de procesos”

Gartner, 2018

Page 10: Que es la Ciencia de Datos y cual es su uso?

Qué es Big data

“El concepto de big data se puede definir como las múltiples fuentes de información de alto

volúmen, alta velocidad y alta variedad que exigen de formas innovadoras y costo efectivas

para ser procesadas con el fin de generar descubrimientos, procesos de desición y

automatización de procesos”

Gartner, 2018

Page 11: Que es la Ciencia de Datos y cual es su uso?

1111

Big Data = Volumen, Variedad, Velocidad y Veracidad

Escalable de terabytes a

zettabytes

Datos de tipo relacional y

no-relacional de

diferentes fuentes

Data en tiempo real y con

alto factor de movimiento

Contenidos dispares o

que con calidad variada

Volumen:

Variedad:

Velocidad:

Veracidad:

Page 12: Que es la Ciencia de Datos y cual es su uso?

Sistemas que aprendenser programados

explicitamente

Sin

Page 13: Que es la Ciencia de Datos y cual es su uso?

Machine Learning – Cuál es el alboroto y por qué debería importarnos?

Machine learning es el subcampo de la ciencias de la información que busca la posibilidad de que

las maquinas aprendan de su entorno sin necesidad de ser explícitamente programadas (Arthur

Samuel, 1959).

Producir nuevos modelos de manera rápida y automatizada que permitan analizar una mayor cantidad de

datos en un tiempo mas corto, entregando resultados mas exactos – aun a gran escala. Mediante la estos

modelos las organizaciones pueden tener un mejor entendimiento e identificación de oportunidades mas

rentables, reduciendo sus riesgos operativos.

Page 14: Que es la Ciencia de Datos y cual es su uso?

Sistema

Datos

Programa

Resultado

Sistema

Datos

Resultado

Programa

Programación tradicional

Machine Learning

Esquema sistemático base del machine learning

Page 15: Que es la Ciencia de Datos y cual es su uso?

Origen de la ciencia de datos & machine learning

1642

Maquina aritmética

Pascal

1649

Calculadora

Autónoma

Leibniz

1890

Maquina tabuladora

Hollerith

1945

Mark I

1952

Checkers program

1957

Mark I - Perceptron

1967

Recon. patrones

1990

Aplic. Mach

Learning

2000’s

Aplic. AI

IBM, Apple,

Amazon..

2010’s

Redes Neurales y

Deep Learning

FB – Google – IBM

Page 16: Que es la Ciencia de Datos y cual es su uso?

¿Magia?

No, es más como jardinería.

Semillas = Algoritmos

Nutrientes = Datos

Jardinero = Tú

Plantas = Modelo/Programa

Page 17: Que es la Ciencia de Datos y cual es su uso?

Tipos de aprendizaje automático

17

Acción

rat maze

Recompensa

chee

se

brain

Observación

dogcat

catdog

ID Positivo: Pug Desconocido

Desconocido ID Positivo: Pug

dogdog

dog

dog

Aprendizajesupervisado

Aprendizaje no supervisado

Aprendizajepor refuerzo

Aprendizajeprofundo

Page 18: Que es la Ciencia de Datos y cual es su uso?

Algoritmos y lenguajes de programación

18

Bayesianos Clustering Arboles de desición Reducción de

dimensionalidad

Algoritmos basados

en instanciasRegresión lineal Regularización

Page 19: Que es la Ciencia de Datos y cual es su uso?

Principales algoritmos de ML por tipo de uso

Page 20: Que es la Ciencia de Datos y cual es su uso?

Campos de desarrollo en Machine learning y tendencias

Aprendizaje por Refuerzo Deep Learning (FNN, CNN,

RNN, Autoencoders, LSTMNN, GAN)

Deep Text

Page 21: Que es la Ciencia de Datos y cual es su uso?

Campos de desarrollo en Machine learning y tendencias

Generative adversarial networks (GAN)

Convolutional Neural Networks (CNN)

Page 22: Que es la Ciencia de Datos y cual es su uso?

Tendencias de tecnología en la ciencia de datos…

SPSS SAS

Python R Scala

Trends in Google Searches (September 2nd 2016)

Page 23: Que es la Ciencia de Datos y cual es su uso?

La ciencia de datos está encausando la evolución del concepto de base de datos a big data….

Bases de datos

Big Data

Source: Google Trends

Hadoop

Spark

Page 24: Que es la Ciencia de Datos y cual es su uso?

Aplicaciones mas conocidas del Machine Learning y la ciencia de datos en el

mundo real

Visión de

computadores

Procesamiento de lenguaje natural

Reconocimiento de habla y audio Modelamiento predictivo

Page 25: Que es la Ciencia de Datos y cual es su uso?

Aplicaciones del Machine Learning y la ciencia de datos en el mundo corporativo

Salud Internet de

las cosas

Marketing y Ventas Transporte

Servicios Financieros

Page 26: Que es la Ciencia de Datos y cual es su uso?

Metodología CRISP-DM (Cross Industry standard Process for data mining)

Siete pasos de la metodología:

•Entendimiento de la necesidad de

negocio

•Entendimiento de los datos

•Preparación de los datos

•Validación de datos

•Modelamiento

•Evaluación

•Despliegue de los modelos

Page 27: Que es la Ciencia de Datos y cual es su uso?

Herramientas e Infraestructura

• Necesidad de un

ambiente que

permita “fallos

rápidos”

• Herramientas que no

permiten

colaboración

Gobierno

• Si la data no está

segura, el auto

servicio no es una

realidad

• Retos para entender

la historia de los datos

para tener una vista

única

Conocimiento

• Los conocimientos de

ciencia de datos

tienen poca oferta y

mucha demanda

• Alto riesgo de fuga de

conocimiento y capital

intelectual

Datos

• Los datos residen

en silos y son

difíciles de acceder

• Datos externos y no

estructurados no

son considerados

27

¿Por qué las organizaciones están sufriendo para capturar el valor real de la Información?

Page 28: Que es la Ciencia de Datos y cual es su uso?

Ecosistema de aplicaciones y productos en la Ciencia de Datos

Page 29: Que es la Ciencia de Datos y cual es su uso?

Ejemplos de aplicación de la Ciencia de datos – Uso de características socio económicas de los usuarios de la línea 311 en la Ciudad de

Nueva York para predecir tipos de llamadas

Page 30: Que es la Ciencia de Datos y cual es su uso?

Ejemplos de aplicación de la Ciencia de datos – Creación de un índice de inequidad en el acceso al transporte en la ciudad de Nueva York

Page 31: Que es la Ciencia de Datos y cual es su uso?

Ejemplos de aplicación de la Ciencia de datos – Análisis de sentimientos sobre el proceso de paz en Colombia usando Twitter

http://juanmorads.blogspot.com.co/