que es la ciencia de datos y cual es su uso?

Post on 04-Oct-2021

17 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Que es la Ciencia de Datos, el aprendizaje automático (ML), el Big Data y cuales son sus usos?

Juan Pablo Mora

Director – Programa MBA, Universidad Javeriana

MS in Urban Data Science – NYU CUSP

Qué es la Ciencia de Datos?

La ciencia de los datos es un paso evolutivo en campos interdisciplinarios como el análisis de

negocios que incorpora la informática, el modelado, las estadísticas, la analítica y las

matemáticas en uno solo proceso (NYU center for Data Science).

Matemática y

estadística

Ciencias de la

computación

Conocimiento de

dominio

Unicornio

Machine

Learning

InvestigaciónIngeniería

Scripting, SQL

Python, R Scala

Data Pipelines

Big Data/ Apache

Spark, Hadoop

NoSQL

Conocimiento de dominio

Supply Chain

CRM

Finanzas

Costos

Recursos humanos

Matemáticas

computacionales

Algebra Líneal

Cálculo multivariado

… Pero la ciencia de datos tiene varias definiciones

“El científico de Datos es aquel “que puede crear

puentes entre los datos crudos y el análisis –

haciéndolos accesibles . Es un rol democratizarte en la

medida que lleva los datos a la gente común, hacienda

el mundo un poco mejor paso a paso.”

“Hay un chiste en twitter que dice que la definición mas perfecta

de un científico de datos es la de un analista de datos que vive

en Silicon valley en California,”

“Los científicos de datos están involucrados con el agrupamiento de

datos desde distintas fuentes, su edición en formas mas tratables y

entendibles de forma que cuenten una historia que pueda ser

presentada por ellos para ser entendida por todos”

… Y una de ellas es como contar historias con los datos

… Y una de ellas es como contar historias con los datos

Machine Learning Vs Big data Vs Inteligencia Artificial

Set de herramientas

Herramienta

Campo

Machine Learning Vs Big data Vs Inteligencia Artificial

Qué es Inteligencia artificial

“La inteligencia artificial (IA) es el área de la ciencia de la computación que se enfoca

en la creación de máquinas inteligentes que actuan y reaccionan como los humanos.

Algunas de las actividades que las computadoras diseñadas con IA hacen son:

• Reconocimiento del habla

• Aprendizaje

• Planeación

• Resolución de problemas”

Techopedia, 2019.

Qué es Big data

“El concepto de big data se puede definir como las múltiples fuentes de información de alto

volúmen, alta velocidad y alta variedad que exigen de formas innovadoras y costo efectivas

para ser procesadas con el fin de generar descubrimientos, procesos de desición y

automatización de procesos”

Gartner, 2018

Qué es Big data

“El concepto de big data se puede definir como las múltiples fuentes de información de alto

volúmen, alta velocidad y alta variedad que exigen de formas innovadoras y costo efectivas

para ser procesadas con el fin de generar descubrimientos, procesos de desición y

automatización de procesos”

Gartner, 2018

1111

Big Data = Volumen, Variedad, Velocidad y Veracidad

Escalable de terabytes a

zettabytes

Datos de tipo relacional y

no-relacional de

diferentes fuentes

Data en tiempo real y con

alto factor de movimiento

Contenidos dispares o

que con calidad variada

Volumen:

Variedad:

Velocidad:

Veracidad:

Sistemas que aprendenser programados

explicitamente

Sin

Machine Learning – Cuál es el alboroto y por qué debería importarnos?

Machine learning es el subcampo de la ciencias de la información que busca la posibilidad de que

las maquinas aprendan de su entorno sin necesidad de ser explícitamente programadas (Arthur

Samuel, 1959).

Producir nuevos modelos de manera rápida y automatizada que permitan analizar una mayor cantidad de

datos en un tiempo mas corto, entregando resultados mas exactos – aun a gran escala. Mediante la estos

modelos las organizaciones pueden tener un mejor entendimiento e identificación de oportunidades mas

rentables, reduciendo sus riesgos operativos.

Sistema

Datos

Programa

Resultado

Sistema

Datos

Resultado

Programa

Programación tradicional

Machine Learning

Esquema sistemático base del machine learning

Origen de la ciencia de datos & machine learning

1642

Maquina aritmética

Pascal

1649

Calculadora

Autónoma

Leibniz

1890

Maquina tabuladora

Hollerith

1945

Mark I

1952

Checkers program

1957

Mark I - Perceptron

1967

Recon. patrones

1990

Aplic. Mach

Learning

2000’s

Aplic. AI

IBM, Apple,

Amazon..

2010’s

Redes Neurales y

Deep Learning

FB – Google – IBM

¿Magia?

No, es más como jardinería.

Semillas = Algoritmos

Nutrientes = Datos

Jardinero = Tú

Plantas = Modelo/Programa

Tipos de aprendizaje automático

17

Acción

rat maze

Recompensa

chee

se

brain

Observación

dogcat

catdog

ID Positivo: Pug Desconocido

Desconocido ID Positivo: Pug

dogdog

dog

dog

Aprendizajesupervisado

Aprendizaje no supervisado

Aprendizajepor refuerzo

Aprendizajeprofundo

Algoritmos y lenguajes de programación

18

Bayesianos Clustering Arboles de desición Reducción de

dimensionalidad

Algoritmos basados

en instanciasRegresión lineal Regularización

Principales algoritmos de ML por tipo de uso

Campos de desarrollo en Machine learning y tendencias

Aprendizaje por Refuerzo Deep Learning (FNN, CNN,

RNN, Autoencoders, LSTMNN, GAN)

Deep Text

Campos de desarrollo en Machine learning y tendencias

Generative adversarial networks (GAN)

Convolutional Neural Networks (CNN)

Tendencias de tecnología en la ciencia de datos…

SPSS SAS

Python R Scala

Trends in Google Searches (September 2nd 2016)

La ciencia de datos está encausando la evolución del concepto de base de datos a big data….

Bases de datos

Big Data

Source: Google Trends

Hadoop

Spark

Aplicaciones mas conocidas del Machine Learning y la ciencia de datos en el

mundo real

Visión de

computadores

Procesamiento de lenguaje natural

Reconocimiento de habla y audio Modelamiento predictivo

Aplicaciones del Machine Learning y la ciencia de datos en el mundo corporativo

Salud Internet de

las cosas

Marketing y Ventas Transporte

Servicios Financieros

Metodología CRISP-DM (Cross Industry standard Process for data mining)

Siete pasos de la metodología:

•Entendimiento de la necesidad de

negocio

•Entendimiento de los datos

•Preparación de los datos

•Validación de datos

•Modelamiento

•Evaluación

•Despliegue de los modelos

Herramientas e Infraestructura

• Necesidad de un

ambiente que

permita “fallos

rápidos”

• Herramientas que no

permiten

colaboración

Gobierno

• Si la data no está

segura, el auto

servicio no es una

realidad

• Retos para entender

la historia de los datos

para tener una vista

única

Conocimiento

• Los conocimientos de

ciencia de datos

tienen poca oferta y

mucha demanda

• Alto riesgo de fuga de

conocimiento y capital

intelectual

Datos

• Los datos residen

en silos y son

difíciles de acceder

• Datos externos y no

estructurados no

son considerados

27

¿Por qué las organizaciones están sufriendo para capturar el valor real de la Información?

Ecosistema de aplicaciones y productos en la Ciencia de Datos

Ejemplos de aplicación de la Ciencia de datos – Uso de características socio económicas de los usuarios de la línea 311 en la Ciudad de

Nueva York para predecir tipos de llamadas

Ejemplos de aplicación de la Ciencia de datos – Creación de un índice de inequidad en el acceso al transporte en la ciudad de Nueva York

Ejemplos de aplicación de la Ciencia de datos – Análisis de sentimientos sobre el proceso de paz en Colombia usando Twitter

http://juanmorads.blogspot.com.co/

top related