data science como motor de la innovación

28

Upload: roberto-munoz

Post on 25-Jan-2017

62 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Cómo  la  Ciencia  ha  impactado  mi  vida  y  cómo  yo  he  impactado  a  la  Ciencia

Una  ventana  al  Universo

Norte  de  ChileCielos  claros  y  transparentes

Carrera  como científico

• Tesis de Doctorado en Astrofísica acerca de cómoevolucionan las galaxias elítipticas.

• Uso de grandes telescopios en Chile ycolaboraciones con Francia, USA, Canada, etc.

Very Large Teslecope (VLT)

Datos  en  Astronomía

• Desde la obtención del dato crudo hasta lageneración de resultados en forma de tablas ygráficos.

• Testigo del impacto del Big data en Astronomía:SDSS (1998) llena discos duros de 8GB en 25 min.

Time  span:  15  yearsArea:  14,555  deg2#  sources:  469,053,874

Dato  procesadoDato  crudo

Ciencia  guiada  por  los  datos

• Jim Gray,  investigador  de  Microsoft,  hizo  notar  que  la  Ciencia  entró  al  cuarto  paradigma:Data-­‐driven Science

Muñoz et al. 2015

Evolución del  procesamientoy

análisis  de  datos

Evolución  procesamiento  de  datos

• 1890:  Se  usa  la  máquina  tabuladora  de  Hollerith  para  procesar  los  datos  del  censo  de  EE.UU.

• 1951:  Se  diseña  el  primer  computador  electrónico  con  fines  comerciales,  UNIVAC  I.

CómputoManual

CómputoAutomático

CómputoAutomático

CómputoElectrónico

Costo  del  cómputo

• Desde  la  invención  de  los  computadores  electrónicos,  tanto  el  precio  como  el  tamaño  han  disminuido  sostenidamente.

Tsunami  de  datos

• Durante  las  últimas  décadas  la  sociedad  en  su  conjunto  se  ha  digitalizado.

• Mayor  capacidad  de  cómputo  y  tecnología  más  asequible  han  permitido  un  crecimiento  explosivo  de  los  datos.

Fuente: Oracle, 2012

Los datos crecen a una tasaanual del 40%.

Se estima una producciónde 45 ZB para el 2020. 10  ZB

45  ZB

1  ZB=1024  EB1  EB=1024  PB

Comunidad  Open  Source

• Una  mayor  variedad  y  cantidad  de  datos  trae  consigo  nuevos  desafíos.

• Desarrollo  continuo  de  herramientas  y  métodos  para  analizar  los  datos.

• Transición  de  software  empaquetado  y  comercial  a  uno  desarrollado  por  comunidad  open  source.

¿Qué  es  la  Ciencia  de  datos?

• Data Science es un campo interdisciplinario quese ocupa de los procesos y sistemas usados en laextracción de conocimiento a partir del análisisde datos.

• Se dice interdisciplinario pues requiereconocimientos de los campos de la computación,matemáticas y estadística.

Programación Estadística Data  Science

¿Cambio  de  paradigma?

• Los  datos  digitales  y  las  tecnologías  han  cambiado  la  manera  en  cómo  vivimos  y  cómo  entendemos  el  mundo.

• Jim Gray,  investigador  de  Microsoft  y  pionero  en  bases  de  datos  introdujo  el  concepto  del  cuarto  paradigma.

• Era  experimental,  teóricacomputacional  y  últimamente  la  Era  del  dato.

Carácter  interdisciplinario

Diagrama de  Venn  para  Data  ScienceDrew  Conway  (2010)

HabilidadesProgramaciónExploración de datosSoluciones creativas

ConocimientosMatemáticasEstadística

ExperticiaEspecializaciónConocimiento  de  campo

¿Qué  hace  un  Data  Scientist?

• Profesional  que  posee  las  herramientas  y  los  conocimientos  necesarios  para:

§ Recolectar  y  filtrar  datos  de  diversas  fuentes§ Explorar de  manera  efectiva  un  set  de  datos§ Obtener  información  valiosa  oculta  en  los  datos§ Construir  modelos  que  permitan  tomar  decisiones  informadas.

Data Scientist: Persona que es mejor en estadística quecualquier ingeniero de software y que es mejor en ingenieríade software que cualquier estadístico.

Roles  en  la  Organización

Conocimientos  y  Habilidades

• Formación  universitaria  en  las  áreas  de  Ingeniería  y  Ciencias  Naturales.  Idealmente  tienen  Magister  y  PhD.

• Poseen  conocimientos  de  Matemáticas,  Estadística  y  Programación  computacional.

• Se  caracterizan  por  su  curiosidad  intelectual,  son  capaces  de  diseñar  experimentos  y  comunicar  de  manera  efectiva  los  resultados.

Esquema  simple  Data  Science

Casos  Notables

nyc-­‐taxi-­‐datauber-­‐tlc-­‐foil-­‐response

Análisis de  uso  de  Taxis  y  Uber  en  NYCOpen  Data+Open Source

Fuente: FiveThirtyEight

Casos  Notables

datausa

Análisis de  datos  públicos  de  USAOpen  Data+Open Source

Fuente: The New York Times

Innovación  con  basecientífica  y  tecnológica

Visión computacional

• Enseñar  a  las  máquinas a  ver  e  interpretar  tal  como  lo  hacemos  los  humanos.

• Interdisciplinario:  Matemáticas,  Física,  AI

Industria  automotriz

• ¿Por  qué  usar  Visión  Computacional?§ 3.500  personas  mueren  todos  los  días en  accidentes  de  tránsito  en  el  mundo

§ Gastamos  cerca  de  1  hora  conduciendo

Ingresos:  240  millones  USD  (2015)

Mobileye,  2015

Seguridad  y  Transporte

• Los  sistemas  de  vigilancia  cumplen  un  rol  clave  en  la  seguridad  y  mejora  de  experiencia  de  usuario  en  las  industrias  del  retail,  transporte  público  y  orden  público.

Metric Video  Analytics

• Análisis  de  cámaras  de  seguridad  en  tiempo  real,  escalable  y  de  bajo  costo.

• Integración  con  la  plataforma  Azure  de  Microsoft  y  capacidad  de  analítica  avanzada.

Informes  y  alertas

• Conteo  y  seguimiento  de  personas• Alertas  de  actos  delictuales  y  evasión  • Datos  demográficos  de  clientes  y  usuarios

Smarcity:  Ciudad  interconectada

Gracias!

Email:  [email protected]:  github.com/rpmunoz