data science como motor de la innovación
TRANSCRIPT
Carrera como científico
• Tesis de Doctorado en Astrofísica acerca de cómoevolucionan las galaxias elítipticas.
• Uso de grandes telescopios en Chile ycolaboraciones con Francia, USA, Canada, etc.
Very Large Teslecope (VLT)
Datos en Astronomía
• Desde la obtención del dato crudo hasta lageneración de resultados en forma de tablas ygráficos.
• Testigo del impacto del Big data en Astronomía:SDSS (1998) llena discos duros de 8GB en 25 min.
Time span: 15 yearsArea: 14,555 deg2# sources: 469,053,874
Dato procesadoDato crudo
Ciencia guiada por los datos
• Jim Gray, investigador de Microsoft, hizo notar que la Ciencia entró al cuarto paradigma:Data-‐driven Science
Muñoz et al. 2015
Evolución procesamiento de datos
• 1890: Se usa la máquina tabuladora de Hollerith para procesar los datos del censo de EE.UU.
• 1951: Se diseña el primer computador electrónico con fines comerciales, UNIVAC I.
CómputoManual
CómputoAutomático
CómputoAutomático
CómputoElectrónico
Costo del cómputo
• Desde la invención de los computadores electrónicos, tanto el precio como el tamaño han disminuido sostenidamente.
Tsunami de datos
• Durante las últimas décadas la sociedad en su conjunto se ha digitalizado.
• Mayor capacidad de cómputo y tecnología más asequible han permitido un crecimiento explosivo de los datos.
Fuente: Oracle, 2012
Los datos crecen a una tasaanual del 40%.
Se estima una producciónde 45 ZB para el 2020. 10 ZB
45 ZB
1 ZB=1024 EB1 EB=1024 PB
Comunidad Open Source
• Una mayor variedad y cantidad de datos trae consigo nuevos desafíos.
• Desarrollo continuo de herramientas y métodos para analizar los datos.
• Transición de software empaquetado y comercial a uno desarrollado por comunidad open source.
¿Qué es la Ciencia de datos?
• Data Science es un campo interdisciplinario quese ocupa de los procesos y sistemas usados en laextracción de conocimiento a partir del análisisde datos.
• Se dice interdisciplinario pues requiereconocimientos de los campos de la computación,matemáticas y estadística.
Programación Estadística Data Science
¿Cambio de paradigma?
• Los datos digitales y las tecnologías han cambiado la manera en cómo vivimos y cómo entendemos el mundo.
• Jim Gray, investigador de Microsoft y pionero en bases de datos introdujo el concepto del cuarto paradigma.
• Era experimental, teóricacomputacional y últimamente la Era del dato.
Carácter interdisciplinario
Diagrama de Venn para Data ScienceDrew Conway (2010)
HabilidadesProgramaciónExploración de datosSoluciones creativas
ConocimientosMatemáticasEstadística
ExperticiaEspecializaciónConocimiento de campo
¿Qué hace un Data Scientist?
• Profesional que posee las herramientas y los conocimientos necesarios para:
§ Recolectar y filtrar datos de diversas fuentes§ Explorar de manera efectiva un set de datos§ Obtener información valiosa oculta en los datos§ Construir modelos que permitan tomar decisiones informadas.
Data Scientist: Persona que es mejor en estadística quecualquier ingeniero de software y que es mejor en ingenieríade software que cualquier estadístico.
Conocimientos y Habilidades
• Formación universitaria en las áreas de Ingeniería y Ciencias Naturales. Idealmente tienen Magister y PhD.
• Poseen conocimientos de Matemáticas, Estadística y Programación computacional.
• Se caracterizan por su curiosidad intelectual, son capaces de diseñar experimentos y comunicar de manera efectiva los resultados.
Casos Notables
nyc-‐taxi-‐datauber-‐tlc-‐foil-‐response
Análisis de uso de Taxis y Uber en NYCOpen Data+Open Source
Fuente: FiveThirtyEight
Casos Notables
datausa
Análisis de datos públicos de USAOpen Data+Open Source
Fuente: The New York Times
Visión computacional
• Enseñar a las máquinas a ver e interpretar tal como lo hacemos los humanos.
• Interdisciplinario: Matemáticas, Física, AI
Industria automotriz
• ¿Por qué usar Visión Computacional?§ 3.500 personas mueren todos los días en accidentes de tránsito en el mundo
§ Gastamos cerca de 1 hora conduciendo
Ingresos: 240 millones USD (2015)
Mobileye, 2015
Seguridad y Transporte
• Los sistemas de vigilancia cumplen un rol clave en la seguridad y mejora de experiencia de usuario en las industrias del retail, transporte público y orden público.
Metric Video Analytics
• Análisis de cámaras de seguridad en tiempo real, escalable y de bajo costo.
• Integración con la plataforma Azure de Microsoft y capacidad de analítica avanzada.
Informes y alertas
• Conteo y seguimiento de personas• Alertas de actos delictuales y evasión • Datos demográficos de clientes y usuarios