el arte de la ciencia de datos

37
El Arte de la Ciencia de Datos Campus Party 2016 #DatosALoGrande

Upload: datalab-community

Post on 15-Apr-2017

68 views

Category:

Science


3 download

TRANSCRIPT

Page 1: El arte de la Ciencia de Datos

El Arte de la Ciencia de Datos

Campus Party 2016#DatosALoGrande

Page 2: El arte de la Ciencia de Datos

Presentación

- Machine LearningStanford

- Mining Massive DatasetsStanford

- Process MiningEindhoven

- Data AnalysisJohn Hopkins

- Data Lakes for Big DataEMC

- Big Data with SparkBerkeley

Héctor Neri Cano

[email protected]

Data Science Enthusiast

Page 3: El arte de la Ciencia de Datos
Page 4: El arte de la Ciencia de Datos

Datos a lo Grande

Page 5: El arte de la Ciencia de Datos

Beneficios

• Resultados más precisos.

• Mejores recomendaciones.

• Los periodistas pueden analizar y entender mejor.

• Soluciones para el problema de tráfico en las ciudades.

• Predecir las enfermedades que cada persona pueda padecer.

• Encontrar la mejor cura y tratamiento personalizados.

Page 6: El arte de la Ciencia de Datos

Acciones impulsadas por Datos

• Aprender de los datos

• Convertir los datos en algo valioso

• Tomar decisiones basadas en los datos

• Crear productos y servicios impulsados por los datos

El Trabajo en Equipo es fundamental.

El tratamiento de los datos para extraer conocimiento,

es un arte y una ciencia.

Page 7: El arte de la Ciencia de Datos

Data Vincis

El rol de científico de datos se ha descrito como “parte analista, parte artista”. De acuerdo a Anjul Bhambhri, vicepresidente de productos de Big Data en IBM, “un científico de datos es alguien inquisitivo, que puede mirar a los datos y encontrar patrones. Es casi como un individuo del Renacimiento que realmente quiere aprender y traer cambio a una organización”.

Page 8: El arte de la Ciencia de Datos
Page 9: El arte de la Ciencia de Datos

Las 7 Artes Liberales de la Ciencia de Datos

Page 10: El arte de la Ciencia de Datos

Trivium 1 (Dialéctica)

Análisis Estadístico

Page 11: El arte de la Ciencia de Datos

Trivium 2 (Gramática)

Estructura de Datos

Page 12: El arte de la Ciencia de Datos

Trivium 3 (Retórica)

Data Visualization+ Open Data

Page 13: El arte de la Ciencia de Datos

Quadrivium 1 (Aritmética)

Big Data

Page 14: El arte de la Ciencia de Datos

Quadrivium 2 (Geometría)

Distributed FileSystem

Page 15: El arte de la Ciencia de Datos

Quadrivium 3 (Música)

MapReduce

Page 16: El arte de la Ciencia de Datos

Quadrivium 4 (Astronomía)

Data Mining

Page 17: El arte de la Ciencia de Datos

El Arte de Analizar Datos

Page 18: El arte de la Ciencia de Datos

El Científico de Datos

Un científico de datos debe reunir y aplicar herramientas adecuadas a los datos para responder una pregunta relevante.

Actividades Centrales

1. Definir (y refinar) la pregunta

2. Explorar los datos

3. Construir modelos estadísticos formales

4. Interpretar los resultados

5. Comunicar los resultados

Page 19: El arte de la Ciencia de Datos

El Epiciclo de Análisis Ajustar las

expectativas

Se necesitará repasar este epiciclo continuamente para refinar las actividades centrales.

Recolectar información (datos)

Comparar tu información o datos con tus expectativas

Corregir tus expectativas o arreglar los datos

Page 20: El arte de la Ciencia de Datos

Definir la Pregunta

Muchas de las trampas mortales de un análisis de datos pueden ser evitados al gastar energía mental para hacer que la pregunta quede bien formulada.

Tipos de Preguntas

1. Descriptiva

2. Exploratoria

3. Inferencial

4. Predictiva

5. Causal

6. Mecánica

Page 21: El arte de la Ciencia de Datos

Pregunta Descriptiva

Pregunta Exploratoria

Page 22: El arte de la Ciencia de Datos

Pregunta Inferencial

Pregunta Predictiva

Page 23: El arte de la Ciencia de Datos

Pregunta Causal

Pregunta Mecánica

Page 24: El arte de la Ciencia de Datos

Características de una Buena Pregunta

Ejemplo de una Buena Pregunta

¿Comer 5 porciones de

fruta y vegetales frescos

se relaciona con menos

infecciones de las vías

respiratorias?

Debe ser de interés para tu audiencia

No debe haber sido ya respondida

Debe provenir de un cuadro de trabajo plausible

Debe poder ser respondida con los datos adquiribles

Debe ser lo suficientemente específica

Page 25: El arte de la Ciencia de Datos

Traducir una pregunta en un problema de datos

Piensa cómo lucirían los resultados del análisis de datos y cómo pueden ser interpretados.

Evita preguntas que usan datos inapropiados y con una infinidad de interpretaciones.

Asegurate que los datos disponibles pueden proveer los factores necesarios para obtener la respuesta.

Page 26: El arte de la Ciencia de Datos

Evita las Variables de Confusión

Se presenta cuando un factor que no se consideró está relacionado.

Se refiere a aquellas variables que aparentemente son significativas, pero que en realidad no lo son porque son dependientes de otras que no han sido consideradas.

Conviene identificar si el dataset incluye información acerca de estas potenciales

variables de confusión.

Page 27: El arte de la Ciencia de Datos

Evita la Parcialidad (Bias)

Una selección parcializada ocurre cuando los datos inflan la proporción de la gente que tiene más ciertas características que la población general.

Si la forma en que los datos son recolectados lleva a un resultado parcializado, el

resultado no puede ser bien interpretado.

La parcialidad puede ser un problema si estás más (o menos) propenso de observar individuos con ciertos factores debido a cómo la población fue seleccionada.

Page 28: El arte de la Ciencia de Datos

Revisa tus datos primero

Los datos usualmente vendrán en un formato muy desordenado y

necesitarás hacer algo de limpieza.

Con algunas cuantas maniobras, puedes identificar problemas potenciales con el conjunto de datos antes de que te enfrasques en un complicado análisis de datos.

Frecuentemente es útil mirar al “inicio” y al “final” de un conjunto de datos. Esto te permite conocer si los datos fueron leídos propiamente, si las cosas están propiamente formateadas y si todo está en su sitio.

Page 29: El arte de la Ciencia de Datos

Valida con al menos una fuente externa

En Machine Learning, el dataset es mejor separarlo en 3 subconjuntos

Testing

Asegurarse de que los datos concuerdan con algo fuera de tu conjunto de datos es muy importante. Permite que te asegures de que las medidas están firmemente en línea con lo que debe ser y sirve como una revisión sobre qué otras cosas podrían estar mal en tu conjunto de datos.

Aprendizaje

Validación

Page 30: El arte de la Ciencia de Datos

Intenta lo más fácil, pero siempre desafialo

La intención de intentar primero la solución más fácil es ver cómo podría proveerse evidencia ‘a primera vista’.

Si no encuentras evidencia en los datos usando solo un simple plot o análisis, entonces frecuentemente es poco probable que encuentres algo en un análisis más sofisticado.

Se debe siempre pensar en formas de desafiar

los resultados, especialmente si esos

resultados se comportan según tus expectativas

previas.

Page 31: El arte de la Ciencia de Datos

Utiliza un modelo razonable y útil.

Tener todos los datos es importante, pero no siempre es muy útil. Esto es debido a que el modelo trivial (no tener ni un solo modelo) no provee ninguna reducción de los datos. El primer elemento clave de un modelo estadístico es la reducción de los datos.

La pregunta es si el modelo provee una

aproximación razonable que pueda ser útil.

Un modelo estadístico permite una aleatoriedad al generar los datos.

El modelo es

esencialmente

una expectativa

de la relación

entre varios

factores del

mundo real en

tu conjunto de

datos.

Page 32: El arte de la Ciencia de Datos

¿Ciencia de Datos?

Page 33: El arte de la Ciencia de Datos
Page 34: El arte de la Ciencia de Datos

Analítica de Datos vs Ciencia de Datos

Descubrir aquellas cosas que no sabemos

que desconocemos

Más que un interés en conocer aquellas

cosas que no conocemos

Ciencia de

Datos: Más

que muchas

disciplinas

y diversas

herramientas

Fuente: DataScientistInsight.com

Page 35: El arte de la Ciencia de Datos

.Aspecto Análitica de Datos Ciencia de Datos

Filosofía Saber Entender

Modelos Generados Descriptivos, Diagnósticos Predictivos, Prescriptivos

Nivel de Comprensión Aprendizaje Sencillo Aprendizaje Profundo

Resultados Operacionales y Tácticos Estratégicos y Generan Valor

Carga de Trabajo Repetitiva y Sistemática Experimental y Particular

Ámbito de Estudio Limitado y Específico Amplio y General

Variedad de Datos Datasets limitados y coherentes Ilimitados y formados flexibles

Veracidad de los Datos Calidad y Certeza Controlada Calidad y Certeza Desconocida

Page 37: El arte de la Ciencia de Datos

Muchas Gracias por estar aquí