cientÍfico de datos, el nuevo semidiÓs se han considerado de manera habitual como parte de la...

3
START 38 LEANERS MAGAZINE · NÚM.07 | MAYO 2015 Mientras que hace dos o tres años hablar de AARRR significaba abrir una puerta a lo desconocido para muchas startups, me ale- gra ver cómo en la actualidad, cuando comienzo a definir cada uno de los puntos, veo muchas caras de asentimiento y escucho co- mentarios acerca de las experiencias de muchos de los asistentes. Sin embargo, lo que ayer era innovador, hoy es algo obsoleto. En mi opinión, hay dos vías principales que se están empezando a abrir. Por un lado, existe una gran cantidad de datos, obtenidos de la interacción entre usuarios, proveedores y la propia empresa, que no se han considerado de manera habitual como parte de la “ana- lítica web”. Es decir, aunque nada en la analítica web teórica impedía tener en cuenta esta información, el conocimiento compartido y las herra- mientas disponibles restrigían implícita o explícitamente que se pudiera acceder a ella. Por ejemplo, la creación de cohortes (organizando usuarios a par- tir de su fecha de registro) no suele ser una tarea fácil en muchas herramientas de analítica, por lo que muchos usuarios se veían En un anterior artículo que publiqué en Leaners resumía algunas metodologías y definiciones comúnmente aceptadas por la comunidad de empresas de base tecnológica. Qué es una métrica o cómo medirlas utilizando metodologías iterativas e incrementales —tales como la definida por Dave McClure denominada AARRR (acquisition, activation, retention, referral y revenue)— son temas que poco a poco se han convertido en parte del lenguaje estándar. SOCIO FUNDADOR 24SYMBOLS @justohidalgo JUSTO HIDALGO CIENTÍFICO DE DATOS, EL NUEVO SEMIDIÓS

Upload: donhu

Post on 16-Oct-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

START

38

LEA

NER

S M

AG

AZI

NE

· NÚ

M.0

7 |

MAY

O 2

015

Mientras que hace dos o tres años hablar de AARRR significaba abrir una puerta a lo desconocido para muchas startups, me ale-gra ver cómo en la actualidad, cuando comienzo a definir cada uno de los puntos, veo muchas caras de asentimiento y escucho co-mentarios acerca de las experiencias de muchos de los asistentes. Sin embargo, lo que ayer era innovador, hoy es algo obsoleto.En mi opinión, hay dos vías principales que se están empezando a abrir. Por un lado, existe una gran cantidad de datos, obtenidos de la interacción entre usuarios, proveedores y la propia empresa, que

no se han considerado de manera habitual como parte de la “ana-lítica web”. Es decir, aunque nada en la analítica web teórica impedía tener en cuenta esta información, el conocimiento compartido y las herra-mientas disponibles restrigían implícita o explícitamente que se pudiera acceder a ella. Por ejemplo, la creación de cohortes (organizando usuarios a par-tir de su fecha de registro) no suele ser una tarea fácil en muchas herramientas de analítica, por lo que muchos usuarios se veían

En un anterior artículo que publiqué en Leaners resumía algunas metodologías y definiciones comúnmente aceptadas por la comunidad de empresas de base tecnológica. Qué es una métrica o cómo medirlas utilizando metodologías iterativas e incrementales —tales como la definida por Dave McClure denominada AARRR (acquisition, activation, retention, referral y revenue)— son temas que poco a poco se han convertido en parte del lenguaje estándar.

SOCIO FUNDADOR 24SYMBOLS

@justohidalgo

JUSTO HIDALGO

CIENTÍFICO DE DATOS, EL NUEVO SEMIDIÓS

START/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

39

MAYO

2015 | NÚ

M.07 · LEA

NERS M

AG

AZIN

E

obligados a crear sus propias hojas de cálculo para obtener esta información. Hasta no hace mucho, muy pocas herramientas ofrecían capa-cidades de marketing de atribución, que permite asignar pesos a cada canal comercial para así entender mejor la utilidad y éxito de cada uno de ellos a la hora de captar potenciales clientes. La medición de KPI no estándar, como, en el caso de mi startup 24symbols, el número de páginas de libros leídas por lector activo y mes, se antojaba en muchos casos demasiado compleja como para realizarla en una herramienta al uso. De esta forma, la decisión final fue procesar esta información directamente desde nuestros sistemas de data warehousing. Por otra parte, hay muchísima más información disponible que la existente en tu propia página web, y las infraestructuras y herra-mientas disponibles para poder sacar jugo a esta información son cada vez más sencillas y baratas. Estamos hablando de productos de computación en la nube como Amazon Web Services o Gigas; gestión de esa nube (New Relic); herramientas de web scraping (Scrapy), etc. Muchísimos servicios web ofrecen desde hace años las denominadas API (interfaces de acceso programático), que los desarrolladores pueden utilizar para integrar sus propios datos con información meteorológica, de geolocalización, fotográfica o de lo que sea. Existe a su vez, desde hace mucho tiempo, un directorio de API que simplifica la búsqueda e ingestión de estas capacidades. Pero lo más importante es que, poco a poco, casi sin darnos cuenta, nues-tros competidores están haciendo uso cada vez más rápidamente y de manera masiva de estas posibilidades. Con precios más bajos y más ancho de banda y memoria, es posible para una pequeña compañía tecnológica de cuatro o cinco personas realizar procesa-mientos de datos que hasta hace unos pocos años solo eran imagi-nables en departamentos de grandes corporaciones, con millones de euros de presupuesto. En resumen, ya no hay excusa para no aprovechar la explosión de datos disponibles y procesarlos para nuestro beneficio. Pero, además, ya no hay otra posibilidad. Todos tus competidores están haciéndolo ya. Los que no lo hagan dejarán de competir en breve.

EL TRABAJO MÁS SEXY DEL SIGLO XXIDurante muchos años (creo que desde que existe la humanidad…), si decías en una fiesta que eras estadístico o matemático, tus posi-bilidades de ligar o de convertirte en el centro de la fiesta eran nu-las, o negativas. Sin embargo, desde hace apenas unos pocos años, el científico de datos (data scientist en inglés) se ha convertido en el trabajo más sexy del siglo XXI. Pero ¿qué es un científico de datos? Si nos atenemos a lo que lee-mos en la prensa y en algunos artículos, no podemos menos que

asemejarlo a un semidiós. Existen decenas de elementos a cono-cer e incluso dominar: desde temas de estadística y matemáticas a aprendizaje automático, big data, o minería de textos. De una manera un poco más elaborada, esto significa que un científico de datos ha de tener capacidades en las siguientes áreas:• Comprensión del problema de negocio. Ha de conocer el idioma de negocio, las razones por las que el proyecto en cuestion es ne-cesario.

• Trabajo en equipo y metodología. Un científico de datos, por sí solo, poco puede hacer, y es necesario trabajar en un equipo que aglutine diferentes perfiles técnicos y de negocio, siguiendo ade-cuadamente metodologías ágiles de trabajo (como lean analytics en el caso concreto de lean startups).• Programación. La adquisición y procesamiento de datos exige un nivel mínimo de programación en diferentes lenguajes, como R o Ruby on Rails. No es normal que a un científico de datos se le obligue a crear aplicaciones profesionales para el usuario final, pero ha de ser capaz de crear un back end de buen nivel, y un fron-tal suficientemente atractivo como para demostrar la utilidad del trabajo realizado.• Estadística y matemáticas. Del científico de datos se dice que sabe programar mejor que un matemático, y sabe más estadística que un ingeniero. Pues eso. • Técnicas de aprendizaje automático y minería de datos. Porque un científico de datos no solo realiza consultas complejas a bases de datos para entender bien el pasado, sino que tiene que elaborar experimentos y actuaciones que nos dejen apostar por posibilida-des futuras. • Visualización de datos. Lo peor que puede hacer un científico de datos es entregar como resultado de su trabajo un lápiz USB con un archivo CSV con 10 millones de resultados, y una conclusión en un párrafo de un fichero de texto. Vivimos en una época de sobrecarga informativa y por tanto hemos de minimizar el esfuerzo requerido para, al menos, entender el alcance de lo que se ha realizado. Me-nos mal que existen expertos como Hans Rosling (www.gapmin-der.org) o David McCandless (www.informationisbeautiful.net).• Presentación de las conclusiones. Aunque esto es válido para cualquier profesión, cuando tu trabajo es escarbar en millones de piezas de información para sacar algo relevante, el cómo se pre-sentan los resultados es la diferencia entre una más de las miles de presentaciones académicas, aburridas y sin acciones posterio-res o conseguir que la audiencia abra los ojos y reaccione.En la segunda parte de este artículo comentaremos si es posible que un profesional domine todas estas áreas (pista: NO), y qué implica desde el punto de vista organizativo de una empresa que quiere sacar jugo de estas oportunidades. ◆◆◆

PRODUCT MARKETING FOR PIRATES

AARRR!

DATA SCIENTIST

The sexiest job of the 21st century

SUSCRÍBETE AHORA

A LEANERS MAGAZINE

//// CÓDIGO PROMOCIONAL

PROMOLEANERS