big data, mineria y aprendizaje: conceptos y herramientas ...fenomeno de datos masivos,...

26
Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas Walter Sosa-Escudero Universisad de San Andr´ es y CONICET

Upload: others

Post on 18-Jun-2021

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Big Data, Mineria y Aprendizaje: Conceptos y Herramientas paraEconomistas

Walter Sosa-Escudero

Universisad de San Andres y CONICET

Page 2: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Big data: revolucion ocerveza artesanal?

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 3: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 4: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 5: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 6: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 7: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Tres casos

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 8: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Pobreza en Rwanda (predecir)

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 9: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Precios en Argentina (medir)

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 10: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Impuesto a las ventas en EEUU (efecto causal)

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 11: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Datos: no encuesta ni experimento.

De interactuar espontaneamente con ‘entidades’ interconectadas.

Masivos

Desestructurados

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 12: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Big data

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 13: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Small vs. Big data

Small data (estadistica clasica)

Extraer lo maximo de pocos datos

Solucion: estructura (muestreo, modelo)

Enfoque: muestreo complejo aproxima muestreo al azar (lento y caro, perobueno). Teoria, experimentos.

Big data

Muchos datos (Volumen)

Muchos datos no estructurados (Variedad)

Muchos datos no estructurados e immediatos (Velocidad)

‘Condicionalmente baratos’.

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 14: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Big Data

Fenomeno de datos masivos, observacionales, no estructurados, producto deinteractuar con objetos (fisicos o virtuales) interconectados

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 15: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Estadistica, econometria,machine/statistical learning,

inteligencia artificial

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 16: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Enfoque clasico

Y = f (X ) + u

Interes en f (.). Efecto causal

Modelo: Teoria, experimento.

Probabilidades (error estandar, tests)

Bueno?: insesagdo, varianza minima, inferencia valida.

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 17: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Machine learning

Y = f (X ) + u

Interes en Y : predecir, clasificar, medir.

Modelo: modelo?. Lo aprendemos.

Prediccion puntual (no inferencia).

Bueno?: Performance predictiva fuera de la muestra.

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 18: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Evaluacion de modelos

Etiqueta estadistica: ex-ante. Teoria, identificacion ‘limpia’(consistencia).Inferencia robusta.

Machine learning: ex-post, iterativa. Cross validation.

Machine learning construye el modelo mas que lo estima, en base a laperformance predictiva fuera de la muestra. Adios al R2 (y a MCO? Mmm...).

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 19: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Jerga, desafios yoportunidades

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 20: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Prediccion fuera de la muestra

Muestra de entrenamiento y de evaluacion

Aprendizaje

Aprendizaje supervisado y no supervisado

Regresion y clasificacion

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 21: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Desafios

Dependencias (realmente tenemos big data?. Trump effect)

Choice based sampling.

Contracticos (podemos tener todos los datos?).

Falacia de la correlacion.

Transparencia / privacidad.

Comunicabilidad. Caja negra (deep learning, forests, etc.)

Consenso social/politico.

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 22: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Oportunidades

New mas que big.

Complejidad, heterogeneidad. No linealidades. Maldicion de la dimensionalidad.

Rapido (crucial para la politica). Google Flu Trends. Price scrapping.

Oportunidad para diseno de experimentos.

Complementa a las estadisticas oficiales (no reemplaza).

Cobertura. Rural vs. urbano, etc..

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 23: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Caja de herramientas

Lecturas

Hastie, Tibshirani,Friedman (2009)

James, Witten, Hastie and Tibshirani (2014).

Murphy (2012, Machine Learning)

Varian (2014)

Edicion especial de JEP sobre Big Data (JEP, 2014)

Papers: Keely and Tan (2008, Journal of Public Econommics), Bajari et al. (2015,American Economic Review), Cavallo and Rigobon (2013, Journal of MonetaryEconomics).

Mayer-Schonberger y Cukier (Big Data, 2013).

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 24: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Charla de Tim Harford sobre ‘The Big Data Trap’.

Nota en Clarin (6/4/2014)

Computer intensive

Olvidense de Stata

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 25: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas

Page 26: Big Data, Mineria y Aprendizaje: Conceptos y Herramientas ...Fenomeno de datos masivos, observacionales, no estructurados, producto de interactuar con objetos ( sicos o virtuales)

JLB

‘... su antepasado no creia en un tiempo uniforme, absoluto. Creia en infinitas series de tiempos, enuna red creciente y vertiginosa de tiempos divergentes, convergentes y paralelos. ... No existimos en lamayorıa de esos tiempos; en algunos existe usted y no yo; en otros, yo, no usted; en otros, los dos. Eneste, que un favorable azar me depara, usted ha llegado a mi casa; en otro, usted, al atravezar el jardın,me ha encontrado muerto; en otro, yo digo estas mismas palabras, pero soy un error, un fantasma.’

El jardin de senderos que se bifurcan

‘Ireneo tenıa diecinueve anos; habıa nacido en 1868; me parecio monumental como el bronce, masantiguo que Egipto, anterior a las profecias y a las piramides. Pense que cada una de mis palabras (quecada uno de mis gestos) perduraria en su implacable memoria; me entorpecio el temor de multiplicarademanes inutiles.’

Funes, el memorioso

Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos y Herramientas para Economistas