poggi analytics - intro - 1c
Post on 15-Apr-2017
30 Views
Preview:
TRANSCRIPT
Buenos Aires, marzo de 2016Eduardo Poggi
Analytics
Datos eran los de antes! Aclarando el panorama Oportunidades y desafíos ¿Y ahora?
Evolución de los SI - Usuarios internos
Intranet
Usuario interno: conocido, capacitado, acreditado, identificado, autenticado y autorizado
Usuario externo
Datos
SI
LAN/WANprotegida y administrada
Cliente (PC) bajo controlDiálogo
personal, intercambio de papeles
Org.Usuario
Evolución de los SI - Usuarios externos
Internet
Org.
Usuario externo: ¿capacitado, acreditado, identificado, autenticado y autorizado?
Intranet
Bajo nivel de control del cliente (PC).
Red insegura y no confiable, administrada por Nadie. (sin SLA)
Usuario
Evolución de los SI - Usuarios y servicios externos
Internet
Org.A
Intranet
Org.B
Intranet
Infraestructura, procesos, aplicaciones, datos y seguridad administrados por otro organismo para dar respuesta a un usuario propio.(Sin SLA)
Usuario
Representado
EMPRESA
Usuario externo que actúa en nombre de un tercero.
Evolución de los SI – Externalización
Internet
Org.A
Intranet
Org.B
Intranet
Infraestructura, procesos, aplicaciones, datos y seguridad administrados por fuera del organismo.
Usuario
DC
Intranet
Org.C
Intranet
Datos y servicios provistos por terceros.
Datos
Datos
Datos
Orden 0: sólo constantes (24/06, Eduardo Poggi, M, Docente)
Orden 1: variables cuantificadas x y ∃z : x,y,z ∈ N / igual(suma(X,Y),Z)
Orden 2: predicados cuantificados S x : (x ∈ S) v (x ∉ S) (principio de bivalencia).
abuelo(X,Z) <- padre(X,Y), padre(Y,Z) abuelo(X,Z) <- padre(X,Y), madre(Y,Z) padre(homero, bart) <- padre(abraham, homero) <-
Datos
Datos
11
Erik Kessels24 hours in photos
Datos
Datos
https://www.openhub.net
Datos
Datos
Datos
politicacomunicada.com/costa-rica-da-a-conocer-el-anteproyecto-de-ley-de-gobierno-abierto/ blogthinkbig.com/open-data-aportar-valor/
Datos Compleción: se libera el acceso a todos los datos públicos, es decir, aquellos que no
estén sujetos a restricciones de privacidad, seguridad o privilegio regidos por alguna norma.
Fuente primaria: los datos se publican tal como son recolectados en la fuente, con el mayor nivel de precisión y detalle, no en formas agregadas o modificadas.
Oportunidad: los datos se publican tan pronto como sea posible para preservar su valor.
Accesibilidad: los datos están accesibles para las más amplias gamas de usuarios y de propósitos.
Procesabilidad: los datos están en formatos apropiados y razonablemente estructurados para permitir su tratamiento automatizado.
No discriminación: los datos están disponibles para todos, sin necesidad de registrarse para obtenerlos.
No restricción: los datos están accesibles en un formato sobre el que ninguna entidad tiene control exclusivo.
Libertad: los datos no están sujetos a derechos de autor, patentes, marcas ni a regulaciones de secreto industrial o comercial. Tampoco están sujetos a restricciones de privacidad, seguridad o privilegio reguladas por otras normas.
Documentación: los datos están documentados de forma que puedan ser correctamente interpretados. Idealmente la semántica asociada a los datos debería cumplir también con los restantes principios, por lo que debería ser publicada de forma estandarizada y procesable, sin perjuicio de la documentación tradicional que lo complemente.
Permanencia: los datos se mantienen accesibles de forma permanente. Interoperabilidad: los distintos conjuntos de datos son relacionables entre sí sin
mayor esfuerzo, gracias a la estandarización sintáctica y semántica. Garantía de procedencia: los conjuntos de datos están publicados con
mecanismos que provean confianza sobre: las fechas de creación y publicación, la identidad, autenticidad y no repudio de la fuente y su integridad.
Datos
Datos
Datos - ¿Quién consume?
Datos - ¿Quién consume?
digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5351_Lenton.pdf
Datos - ¿Quién consume?
https://thevizcorner.wordpress.com/2015/11/16/desigualdad-y-crecimiento-economico-en-argentina/
Datos - ¿Quién consume?
MySociety desarrolló hace años este proyecto que ilustra perfectamente la utilidad de cruzar datos urbanos con la localización física. La herramienta Mapumental permite visualizar el tiempo de transporte para llegar a un punto de determinado desde cualquier lugar de la ciudad, ayudando con ello a entender la distancia temporal de movilidad, mucho más útil y práctica que la distancia física.
www.ateneonaider.com
Datos - ¿Quién consume?
La población de nueva York durante el día y durante la noche, reflejando la densidad de las diferentes zonas.
www.ateneonaider.com
¿Oportunidades?
www.lanacion.com
Más allá de su impacto potencial en la vida urbana, los datos podrían tener un enorme valor económico:
• Los valores de propiedad podrían subir en cuadras con bajos niveles de polución.
• Las ciudades podrían recaudar más ingresos por violaciones a ordenanzas de ruido y emisiones.
• Los minoristas podrían usar datos del tránsito de peatones para elegir ubicaciones más rentables para sus tiendas.
¿Oportunidades?
www.buenosaires.gob.ar
¿Oportunidades?
¿Oportunidades?
1 millón km2
¿Desafíos?
Todo lo que se puede sacar de un celular www.zeit.de/datenschutz/malte-spitz-data-retention
https://vimeo.com/43765286
• SUBE• Tarjetas de pago• Banca electrónica• Tarjetas de fidelidad• Servicios públicos y cuasi-públicos• …
¿Desafíos?
https://www.technologyreview.com/s/601051/machine-learning-algorithm-identifies-tweets-sent-under-the-influence-of-alcohol/
¿Desafíos?
¿Desafíos?
www.youtube.com/embed/F7pYHN9iC9I?rel=0
¿Desafíos?
Big Data: applicationes, ethcis, algorithm, Vladislav Shershulsky.
¿Desafíos?
Big Data: applicationes, ethcis, algorithm, Vladislav Shershulsky.
¿Desafíos?
Big Data: applicationes, ethcis, algorithm, Vladislav Shershulsky.
¿Desafíos?
Big Data: applicationes, ethcis, algorithm, Vladislav Shershulsky.
¿Y ahora? Artículo 3°.- Los organismos que integran el Sistema Estadístico Nacional
deben servir con objetividad los fines de su creación con sometimiento pleno al derecho y deben actuar de acuerdo con los siguientes principios generales: secreto estadístico, pertinencia, transparencia, rigurosidad, autonomía, técnica, comparabilidad, eficiencia, centralización normativa, descentralización operativa, legalidad objetiva y motivación de la decisión. El secreto estadístico obliga a tratar los datos individuales proporcionados por la
fuente de información con la más absoluta confidencialidad, de forma tal de no revelar la identificación de dichas fuentes.
La pertinencia es el vínculo que debe existir entre los datos solicitados a la fuente de información y los objetivos de la actividad estadística para la cual dichos datos, son recabados.
La transparencia es el derecho de las fuentes de información de conocer los objetivos de la actividad estadística para la cual se solicitan los datos, y si los mismos estarán amparados por el secreto estadístico.
La rigurosidad consiste en la aplicación sistemática de los principios, métodos y procedimientos generalmente aceptados por la técnica y la ciencia estadística.
La autonomía técnica consiste en el desarrollo de las actividades estadísticas con independencia y objetividad, basándose exclusivamente en los principios estadísticos.
La comparabilidad a nivel internacional, es el adaptar en lo pertinente las definiciones, clasificaciones y procedimientos recomendados por los organismos internacionales especializados en estadística y las prácticas más extendidas en la materia.
La eficiencia es la relación entre el valor de los resultados de la actividad estadística y el costo generado para obtenerlos, teniendo en cuenta el uso adecuado de los recursos disponibles.
La centralización normativa consiste en la adopción, por parte de todas las oficinas de estadística, de las normas sobre conceptos, definiciones, clasificadores y metodologías propuestas por el organismo rector.
La descentralización operativa consiste en asignar la producción estadística a las respectivas oficinas de estadística, según su competencia por áreas temáticas.
La legalidad objetiva implica ajustar la actividad estadística al orden normativo vigente. La motivación de la decisión consiste en la obligación de fundamentar las decisiones que se adopten en el área estadística.
¿Y ahora?
Las tareas relacionadas al Consumo de Datos tienen ciertas consideraciones no triviales:
Difícilmente las pueda realizar una sola persona, dada la variedad de capacidades que requiere seguramente debe ser desarrollada por un equipo.
Requiere de competencias propias de: Ciencias de la computación, Data Mining, Estadística, Diseño Gráfico y Visualización, Periodismo, Ciencias Políticas, Sociología, … y conocimiento del negocio.
Difícilmente se puede obviar alguna, el natural desarrollo requiere del aporte de cada una de las etapas para lograr un resultado interesante.
La secuencia no es lineal, las etapas no se encadenan secuencialmente uniendo el fin de una con el inicio de la otra. Se superponen, se cruzan y se reordenan hasta encontrar –o no- el camino correcto.
No son triviales ya que cada una requiere de rigurosidad, como lo exigen los trabajos periodísticos o académicos serios con sus correspondientes prácticas profesionales.
El “rol del periodista” o “líder de negocio” es el que le da ilación y sentido al resto para que todo el proceso finalice en un producto interesante para el público objetivo.
¿Y ahora? Desde Ciencias de la Computación (IA, DM, …):
Elaborar o fortalecer los algoritmos de búsqueda, linking, TM, …
Fortalecer los modelos sobre Big Data Establecer estándares –viables- para “Linked Data” Estandarizar formatos Facilitar las búsquedas Mejorar la metadata, estandarizar vocabularios,
ontologías, … Fortalecer los métodos de etiquetado automático Fortalecer los métodos de linking automático Elaborar IDEs Participar en DDJ para incorporar algoritmos más
elaborados Fortalecer los métodos de packing, garbage collector y
forgetting Mejorar los métodos de preparación de datos
¿Y ahora?
Desde la informática Incorporar la publicación como una etapa más en los
procesos institucionales y adoptar los estándares correspondientes.
Disponibilizar los reservorios corporativos y externos como una única fuente de datos.
Desde la industria de TI Proveer plataformas robustas y facilidades para la
persistencia masiva de datos. Desde la matemática y la estadística
Aportar …
¿Y ahora?
Desde la Academia en general: Pensar antes de actuar Ordenar Conceptualizar Advertir Cooperar …
¿Y ahora?
Desde la Academia en general: Investigación: aportar a la conceptualización y el
entendimiento de la temática Extensión: difundir y brindar asistencia técnica Formación: impulsar la apropiación en los estudiantes
Monitorear lo que hace el mundo Motivar la apropiación y el consumo de OD en la
sociedad Exigir a las autoridades que cumplan con los principios Oponernos al retroceso necio o al avance insensato Advertir sobre los perjuicios potenciales
• Identidad• Privacidad• Propiedad• Reputación
• Seguridad vs Privacidad
¿Y ahora?
¿Y ahora?
Fuente propia
¿Y ahora?
digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5351_Lenton.pdf
Las técnicas para procesar los datos que usa DDJ son muy básicas, se pueden utilizar
algoritmos mucho más “productivos” propios del DM.
¿Y ahora?
¿Y ahora?
¿Y ahora?
¿Y ahora?
¿Y ahora?
Gartner
¿Y ahora?
www.pagina12.com.ar/diario/elpais/subnotas/286669-75373-2015-11-22.html www.tumblr.com/register/follow/7puentes/2
Ejercicio
... En aquel imperio, el arte de la cartografía logró tal perfección que el mapa de una sola provincia ocupaba toda una ciudad, y el mapa del Imperio, toda una provincia. Con el tiempo, esos mapas desmesurados no satisficieron y los colegios de cartógrafos levantaron un Mapa del Imperio, que tenía el tamaño del Imperio y coincidía puntualmente con él. Menos adictas al estudio de la cartografía, las generaciones siguientes entendieron que …
Qué entendieron las generaciones siguientes?
Quién escribió el texto?
12 common problems in Data Mining
1. Poor data quality such as noisy data, dirty data, missing values, inexact or incorrect values, inadequate data size and poor representation in data sampling.
2. Integrating conflicting or redundant data from different sources and forms: multimedia files (audio, video and images), geo data, text, social, numeric, etc…
3. Proliferation of security and privacy concerns by individuals, organisations and governments.
4. Unavailability of data or difficult access to data.5. Efficiency and scalability of data mining algorithms to effectively extract the
information from huge amount of data in databases.6. Dealing with huge datasets that require distributed approaches.7. Dealing with non-static, unbalanced and cost-sensitive data.8. Mining information from heterogeneous databases and global information
systems.9. Constant updation of models to handle data velocity or new incoming data.10. High cost of buying and maintaining powerful softwares, servers and storage
hardwares that handle large amounts of data.11. Processing of large, complex and unstructured data into a structured format.12. Sheer quantity of output from many data mining methods.
Del rigor en la ciencia
... En aquel imperio, el arte de la cartografía logró tal perfección que el mapa de una sola provincia ocupaba toda una ciudad, y el mapa del Imperio, toda una provincia. Con el tiempo, esos mapas desmesurados no satisficieron y los colegios de cartógrafos levantaron un Mapa del Imperio, que tenía el tamaño del Imperio y coincidía puntualmente con él. Menos adictas al estudio de la cartografía, las generaciones siguientes entendieron que ese dilatado mapa era inútil y no sin impiedad lo entregaron a las inclemencias del sol y de los inviernos. En los desiertos del Oeste perduran despedazadas ruinas del Mapa, habitadas por animales y por mendigos; en todo el País no hay otra reliquia de las disciplinas geográficas.
Jorge Luis Borges, El Hacedor. BA, 31 de octubre de 1960
eduardopoggi@yahoo.com.ar
eduardo-poggi
http://ar.linkedin.com/in/eduardoapoggi
https://www.facebook.com/eduardo.poggi
@eduardoapoggi
Para pensar
Bilinkis, Santiago (2014): Pasaje al futuro. Lanier, Jaron (2013): ¿Quién controla el futuro? Silver, Nate (2011): The signal and the noise. Why so many predictions fail but some
don’t..
top related