clase 4 periodismo de base de datos

57
CLASE 4 “Periodismo de base de datos: búsqueda, extracción, procesamiento y visualización de grandes volúmenes de información” Lics. en Periodismo y Comunicación Social FCH-UNSL (Año 2014) MATERIAL ELABORADO EN BASE AL CURSO “HERRAMIENTAS DIGITALES PARA EL PERIODISMO DE DATOS” DEL NIGHT CENTER DE LA UNIVERSIDAD DE TEXAS, A CARGO DE LA PERIODISTA ARGENTINA SANDRA CRUCIANELLI ( http://open.journalismcourses.org/course/view.php?id=20 )

Upload: viviana-mercedes-ponce

Post on 26-Jul-2015

639 views

Category:

Education


1 download

TRANSCRIPT

CLASE 4“Periodismo de base de datos:

búsqueda, extracción, procesamiento y visualización

de grandes volúmenes de información”

Lics. en Periodismo y Comunicación SocialFCH-UNSL (Año 2014)

MATERIAL ELABORADO EN BASE AL CURSO “HERRAMIENTAS DIGITALES PARA EL PERIODISMO DE DATOS” DEL NIGHT CENTER DE LA UNIVERSIDAD DE TEXAS, A CARGO DE LA PERIODISTA ARGENTINA SANDRA CRUCIANELLI (

http://open.journalismcourses.org/course/view.php?id=20)

¿QUÉ ES EL PERIODISMO DE BASE DE DATOS (PBD)?

Es una disciplina o modalidad periodística que hace uso de los datos informativos existentes en la WWW para crear o complementar noticias (también conocidas como New Apps: New Applications o Aplicaciones de Noticias).

¿QUÉ ES EL PERIODISMO DE BASE DE DATOS (PBD)?

PDB= incluye el PI (periodismo de investigación para revelar una verdad social desconocida); el PP (periodismo de precisión) cuando aplica métodos de la investigación social, el PA (periodismo analítico) porque analiza una realidad compleja para lograr la comprensión del público y el PAC (periodismo asistido por computadora para el análisis estadístico de los datos).

PBD= PI + PP + PA + PAC

PRINCIPALES CARACTERÍSTICAS DEL PBD

•Utiliza algún tipo de visualización interactiva para poder encontrar noticias detrás de los datos.•Incorpora la figura del programador como parte del equipo de redacción y en conjunto con él se realiza la elaboración y producción de las noticias.

EJEMPLOS DE PBDArtículos basados en datosSon cortos y se originan en los datos de las bases de datos (http://www.lanacion.com.ar/1484852-los-millones-de-la-ape-como-se-repartio-en-2011-la-caja-que-era-de-moyano)

EJEMPLOS DE PBDArtículos basados en datos

EJEMPLOS DE PBD

Visualizaciones interactivas

EJEMPLOS DE PBD

Visualizaciones interactivas

EJEMPLOS DE PBDConjuntos de datos abiertosSon recopilados por los propios periodistas debido a la ausencia de acceso abierto por parte de las organizaciones (http://data.lanacion.com.ar/dashboards/5068/inflacion-y-precios)

EJEMPLOS DE PBDAplicaciones de noticiasSon el fruto de la labor de periodistas más programadores (http://gastopublicobahiense.org). Se acompaña de aplicaciones que permite agrupar y analizar variables.

EJEMPLOS DE PBDAplicaciones de noticias

EJEMPLOS DE PBDAplicaciones de noticias

EJEMPLOS DE PBDBlogs de datosPublican la información en blogs (http://soloopendata.blogspot.com.ar/)

EJEMPLOS DE PBDCanales de datosSe encuentran dentro de una sección de un medio digital (http://www.lanacion.com.ar/data)

OPERACIONES QUE IMPLICA EL PBD

•Búsqueda•Extracción•Procesamiento•Visualización

OPERACIONES DEL PBD•BÚSQUEDA DE DATOS:

Puede ser realizada… -mediante buscadores de la Web Invisible (Google Búsqueda Avanzada, Google Scholar, Scielo, Wayback Machine, Socialmention, Twitterfall, etc.)

OPERACIONES DEL PBD•BÚSQUEDA DE DATOS:

Puede ser realizada… -mediante buscadores internos de sitios web que almacenan bases de datos (por ej. del sitio del Boletín Oficial del Gobierno de la Provincia de San Luis, del Ministerio de Educación de San Luis, etc.)

OPERACIONES DEL PBD•EXTRACCIÓN o SCRAPING DE

DATOS:Cuando los datos no son abiertos, es decir, no permiten la descarga y/o copias de la información (por ej. se encuentran en un formato .pdf y no .xls o .csv) se puede hacer uso de herramientas que nos permitan acceder a los datos abiertos, antes de tener que producirla de forma manual. Las herramientas que se utilizan son:-OCR -ZAMZAR-NITRO PDF, -TABULA, etc.

OPERACIONES DEL PBD•EXTRACCIÓN MEDIANTE OCR

OPERACIONES DEL PBD•EXTRACCIÓN MEDIANTE OCR

Su propósito es extraer texto de una imagen, pero puede usarse para extraer el texto de la primera página de un documento.En la actualidad se está perfeccionando para convertir hasta las primeras 10 páginas de un documento.

OPERACIONES DEL PBD•EXTRACCIÓN MEDIANTE ZAMZAR

Permite extraer el contenido textual y gráfico de un documento y el envío de la conversión se realiza por email. Actualmente es uno de los sitios en línea gratuito cuyo proceso de conversión funciona.

OPERACIONES DEL PBD•EXTRACCIÓN MEDIANTE NITRO

PDF

Permite extraer el contenido textual y gráfico de un documento y el envío de la conversión se realiza por email. La conversión no es siempre gratuita, debiendo los usuarios acceder a su versión de prueba y finalmente su compra si desean seguirlo utilizando. Es muy completo y funciona muy bien.

OPERACIONES DEL PBD•EXTRACCIÓN MEDIANTE TABULA

La conversión se realiza mediante un programa que debe ser instalado en la computadora. Textos y gráficos pueden ser extraídos de forma exitosa, aunque el proceso debe ser realizado por partes. Al instalarse en la computadora nos independiza de una conexión a Internet y nos garantiza su durabilidad en el tiempo.

OPERACIONES DEL PBD•PROCESAMIENTO

Implica la creación y/o procesamiento de los datos. La creación puede efectuarse en diversas herramientas:-Google Drive (gratuita y de rápido acceso)-Socrata, Document Cloud y Junar (son de código abierto o pagas, especializadas, profesionales, y exigen condiciones antes de permitirnos usar el servicio).

OPERACIONES DEL PBD•PROCESAMIENTO CON GOOGLE

DRIVE

Permite a cualquier usuario y mediante una hoja de cálculo la administración de gran cantidad de datos que pueden ser procesados mediante diversos tipos de fórmulas. Además, es de rápido acceso y permite la integración con aplicaciones en línea que permiten su visualización de forma gráfica.

OPERACIONES DEL PBD•PROCESAMIENTO CON DOCUMENT

CLOUD

Es de código abierto y puede ser utilizada por periodistas u otro usuario que realice periodismo de base de datos. Exige muestra de informes y permiso para añadirlo como contribuyente. Tarda al menos dos semanas para la otorgación de una cuenta.

OPERACIONES DEL PBD•PROCESAMIENTO CON SOCRATA Y

JUNAR

Son utilizadas por importantes medios de comunicación del mundo que abogan por el acceso abierto a los datos. Permiten la descarga de una versión de demostración antes de decidirse pagar por el servicio. Son muy completas, potentes y poseen ayuda y soporte en línea.

OPERACIONES DEL PBD•PROCESAMIENTO

Cualquiera sea la plataforma, el procesamiento implica la realización de una o más operaciones matemáticas que se efectúan con fórmulas.(https://docs.google.com/spreadsheet/ccc?key=0AgX1zNUFm5hcdEVPNjY0cUpWVGVQYl9jQ2pNQlUwc0E&usp=drive_web#gid=7)

OPERACIONES DEL PBD•PROCESAMIENTO

Con los datos de una planilla pueden efectuarse diversos cálculos. Los más comunes son: A B C

1 2010 20112 Ecuador 372,163 409,1253 El Salvador 2,918 3,5744 Guatemala 1,738 1,9595 Honduras 10,252 14,6516 Nicaragua 4,415 6,2467 Panamá 1,172 1,2918 Paraguay 30,212 38,1549 Perú 136,919 141,44

10 República Dominicana 84,721 90,278

MÁXIMO VALOR 372,163 409,125MÍNIMO VALORPROMEDIO

MAXPermite obtener el mayor valor de un conjunto de datos. En su sintaxis pide que se coloque el primer y último valor del rango de datos separado por el símbolo “:”

=MAX (B2:B10)

=MAX (C2:C10)

OPERACIONES DEL PBD•PROCESAMIENTO

Con los datos de una planilla pueden efectuarse diversos cálculos. Los más comunes son: A B C

1 2010 20112 Ecuador 372,163 409,1253 El Salvador 2,918 3,5744 Guatemala 1,738 1,9595 Honduras 10,252 14,6516 Nicaragua 4,415 6,2467 Panamá 1,172 1,2918 Paraguay 30,212 38,1549 Perú 136,919 141,44

10 República Dominicana 84,721 90,278

MÁXIMO VALOR 372,163 409,125MÍNIMO VALOR 1,172 1,291PROMEDIO

MINPermite obtener el mínimo valor de un conjunto de datos. En su sintaxis pide que se coloque el primer y último valor del rango de datos separado por el símbolo “:”

=MIN (B2:B10)

=MIN (C2:C10)

OPERACIONES DEL PBD•PROCESAMIENTO

Con los datos de una planilla pueden efectuarse diversos cálculos. Los más comunes son: A B C

1 2010 20112 Ecuador 372,163 409,1253 El Salvador 2,918 3,5744 Guatemala 1,738 1,9595 Honduras 10,252 14,6516 Nicaragua 4,415 6,2467 Panamá 1,172 1,2918 Paraguay 30,212 38,1549 Perú 136,919 141,44

10 República Dominicana 84,721 90,278

MÁXIMO VALOR 372,163 409,125MÍNIMO VALOR 1,172 1,291PROMEDIO 71,6122222 78,5242222

PROMEDIOPermite obtener el valor promedio de un conjunto de datos. En su sintaxis pide que se coloque el primer y último valor del rango de datos separado por el símbolo “:”

=AVERAGE (B2:B10)

=AVERAGE (C2:C10)

OPERACIONES DEL PBD

•PROCESAMIENTOExisten además otras fórmulas que nos permiten realizar diversas operaciones con los datos, entre ellas:-Mode (Moda): devuelve el valor que más se repite dentro de un conjunto de datos.-Median: devuelve el valor que deja el mismo número de datos antes y después que él.-Varianza: devuelve la dispersión entre datos.-Pricedisc: para analizar precios con descuentos, etc.

OPERACIONES DEL PBD

•PROCESAMIENTOPara el procesamiento de datos numéricos existen además numerosas herramientas en línea, entre ellas:-Calculadoras virtuales (comunes, científicas, de porcentaje, etc.)-Conversores de unidades (de área, volumen, longitud, etc.)

OPERACIONES DEL PBD•PROCESAMIENTO CON

CALCULADORAS VIRTUALES

OPERACIONES DEL PBD•PROCESAMIENTO CON

CALCULADORAS VIRTUALES

OPERACIONES DEL PBD•PROCESAMIENTO CON

CALCULADORAS VIRTUALES

OPERACIONES DEL PBD•PROCESAMIENTO CON

CONVERSORES VIRTUALES

OPERACIONES DEL PBD•PROCESAMIENTO CON

CONVERSORES VIRTUALES

OPERACIONES DEL PBD•PROCESAMIENTO CON

CONVERSORES VIRTUALES

OPERACIONES DEL PBD

•VISUALIZACIÓNImplica representar los datos en una forma gráfica que facilite su interpretación por parte de los lectores.Aquí se utilizan herramientas como Tableau Public, Datawrapper y Google Fusion Tables.

OPERACIONES DEL PBD•VISUALIZACIÓN CON TABLEU PUBLIC

Es complejo en su manejo porque requiere de un minucioso y controlado proceso a la hora de subir los conjuntos de datos y obtener su visualización. Su uso es gratuito.

OPERACIONES DEL PBD•VISUALIZACIÓN CON TABLEU PUBLIC

Otorga un código en Java Script que permite su inserción dentro de un sitio web. Es importante tener instalado en la PC la última versión de Java disponible para poder no solo operar correctamente con el programa, sino también visualizar los datos.

OPERACIONES DEL PBD•VISUALIZACIÓN CON DATAWRAPPER

Es más sencillo y posee menores restricciones. Requiere registro al igual que Tableau Public y brinda código de programación para su inserción en sitios web.

OPERACIONES DEL PBD•VISUALIZACIÓN CON DATAWRAPPER

Al igual que en Tableau Public las planillas pueden ser generadas en el mismo sitio o bien importadas en formato .xls o .csv (estándares para los grandes volúmenes de datos).

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

Se encuentra aún en fase de experimentación, no posee un proceso de trabajo sencillo, pero permite la interacción con otras aplicaciones de Google, en particular las planillas de cálculo creadas en la hoja de cálculo (Spreadsheets) de Drive.

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

Al crear una nueva fusión de tablas, el programa nos solicita la hoja de datos que podrá estar almacenada en la computadora, en línea, o bien, deberá ser creada desde cero. En este caso particular los datos ya se encuentran en línea (opción Spreadsheets).

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

Cuando los datos están en línea deben ser seleccionados y posteriormente autorizados para poder dar inicio al proceso de fusión de los datos.

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

Si los datos importados son correctos y se visualizan correctamente entonces se puede proceder al siguiente paso.

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

El título del gráfico, autor, enlaces relacionados (si posee) y descripción son importantes previo a la generación de la visualización.

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

Finalmente, la visualización admite diversas posibilidades: mapa, gráficos, resumen, etc. Las más utilizadas son las dos primeras.

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

Cualquier modo de visualización admite su configuración y posterior visualización en la web.

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

Cualquier modo de visualización admite su configuración y posterior visualización en la web.

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION TABLES

(todos los países en todos los años)

En la visualización Gráfica el gráfico de columnas o barras es uno de los mas utilizados para representar diversos países en diversos años.

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

Los gráficos circulares o también conocidos como diagramas de torta son útiles para representar muchos países en un único año o un solo país en muchos años… La cuestión es elegir el tipo de gráfico que mejor se adecue según el caso!!!

(todos los países en un año en particular)

OPERACIONES DEL PBD•OTRAS FORMAS DE VISUALIZACIÓN

(CARDS)

Es útil para pocos datos porque permite concentrar en una sola vista toda la información de la que se dispone.

FIN DE PRESENTACIÓN…Elaborado por Prof. Viviana M.

[email protected]

MATERIAL ELABORADO EN BASE AL CURSO “HERRAMIENTAS DIGITALES PARA EL PERIODISMO DE DATOS” DEL NIGHT CENTER DE LA UNIVERSIDAD DE TEXAS, A CARGO DE LA PERIODISTA ARGENTINA SANDRA CRUCIANELLI (http://open.journalismcourses.org/course/view.php?id=20)