pkp datos abiertos gómez - bueno-de-la-fuente

29
Cerrando el círculo: requisitos de los datos abiertos como recursos para la investigación abierta Nancy Diana Gómez Gema Bueno de La Fuente Universidad Carlos III de Madrid PKP Scholarly Publishing Conference 2013 Universidad Nacional Autónoma de México 20 Agosto 2013

Upload: nancydianagomez

Post on 02-Aug-2015

104 views

Category:

Education


7 download

TRANSCRIPT

Page 1: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Cerrando el círculo: requisitos de los datos abiertos como recursos para la

investigación abierta

Nancy Diana GómezGema Bueno de La Fuente

Universidad Carlos III de Madrid

PKP Scholarly Publishing Conference 2013Universidad Nacional Autónoma de México20 Agosto 2013

Page 2: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Contenido

Preguntas de investigación

Objetivos

Contexto

Propuesta de metodología

Datos de los repositorios de Ciencias Sociales

Observaciones preliminares.

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 3: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Preguntas de investigación

Métricas de datos abiertos: ¿Cuáles son las condiciones técnico/legales que se

deben cumplir para saber si un dato es abierto? ¿Es posible establecer métricas para medir el nivel de

apertura de los datos?

Set de datos en repositorios de Ciencias Sociales: ¿Qué datos se están publicando en los repositorios de

Ciencias Sociales como open data? ¿Qué nivel de apertura legal y técnico tienen los datos

de los repositorios de Ciencias Sociales?

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 4: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Objetivos

Diseño de la metodología para evaluar el grado de apertura de datos en repositorios de Ciencias Sociales de acuerdo a sus condiciones legales y técnicas.

Comprobación de la validez de la metodología con un conjunto seleccionado de datos abiertos del área de Ciencias Sociales.

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 5: PKP datos abiertos Gómez - Bueno-De-La-Fuente

CONTEXTO

Page 6: PKP datos abiertos Gómez - Bueno-De-La-Fuente

¿Porqué Ciencia Abierta? (Stodden, 2011)

Facilita Reproductibilidad

Innovación académica e industria

Acceso al conocimiento

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 7: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Razones para compartir datos (Borgman, 2012)

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 8: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Ciclo del dato (ICPSR, 2012)

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 9: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Fondos de investigación (NSF, NIH, etc.)

Editoriales de revistas (PLOSone)

Promociones institucionales (premios, promociones, etc.)

Integridad científica

Incentivos que influencian la publicación y difusión de los datos (Stodden, 2011)

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 10: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Motivos que disuaden a los científicos en la publicación de datos abiertos (Stodden, 2010)

Tiempo en documentar y limpiar datos para publicar (54%)

Lidiar con preguntas de los usuarios de los datos (34%)

No recibir atribución o citación como autores de los datos (42%)

Barreras legales –copyright (41%)

Perdida potencial de futuras publicaciones (35%)

Ventaja que pueden obtener los competidores en el campo (33%)

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 11: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Las revistas y los datos (Stodden, 2013)

Estudio realizado sobre 170 revistas de computación ISI. 62% no menciona política de datos 79% no menciona política sobre el código/programa 66% tiene política para material suplementario Las revistas que incrementan demandas a sus

autores, como datos son aquellas que tienen alto factor de impacto.

La proporción de revistas de AA con política de datos abiertos es levemente superior a las de suscripción

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 12: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Formas de simplificar la reutilización de los datos (White et al., 2013)

Proveer metadatos

Usar formatos de datos estándar

Proveer el dato de forma no procesada o cruda

Uso de un repositorio establecido

Uso de una licencia abierta y establecida (usar la licencia más abierta posible) como CC0

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 13: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Recomendaciones (White et al. 2013)

Datos bien documentados son más fáciles de comprender para reutilizar

Datos con formatos apropiados son más fáciles de usar en una variedad de software.

Datos que han sido depositado en repositorios establecidos, más durables y citables.

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 14: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Datos abiertos y procesamiento

Estándares y buenas prácticas de citación para los datos (Datacite.org).

Uso de identificadores únicos de conjuntos de datos (DOI) y productores (ORCID).

Metadatos de calidad para la descripción de datasets en catálogos de datos (DCAT).

Integración de catálogos Open Data con otras herramientas (metabúsqueda).

Dataverse Network – 2006 - IQCSS (Guía para gestión de los datos-2012 5th edición) Permite a los autores subir código y datos con sus propios términos de uso.

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 15: PKP datos abiertos Gómez - Bueno-De-La-Fuente

PROPUESTA METODOLÓGICA

Page 16: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Combinación de métodos

1. Medición del nivel de apertura de datos a nivel legal y técnico: Diseño de matriz de priorización Convalidación de los pesos de la matriz:

crowdsourcing.

2. Recogida y tratamiento de datos abiertos.

3. Caracterización de los datos de repositorios en CCSS.

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 17: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Matriz de evaluación (BETA)

Matriz de priorización

Variables consideradas:

1. Instrumento legal (copyright, licencias, aviso legal).

Korn y Oppenheim (2011).

2. Formatos de ficheros de datos: Norma ISO 2145/2010. Clasificación de cinco estrellas LOD de T. Berners

Lee.

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 18: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Asignación de pesos a las variables

¿80%? ¿20%?

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 19: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Variable 1: Instrumento legal(Korn & Oppenheim, 2011)

Quién y bajo que términos se puede utilizar el datoCualquiera 10

Restricción para usos comerciales 5

Posibilidad de modificación del dato

Sin restricciones de ningún tipo 10

Sin restricciones pero con atribución 7

Compartir igual 3

No se modifican 04th Int. PKP Conference, México N. D. Gómez, G.

Bueno (2013)

Page 20: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Variable 2: Formatos

Escala LOD 5 estrellas (Berners Lee, 2010)

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 21: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Formula

(U x 0,3 + M x 0,5) + (pF x 0,2) = 0-1

Términos de uso: U

Posibilidad de modificación del dato: M

Valor promedio de formato: pF

Valor licencia Valor formatoGrado

apertura

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 22: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Selección de la muestra Conjuntos de datos en

CCSS.

Criterios de selección: Data Citation Index:http

://wokinfo.com//products_tools/multidisciplinary/dci/

Categoría CCSS.

>100 datasets

Volumen muestra: 13 repositorios

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Repositorio OrganismoArchaeological Data Service University of York

National ArchivesU.S. National Archives and Records Administration

IQSS Harvard UniversityThe Dataweb US Census BureauEurostat European Union

Australian Data ArchiveAustralian National University

UK Data Archive University of EssexFinnish Social Science Data Archive

University of Tampere

Inter University Consortium for Political and Social Research

University of Michigan

Odum InstituteOdum Insitute, University of North Carolina

Office for National Statistics UK Statistics Authority

Roper CenterRoper Center, University of Connecticut

South African Data ArchiveNational Research Foundation

Page 23: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Datos en Ciencias Sociales

Investigación en CCSS: diseño-recolección-análisis. Los datos son la materia prima.

Métodos de obtención de datos: observación, encuestas, documentación, experimentación.

Tipos de métodos tipos de datos formatos Cuantitativos: paquetes estadísticos, hojas de cálculo y texto

tabulado Datos estructurados. Cualitativos: amplio rango de contenidos y formatos (texto, imagen,

video, audio y otra documentación).

Retos para su publicación como datos abiertos: Normalización, integración, redundancia… Aspectos éticos y legales.

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 24: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Características de la muestra

Repositorios de organismos de la administración pública principalmente.

Datos estadísticos, censales y otros estudios.

Dataverse Network.

Registros metadatos datasets: DDI XML

Opciones descarga datos: API, FTP y descarga en lotes, exportar en XLS y otros formatos.

Niveles de acceso a los datos: abierto, especial y restringido. Licencias de descarga, solicitudes formales.

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 25: PKP datos abiertos Gómez - Bueno-De-La-Fuente

OBSERVACIONES PRELIMINARES

Page 26: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Variable 1: Instrumento legal

Escasez de licencias explícitas asociadas a los datasets Términos/condiciones generales de acceso y uso.

Repositorios admin. pública: los más abiertos, dominio público (Eurostat, US. Census Bureau, US NARA, US NASA…)

Repositorios de investigación (auto-depósito): condiciones establecidas por autores/propietarios datasets, financiadores (Australian Data Archive, UK Data Archive, ICPSR, IQSS, )

Licencias en relación con el nivel de acceso a los datasets.

Limitaciones de uso y reutilización (no comercial, sólo investigación y académicos), restricciones (confidencialidad, intimidad), condiciones (citación).

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 27: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Variable 2: Formatos

Formatos más comunes de los datos cuantitativos en CCSS :★★ SPSS, SAS, Stata…

Sistemas propietarios, posibilidad de exportar en otros formatos.

★★ .xls (MS Excel)★★★ R (open source)★★★ .csv, .tsv, xml★★★★ .sdmx-ml

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Page 28: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Próximos pasos…

Reformulación de la matriz teniendo en cuenta otras variables, como nivel de accesibilidad, interoperabilidad, documentación adicional o material explicativo.

Convalidación de la nueva matriz a través de crowdsourcing con infomediarios

Obtención de un grupo de datos en Ciencias Sociales para aplicar la nueva matriz.

Dimensiones de los datos: Grado de apertura. Grado de interoperabilidad. Grado de reutilización.

Page 29: PKP datos abiertos Gómez - Bueno-De-La-Fuente

Bibliografía Berners-Lee, T. (2009). Putting government data online. Retrieved agosto/5, 2012,

from http://www.w3.org/DesignIssues/GovData.html

Borgman, C. L. (2012). The conundrum of sharing research data. Journal of the American Society for Information Science and Technology, 63(6), 1059; 1059-1078; 1078.

Inter-university Consortium for Political and Social Research (ICPSR). (2012). Guide to social science data preparation and archiving: Best practice throughout the data life cycle (5th ed.). Ann Arbor, M:

Korn, N., & Oppenheim, C. (2011). Licensing open data: A practical guide. Jisc, v. 2.0 Retrieved from http://discovery.ac.uk/files/pdf/Licensing_Open_Data_A_Practical_Guide.pdf

Stodden, V. C. (2011). Transparency in scientific discovery: Innovation and knowledge dissemination. Retrieved from http://hdl.handle.net/10022/AC:P:13496

Stodden, V., Guo, P., & Ma, Z. (2013). Toward reproducible computational research: An empirical analysis of data and code policy adoption by journals. PloS One, 8(6), e67111.

White, E. P., Baldridge, E., Brym, Z. T., Locey, K. J., McGlinn, D. J., & Supp, S. R. (2013). Nine simple ways to make it easier to (re) use your data. Peerj Preprints, 1, e7. Retrieved from https://peerj.com/preprints/7/

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)