pkp datos abiertos gómez - bueno-de-la-fuente

Post on 02-Aug-2015

109 Views

Category:

Education

7 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Cerrando el círculo: requisitos de los datos abiertos como recursos para la

investigación abierta

Nancy Diana GómezGema Bueno de La Fuente

Universidad Carlos III de Madrid

PKP Scholarly Publishing Conference 2013Universidad Nacional Autónoma de México20 Agosto 2013

Contenido

Preguntas de investigación

Objetivos

Contexto

Propuesta de metodología

Datos de los repositorios de Ciencias Sociales

Observaciones preliminares.

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Preguntas de investigación

Métricas de datos abiertos: ¿Cuáles son las condiciones técnico/legales que se

deben cumplir para saber si un dato es abierto? ¿Es posible establecer métricas para medir el nivel de

apertura de los datos?

Set de datos en repositorios de Ciencias Sociales: ¿Qué datos se están publicando en los repositorios de

Ciencias Sociales como open data? ¿Qué nivel de apertura legal y técnico tienen los datos

de los repositorios de Ciencias Sociales?

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Objetivos

Diseño de la metodología para evaluar el grado de apertura de datos en repositorios de Ciencias Sociales de acuerdo a sus condiciones legales y técnicas.

Comprobación de la validez de la metodología con un conjunto seleccionado de datos abiertos del área de Ciencias Sociales.

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

CONTEXTO

¿Porqué Ciencia Abierta? (Stodden, 2011)

Facilita Reproductibilidad

Innovación académica e industria

Acceso al conocimiento

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Razones para compartir datos (Borgman, 2012)

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Ciclo del dato (ICPSR, 2012)

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Fondos de investigación (NSF, NIH, etc.)

Editoriales de revistas (PLOSone)

Promociones institucionales (premios, promociones, etc.)

Integridad científica

Incentivos que influencian la publicación y difusión de los datos (Stodden, 2011)

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Motivos que disuaden a los científicos en la publicación de datos abiertos (Stodden, 2010)

Tiempo en documentar y limpiar datos para publicar (54%)

Lidiar con preguntas de los usuarios de los datos (34%)

No recibir atribución o citación como autores de los datos (42%)

Barreras legales –copyright (41%)

Perdida potencial de futuras publicaciones (35%)

Ventaja que pueden obtener los competidores en el campo (33%)

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Las revistas y los datos (Stodden, 2013)

Estudio realizado sobre 170 revistas de computación ISI. 62% no menciona política de datos 79% no menciona política sobre el código/programa 66% tiene política para material suplementario Las revistas que incrementan demandas a sus

autores, como datos son aquellas que tienen alto factor de impacto.

La proporción de revistas de AA con política de datos abiertos es levemente superior a las de suscripción

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Formas de simplificar la reutilización de los datos (White et al., 2013)

Proveer metadatos

Usar formatos de datos estándar

Proveer el dato de forma no procesada o cruda

Uso de un repositorio establecido

Uso de una licencia abierta y establecida (usar la licencia más abierta posible) como CC0

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Recomendaciones (White et al. 2013)

Datos bien documentados son más fáciles de comprender para reutilizar

Datos con formatos apropiados son más fáciles de usar en una variedad de software.

Datos que han sido depositado en repositorios establecidos, más durables y citables.

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Datos abiertos y procesamiento

Estándares y buenas prácticas de citación para los datos (Datacite.org).

Uso de identificadores únicos de conjuntos de datos (DOI) y productores (ORCID).

Metadatos de calidad para la descripción de datasets en catálogos de datos (DCAT).

Integración de catálogos Open Data con otras herramientas (metabúsqueda).

Dataverse Network – 2006 - IQCSS (Guía para gestión de los datos-2012 5th edición) Permite a los autores subir código y datos con sus propios términos de uso.

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

PROPUESTA METODOLÓGICA

Combinación de métodos

1. Medición del nivel de apertura de datos a nivel legal y técnico: Diseño de matriz de priorización Convalidación de los pesos de la matriz:

crowdsourcing.

2. Recogida y tratamiento de datos abiertos.

3. Caracterización de los datos de repositorios en CCSS.

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Matriz de evaluación (BETA)

Matriz de priorización

Variables consideradas:

1. Instrumento legal (copyright, licencias, aviso legal).

Korn y Oppenheim (2011).

2. Formatos de ficheros de datos: Norma ISO 2145/2010. Clasificación de cinco estrellas LOD de T. Berners

Lee.

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Asignación de pesos a las variables

¿80%? ¿20%?

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Variable 1: Instrumento legal(Korn & Oppenheim, 2011)

Quién y bajo que términos se puede utilizar el datoCualquiera 10

Restricción para usos comerciales 5

Posibilidad de modificación del dato

Sin restricciones de ningún tipo 10

Sin restricciones pero con atribución 7

Compartir igual 3

No se modifican 04th Int. PKP Conference, México N. D. Gómez, G.

Bueno (2013)

Variable 2: Formatos

Escala LOD 5 estrellas (Berners Lee, 2010)

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Formula

(U x 0,3 + M x 0,5) + (pF x 0,2) = 0-1

Términos de uso: U

Posibilidad de modificación del dato: M

Valor promedio de formato: pF

Valor licencia Valor formatoGrado

apertura

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Selección de la muestra Conjuntos de datos en

CCSS.

Criterios de selección: Data Citation Index:http

://wokinfo.com//products_tools/multidisciplinary/dci/

Categoría CCSS.

>100 datasets

Volumen muestra: 13 repositorios

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Repositorio OrganismoArchaeological Data Service University of York

National ArchivesU.S. National Archives and Records Administration

IQSS Harvard UniversityThe Dataweb US Census BureauEurostat European Union

Australian Data ArchiveAustralian National University

UK Data Archive University of EssexFinnish Social Science Data Archive

University of Tampere

Inter University Consortium for Political and Social Research

University of Michigan

Odum InstituteOdum Insitute, University of North Carolina

Office for National Statistics UK Statistics Authority

Roper CenterRoper Center, University of Connecticut

South African Data ArchiveNational Research Foundation

Datos en Ciencias Sociales

Investigación en CCSS: diseño-recolección-análisis. Los datos son la materia prima.

Métodos de obtención de datos: observación, encuestas, documentación, experimentación.

Tipos de métodos tipos de datos formatos Cuantitativos: paquetes estadísticos, hojas de cálculo y texto

tabulado Datos estructurados. Cualitativos: amplio rango de contenidos y formatos (texto, imagen,

video, audio y otra documentación).

Retos para su publicación como datos abiertos: Normalización, integración, redundancia… Aspectos éticos y legales.

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Características de la muestra

Repositorios de organismos de la administración pública principalmente.

Datos estadísticos, censales y otros estudios.

Dataverse Network.

Registros metadatos datasets: DDI XML

Opciones descarga datos: API, FTP y descarga en lotes, exportar en XLS y otros formatos.

Niveles de acceso a los datos: abierto, especial y restringido. Licencias de descarga, solicitudes formales.

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

OBSERVACIONES PRELIMINARES

Variable 1: Instrumento legal

Escasez de licencias explícitas asociadas a los datasets Términos/condiciones generales de acceso y uso.

Repositorios admin. pública: los más abiertos, dominio público (Eurostat, US. Census Bureau, US NARA, US NASA…)

Repositorios de investigación (auto-depósito): condiciones establecidas por autores/propietarios datasets, financiadores (Australian Data Archive, UK Data Archive, ICPSR, IQSS, )

Licencias en relación con el nivel de acceso a los datasets.

Limitaciones de uso y reutilización (no comercial, sólo investigación y académicos), restricciones (confidencialidad, intimidad), condiciones (citación).

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Variable 2: Formatos

Formatos más comunes de los datos cuantitativos en CCSS :★★ SPSS, SAS, Stata…

Sistemas propietarios, posibilidad de exportar en otros formatos.

★★ .xls (MS Excel)★★★ R (open source)★★★ .csv, .tsv, xml★★★★ .sdmx-ml

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

Próximos pasos…

Reformulación de la matriz teniendo en cuenta otras variables, como nivel de accesibilidad, interoperabilidad, documentación adicional o material explicativo.

Convalidación de la nueva matriz a través de crowdsourcing con infomediarios

Obtención de un grupo de datos en Ciencias Sociales para aplicar la nueva matriz.

Dimensiones de los datos: Grado de apertura. Grado de interoperabilidad. Grado de reutilización.

Bibliografía Berners-Lee, T. (2009). Putting government data online. Retrieved agosto/5, 2012,

from http://www.w3.org/DesignIssues/GovData.html

Borgman, C. L. (2012). The conundrum of sharing research data. Journal of the American Society for Information Science and Technology, 63(6), 1059; 1059-1078; 1078.

Inter-university Consortium for Political and Social Research (ICPSR). (2012). Guide to social science data preparation and archiving: Best practice throughout the data life cycle (5th ed.). Ann Arbor, M:

Korn, N., & Oppenheim, C. (2011). Licensing open data: A practical guide. Jisc, v. 2.0 Retrieved from http://discovery.ac.uk/files/pdf/Licensing_Open_Data_A_Practical_Guide.pdf

Stodden, V. C. (2011). Transparency in scientific discovery: Innovation and knowledge dissemination. Retrieved from http://hdl.handle.net/10022/AC:P:13496

Stodden, V., Guo, P., & Ma, Z. (2013). Toward reproducible computational research: An empirical analysis of data and code policy adoption by journals. PloS One, 8(6), e67111.

White, E. P., Baldridge, E., Brym, Z. T., Locey, K. J., McGlinn, D. J., & Supp, S. R. (2013). Nine simple ways to make it easier to (re) use your data. Peerj Preprints, 1, e7. Retrieved from https://peerj.com/preprints/7/

4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

top related