la preservación de datos de investigación: algunos ... · •debemos dar acceso a los datos de...

31
Miquel Térmens Graells [email protected] La preservación de datos de investigación: algunos problemas para su gestión Säo Paulo, 1 agosto 2019

Upload: others

Post on 16-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Miquel Térmens Graells

[email protected]

La preservación de datos de investigación:algunos problemas para su gestión

Säo Paulo, 1 agosto 2019

Page 2: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Guion

1. Un sueño y una necesidad

2. Las preguntas

3. El sueño y la realidad

2

Page 3: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Un sueño y una necesidad

3

1

Page 4: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Los sueños

• El primer sueño, la Biblioteca de Alejandría, la biblioteca universal: se puede tener toda la literatura• Ninguna biblioteca es universal. Incluso Internet no son más que nichos cerrados. Tenemos

problemas de capacidad, de interconexión, de derechos, de identificación, de categorización…

• Google (proyecto Google Books) lo intentó… y tuvo que abandonar.

• El segundo sueño, el MEMEX de Vannevar Bush (1945): interconectar toda la literatura científica• Pero el sueño del MEMEX tardó casi 50 años en materializarse: la web, en 1989

• El tercer sueño ha sido (es) la web semántica, idea lanzada por Tim Berners-Lee en 1998• Han pasado 20 años y aún no la tenemos.

• El cuarto sueño lo tenemos ahora: interconectar todos los datos científicos

4

Page 5: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

El sueño y la necesidad

• El sueño:

• Debemos dar acceso a los datos de investigación,

preservarlos a lo largo del tiempo y favorecer su reutilización

• La necesidad:

• Los datos de investigación suponen un reto de gestión para

asegurar su almacenamiento y su seguridad

5

Page 6: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Ciclo de vida y necesidades

• Necesidad: gestión de datos• Almacenamiento

• Seguridad

• Sueño: acceso a los datos• Acceso

• Preservación

• Reutilización

6

Creación

Procesamiento

Análisis

Difusión

Reutilización

Page 7: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Principios FAIR

• FINDABLE (Encontrables): Los datos y metadatos pueden ser encontrados por la comunidad después de su publicación, mediante herramientas de búsqueda.

• ACCESSIBLE (Accesibles): Los datos y metadatos están accesibles y por ello pueden ser descargados por otros investigadores utilizando sus identificadores.

• INTEROPERABLE (Interoperables): Tanto los datos como los metadatos deben de estar descritos siguiendo las reglas de la comunidad, utilizando estándares abiertos, para permitir su intercambio y su reutilización.

• REUSABLE (Reutilizables): Los datos y los metadatos pueden ser reutilizados por otros investigadores, al quedar clara su procedencia y las condiciones de reutilización.

7

H2020 Programme. Guidelines on FAIR Data Management in Horizon 2020. Version 3.0. European Commision, 26 July 2016. http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf

Page 8: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Las preguntas

8

2

Page 9: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Las preguntas

• ¿Cómo son los datos?

• ¿Cómo los usamos? ¿Cómo los gestionamos?

• ¿Por qué los queremos preservar?

• ¿Qué modelos de preservación tenemos?

9

Page 10: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Un ejemplo: los datos de un proyecto de investigación

10

Estudio de la accesibilidad de la documentación científica en soporte digital

Estudio subvencionado por Programa de Estudios y Análisis, convocatoria 2006. Ref: EA2006-0049. Ministerio de Educación, Cultura y Deporte. Secretaría de Estado de Universidades e Investigación

Page 11: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

11

Disponible en: http://hdl.handle.net/2445/27883

Los metadatos del articulo en el repositorio institucional de la Universitat de Barcelona

Page 12: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

12

Page 13: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

13

Page 14: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Datos generados por el proyecto

• Gestión del proyecto• Herramientas del diseño experimental• Consentimiento informado• Entrevistas a los sujetos• Grabaciones de vídeo• Resultados de las pruebas• Explotación estadística• Informe final y borradores• Publicaciones

14

¿Cuál es el ciclo de vida de cada categoría de documentos?¿Cuáles pueden ser de interés para ser reutilizados?

Page 15: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Los datos del proyecto EA2006-0049

15

Ficherosen bruto

Ficheros de datos depurados

Ficheros de datos depurados (2)

Ficheros MB Ficheros MB Ficheros MBConvocatoria 3 0,405

Datos de prueba Morae 10 1.140,000Datos de prueba vídeo 5 1.580,000Datos reales Morae 63 14.400,000 63 14.400,000Datos reales vídeo 60 21.100,000 60 21.100,000Documentos de test reales 10 1,000 10 1,000

Documentos de test de prueba 3 0,022Informe final 1 0,795Protocolos de trabajo 14 1,610 14 1,610 14 1,610

Resultados SPSS de prueba 2 0,172

Resultados SPSS reales 2 0,028 2 0,028 2 0,028

Documentos de trabajo interno 17 2,010

Total 190 38.226,042 149 35.502,638 16 1,638

100% 100% 78,421% 92,876% 8,421% 0,004%

Page 16: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Conclusiones

• Gran volumen de datos en bruto:• No todos los datos creados necesitan ser usados• Dudas sobre que datos se han de preparar para usar

• No todos los datos preparados para usar van a ser reutilizados

• Los datasets que no estén acompañados de la metodología de creación quizás no se podrán reutilizar

• Gran trabajo de selección:• Entre versiones• Entre borradores• Entre estadios del ciclo de vida

• Es necesaria una documentación del conjunto• Metadatos, metadatos, metadatos

16

Page 17: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

De publicaciones a datos: un cambio radical de características

17

Creación Difusión Reutilización

Word PDF PDF

Word, XLSX, MDB, SQL, TXT, PDF, R, SPSS, XML, JPG, SHP, FITS...

Datos de investigación

Publicación científica

Word, XLSX, MDB, SQL, TXT, PDF, R, SPSS, XML, JPG, SHP, FITS...

Word, XLSX, MDB, SQL, TXT, PDF, R, SPSS, XML, JPG, SHP, FITS...

Page 18: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Características físicas de los datos

18

Gran volumen

Bajo uso (suponemos)

Heterogeneidad de formatos y metadatos

Baja normalización global

Alto coste de conservación

Baja rentabilidad

Complejidad

Complejidad

Alto coste / MB / uso

(segmentación por especialidades científicas)

Page 19: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

El problema del volumen de los datos

• Un problema de coste, extremadamente más elevado que en los repositorios de acceso abierto

• Considerar el TCO (Total Cost of Ownership)• En un repositorio de acceso abierto el mayor coste es el de gestión de ficheros y de

metadatos

• El coste de los datos se reduce con el tiempo, pero el de gestión de ficheros y metadatos no

19

Page 20: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Distribución de los costes de preservación

20

50%

33%

17%

Ingesta

Preservación

Acceso

Según David Rosenthal

http://blog.dshr.org/2013/01/dawn-vs-twitter.html

Page 21: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Conclusiones

• Gran volumen de datos en bruto

• Pequeño volumen de datos preparados para su reutilización

• Necesidad de trabajo de selección, que solamente pueden realizar los propios investigadores

21

Page 22: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

El sueño y la realidad

22

3

Page 23: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Apliquemos los principios FAIR• FINDABLE (Encontrables): Los datos y metadatos pueden ser encontrados por la comunidad después de su publicación, mediante herramientas de

búsqueda.• F1. Asignarles un identificador único y persistente a los datos y los metadatos• F2. Describir los datos con metadatos de manera prolija• F3. Registrar/Indexar los datos y los metadatos en un recurso de búsqueda• F4. En los metadatos se debe especificar el identificador de los datos que se describen.

• ACCESSIBLE (Accesibles): Los datos y metadatos están accesibles y por ello pueden ser descargados por otros investigadores utilizando sus identificadores.

• A1 Los datos y los metadatos pueden ser recuperados por sus identificadores mediante protocolos estandarizados de comunicación• A1.1 Los protocolos tienen que ser abiertos, gratuitos e implementados universalmente• A1.2 El protocolo debe de permitir procedimientos para la autentificación y la autorización (por si fuera necesario).• A2 Los metadatos deben de estar accesibles, incluso cuando los datos ya no estuvieran disponibles.

• INTEROPERABLE (Interoperables): Tanto los datos como los metadatos deben de estar descritos siguiendo las reglas de la comunidad, utilizando estándares abiertos, para permitir su intercambio y su reutilización.

• I1. Los datos y los metadatos deben de usar un lenguaje formal, accesible, compartible y ampliamente aplicable para representar el conocimiento

• I2. Los datos y los metadatos usan vocabularios que sigan los principios FAIR• I3. Los datos y los metadatos incluyen referencias cualificadas a otros datos o metadatos

• REUSABLE (Reutilizables): Los datos y los metadatos pueden ser reutilizados por otros investigadores, al quedar clara su procedencia y las condiciones de reutilización.

• R1. Los datos y los metadatos contienen una multitud de atributos precisos y relevantes• R1.1. Los datos y los metadatos se publican con una licencia clara y accesible sobre su uso y reutilización• R1.2. Los datos y los metadatos se asocian con información sobre su procedencia• R1.3. Los datos y los metadatos siguen los estándares relevantes que usa la comunidad del dominio concreto

23H2020 Programme. Guidelines on FAIR Data Management in Horizon 2020. Version 3.0. European Commision, 26 July 2016. http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf

Page 24: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Apliquemos los principios FAIR en la UB

• FINDABLE (Encontrables):

• Se fomentará el uso de identificadores normalizados.

• Se fomentará el uso de metadatos estándar.

• Se fomentará el uso de metadatos que faciliten el descubrimiento de los datos.

• ACCESSIBLE (Accesibles): Se identificaran las razones legales o contractuales por las que determinados datos no pueden ser libremente accesibles.

• Se documentará qué software y metodologías son necesarias para usar los datos.

• Se identificará la necesidad de disponer de licencias para un acceso automatizado a los datos.

• Se identificará de forma clara qué colectivos de usuarios pueden acceder en cada momento a unos determinados datos.

• INTEROPERABLE (Interoperables): Se fomentará el uso de formatos de datos y de metadatos que sigan estándares y sean interoperables.

• Se fomentará el uso de metadatos, vocabularios y ontologías que puedan ser mapeados por otros de uso común.

• REUSABLE (Reutilizables):

• Se fomentará la utilización de licencias de uso que permitan la reutilización de los contenidos.

• Se reducirán los periodos de embargo al mínimo posible y se alienta que los datos estén disponibles lo antes posible.

• Se documentará en qué casos se restringirá la reutilización de determinados datos y porqué razón.

• Se fomentará que se describan qué procesos aseguran la calidad de los datos que se ofrecen.

24

Page 25: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Modelos de gestión de datos/ modelos de investigación

Investigación individual

25

Investigación en grupo de investigación

Investigación en redes de grupos de investigación

Soluciones propias

Soluciones institucionalesSoluciones temáticas

¿Sin solución?

Page 26: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

¿Qué modelo tenemos de preservación de datos?

• Los Data Management Plans• Límites de los actuales DMP

• El modelo OAIS de preservación (ISO 14721:2012)• Es un modelo de “caja fuerte”, oscura, “dark”

• Un modelo no pensado para sistemas abiertos a la consulta

• Un modelo pensado para un contenido estable, mayormente de conservación permanente

26

Page 27: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Requerimientos para la preservación de datos (1)

• La misión: poder encontrar datos y poder reutilizarlos• Sistema de búsqueda potente

• Sistemas de búsquedas federadas o metabuscadores

• Normalización de esquemas de metadatos

• Normalización de la entrada de los metadatos

• Poder recuperar los datasets por proyectos

• Tener bien identificada la vida útil de los datasets

27

Page 28: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Requerimientos para la preservación de datos (2)

• Normalizar los paquetes SIP (Submission Information Package) y AIP (Dissemination Information Package)

• Disponer de una arquitectura de almacenamiento que facilite la depuración de datasets al finalizar su vida útil

• Estudiar si es viable mantener sistemas de preservación solo a nivel de bit.• ¿Cuál es la capacidad que tenemos para realizar checksums periódicos de volúmenes de big data?

• Aumenta el problema de la obsolescencia de formatos y la necesidad de su migración

• ¿Podemos realizar todo esto de forma distribuida?

• ¿Podemos realizar todo esto de forma eficiente (cost-effective)?

28

Page 29: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Confusiones

29

Data Management Plan

Repositorio de datos abiertos Sistema de preservación digital

Plan de preservación

Almacenar datos Gestionar datos

Page 30: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

Conclusiones finales

La preservación de datos de investigación…

• Una necesidad de solamente una parte de la ciencia.

• Una necesidad aplicable a solamente una parte de los datos.

• Baja reutilización, a menudo con problemas para ser automatizada.

• Cuidado con la escala de los problemas técnicos y de gestión

• Cuidado con la escala de los problemas económicos. ¿Sostenibilidad?

Necesidad de elaborar una política de gestión de datos

30

Page 31: La preservación de datos de investigación: algunos ... · •Debemos dar acceso a los datos de investigación, preservarlos a lo largo del tiempo y favorecer su reutilización •La

31

Miquel Térmens Graells

Departamento de Biblioteconomía, Documentación y Comunicación Audiovisual

[email protected]

Muito obrigado!

¡Vivan los sueños!

¡Vivan aún más las soluciones que hagan realidad los sueños!