Asunción Gómez-Pérez, Olga Giraldo, Idafen Santana, Daniel Garijo
Ontology Engineering Group (Universidad Politécnica de Madrid)
14 October 2015
Publicación de datos y métodos científicos en investigacion
Source: Fanelli, D. PLoS One. 2010 Apr 7;5(4):e10068.
Fuente:Nature Reviews Drug Discovery 10, 712 (September 2011)
Fuente: Nature 483, 531–533 (29 March 2012)
¿Por qué publicamos datos? Reproducibilidad
2
• El Consorcio Europeo ha promovido dar ayuda para publicar artículos como Open Data en sus proyectos
• NSF no acepta propuestas de proyecto sin un plan de gestión de datos.
• Creación de “Data Journals”
• Sin embargo, la mayoría de las revistas que mencionan datos o software en sus páginas web normalmente promueven que se compartan datos, pero no obligan a ello.
Esfuerzos para promover la publicación de datos
3
Prácticas actuales para publicar datos
Scientific Data
DATA REPOSITORY…
JOURNAL
…
Repositorios de datos:• Descripción de los datos almacenados.• Preservación de datos.• Los datos se vuelven citables (DOI)
4
¿Qué hay de los métodos usados para producir los datos?
5
Lab bookExperiment Lab book
Digital Log
Workflow
Experiment
A
B
A) Protocolos de Laboratorio
B) Flujos de trabajo cienticíficos
Protocolos de Laboratorio
• Similares a recetas de cocina• Tienen los ingredientes: reactivos y muestras • Capturan el equipo necesario• Contienen el tiempo estimado que se necesita• Contienen los pasos críticos de un
experimento
• Repositorios de protocolos: MethodsX (Elsevier), Protocol Exchange (Nature) o Cold Spring Harbor Protocols (CSHP).
• Incubate the centrifuge tubes in a water bath.
• Incubate the samples for 5 min with shaking.
• Rinse DNA in 1-2 ml of wash.
• Incubate at -20C overnight.
6
Flujo de trabajo científico
7
Lab bookExperiment• Plantilla que contiene la secuencia de actividades necesarias para llevar a cabo un experimento científico computacional (Deelman et al., 2009). Se compone de:• Pasos• Entradas• Resultados intermedios• Salidas
• Los flujos de trabajo se guardan en repositorios como MyExperiment, Crowdlabs, Galaxy or The LONI Pipeline
Deelman, E., Gannon, D., Shields, M., and Taylor, I. (2009). Workflows and e-science:An overview of workflow system features and capabilities. Future Generation Computer Systems, 25(5):528{540.
Capturando el contexto de los experimentos: Research Objects
8
Research Object: • Agregación de recursos que están relacionados con una misma investigación
Cómo relacionamos los protocolos de laboratorio o los flujos de trabajo científicos con sus recursos y publicaciones? Necesitamos contexto.
Usage conditions (License)
¡No nos olvidemos de la infraestructura!
9
Lab bookExperiment Lab book
Digital Log
Workflow
Experiment
¡No capturada en el flujo de trabajo científico!
Capturada en el protocolo de laboratorio
CLOUD
Reproducibilidad de infrastructura
• Reproducibilidad de experimentos científicos
10
FORMEREQUIPMENT
ANNOTATE REPRODUCE
SEMANTIC ANNOTATIONS
EQUIVALENT EXECUTION ENVIRONMENT
• “Its about capturing, preserving, reusing and curating” [Goble 2012]
Use case
• Objetivo
Amazon
Entorno de ejecución de
flujos de trabajo
Anotación Reproducir
Anotacionessemánticas
Entornos de ejecución
equivalentes
Future Grid
Vagrant
11
Resumen
• Publicación de una investigación:• Publicación de datos
• Publicación de métodos• Protocolos de laboratorio• Flujos de trabajo científicos
• Publicación del contexto• Research Objects
• Publicación de la Infraestructura
13
Asunción Gómez-Pérez, Olga Giraldo, Idafen Santana, Daniel Garijo
Ontology Engineering Group (Universidad Politécnica de Madrid)
14 October 2015
Publicación de datos y métodos científicos en investigacion