repositorio datos ambientales guayana2008

42
1 Repositorios de Datos Ambientales en la Web Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida Repositorios de Datos Ambientales en la Web 1 er Taller Sensibilización en el uso de redes avanzadas en Venezuela Universidad Nacional Experimental de Guayana Ciudad Guayana Junio 2008 Rodrigo Torréns Zulay Mendez Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Upload: rodrigo-torrens

Post on 03-Jul-2015

1.250 views

Category:

Technology


1 download

DESCRIPTION

Repositorio de datos ambientales

TRANSCRIPT

Page 1: Repositorio Datos Ambientales Guayana2008

1

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Repositorios de Datos Ambientales en la Web

1er Taller Sensibilización en el uso de redes avanzadas en Venezuela

Universidad Nacional Experimental de Guayana Ciudad Guayana Junio 2008

Rodrigo TorrénsZulay Mendez

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Page 2: Repositorio Datos Ambientales Guayana2008

2

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Contenido

• El problema de la ubicación, preservación y uso de colecciones de datos científicas (en Venezuela y el mundo)

• Tendencias en la colaboración científica• Herramientas que pueden ayudar a solucionar

algunos de los problemas• Ejemplos de redes de colaboración en el mundo• Red de Estaciones Bio-climáticas de Mérida y

ECORED Venezuela

Hablaremos sobre:

Page 3: Repositorio Datos Ambientales Guayana2008

3

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Partamos de las preguntas básicas:

• Los datos que yo necesito… existen?

• Donde están?

• Como los obtengo?

La mayoria de los científicos se han planteado estas preguntas alguna vez

Los datos producto de una investigación científica

Page 4: Repositorio Datos Ambientales Guayana2008

4

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Tenemos que tener capacidades para…

• Manejar volumen de datos generados actualmente

• Preservarlos

• Encontrarlos

• Compartirlos, distribuirlos

• Usarlos, reusarlos

Problemas-retos a los que nos enfrentamos

Page 5: Repositorio Datos Ambientales Guayana2008

5

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Ejemplo de degradación normal de los contenidos de información asociados con datos y metadatos a través del tiempo

…Problemas a los que nos enfrentamos

Momento de publicación

Detalles específicos acerca de la recolección de los datos se pierden al pasar el tiempo

Retiro o cambio de carrera del científico recolector

Accidente puede destruir datos y documentación Muerte del investigador y subsecuente perdida

de registros restantes

Co

nte

nid

os

de

Info

rmac

ión

Tiempo (Michener, 1997)

Page 6: Repositorio Datos Ambientales Guayana2008

6

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Ante estos retos, tenemos posibilidades y nuevas maneras de…

• producir datos

• de compartirlos (publicarlos)

• de trabajar colaborativamente

Nuevas formas de colaboración científica

Page 7: Repositorio Datos Ambientales Guayana2008

7

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Frecuentemente o cada vez más escuchamos y hablamos de…

“ciberinfraestructura”

“e-ciencia”

“e-investigación”

“colaboracion ubicua”

“data-driven Science”

“computación grid”

“computación social”

“acceso abierto al conocimiento”…refiriendose a nuevas formas de producción y diseminación del conocimiento

Nuevas formas de colaboración científica

Page 8: Repositorio Datos Ambientales Guayana2008

8

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Datos generados por redes nacionales y mundiales de investigación (biología, medicina, física, etc.):

• Datos del LHC generados en el CERN

• Datos generados por las redes mundiales de sensores sísmicos

• Estudios sobre cambios globales (GCMD-NASA)

• Astronomía, los “telescopios virtuales” (Global Internet Telescope)

• Banco de datos de Proteinas (PDB, Protein Data Bank)

• Data Grids

• Bibliotecas Digitales

• Repositorios de datos

Ejemplos (actuales):

Page 9: Repositorio Datos Ambientales Guayana2008

9

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

A esto se unen las iniciativas por el uso sin restricciones de la

información y datos:

• Iniciativas de Acceso Abierto al Conocimiento (OA, Open Access Initiatives)

• Movimiento Datos Libres (OD, Open Data)• Repositorios Institucionales y por disciplina

…Ejemplos

Page 10: Repositorio Datos Ambientales Guayana2008

10

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

-

Ejemplos:CERN LHC

Page 11: Repositorio Datos Ambientales Guayana2008

11

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Necesidad de usar tecnologías de información (TICs)

• Ubicar• Accesar• Recuperar• Compartir

…datos

La mayoría usa LA RED para satisfacer

estas necesidades

Para…

Page 12: Repositorio Datos Ambientales Guayana2008

12

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Un objetivo importante

Que debemos hacer para lograr el…

Uso secundario y a largo plazo de colecciones de datos científicos

Se debe…

Garantizar permanencia de los datos en el tiempo

Poder ubicar y recuperar la información

Page 13: Repositorio Datos Ambientales Guayana2008

13

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Herramientas

Herramientas organizativas y tecnológicas que pueden hacer esto posible:

Uso de metadatos y estándares de intercambio de información

Tecnologías de Información y Comunicaciones

Formación de Redes de colaboración entre científicos y entre usuarios de información

Creación y mantenimiento de repositorios de datos

Page 14: Repositorio Datos Ambientales Guayana2008

14

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Qué significa la palabra “metadatos”?

• " Datos sobre los datos " .

• "Nivel superior de la información, o instrucciones que describen el contenido, contexto, calidad, estructura, y accesibilidad de una colección de datos específica" (J.K. Michener 1997).

D

M

D

M1

D

M2

Mc

D

M

a) b) c)

Metadatos como parte de los datos

Metadatos externos al recurso de información

Meta-metadatos (colecciones de metadatos)

Page 15: Repositorio Datos Ambientales Guayana2008

15

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Para qué “metadatos”?

Preguntas que se deberían poder responder usando metadatos:

•Que datos describe una coleccion de datos científicos?

•Quien produjo la colección?

•Porqué fue creada la colección?

•Como fue creada la colección?

•Que datos componen la colección?

•Cuan confiables son los datos. Que problemas persisten en la colección?

•Como alguien puede obtener una copia de la colección?

•Quien escribio los metadatos?

Page 16: Repositorio Datos Ambientales Guayana2008

16

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Ejemplos de metadatos y de comunidades

que usan metadatos

Muestra datos NBIIhttp://www.nbii.gov/

Documentación de datos geoespaciales (estándar FGDC) http://cndg.clearinghouse.gub.uy

Page 17: Repositorio Datos Ambientales Guayana2008

17

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Ejemplos de metadatos y de comunidades

que usan metadatosDocumentación de datos geoespaciales (Interfaz a Clearinghouse FGDC y GCMD Data Documenter)

Page 18: Repositorio Datos Ambientales Guayana2008

18

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Algunos de los estándares para metadatos geoespaciales, biológicos y ambientales

más usados

 

•FGDC-CSDGM. Content Standard for Digital Geospatial Metadata. Federal

Geographic Data Committe (1994): Datos geoespaciales. [www.fgdc.gov]

•FGDC-NBII. Perfil Biológico de FGDC. Biología y ciencias naturales. [www.nbii.gov].

•Global Change Master Directory Interchange Format – DIF. (1993) Ciencias de la

Tierra. [gcmd.gsfc.nasa.gov]

•Darwin Core (DwC). Colecciones de Historia Natural.

•Descriptores para Metadatos no-geoespaciales. NCEAS-LTER (1997) Datos

ecológicos. Base del estándar EML. [lternet.washington.edu]

•Dublin Core. Estandar general de identificacion de objetos de información en Internet.

[www.dublincore.org]

Page 19: Repositorio Datos Ambientales Guayana2008

19

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Manejo de colecciones de datos científicos. Algunas experiencias locales

Red de Estaciones Ecológicas de Venezuela (ECORED)

Red de Estaciones Bioclimáticas del Estado Mérida (redbc)

Page 20: Repositorio Datos Ambientales Guayana2008

20

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Red de Estaciones

Bio-climáticas del Estado Mérida

(redbc)

Justificación

• Dificultades que existen en Venezuela para ubicar y usar colecciones de datos bio-climáticos.

• Interés de organizaciones, instituciones y personas que tienen datos históricos los cuales desean preservar o compartir para su uso a largo plazo.

• Necesidad de implementar un repositorio de datos que permita realizar análisis y descubrir correlaciones entre diferentes conjuntos de información, que ayuden a la toma de decisiones e investigación científica.

Page 21: Repositorio Datos Ambientales Guayana2008

21

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

La Experiencia de la Red de Estaciones

Bio-climáticas del Estado Mérida

(redbc)

• Manejo, identificación, y preservación en el tiempo, de recursos de información relacionados con la biología y el clima usando estándares internacionales de formato y contenidos.

• Generación de un Sistema de Información a través del Web que permita el facil acceso de investigadores, productores y organizaciones que necesiten la información producida por la red de estaciones.

Objetivos principales

Page 22: Repositorio Datos Ambientales Guayana2008

22

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

La Experiencia de la Red de Estaciones

Bio-climáticas del Estado Mérida

(redbc)

• Mantener en el tiempo las colecciones de datos y desarrollar mecanismos de almacenamiento, catalogación y distribución de la información generada.

• Realizar permanentemente labores de identificación de nuevas fuentes de información que puedan incorporarse a las colecciones existentes.

• Concientizar a los científicos sobre la importancia de la preservación de los datos generados en sus investigaciones.

Objetivos secundarios y tareas

Page 23: Repositorio Datos Ambientales Guayana2008

23

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Estaciones de la redbc

• Estación La Hechicera, Mérida

• Estación Mucujún, Mérida

• Estación Santa Rosa, Mérida

• Estación San Juan, Mérida

• Estaciones Sur del Lago UNESUR (2 estaciones)

• Estación Pico Espejo-MARS

• Estación INIA-Chama, Sur del Lago de Maracaibo

• Estación Ciplat, Sur del Lago de Maracaibo

Page 24: Repositorio Datos Ambientales Guayana2008

24

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Instituciones colaboradoras de la redbc

•Centro Internacional del Plátano (CIPLAT)

•Instituto Nacional de Investigaciones Agrícolas (INIA)- Chama, Sur

del Lago

•Instituto de Ciencias Ambientales y Ecológicas de la ULA (ICAE)

•Instituto de Investigaciones Agropecuarlas de la ULA (IIAULA)

•Universidad Nacional Experimental del Sur del Lago (UNESUR)

• Institut für Meteorologie und Klimaforschung (IMK)

(Institute for Meteorology and Climate Research, U. Karlsruhe,

Germany)

Page 25: Repositorio Datos Ambientales Guayana2008

25

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Funcionamiento de la redbc

Sistema de Información Bioclimático basado en el web

• Ubicación de características de colecciones de datos.

• Utilización de tecnologías Internet-Web, que aceleran y facilitan grandemente el proceso de captura, actualización y difusión de la información bio-climática, permitiendo varios niveles de acceso y recuperación de dicha información.

• Actualmente sólo se proveen datos sin procesar (archivos de datos provenientes de las estaciones meteorológicas) y sus respectivos metadatos. En el futuro se podrá acceder a información previamente procesada (gráficos, tablas, etc).

• Libre acceso a colecciones de datos (datasets) producidos por miembros de la red y (en lo posible) por cualquier persona o institución que los necesite

Page 26: Repositorio Datos Ambientales Guayana2008

26

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Internet

Miembros de la REDBC

Servidor (CECALCULA)

Funcionamiento de la redredbcbc Sistema de manejo de datos:

Datos llegan por varias vías (enviados por gerentes locales de información o colaboradores):

-E-mail -Web

-CD-Entregas personales

Gerentes Centrales de información los procesan de ser necesario y los publican en Internet

Page 27: Repositorio Datos Ambientales Guayana2008

27

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Consultando las colecciones de datos

Es

Ejemplo: Colección de datos Estación Chama

Page 28: Repositorio Datos Ambientales Guayana2008

28

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Enlace

Consultando las colecciones de datos

Ejemplo: Colección de datos Estación Chama

Presentación de datos

•Datos originales (sin procesar)

•Datos ordenados (Por año y por mes)

•html

•xml (EML: Ecological Metadata Language)

•txt

Formato de metadatos

Page 29: Repositorio Datos Ambientales Guayana2008

29

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Metadatos html(para visualización por Web)

Metadatos xml (EML) (para intercambio con otros sistemas y procesamiento automático)

Consultando las colecciones de datosEjemplo: Colección de datos Estación Chama

Page 30: Repositorio Datos Ambientales Guayana2008

30

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Consultando las colecciones de datosEjemplo: Colección de datos Estación Chama

Interfaces Web: Datos originales

Page 31: Repositorio Datos Ambientales Guayana2008

31

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Consultando las colecciones de datosEjemplo: Colección de datos Estación Chama

Datos originalesDatos sin procesar, tal como vienen de los

instrumentos o científicos que los capturan

Page 32: Repositorio Datos Ambientales Guayana2008

32

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Consultando las colecciones de datosEjemplo: Colección de datos Estación Chama

Datos ordenados

Datos con algún tipo de procesamiento

Page 33: Repositorio Datos Ambientales Guayana2008

33

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Consultando las colecciones de datosEjemplo: Consulta en KNB

Datos enviados a KNB:

http://knb.ecoinformatics.org

Page 34: Repositorio Datos Ambientales Guayana2008

34

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Formas de envío y publicación de metadatos y datos?

Afiliarse a la redbc

Llenar Planilla de documentación de datos proporcionada por el gerente central de información.

Se pueden configurar planillas de diferentes tipos: Web, Word, txt, etc.

Documentar los datos

•Contactar por e-mail o teléfono al Proveedor de metadatos

Page 35: Repositorio Datos Ambientales Guayana2008

35

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Dificultades en el desarrollo de proyectos de este tipo

• Escaso conocimiento de la importancia de la preservación y posibilidades de uso secundario de los datos

• Poca disposición de los científicos para compartir los datos.• Poca receptividad o disposición para aportar metadatos que

documenten las colecciones de datos.• Confusiones y reservas que tienen que ver con los derechos de

propiedad, publicación y uso de los datos.• Bajo interés por parte de algunos gerentes de información local en

publicar sus colecciones de datos (retardo en envío de datos-pérdida de información).

• Dificultades (aún) con la conexión a internet (conectividad, velocidad)

• Costos de los instrumentos de captura de datos• No existe la figura de “gerente local de información”, o es muy

costoso tenerlos

Page 36: Repositorio Datos Ambientales Guayana2008

36

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Estaciones y datos en la redbc

.

Page 37: Repositorio Datos Ambientales Guayana2008

37

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

La Experiencia de la Red de Estaciones

Bio-climáticas del Estado Mérida

(redbc)

En realidad hasta ahora ha sido una prueba de concepto (exitosa a nuestro modo de ver)

• Interes y exigencias crecientes• Volumen creciente de información manejada• Muchas posibilidades abiertas• Mucho trabajo por hacer

Page 38: Repositorio Datos Ambientales Guayana2008

38

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

El Futuro

• Redes de manejo de conocimientos basadas en datos y metadatos (intención de KNB)

• Acceso a herramientas analíticas "en-línea" para integrar varias herramientas como SAS, MATLAB, etc. con acceso a datos de red de científicos (LTER)

• Herramientas para producir formas alternativas de metadatos que permitan a cualquier sitio participar fácilmente en otras bases de datos internacionales y Clearinghouses de datos (FGDC, GCMD, NBII, etc.)

• Creación de más bancos de datos internacionales o federados perteneciantes a multiples dominios y organizaciones

• Puesta en marcha de la “infraestructura Grid”. Acceso a “Grid de datos” (Datagrids)

• Por último…Comunidades y sociedades del conocimiento

Page 39: Repositorio Datos Ambientales Guayana2008

39

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

El Futuro

La visión de Rick Luce (y de muchos otras personas)

Construyendo las bases de las comunidades basadas en el conocimiento

Page 40: Repositorio Datos Ambientales Guayana2008

40

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Reflexión final

Termino con otra reflexión de Rick Luce…

“Debemos hacer mucho más que mejorar y dar acceso a la información científica.

Nuestro trabajo ahora es enlazar juntos los cerebros de las personas para que el compartir, el razonamiento y la colaboración se conviertan en parte del trabajo diario.”

Rick Luce. Proyecto Biblioteca sin paredes (Library Without Walls). 1998

Page 41: Repositorio Datos Ambientales Guayana2008

41

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Algunas Referencias•Clearinghouse Federal Geographic Data Commite (FGDC,NBII)http://www.fgdc.gov/clearinghouse/

•Global Change Master Directory (GCMD, DIF)http://gcmd.gsfc.nasa.gov

•Long Term Ecological Research Network (LTER, EML)http://lternet.edu

•Knowledge Network of Biocomplexity

http://knb.ecoinformatics.org

•National Center for Ecological Analysis and Synthesiswww.nceas.gov

•"Open Data" http://en.wikipedia.org/wiki/Open_data

Page 42: Repositorio Datos Ambientales Guayana2008

42

Repositorios de Datos Ambientales en la Web

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

www.cecalc.ula.ve/redbc/

[email protected]

Gracias por la atención!!