lecciones aprendidas al publicar datos enlazados

14
Lecciones aprendidas en la publicación de datos enlazados Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo sn, 28660 Boadilla del Monte, Madrid http://www.oeg-upm.net [email protected] Agradecimientos: O. Corcho, D. Vila Jornada de Web semántica en archivos, bibliotecas y museos. Madrid, 10 de abril de 2014

Upload: asuncion-gomez-perez

Post on 07-Dec-2014

320 views

Category:

Technology


1 download

DESCRIPTION

Dirigido a administraciones e instituciones públicas que desean publicar sus datos enlazados. Si estás interesado en cursos de formación, mira en http://www.oeg-upm.net/

TRANSCRIPT

Page 1: Lecciones aprendidas al publicar datos enlazados

Lecciones aprendidas en la publicación de datos

enlazados

Asunción Gómez-Pérez

Facultad de Informática, Universidad Politécnica de Madrid

Campus de Montegancedo sn, 28660 Boadilla del Monte, Madrid

http://www.oeg-upm.net

[email protected]

Agradecimientos:O. Corcho, D. Vila

Jornada de Web semántica en archivos, bibliotecas y museos.Madrid, 10 de abril de 2014

Page 2: Lecciones aprendidas al publicar datos enlazados

Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014

Los datos enlazados son para las máquinas, también para los humanos

Page 3: Lecciones aprendidas al publicar datos enlazados

Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014

Casuística

Dominios FuentesProveedores Idiomas

Page 4: Lecciones aprendidas al publicar datos enlazados

Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014

¿Qué busca el usuario de datos enlazados?

• ¿Quién generó el conjunto de datos?

• ¿Cuándo se creó el conjunto de datos?

• ¿Cómo se creó el conjunto de datos?

• ¿Es ésta la última versión?

• ¿Está la información sobre licencias de uso claramente identificada?

• ¿En qué formatos se me ofrecen los datos abiertos?

• ¿Son los datos monoligües o multilingües?

Licenses

Page 5: Lecciones aprendidas al publicar datos enlazados

Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014

Lección 1. La institución debe estar convencida

Convencimiento institucional• Aportar recursos humanos• Antes de empezar:

• Datos recopilados• Datos de calidad en origen

• No es una solución a coste cero• Presupuesto asignado interno• Presupuesto externo,si solita la ayuda de terceros

• Plan de formación interno en tecnologías semánticas • Otra tecnología a mantener

• Persistencia y sostenibilidad• Los datos evolucionan

5

Page 6: Lecciones aprendidas al publicar datos enlazados

Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014

Lección 2: Usar datos curados

6

No se debe generar datos enlazados a partir de cualquier dato

Page 7: Lecciones aprendidas al publicar datos enlazados

Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014

Lección 3: Los aspectos metodológicos son importantes

Especificación

Modelado del vocabulario (ontología)

Generación en RDF

Publicación

Explotacion

Enlazado con otros datos

7

Limpieza de los datos

Muchas tecnologías involucradas

Page 8: Lecciones aprendidas al publicar datos enlazados

Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014

Lección 4: Utilizar ontologías

http://www.server1.org/resource/Cervantes

http://www.server2.es/resource/Cervantes

http://datos.bne.es/resource/XX1718747

http://d-nb.info/gnd/11851993X

http://geo.linkeddata.es/page/resource/Municipio/Cervantes

Same as

Same as

Same as

Same as

URIURI

URIURI

URI

914 296 093

276,4 km²

Phone

Size

1547

#People

1547

Date of Birth

Author

D. Quijote

Cervantes (persona)

Page 9: Lecciones aprendidas al publicar datos enlazados

Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014

Cervantes y un poco de semántica

http://www.server1.org/resource/Cervantes

http://www.server2.es/resource/Cervantes

http://datos.bne.es/resource/XX1718747

http://d-nb.info/gnd/11851993X

http://geo.linkeddata.es/page/resource/Municipio/Cervantes

Same as

Personrdf:type

rdf:type

Retaurantrdf:type

Streetrdf:type

Municipalityrdf:type

URIURI

URIURI

URI

1547

Date of Birth

Author

D. Quijote

Cervantes(Person)

Asunción Gómez-Pérez W3C @ Spain – 2013 Madrid, 18th December

Page 10: Lecciones aprendidas al publicar datos enlazados

Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014

Lección 5: Introducir metadatos adicionales siguiendo estándares

• Propiedad Intelectual• Licencias de uso• Procedencia (Provenance) del dato• Proceso seguido para:

• obtener el dato en su formato original• generar el dato en RDF

• Idioma

10

Page 11: Lecciones aprendidas al publicar datos enlazados

Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014

Lección 6: Ser selectivos con los enlaces

• No hay que enlazar con todo• Enlaces con recursos

• De calidad• Relevantes• que abren la puerta a otros recursos

• Enlaces persistentes

11

Page 12: Lecciones aprendidas al publicar datos enlazados

Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014

Efectos colaterales importantes

12

El proceso de generar RDF incrementa la calidad de los datos en el formato origen

• Detección automática de anomalías• Reducción de costes

Page 13: Lecciones aprendidas al publicar datos enlazados

Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014

Conclusiones

1. Convencimiento institucional

2. Generar con datos de calidad

3. Los aspectos metodológicos son importantes

4. Las ontologías proporcionan contexto al dato

5. Introducir metadatos de procedencia, licencias e idiomas

6. Ser selectivos con los enlaces

7. Efectos colaterales importantes• Mejora de los datos de la institución• Reducción de costes

8. Plan de formación en Tecnologías Semánticas y Datos enlazados • (cursos disponibles en http://www.oeg-upm.net/)

Page 14: Lecciones aprendidas al publicar datos enlazados

Lecciones aprendidas en la publicación de datos

enlazados

Asunción Gómez-Pérez

Facultad de Informática, Universidad Politécnica de Madrid

Campus de Montegancedo sn, 28660 Boadilla del Monte, Madrid

http://www.oeg-upm.net

[email protected]

Agradecimientos:O. Corcho, D. Vila

Jornada de Web semántica en archivos, bibliotecas y museos.Madrid, 10 de abril de 2014