04. tecnología de portales #opendata. tecnologías semánticas en la web de datos

15
12/12/12 1 Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012 Índice 1. Web de Linked Data: Conceptos Básicos A. Gómez Pérez (30 min) 2. RDF, RDF Schema y SPARQL O. Corcho (90 min) 3. Vocabularios A. Gómez Pérez (90 min) 4. Herramientas de publicación de datos para portales de datos abiertos O. Corcho (30 min) 1 Herramientas de publicación de datos para portales de datos abiertos Asunción Gómez-Pérez, Oscar Corcho Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo sn, 28660 Boadilla del Monte, Madrid http://www.oeg-upm.net [email protected] Agradecimientos: D. Vila, B. Villazón Curso en Red.es. 13 de Diciembre de 2012

Upload: datosgobes

Post on 12-Feb-2017

1.044 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: 04. Tecnología de portales #OpenData. Tecnologías Semánticas en la Web de Datos

12/12/12

1

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Índice

1.  Web de Linked Data: Conceptos Básicos A. Gómez Pérez (30 min)

2.  RDF, RDF Schema y SPARQL O. Corcho (90 min)

3.  Vocabularios A. Gómez Pérez (90 min)

4.  Herramientas de publicación de datos para portales de datos abiertos

O. Corcho (30 min)

1

Herramientas de publicación de datos para portales de

datos abiertos Asunción Gómez-Pérez, Oscar Corcho

Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo sn, 28660 Boadilla del Monte, Madrid

http://www.oeg-upm.net [email protected]

Agradecimientos: D. Vila, B. Villazón

Curso en Red.es. 13 de Diciembre de 2012

Page 2: 04. Tecnología de portales #OpenData. Tecnologías Semánticas en la Web de Datos

12/12/12

2

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Metodología de generación y publicación de Linked Data

•  El proceso de publicación en Linked Data tiene un modelo de ciclo de vida incremental iterativo

3 3

Especificar

Modelar

Generar RDF

Publicar

Explotar

Enlazar

Especificar

Modelar

Generar RDF

Enlazar

Publicar

Explotar

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Metodología

Especificación •  Análisis de fuentes de datos •  Diseño de URIs •  Definición de licencias

Especificar

Modelar

Generar RDF

Publicar

Explotar

Enlazar

4

Page 3: 04. Tecnología de portales #OpenData. Tecnologías Semánticas en la Web de Datos

12/12/12

3

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

GeoLinkedData – Análisis de las fuentes de datos

5

Especificación

Índice de producción industrial Provincia

Año

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Diseño de URIs

•  Usar URIs “cool”, en lugar de URIs opacas, siempre que sea posible •  URI “cool”: http://dbpedia.org/resource/Azuaga •  URI opaca: http://www.geonames.org/2521436/

•  Existen varias propuestas para la generación de URIs •  Reino Unido:

•  http://data.gov.uk/resources/uris

•  España: borrador en progreso de la Secretaría de Estado

para la función pública (Norma Técnica de Interoperabilidad de reutilización de recursos de información)

6

Especificación

Page 4: 04. Tecnología de portales #OpenData. Tecnologías Semánticas en la Web de Datos

12/12/12

4

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Diseño de URIs (NTI – Borrador)

•  URI base •  http://www.sede.gob.es/datosabiertos ó •  http://{organismo}.gob.es/datosabiertos

•  URI completa •  Hash URI

http://{base}/{carácter}/{sector}/{dominio}[/{concepto}]?[.{ext}]? •  Slash URI

http://{base}/{carácter}/{sector}/{dominio} [.{ext}]?[#{concepto}]?

•  Ejemplos: •  http://idee.gob.es/datosabiertos/recurso/medio-ambiente/geo/

Municipio/alcorcon •  http://idee.gob.es/datosabiertos/recurso/medio-ambiente/geo/

Municipio/alcorcon.n3 •  http://idee.gob.es/datosabiertos/voc/medio-ambiente/geo/Municipio

7

Especificación

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Diseño de URIs (NTI – Borrador) http://{base}/{carácter}/{sector}/{dominio}[/{concepto}]?[.{ext}]?

8

Especificación

Page 5: 04. Tecnología de portales #OpenData. Tecnologías Semánticas en la Web de Datos

12/12/12

5

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Diseño de URIs (NTI – Borrador) http://{base}/{carácter}/{sector}/{dominio}[/{concepto}]?[.{ext}]?

9

Especificación

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Diseño de URIs (NTI – Borrador) http://{base}/{carácter}/{sector}/{dominio}[/{concepto}]?[.{ext}]?

10

Especificación

•  Seleccionar identificadores alfanuméricos cortos únicos, que sean representativos, intuitivos y semánticos.

•  Usar siempre minúsculas, salvo en los casos en los que se recomienda utilizar el nombre de la clase o concepto. Habitualmente, los nombres de las clases se representan con el primer carácter de cada palabra en mayúsculas.

•  Eliminar todos los acentos, diéresis y símbolos de puntuación. Como excepción puede usarse el guión (-).

•  Eliminar conjunciones y artículos en los casos de que el concepto a representar contenga más de una palabra.

•  Puede usarse el guión (-) como separador entre palabras. •  Evitar en la medida de lo posible la abreviatura de palabras, salvo que la

abreviatura sea intuitiva.

Page 6: 04. Tecnología de portales #OpenData. Tecnologías Semánticas en la Web de Datos

12/12/12

6

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Diseño de URIs (NTI – Borrador) http://{base}/{carácter}/{sector}/{dominio}[/{concepto}]?[.{ext}]?

11

Especificación

•  ID: http://datos.gob.es/recurso/sector-publico/territorio/Provincia/Segovia •  No funciona correctamente aún (sólo redirección a HTML)

•  .rdf •  http://datos.gob.es/recurso/sector-publico/territorio/Provincia/

Segovia.rdf •  curl -H "Accept: application/rdf+xml” http://datos.gob.es/recurso/sector-

publico/territorio/Provincia/Segovia.rdf •  .n3

•  http://datos.gob.es/recurso/sector-publico/territorio/Provincia/Segovia.n3

•  curl -H "Accept: text/rdf+n3" http://datos.gob.es/recurso/sector-publico/territorio/Provincia/Segovia.n3

•  .html •  http://datos.gob.es/recurso/sector-publico/territorio/Provincia/

Segovia.html •  curl -H "Accept: text/html" http://datos.gob.es/recurso/sector-publico/

territorio/Provincia/Segovia.html •  Ejemplo de uso: http://geo.linkeddata.es/page/resource/Provincia/Segovia

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Definición de la licencia

•  Múltiples posibilidades •  The UK Open Government License •  Open Database License •  Public Domain Dedication and License •  Open Data Commons Attribution License •  The Creative Commons Licenses

•  También es posible reutilizar y aplicar una licencia existente de las fuentes de datos del gobierno.

•  GeoLinkedData: Reutilizamos la licencia original de

las fuentes de datos del gobierno. Las fuentes de datos IGN y INE tienen sus propias liciencias, similares a Attribution-Share Alike 2.5 Generic License

12

Especificación

http://creativecommons.org/licenses/by-sa/2.5/

Page 7: 04. Tecnología de portales #OpenData. Tecnologías Semánticas en la Web de Datos

12/12/12

7

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Metodología

Generación de RDF •  Tomar las fuentes de datos seleccionadas en la

actividad de especificación y transformarlas a RDF de acuerdo con el vocabulario creado en la actividad de modelado

•  Algunas herramientas •  CSV y hojas de cálculo

•  Apache Any23, RDF Refine, XLWrap, RDF123, NOR2O, Tabels

•  Bases de datos relacionales •  D2R Server, ODEMapster, Morph, W3C

RDB2RDF WG – R2RML •  XML

•  GRDDL, ReDeFer •  http://www.w3.org/wiki/ConverterToRdf

13

Especificar

Modelar

Generar RDF

Publicar

Explotar

Enlazar

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Industry Production Index

Province

Year

!"#$"%

14

Generación GeoLinkedData - Transformación

Page 8: 04. Tecnología de portales #OpenData. Tecnologías Semánticas en la Web de Datos

12/12/12

8

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

•  R2RML es un lenguaje declarativo para describir mapeos entre los esquemas de las bases de datos relacionales y los vocabularios.

15

www.oeg-upm.net/index.php/en/downloads/9-r2o-odempaster

Generación GeoLinkedData - Transformación

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

•  Creación de los mapeos (todavía no está en R2RML)

16

Generación GeoLinkedData - Transformación

Page 9: 04. Tecnología de portales #OpenData. Tecnologías Semánticas en la Web de Datos

12/12/12

9

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012 17

•  Herramienta para la generación de información de geometría en RDF.

•  La geometría debe estar disponible en GML o WKT

http://www.oeg-upm.net/index.php/en/downloads/151-geometry2rdf

Generación GeoLinkedData - Transformación

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Oracle STO UTIL package

SELECT TO_CHAR(SDO_UTIL.TO_GML311GEOMETRY(geometry)) AS Gml311Geometry

FROM "BCN200"."BCN200_0301L_RIO" c WHERE c.Etiqueta='Arroyo'

18

Generación GeoLinkedData - Transformación

Page 10: 04. Tecnología de portales #OpenData. Tecnologías Semánticas en la Web de Datos

12/12/12

10

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Generación GeoLinkedData - Transformación

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Enlazado

SameAs

20

Generación de enlaces

http://www.geonames.or

g/2521436/

http://geo.linkeddata.es/

.../Azuaga

http://dbpedia.org/resource/Azuaga

SameAs SameAs

DBpedia GeoNames GeoLinked Data

http://otalex.linkeddata.es/.

../Azuaga

SameAs SameAs

Herramienta Silk

Especificar

Modelar

Generar RDF

Publicar

Explotar

Enlazar

Page 11: 04. Tecnología de portales #OpenData. Tecnologías Semánticas en la Web de Datos

12/12/12

11

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012 21

Identificar conjuntos de datos con los que se

puede enlazar

http://ckan.net

Descubrir relaciones entre conjuntos de datos

Silk LIMES

Validar las relaciones descubiertas sameAs Validator

http://aksw.org/Projects/limes http://www4.wiwiss.fu-berlin.de/bizer/silk/

http://oeg-dev.dia.fi.upm.es:8080/sameAs/

Enlazado Generación de enlaces

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012 22

GeoLinkedData

GeoNames DBPedia

http://sws.geonames.org/

6355233/

http://geo.linkeddata.es/...

/Madrid

http://dbpedia.org/resource/Madrid

….

…. ….

….

….

….

GeoLinkedData - Enlazado Generación de enlaces

owl:sameAs owl:sameAs

Page 12: 04. Tecnología de portales #OpenData. Tecnologías Semánticas en la Web de Datos

12/12/12

12

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012 23

http://oegdev.dia.fi.upm.es:8080/sameAs/

GeoLinkedData – Validación de enlaces Generación de enlaces

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Publicación

SPARQL

Pubby

Linked Data HTML

Virtuoso 6.1.4

Pubby 0.3.3 Incluyendo “provenance”

10.243.266 Tripletas

http://otalex.linkeddata.es/resource/Municipio/Azuaga 24

http://www4.wiwiss.fu-berlin.de/pubby/

Especificar

Modelar

Generar RDF

Publicar

Explotar

Enlazar

Page 13: 04. Tecnología de portales #OpenData. Tecnologías Semánticas en la Web de Datos

12/12/12

13

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

•  Registrar el conjunto de datos en el CKAN Registry •  Generar ficheros sitemap para el conjunto de datos,

usando sitemap4rdf •  Enviar el fichero sitemap a Google y Sindice

25

Registro de conjuntos de datos Publicación

http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/DataSets/CKANmetainformation

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

•  Usar dcat

26

Registro de conjuntos de datos (NTI – borrador) Publicación

!

Page 14: 04. Tecnología de portales #OpenData. Tecnologías Semánticas en la Web de Datos

12/12/12

14

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Visualización Explotación

map4rdf:

•  Visor sobre Google maps de recursos RDF •  Recursos RDF con información geoespacial

•  Usado en otras aplicaciones como AEMET, Goodrelations, GeoLinked Data, El Viajero…

map4rdf

http://oeg-dev.dia.fi.upm.es/projects/map4rdf/

SPARQL

Triplestore

27

Especificar

Modelar

Generar RDF

Publicar

Explotar

Enlazar

http://geo.linkeddata.es/

Especificación

Model

Generación de RDF

7 bases de datos geográficas •  Granularidad •  Escala •  Multilingualidad !"#$"%

&'()'*+,$#-.%

Geometry column

hasStatisticalData

on

Ontology

Specification

Legend

hydrOntology

!

FAO

FAO Geopolitical ontology

WGS84

!W3C Vocabulary

GML

!GML Specification

O. Statistics

SCOVO

O. Time

W3C Time

hasLat/Long

hasGeometry

hasLat/Long

hasGeometry

hasLocation/isLocated

Thesaurus

UNESCO

!EGM / ERM

GeoNames!

Acceso uniforme a varias bases de datos del IGN

Page 15: 04. Tecnología de portales #OpenData. Tecnologías Semánticas en la Web de Datos

12/12/12

15

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Resumen de algunas iniciativas Fase BNE IGN AEMET PRISA INE

Modelado

Generación de

RDF

Generación de enlaces

Publicación

Explotación 29

Scovo

DataCube SSN ontology

SIOC DC

map4rdf SPARQL

geometry2rdf NOR2O

sitemap4rdf Pubby

MARiMbA

Silk Silk Silk NOR2O

DNB VIAF LIBRIS DBPEDIA

DBPEDIA Geonames

Geolinkeddata.es DBPEDIA Geolinkeddata.es Geolinkeddata.es

hydrontology

Wgs84 time

CSV parser CSV parser NOR2O

Tecnologías Semánticas en la Web de Datos. Red.es. 13 de diciembre de 2012

Mensajes para llevarse a casa •  URI

•  Seguir guías existentes para la creación de URIs (por ejemplo, las del UK Cabinet Office)

•  Reutilizar URIs existentes de fuentes de datos de autoridad

•  Modelos •  Reutilizar modelos existentes siempre que sea posible •  Crear modelos y vocabularios de fuentes de datos de autoridad ya existentes

•  Generación •  En muchas ocasiones se necesitan herramientas específicas del dominio

•  Enlazado •  Las herramientas genéricas funcionan generalmente bien •  Enlaces a otros conjuntos de datos con…

•  Equivalencias (sameAs) •  Otros enlances

•  Descubrimiento •  Además del registro datos.gob.es, utilizar sitemap4rdf para darle información a

los motores de búsqueda, y registrarse en CKAN.

•  Utilizar un ciclo iterativo en el desarrollo (varias fases)

30

Municipality Person birthPlace

Dbpedia:cervantes bne:Cervantes sameAs