vocabularios abiertos para datos abiertos - maría poveda - edaua16

48
Vocabularios abiertos para datos abiertos María Poveda Villalón Agradecimientos: Asunción Gómez Pérez [email protected] ETSI Informaticos Universidad Politécnica de Madrid Campus de Montegancedo s/n 28660 Boadilla del Monte, Madrid, Spain Twitter: @MariaPovedaV 17 Marzo 2016, Alicante

Upload: datosuaes

Post on 22-Jan-2018

289 views

Category:

Technology


0 download

TRANSCRIPT

Vocabularios abiertos para datos abiertos

María Poveda Villalón Agradecimientos: Asunción Gómez Pérez

[email protected] ETSI Informaticos

Universidad Politécnica de Madrid

Campus de Montegancedo s/n

28660 Boadilla del Monte, Madrid, Spain

Twitter: @MariaPovedaV

17 Marzo 2016, Alicante

Context – Ontology Engineering Group Directors: A. Gómez-Pérez, O. Corcho Position: 8th in the UPM ranking (200 groups) Founded: 1994 Ø  Research Group (30 people) Ø  Experience on

1.  Ontologies, Semantic Web, Linked Data, Open Data 2.  Semantic E-science 3.  Multilingualism

Ø  ODI Madrid : Madrid Node of the Open Data Institute

Ø  Projects §  27 EU projects (7 as coordinator) §  54 National Projects §  27 contracts with companies

Ø  Standardization activities §  >25 @ W3C, ISO, OASIS, etc.

Ø  Impact of publications H-index (scholar)

§  Asunción Gómez-Pérez (h:50, citations 14852) §  Oscar Corcho García (h: 36, citations 8152)

Ø  Services to the Spanish community §  esDbpedia §  linkeddata.es §  vocab.linkeddata.es

http://www.oeg-upm.net/ https://github.com/oeg-upm @oeg-upm 170+ Past Collaborators 50+ Past Visitors

Slide taken from “Open Data” by A. Gómez-Pérez”

License

•  This work is licensed under the Creative Commons Attribution – Non Commercial – Share Alike License

•  You are free: •  to Share — to copy, distribute and transmit the work •  to Remix — to adapt the work

•  Under the following conditions •  Attribution — You must attribute the work by inserting

•  “[source http://www.oeg-upm.net/]” at the footer of each reused slide

•  a credits slide stating: “Vocabularios abiertos para datos abiertos” by M. Poveda Villalón”

•  Non-commercial •  Share-Alike

Ventajas de los datos abiertos

•  Transparencia y control democrático •  Empoderamiento •  Participación ciudadana •  Mejora y creación de nuevos productos y servicios •  Innovación •  Mejora en la eficiencia de los servicios ofrecidos por

el gobierno •  Nuevos conocimientos a partir de fuentes de datos

combinadas •  …

The Data Spectrum

http://theodi.org/data-spectrum

¿Qué son los datos abiertos (open data)?

•  “Los datos abiertos son datos que pueden ser accedidos, reutilizados y redistribuidos libremente por cualquiera”

[fuente: Open Data Handbook, http://opendatahandbook.org/en/what-is-open-data/ ]

Slide taken from “Open Data” by A. Gómez-Pérez”

¿Qué son los datos abiertos (open data)?

•  “Los datos abiertos son datos que pueden ser accedidos, reutilizados y redistribuidos libremente por cualquiera”

•  Elementos clave: •  Disponibilidad y Acceso: los datos deben estar disponibles

como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo, deben ser fáciles de modificar.

•  Reutilización y Redistribución: los datos deben darse con una licencia que permita la reutilización y redistribución, incluyendo la mezcla con otros conjuntos de datos.

•  Participación Universal: todos deben poder usarlos, reutilizarlos y redistribuirlos.

[fuente: Open Data Handbook, http://opendatahandbook.org/en/what-is-open-data/ ]

Slide taken from “Open Data” by A. Gómez-Pérez”

Numerosas iniciativas de datos abiertos

Datos Abiertos y Enlazados (I)

Datos Abiertos y Enlazados (I)

★ En la web, cualquier formato pero con licencia abierta

•  Ej: Un pdf

http://www.ayto-torrejon.es/plantilla.asp?nPagina=1&ccClave=34

Datos Abiertos y Enlazados (II)

★ En la web, cualquier formato pero con licencia abierta

•  Ej: Un pdf

★★ Formato estructurado, procesable

•  Ej: tabla en excel

ftp://ftp.ibge.gov.br/

Datos Abiertos y Enlazados (III)

★ En la web, cualquier formato pero con licencia abierta

•  Ej: Un pdf

★★ Formato estructurado, procesable

•  Ej: tabla en excel

★★★ Formato no propietario •  Ej: csv en lugar de excel

Datos Abiertos y Enlazados (IV)

http://datos.bne.es/persona/XX1718747.rdf

★ En la web, cualquier formato pero con licencia abierta

•  Ej: Un pdf

★★ Formato estructurado, procesable

•  Ej: tabla en excel

★★★ Formato no propietario •  Ej: csv en lugar de excel

★★★★ RDF y estándares web •  Ej: URI como identificadores

Datos Abiertos y Enlazados (V)

★ En la web, cualquier formato pero con licencia abierta

•  Ej: Un pdf

★★ Formato estructurado, procesable

•  Ej: tabla en excel

★★★ Formato no propietario •  Ej: csv en lugar de excel

★★★★ RDF y estándares web •  Ej: URI como identificadores

★★★★★ Enlaza con otros datos •  Ej: apunta a URIs de otros

proveedores de datos

http://datos.bne.es/persona/XX1718747.rdf

Datos Abiertos Enlazados - Beneficios

Integración de datos

•  Distintos formatos

•  Distinta granularidad

•  Distintos idiomas

Interoperabilidad

•  Tecnología web estandar

ID COL1 COL2 COL3 COL4 COL5 COL6 1200013 28/04/1992 01/01/1993 -67.052 -10.074 205.894 12 1200054 01/03/1963 01/01/1977 -69.563 -10.943 234.867 12 1200104 21/12/1938 01/01/1939 -68.748 -11.016 188.324 12 1200138 28/04/1992 01/01/1993 -67.952 -9.820 198.174 12 1200179 28/04/1992 01/01/1993 -67.674 -10.570 212.303 12 1200203 07/09/1904 01/01/1939 -72.673 -7.631 183.080 12 1200252 28/04/1992 01/01/1993 -68.745 -11.028 206.036 12 1200302 21/12/1938 01/01/1939 -70.354 -8.160 159.822 12 1200328 28/04/1992 01/01/1993 -71.951 -9.193 264.978 12 1200336 01/03/1963 01/01/1977 -72.917 -7.593 187.066 12 1200344 01/03/1963 01/01/1977 -69.260 -8.836 162.134 12 1200351 28/04/1992 01/01/1993 -72.790 -8.954 214.911 12 1200385 01/03/1963 01/01/1977 -67.188 -10.335 129.189 12 1200807 28/04/1992 01/01/1993 -67.541 -9.601 134.323 12 1200393 28/04/1992 01/01/1993 -72.742 -8.267 201.806 12 1200401 07/09/1904 01/01/1939 -67.811 -9.978 137.866 12 1200427 28/04/1992 01/01/1993 -72.648 -7.734 189.585 12 1200435 28/04/1992 01/01/1993 -70.486 -9.443 216.724 12 1200500 25/09/1904 01/01/1939 -68.656 -9.065 132.133 12 1200450 01/03/1963 01/01/1977 -67.743 -10.148 207.925 12 1200609 23/10/1912 01/01/1939 -70.756 -8.156 172.144 12 1200708 23/10/1912 01/01/1939 -68.506 -10.652 173.282 12

¿Y el significado de los datos?

ftp://ftp.ibge.gov.br/

ID COL1 COL2 COL3 COL4 COL5 COL6 1200013 28/04/1992 01/01/1993 -67.052 -10.074 205.894 12 1200054 01/03/1963 01/01/1977 -69.563 -10.943 234.867 12 1200104 21/12/1938 01/01/1939 -68.748 -11.016 188.324 12 1200138 28/04/1992 01/01/1993 -67.952 -9.820 198.174 12 1200179 28/04/1992 01/01/1993 -67.674 -10.570 212.303 12 1200203 07/09/1904 01/01/1939 -72.673 -7.631 183.080 12 1200252 28/04/1992 01/01/1993 -68.745 -11.028 206.036 12 1200302 21/12/1938 01/01/1939 -70.354 -8.160 159.822 12 1200328 28/04/1992 01/01/1993 -71.951 -9.193 264.978 12 1200336 01/03/1963 01/01/1977 -72.917 -7.593 187.066 12 1200344 01/03/1963 01/01/1977 -69.260 -8.836 162.134 12 1200351 28/04/1992 01/01/1993 -72.790 -8.954 214.911 12 1200385 01/03/1963 01/01/1977 -67.188 -10.335 129.189 12 1200807 28/04/1992 01/01/1993 -67.541 -9.601 134.323 12 1200393 28/04/1992 01/01/1993 -72.742 -8.267 201.806 12 1200401 07/09/1904 01/01/1939 -67.811 -9.978 137.866 12 1200427 28/04/1992 01/01/1993 -72.648 -7.734 189.585 12 1200435 28/04/1992 01/01/1993 -70.486 -9.443 216.724 12 1200500 25/09/1904 01/01/1939 -68.656 -9.065 132.133 12 1200450 01/03/1963 01/01/1977 -67.743 -10.148 207.925 12 1200609 23/10/1912 01/01/1939 -70.756 -8.156 172.144 12 1200708 23/10/1912 01/01/1939 -68.506 -10.652 173.282 12

Ciudad Fecha de creación

Fecha de establecimiento Estado

Latitud Longitud Altitud

¿Y el significado de los datos?

ftp://ftp.ibge.gov.br/

Los Vocabularios definen los conceptos y las relaciones utilizadas para describir y representar un área de interés.

Definición adaptada de: http://www.w3.org/standards/semanticweb/ontology

Vocabularios (ontologías)

Ciudad  Fecha  de  creación  

Fecha  de  establecimiento  

Estado  

La6tud  Longitud   Al6tude  

ID COL1 COL2 COL3 COL4 COL5 COL6 1200013 28/04/1992 01/01/1993 -67.052 -10.074 205.894 12 1200054 01/03/1963 01/01/1977 -69.563 -10.943 234.867 12 1200104 21/12/1938 01/01/1939 -68.748 -11.016 188.324 12 1200138 28/04/1992 01/01/1993 -67.952 -9.820 198.174 12 1200179 28/04/1992 01/01/1993 -67.674 -10.570 212.303 12 1200203 07/09/1904 01/01/1939 -72.673 -7.631 183.080 12 1200252 28/04/1992 01/01/1993 -68.745 -11.028 206.036 12 1200302 21/12/1938 01/01/1939 -70.354 -8.160 159.822 12 1200328 28/04/1992 01/01/1993 -71.951 -9.193 264.978 12 1200336 01/03/1963 01/01/1977 -72.917 -7.593 187.066 12 1200344 01/03/1963 01/01/1977 -69.260 -8.836 162.134 12 1200351 28/04/1992 01/01/1993 -72.790 -8.954 214.911 12 1200385 01/03/1963 01/01/1977 -67.188 -10.335 129.189 12 1200807 28/04/1992 01/01/1993 -67.541 -9.601 134.323 12 1200393 28/04/1992 01/01/1993 -72.742 -8.267 201.806 12 1200401 07/09/1904 01/01/1939 -67.811 -9.978 137.866 12 1200427 28/04/1992 01/01/1993 -72.648 -7.734 189.585 12 1200435 28/04/1992 01/01/1993 -70.486 -9.443 216.724 12 1200500 25/09/1904 01/01/1939 -68.656 -9.065 132.133 12 1200450 01/03/1963 01/01/1977 -67.743 -10.148 207.925 12 1200609 23/10/1912 01/01/1939 -70.756 -8.156 172.144 12 1200708 23/10/1912 01/01/1939 -68.506 -10.652 173.282 12

Data taken from ftp://ftp.ibge.gov.br/

Conceptos y relaciones

Punto  

Ciudad  Fecha  de  creación  

Fecha  de  establecimiento  

Estado  

La6tud  Longitud   Al6tude  

ID COL1 COL2 COL3 COL4 COL5 COL6 1200013 28/04/1992 01/01/1993 -67.052 -10.074 205.894 12 1200054 01/03/1963 01/01/1977 -69.563 -10.943 234.867 12 1200104 21/12/1938 01/01/1939 -68.748 -11.016 188.324 12 1200138 28/04/1992 01/01/1993 -67.952 -9.820 198.174 12 1200179 28/04/1992 01/01/1993 -67.674 -10.570 212.303 12 1200203 07/09/1904 01/01/1939 -72.673 -7.631 183.080 12 1200252 28/04/1992 01/01/1993 -68.745 -11.028 206.036 12 1200302 21/12/1938 01/01/1939 -70.354 -8.160 159.822 12 1200328 28/04/1992 01/01/1993 -71.951 -9.193 264.978 12 1200336 01/03/1963 01/01/1977 -72.917 -7.593 187.066 12 1200344 01/03/1963 01/01/1977 -69.260 -8.836 162.134 12 1200351 28/04/1992 01/01/1993 -72.790 -8.954 214.911 12 1200385 01/03/1963 01/01/1977 -67.188 -10.335 129.189 12 1200807 28/04/1992 01/01/1993 -67.541 -9.601 134.323 12 1200393 28/04/1992 01/01/1993 -72.742 -8.267 201.806 12 1200401 07/09/1904 01/01/1939 -67.811 -9.978 137.866 12 1200427 28/04/1992 01/01/1993 -72.648 -7.734 189.585 12 1200435 28/04/1992 01/01/1993 -70.486 -9.443 216.724 12 1200500 25/09/1904 01/01/1939 -68.656 -9.065 132.133 12 1200450 01/03/1963 01/01/1977 -67.743 -10.148 207.925 12 1200609 23/10/1912 01/01/1939 -70.756 -8.156 172.144 12 1200708 23/10/1912 01/01/1939 -68.506 -10.652 173.282 12

Data taken from ftp://ftp.ibge.gov.br/

establecida en

creada en

longitud altitude latitud

es parte de

Conceptos y relaciones

Punto  situada en

Vocabularios (ontologías) - beneficios

•  Proporcionar semántica / contexto

•  Facilita la reutilización

•  Facilita la integración de datos

•  Facilita el mantenimiento de los datos

•  Razonamiento, inferencia

•  Desambiguación, prevención de errores

Who’s birthday is today?

Linda was born on the 11/05/1983

Oliver was born on the 05/11/1986

Who’s birthday is today?

Linda was born on the 11/05/1983

5th of November 2015

Oliver was born on the 05/11/1986

Clue 1

London

Who’s birthday is today?

Linda was born on the 11/05/1983

5th of November 2015

Oliver was born on the 05/11/1986

Who’s birthday is today?

Linda was born on the 11/05/1983

5th of November 2015

Oliver was born on the 05/11/1986

Happy birthday Oliver!

Clue 2

Who’s birthday is today?

Linda was born on the 11/05/1983

5th of November 2015

Oliver was born on the 05/11/1986

Who’s birthday is today?

Linda was born on the 11/05/1983

5th of November 2015

Oliver was born on the 05/11/1986

Happy birthday Linda!

Describe your data

Linda was born on the 11/05/1983

Oliver was born on the 05/11/1986

5th of November 2015

U.K date format DD/MM/YYYY

U.S. date format MM/DD/YYYY

Describe your data

Linda was born on the 11/05/1983

Oliver was born on the 05/11/1986

5th of November 2015

U.K date format DD/MM/YYYY

U.S. date format MM/DD/YYYY

Happy birthday Linda and Oliver!

One important thing

Precise description of data prevent errors when integrating or reusing it

Just one more thing

Keep describing

Linda was born on the 11/05/1983

Oliver was born on the 05/11/1986

U.K date format DD / MM / YYYY

U.S. date format MM / DD / YYYY

DD YYYY MM

ISO 8601

Just one more thing

Keep describing

Linda was born on the 11/05/1983

Oliver was born on the 05/11/1986

U.K date format DD / MM / YYYY

U.S. date format MM / DD / YYYY

DD YYYY MM

ISO 8601

Just one more thing

Keep describing

Linda was born on the 11/05/1983

Oliver was born on the 05/11/1986

U.K date format DD / MM / YYYY

U.S. date format MM / DD / YYYY

DD YYYY MM

ISO 8601

Vocabularios 5 estrellas (I)

★ En la web, con licencia abierta

•  Ej: Un pdf describiendo los datos y sus descripciones

Diagramas

UML, E/R,

texto…

Vocabularios 5 estrellas (II)

★ En la web •  Ej: Un pdf describiendo los

datos y sus descripciones

★★ Formato estructurado •  Ej: por ejemplo XML, OWL,

Vocabularios 5 estrellas (III)

★ En la web •  Ej: Un pdf describiendo los

datos y sus descripciones

★★ Formato estructurado •  Ej: por ejemplo XML

★★★ Incluye descripciones •  Ej: etiquetas, definiciones,

metadatos, etc.

http://purl.org/net/VideoGameOntology

Vocabularios 5 estrellas (IV)

★ En la web •  Ej: Un pdf describiendo los

datos y sus descripciones

★★ Formato estructurado •  Ej: por ejemplo XML

★★★ Incluye descripciones •  Ej: etiquetas, definiciones,

metadatos, etc.

★★★★ Varios formatos •  Ej: html, ttl, xml, etc.

http://purl.org/net/VideoGameOntology

Vocabularios 5 estrellas (V)

★ En la web •  Ej: Un pdf describiendo los

datos y sus descripciones

★★ Formato estructurado •  Ej: por ejemplo XML

★★★ Incluye descripciones •  Ej: etiquetas, definiciones,

metadatos, etc.

★★★★ Varios formatos •  Ej: html, ttl, xml, etc.

★★★★★ Enlaza con otros vocabularios

•  Ej: reutiliza definiciones, extiende otros vocabularios, etc.

gr:ProductOrService

vgo:GameProduct

schema:Product

vgo:Character

vgo:Item

vgo:PlayingArea

vgo:Game

vgo:Achievement

Conclusiones

•  No sólo necesitamos datos

Conclusiones

•  No sólo necesitamos datos

•  Describir datos mediante vocabularios consensuados

Datos

Información

Conoci-miento

Conclusiones

•  No sólo necesitamos datos

•  Describir datos mediante vocabularios consensuados

•  ¡Publica, documenta y abre los vocabularios!

Datos

Información

Conoci-miento

o  Vocabularies on the semantic web •  http://www.w3.org/standards/semanticweb/ontology

o  Linked Open Vocabularies (LOV): a gateway to reusable semantic vocabularies on the Web •  http://goo.gl/QE3mXl

o  http://vocab.linkeddata.es

o  http://smartcity.linkeddata.es

o  OnToology: http://ontoology.linkeddata.es/

o  Cómo licenciar RDF: http://www.cosasbuenas.es/blog/how-to-license-rdf

¡Gracias!

¿Preguntas?

Vocabularios abiertos para datos abiertos

María Poveda Villalón Agradecimientos: Asunción Gómez Pérez

[email protected] ETSI Informaticos

Universidad Politécnica de Madrid

Campus de Montegancedo s/n

28660 Boadilla del Monte, Madrid, Spain

Twitter: @MariaPovedaV

17 Marzo 2016, Alicante

Foundations

Unique identifiers: URI identify or name a resource

RDF(S) models

El Quijote Cervantes Is creator of

Work Person Is creator of

Is a Is a

http://datos.bne.es/resource/XX1718747 http://datos.bne.es/resource/XX3383563

http://datos.bne.es/def/C1005 http://datos.bne.es/def/C1001

Equivalence links to other datasets Same As

http://viaf.org/viaf/17220427

Cervantes

Same As Same As

http://dbpedia.org/resource/Miguel_de_Cervantes

Cervantes

Data navigation

Subject Object predicate

Slide taken from “Open Data” by A. Gómez-Pérez”

The model (Ontology) and the data

Work

Language

translation

Year Publication date

Library

Located at

Person Is creator of

Has subject

El Quijote Cervantes

Is creator of

Catalán

translation

1960 Publication date

BNE

Located in

Has subject

Vida de Cervantes

birthPlace Place

birthPlace Alcalá de Henares

Ontology

Data

Slide taken from “Open Data” by A. Gómez-Pérez”

http://iflastandards.info/ns/fr/frbr/frbrer/C1001

http://iflastandards.info/ns/fr/frbr/frbrer/C1002

translation

Año

Publication date

http://xmlns.com/foaf/0.1/Organization

Located in

http://iflastandards.info/ns/fr/frbr/frbrer/C1005

Is creator of

Has subject

http://datos.bne.es/resource/XX3383563 http://datos.bne.es/resource/XX1718747 Es autor

http://datos.bne.es/resource/XX1924295

translation

1960 Publication date

BNE

Located in

Has subject

http://datos.bne.es/resource/bimo0002045496

Vida de Miguel de Cervantes Saavedra

Don Quijote de la Mancha Cervantes Saavedra, Miguel de

Catalán

Ontology

Data

http://datos.bne.es/#

Language

work

Biblioteca

Person

http://geo.linkeddata.es/ontology/Municipio

birthPlace

http://geo.linkeddata.es/resource/Alcalá de Henares

birthPlace

Linked data is full of URIs

Slide taken from “Open Data” by A. Gómez-Pérez”