SmartOpenData
SmartOpenData
Instituto Nacional de Investigación y Tecnología Agraria y Alimentaria
Madrid, 29 de Octubre de 2015
Daniel Yagüe - Tragsatec
Una infraestructura de datos inteligentes al servicio
de la gestión de áreas rurales, zonas protegidas y
Parques Nacionales.
AGENDA
1. La gran nube de datos
2. Proyecto SmartOpenData: Portugal & Spain Pilot
3. Linked Open Data: Hacia un nuevo paradigma
4. Retos de futuro
La gran nube de datos
• Según Eric Schmidt (CEO de Google), hasta 2003 la Humanidad había
creado una cantidad de información equivalente a 5 Exabytes. En la
actualidad (2011), esta cifra se genera en sólo 2 días.
• Hasta el año 2007 se estima que la Humanidad había creado
295 exabytes de información, y en 2011 hasta 600 exabytes.
600 EB = un trillón de byes, que es la capacidad que pueden contener 1 millón de
ordenadores de sobremesa actuales.
Revista Science – Abril 2011
• … En 2007 el 99,9 % de la información generada era en formato
digital, y sólo el 0,007 % en papel.
Revista Science – Abril 2011
La gran nube de datos
OPEN DATA Iniciativa que pretende que los datos de las Administraciones Públicas se expongan y
hagan accesibles de forma que estén disponibles para su redistribución, reutilización y
aprovechamiento por parte de los ciudadanos y de las empresas.
La gran nube de datos
OPEN DATA
Publica tus datos como datos estructurados (Excel mejor que tabla escaneada)
Publica tus datos en la Web en cualquier formato y bajo licencia abierta
Usa formatos no propietarios (CSV mejor que Excel)
URIs para indicar cosas.
Así pueden ser enlazadas
LINKED
OPEN DATA
La gran nube de datos
LINKED OPEN DATA (LOD) Método de publicación de datos para que puedan ser interconectados.
Orientado a la lectura automática por ordenadores, permitiendo la conexión entre
diferentes fuentes de datos.
Los 4 principios de los LOD:
•Utilizar URIs para identificar los recursos publicados en la Web.
•Aprovechar el HTTP de la URI para que sea localizable y consultable.
•Proporcionar información útil acerca del recurso cuando la URI sea
desreferenciada.
•Incluir enlaces a otras URI relacionadas con los datos contenidos en el
recurso, potenciando el descubrimiento de información en la Web.
Tim Berners-Lee
La gran nube de datos
LOD - RDF
• Datos publicados como RDF en forma de tripletas:
SUJETO PREDICADO OBJETO
Indica el recurso Una relación entre el sujeto y el objeto Rasgos o aspectos del recurso
El cielo tiene el color azul
El Pinus pinaster pertenece al género Pinus
El pino marítimo es la especie Pinus pinaster
• RDF es un importante componente de la Web Semántica
Añade metadatos semánticos, legibles por aplicaciones informáticas, a los recursos publicados
La gran nube de datos
LOD – ONTOLOGÍAS Descripción exhaustiva y rigurosa de un recurso, detallando sus propiedades y relaciones
con otros recursos mediante tripletas, con la finalidad de facilitar la comunicación y el
intercambio entre diferentes recursos.
• Una correcta Ontología nos permite obtener un perfecto conocimiento
del recurso y de sus relaciones.
• Permite realizar consultas “en lenguaje humano” al Sistema.:
“¿Qué especie es el pino marítimo?
La gran nube de datos
Acción sobre los datos
Verlos J J J J J
Imprimirlos J J J J J
Descargarlos J J J J J
Ingresarlos en otro sistema J J J J J
Cambiarlos / Editarlos J J J J J
Compartirlos J J J J J
Procesables con software propietario J J J J
Hacer cálculos, visualizarlos, etc J J J J
Exportarlos a otros formatos estructurados J J J J
Manipularlos libremente (sin limitación de formatos o software) J J J
Enlazarlos desde cualquier otro sitio (web o local) J J
Marcarlos como favoritos J J
Reutilizar parte de losdatos J J
Reutilizar herramientas y librerías J J
Combinar los datos con otros. Si dos cosas tienen la misma URI es de forma intencionada. J J
Descrubrir más datos (relacionados) J
Aprender directamente acerca del esquema de otros J
Entender un gráfico RDF puede ser más complicado que tablas, XML o JSON) L
Puedes encontrar enlaces rotos (comos los 404 de las páginas web) L
Ojo !. No todos los datos son buenos. Es necesario filtrar; Confianza y criterio L
Publicación sencilla J J J L L
Control detallado sobre los datos, pudiendo optimizar su acceso (balanceo de carga, cacheo…) J J
Otros Editores pueden enlazarse a mis datos (lanzarlos a las 5 ) J J
Permites que tus datos sean descubiertos por mayor público J
Incrementas el valor de tus datos J
Puedes ganar los mismos beneficios de los enlaces como los consumidores J
Necesidad de convertidores o "plug-ins" para exportar los datos desde el formato propietario L
Mayor inversión de tiempo en analizar los datos L L
Asignar URIs a los datos y pensar cómo representarlos L L
Encontrar patrones existentes para reutilizarlos o crear unos propios L L
Invertir recursos para enlazar tus datos a otros en la Web L
Revisión de tus datos para reparar posibles enlaces rotos L
EDITOR
CONSUMIDOR
OPEN LINKED DATA - COSTOS Y BENEFICIOS
LOD – PUBLICACIÓN
SMOD – Portugal & Spain Pilot
SMART OPEN DATA Pretende crear una infraestructura Open Linked Data (de software y datos)
alimentados por datos públicos de fuentes existentes para la biodiversidad, la
protección del medio ambiente y la investigación en las áreas rurales europeas.
PORTUGAL & SPAIN PILOT Busca la optimización de los datos públicos existentes mediante su publicación
como datos abiertos y enlazados (OLD) con el fin de facilitar la toma de
decisiones complejas acerca de la gestión agroforestal.
SMOD – Portugal & Spain Pilot
• Transformación de las tablas de una base de datos, en una serie de entidades
que simplifiquen su entendimiento
MODELIZACIÓN - ORM
SMOD – Portugal & Spain Pilot
• Publicación de cada recurso como un RDF enlazado a fuentes externas
MODELIZACIÓN - RDF
SMOD – Portugal & Spain Pilot
PUBLICACIÓN Endpoint
• Punto de acceso libre a todos los datos publicados en el proyecto
mediante consultas SPARQL
Unidades de trabajo en las que hay Quercus robur
SMOD – Portugal & Spain Pilot
REFLEXIÓN
• Cambio de mentalidad: de la tabla relacional a la Ontología.
• Se precisa un conocimiento intensivo de los datos y de sus relaciones.
• Publicación más complicada, pero más rica y eficiente.
• La generalización de esta práctica (OLD) enriquecerá el valor de los
datos.
• Se abre la puerta al descubrimiento de nuevas relaciones entre datos.
Linked Open Data: Hacia un Nuevo Paradigma
• Costes en tiempos de espera, análisis y procesado.
• Cuando exploto mis datos: ¿Están actualizados?
• Repetir los costes cada vez que actualizo la información
Acceso a datos “tradicional”
• Solicitar los datos al Productor.
• En el mejor de los casos: datos descargables desde una Web.
• Análisis de los datos recibidos: conocimiento del modelo de datos.
• Integración en nuestros datos: complicados procesos de ajuste.
Linked Open Data: Hacia un Nuevo Paradigma
• Reducción de costes. Los datos se obtienen OnLine y al vuelo.
• Cuando exploto mis datos: Seguro que están actualizados.
Acceso a datos “Linked”
• Los datos están disponibles en la red.
• No es necesario un proceso de integración.
• Los datos pueden ser leídos automáticamente por una aplicación.
• Cada recurso (RDF) ofrece información sobre sus características
Linked Open Data: Hacia un Nuevo Paradigma
• Precisa conocimiento detallado del modelo de datos (de terceros)
• En qué tabla está lo que busco.
• Nombre y tipología del campo.
• Relaciones entre las tablas.
• Dependencia precisa del modelo de datos.
• Si cambia el nombre de una tabla o campo, todo cambia.
TABLAS RELACIONALES
Linked Open Data: Hacia un Nuevo Paradigma
• Desconexión del modelo de datos (de terceros)
• Relación entre “conceptos”
• Pinus pinaster pertenece al género Pinus
ONTOLOGÍAS
• Precisa conocimiento detallado del recurso (no del modelo de datos)
• Cómo es un recurso.
• Que características lo definen.
• Cómo se relaciona con otros recursos.
LOD - ECOSISTEMA DE DATOS
Linked Open Data: Hacia un Nuevo Paradigma
• “Si la abeja desapareciera de la superficie del globo, al hombre sólo le
quedarían cuatro años de vida: sin abejas, no hay polinización, ni
hierba, ni animales, ni hombres.”
Albert Einstein
• Ecosistema como unidad compuesta de organismos interdependientes
que comparten el mismo hábitat.
• Los organismos se relacionan sin necesidad de conocer la fisiología de
los otros seres: “simplemente” conocen lo que pueden utilizar del otro.
“Desconectados del modelo de datos del otro ser”
LOD – ECOSISTEMA DE DATOS
Linked Open Data: Hacia un Nuevo Paradigma
• Los recursos se relacionan por sus propiedades, independientemente
de su estructura interna.
• Los recursos definidos en una Ontología se comportan como los
organismos de un Ecosistema.
• Este tipo de interacciones enriquecen la información al conectarse con
otras Ontologías (con otros Ecosistemas).
“Un Ecosistema es más rico cuanto mayor es el número de
organismos que lo forman.”
Retos de futuro
• Necesario un cambio de mentalidad: de tabla relacional a Ontología.
• Penalización inicial en los primeros casos de puesta en práctica.
• Una única publicación. Un mismo recurso útil para muchos usuarios.
• Generalizar la publicación Linked Open Data
• Retroalimentación del sistema. A mayor número de recursos LOD,
mayor riqueza de los mismos.
• Crear una comunidad de diseñadores de Ontologías
• La definición del “ser” de un recurso es complicada.
• Requiere de los conocimientos del experto en la materia y del
técnico informático.
• Para el pequeño consumidor
• Desarrollar intérpretes de acceso a los Endpoint (SparQL).
Retos de futuro
• La abeja desconoce la existencia de una tabla “antera” en la que hay
un campo “polen” que puede almacenar.
• La abeja acude a cualquier flor. No está condicionada por sus “tablas”
• Su pelo puede evolucionar sin afectar a su relación funcional con el
polen.
• La flor desconoce la existencia de una tabla “pelo” en la abeja que
tiene un campo “gránulo” donde puede grabar su polen.
• La flor permite el acceso a cualquier insecto. No limitación “usuarios”.
• Sus anteras no deben condicionar su forma a la de la abeja.
Son dos organismos cuya “ontología” está perfectamente definida;
enlazando sus características con las definidas en otros organismos
y permitiendo su interrelación
LA REFLEXIÓN DE LA ABEJA
Daniel Yagüe Millán
Correo electrónico: [email protected]
Teléfono: +34 913 226 502
GRACIAS POR SU ATENCIÓN
Más información:
www.smartopendata.eu
twitter.com/SmartOpenData
Linkedin/Smartopendata
http://map.tragsatec.es/SMODGeoportal/geoportal/SMOD.html