web semantica

28
Web Semántica (el rol de las bibliotecas) Claudio Gutierrez DCC, Universidad de Chile

Upload: sistema-de-servicios-de-informacion-y-bibliotecas-sisib

Post on 23-Jun-2015

126 views

Category:

Education


1 download

DESCRIPTION

Ponencia presentada en 10as Jornadas Bibliotecarias de la U. de Chile (2011)

TRANSCRIPT

Page 1: Web semantica

Web Semántica(el rol de las bibliotecas)

Claudio GutierrezDCC, Universidad de Chile

Page 2: Web semantica

Agenda

1. Web Semántica: visión clásica• Web• Web Semántica

2. Web Semántica: nueva perspectiva• Web Semántica• Linked Data• Open Data

Page 3: Web semantica

El problema…

“una divinidad que delira”– J. L. Borges, La Biblioteca Total, 1939.

“abundancia torrencial”,“el libro enfurecido”

– J. Ortega y Gasset, Misión del Bibliotecario, 1935

Page 4: Web semantica

Nuestro entorno: K, M, GKILO: mil (2^10) Memoria celular Texto (email, documento)

MEGA: millón (2^20) Libro, Fotografía

GIGA: mil millones (2^30) Memoria RAM, Buen video

(Este es nuestro mundo…)

Page 5: Web semantica

Poniéndonos serios…: TB

TERA: un billón 10^12 2^{40}-- Biblioteca del Congreso (USA): 160 TB-- Discos de 1TB (2007)-- Tráfico diario de Internet (100 TB)-- Wikipedia: 6 Terabyte dump (2010)--3-D movie Monsters Vs Aliens (necesitó 100 TB

disco)

No es escala humana. Pero, lo maneja hoy cualquier

empresa/experimento que se respete

Page 6: Web semantica

Futuro inmediato: PBPETA : mil billones 10^15 2^50

– Internet Archive (3 PB) (crece a 100 TB por mes)– Google procesa 24 petabytes de datos cada día– 1/2 PB: filmar la vida de una persona (100 años

en alta definición).– Facebook tiene 60 mil millones de imágenes, esto

es 1,5PB.– Rapidshare dispone de una capacidad de

almacenamiento de varios petabytes.– AT&T transfiere alrededor de 19 petabytes de

datos al día.– Los experimentos del LHC (Large Hadron

Collider) producirán 15 petabytes de datos al año.

Page 7: Web semantica

Futuro próximo: EXA, Z EXA: millón de billones

10^18 (2^60)

Todas las palabras que se han hablado: aprox. 5 EXB texto (42 zb digitalizadas. Internet ocupa entre 100 y 200

exabytes El premio del Sultán en el ajedrez:

2^64: casi 1 EXB

Zetta 10^21 (2^70)

El universo digital (todos losdatos o archivosalmacenados digitalm.)alcanza 1,2 millones depetabytes, o 1,2 zettabytes.

Para 2020 será 30 veces másgrande de lo que es hoy(aprox. 35 zb)

Page 8: Web semantica

El problema

• Hay demasiada información• Más aun: se produce torrencialmente• No sólo las “masas”, sino que los sensores

Necesita arquitectura que considere:– Que todos son potenciales productores– Que todos son potenciales consumidores– Que escale a volúmenes “infinitos”

Page 9: Web semantica

Solución del siglo xxi

Crear un espacio de informaciónuniversal: la Web (Tim Berners-Lee, 1990)

Principio básico:–Todos pueden publicar–Todos pueden leer

Page 10: Web semantica

La Web (en 3 minutos)

Espacio de información universal:– “pizarrón universal” donde todos pueden

publicar y todos pueden leer

Nota: la Web no es Internet:– Internet: Red física,protocolos intercambio depaquetes: TCP/IP– Web: Red Lógica,protocolos de intercambio deinfo: HTML, HTTP, URI

Page 11: Web semantica
Page 12: Web semantica

La Web: principios de diseño

1. Independencia de Dispositivo2. Independencia de software3. Internacionalización4. Multimedia5. Accesibilidad6. Ritmo y razón7. Calidad8. Independencia de escala

Page 13: Web semantica

La Web: problemas

1. Información poco comprensible– Enlaces no tienen semántica– Metadatos inexistentes o subutilizados

2. Procesamiento al nivel sintáctico

Resultado: -- difícil de automatizar-- imposible de razonar

Page 14: Web semantica

Solución: Web Semántica

Hipótesis: Procesar información a escalaplanetaria necesitará automatización

⇒ Máquinas deben “entender”⇒ Desarrollar semántica automática

“La Web Semántica es unaWeb donde la informaciónsea entendible y usabletanto por humanos comopor computadores.” --Tim Berners-Lee

Page 15: Web semantica

La Web Semántica:Arquitectura

Page 16: Web semantica

¿Un proyecto viable?

• Pocos resultados después de 10 años• ¿demasiado optimista?

Una Web Semántica más modesta:–Enlazar datos (Linked Data)–Publicar datos (Open Data)

Page 17: Web semantica

Etapa 0: el computador ATOMOS

Objetos materialesTrabajo manualIntensivo en energíaProductos con servicioCentralizadoEstructuras jerárquicasCiencia clásica

BITS

Objetos virtualesTrabajo intelectualIntensivo en informaciónServicios con productosDistribuídoEstructuras planasNuevo paradigma

Page 18: Web semantica

Etapa 1: computadoresinterconectados: INTERNET

Page 19: Web semantica

Etapa 2: documentosinterconectados: WEB

Page 20: Web semantica

Etapa 2: WEB

• Enlaces (links) entre documentos• “Palabras” (secuencias de caracteres) y

enlaces como el centro del universo

•Lenguajes y protocolos:– HTTP (protocolo para escribir y leer)– HTML (lenguaje para la pizarra)– URI (identificadores únicos)

Page 21: Web semantica

Etapa 2: debilidades• Información está aislada

– pocos y malos enlaces• Los datos no están accesibles

– se publican sólo documentos

En términos prácticos:–Torrente, diluvio de (malos) datosnos ahoga–Se están formando islas privadas–No se puede “razonar” sobre lainformación

Page 22: Web semantica

Etapa 3: datosinterconectados

Page 23: Web semantica

Lo que ven lasmáquinas hoy

Lo que venlos humanos

Page 24: Web semantica

Agregar semántica mínima

Page 25: Web semantica

Etapa 3: Web de Datos• La información como datos• Los datos enlazados como red• Los datos públicos y abiertos

Tecnologías claves:–RDF y SPARQL–Estrategia: Linked Data–Filosofía: Open data

Page 26: Web semantica

Artefactos de datos

Bases de DatosDesktops

Dataspaces

BibliotecasArchivos

Web clásicaWeb semánticaWeb de Datos

Data GovOpen Data

Estático Dinámico

abie

rtoce

rrad

o

Linked data

Page 27: Web semantica

Desafíos

1. Cómo publicar: formatos, metadatos,temporalidad, persistencia, privacidad

2. Cómo enlazar: protocolos, escalabilidad,mantenibilidad, semántica

3. Cómo consultar / navegar: distribución,relaciones, rankeo, deducción

4. Cómo integrar: todas las anteriores…

Page 28: Web semantica

Rol de Bibliotecas: algunaspreguntas

• En un mundo de información abierta: ¿cuálesson los límites?

• Enlazar: ¿con quién? ¿cómo?• ¿Sólo organizar o también publicar?

– ¿Quiénes serán responsables de publicación dedatos por Facultad?

• ¿Catalogación central o folksonomías?

(mi tesis: Open Data cambiará radicalmente elrol y sentido de las bibliotecas)