web semantica
DESCRIPTION
Ponencia presentada en 10as Jornadas Bibliotecarias de la U. de Chile (2011)TRANSCRIPT
Web Semántica(el rol de las bibliotecas)
Claudio GutierrezDCC, Universidad de Chile
Agenda
1. Web Semántica: visión clásica• Web• Web Semántica
2. Web Semántica: nueva perspectiva• Web Semántica• Linked Data• Open Data
El problema…
“una divinidad que delira”– J. L. Borges, La Biblioteca Total, 1939.
“abundancia torrencial”,“el libro enfurecido”
– J. Ortega y Gasset, Misión del Bibliotecario, 1935
Nuestro entorno: K, M, GKILO: mil (2^10) Memoria celular Texto (email, documento)
MEGA: millón (2^20) Libro, Fotografía
GIGA: mil millones (2^30) Memoria RAM, Buen video
(Este es nuestro mundo…)
Poniéndonos serios…: TB
TERA: un billón 10^12 2^{40}-- Biblioteca del Congreso (USA): 160 TB-- Discos de 1TB (2007)-- Tráfico diario de Internet (100 TB)-- Wikipedia: 6 Terabyte dump (2010)--3-D movie Monsters Vs Aliens (necesitó 100 TB
disco)
No es escala humana. Pero, lo maneja hoy cualquier
empresa/experimento que se respete
Futuro inmediato: PBPETA : mil billones 10^15 2^50
– Internet Archive (3 PB) (crece a 100 TB por mes)– Google procesa 24 petabytes de datos cada día– 1/2 PB: filmar la vida de una persona (100 años
en alta definición).– Facebook tiene 60 mil millones de imágenes, esto
es 1,5PB.– Rapidshare dispone de una capacidad de
almacenamiento de varios petabytes.– AT&T transfiere alrededor de 19 petabytes de
datos al día.– Los experimentos del LHC (Large Hadron
Collider) producirán 15 petabytes de datos al año.
Futuro próximo: EXA, Z EXA: millón de billones
10^18 (2^60)
Todas las palabras que se han hablado: aprox. 5 EXB texto (42 zb digitalizadas. Internet ocupa entre 100 y 200
exabytes El premio del Sultán en el ajedrez:
2^64: casi 1 EXB
Zetta 10^21 (2^70)
El universo digital (todos losdatos o archivosalmacenados digitalm.)alcanza 1,2 millones depetabytes, o 1,2 zettabytes.
Para 2020 será 30 veces másgrande de lo que es hoy(aprox. 35 zb)
El problema
• Hay demasiada información• Más aun: se produce torrencialmente• No sólo las “masas”, sino que los sensores
Necesita arquitectura que considere:– Que todos son potenciales productores– Que todos son potenciales consumidores– Que escale a volúmenes “infinitos”
Solución del siglo xxi
Crear un espacio de informaciónuniversal: la Web (Tim Berners-Lee, 1990)
Principio básico:–Todos pueden publicar–Todos pueden leer
La Web (en 3 minutos)
Espacio de información universal:– “pizarrón universal” donde todos pueden
publicar y todos pueden leer
Nota: la Web no es Internet:– Internet: Red física,protocolos intercambio depaquetes: TCP/IP– Web: Red Lógica,protocolos de intercambio deinfo: HTML, HTTP, URI
La Web: principios de diseño
1. Independencia de Dispositivo2. Independencia de software3. Internacionalización4. Multimedia5. Accesibilidad6. Ritmo y razón7. Calidad8. Independencia de escala
La Web: problemas
1. Información poco comprensible– Enlaces no tienen semántica– Metadatos inexistentes o subutilizados
2. Procesamiento al nivel sintáctico
Resultado: -- difícil de automatizar-- imposible de razonar
Solución: Web Semántica
Hipótesis: Procesar información a escalaplanetaria necesitará automatización
⇒ Máquinas deben “entender”⇒ Desarrollar semántica automática
“La Web Semántica es unaWeb donde la informaciónsea entendible y usabletanto por humanos comopor computadores.” --Tim Berners-Lee
La Web Semántica:Arquitectura
¿Un proyecto viable?
• Pocos resultados después de 10 años• ¿demasiado optimista?
Una Web Semántica más modesta:–Enlazar datos (Linked Data)–Publicar datos (Open Data)
Etapa 0: el computador ATOMOS
Objetos materialesTrabajo manualIntensivo en energíaProductos con servicioCentralizadoEstructuras jerárquicasCiencia clásica
BITS
Objetos virtualesTrabajo intelectualIntensivo en informaciónServicios con productosDistribuídoEstructuras planasNuevo paradigma
Etapa 1: computadoresinterconectados: INTERNET
Etapa 2: documentosinterconectados: WEB
Etapa 2: WEB
• Enlaces (links) entre documentos• “Palabras” (secuencias de caracteres) y
enlaces como el centro del universo
•Lenguajes y protocolos:– HTTP (protocolo para escribir y leer)– HTML (lenguaje para la pizarra)– URI (identificadores únicos)
Etapa 2: debilidades• Información está aislada
– pocos y malos enlaces• Los datos no están accesibles
– se publican sólo documentos
En términos prácticos:–Torrente, diluvio de (malos) datosnos ahoga–Se están formando islas privadas–No se puede “razonar” sobre lainformación
Etapa 3: datosinterconectados
Lo que ven lasmáquinas hoy
Lo que venlos humanos
Agregar semántica mínima
Etapa 3: Web de Datos• La información como datos• Los datos enlazados como red• Los datos públicos y abiertos
Tecnologías claves:–RDF y SPARQL–Estrategia: Linked Data–Filosofía: Open data
Artefactos de datos
Bases de DatosDesktops
Dataspaces
BibliotecasArchivos
Web clásicaWeb semánticaWeb de Datos
Data GovOpen Data
Estático Dinámico
abie
rtoce
rrad
o
Linked data
Desafíos
1. Cómo publicar: formatos, metadatos,temporalidad, persistencia, privacidad
2. Cómo enlazar: protocolos, escalabilidad,mantenibilidad, semántica
3. Cómo consultar / navegar: distribución,relaciones, rankeo, deducción
4. Cómo integrar: todas las anteriores…
Rol de Bibliotecas: algunaspreguntas
• En un mundo de información abierta: ¿cuálesson los límites?
• Enlazar: ¿con quién? ¿cómo?• ¿Sólo organizar o también publicar?
– ¿Quiénes serán responsables de publicación dedatos por Facultad?
• ¿Catalogación central o folksonomías?
(mi tesis: Open Data cambiará radicalmente elrol y sentido de las bibliotecas)