la web semántica el punto de encuentro de la información roberto garcía gonzález universitat de...

Post on 24-Jan-2016

220 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

La Web Semántica

El punto de encuentrode la información

Roberto García González

Universitat de Lleida, España

http://rhizomik.net/~roberto

Introducción

• Visión propia Web Semántica• Marco intercambio datos• Más que tecnología

Web Semántica

PRINCIPIOSCIC

LO V

IDA IN

FO

Ejemplos prácticos investigación e industria

Contenidos

• Necesidad Semántica• Principios• Ciclo Vida Información

– Fuentes– Procesamiento– Uso– Escenario

• Desarrollos empresariales• Conclusiones y Futuro

Necesidad Semántica

• World Wide Web– Tecnologías: URL, HTTP, HTML– Principios:

• URL referencias global• Información parcial

no integridad a cambio de escalabilidad

• Diseño minimalista

• Marco intercambio documentos

Necesidad Semántica

• Problema: sistema información no formal

• Tendencias Web– Aumento tamaño

dificultad localizar recursos y automatización– Dinamismo

de lugar donde encontrar cosas a sitio donde hacer cosas

Necesidad Semántica

• Web basada en documentos– Datos: texto de las páginas– Metadatos: etiquetas HTML, presentación

• Ordenadores tratamiento sintácticopresentan datos que las personas interpretan

• Dificultad tratamientos “inteligentes”– Ej.: búsquedas limitadas a comparación de

cadenas

?

Necesidad Semántica

Resultados búsqueda sintáctica:

Necesidad Semántica

• Porqué ha sido seleccionada?

Necesidad Semántica

• Aunque nosotros vemos:

“Garbage CollectionSpringfield Garbage Route Phase 2 Garbage collection has been in place for a month in the pilot neighborhood. The town manager is pleased with your work, and wants to roll out collection to the next pilot neighborhood, which happens to be his. He lives on the section of road between the intersections labeled B and E …Music a la Mozart …”

Necesidad Semántica

• El buscador “ve”:

“Garbage Collection …Music…”

Necesidad Semántica

• XML permite cierta automatización– Interfaz de datos: conjunto tags específicos y

su gramática (DTD, XMLSchema)

<musica>

<album formato=“mp3”>

<autor tipo=“grupo”>Garbage</autor>

<titulo>...</titulo>

...

</album>

</musica>

Necesidad Semántica

• Las aplicaciones pasan a “ver” algo como:

<musica> <album formato=“mp3”> <autor tipo=“grupo”></autor> <titulo></titulo> </album></musica>

Necesidad Semántica

• Necesario acuerdo global respecto vocabulario– Formalización a nivel sintáctico,

sin herramientas interoperabilidad semántica

<musica> <album formato=“mp3”> <autor tipo=“grupo”>

...</autor> <titulo>...</titulo> ... </album></musica>

<song> <group>...</group> <title>...</title> <album>...</album> <file>...</file> ...</song>

?

Necesidad Semántica

• Así, si ahora se le presenta:

<song>

<group>Garbage</group>

<title>Version 2.0</title>

<album> Version 2.0 </album>

<file>...</file>

...

</song>

Necesidad Semántica

• La aplicación “ve”:

<>

<></> <></> <></> <>...</> ...

</>

Necesidad Semántica

• Otra forma de plantearse el problema• Empecemos desde el principio:

– Sintaxis formal, demasiados grados libertad

– Formalizar nivel conceptos,que se “escriben” como se quiera

Necesidad Semántica

• Elemento común con iniciativas previas– Redes semánticas, lógicas descriptivas,

sistemas de producción (reglas), KIF,…

• Nueva aportación?• Sistema global

– Representación Conocimiento + WWW

Necesidad Semántica

• Extensión Web actual• Formalización facilita procesamiento por

computador– Cooperación humano-computador (HCI),

asistencia enfrentarse Web– Agentes Web Semántica

• No sólo tecnología, principios …

Contenidos

• Necesidad Semántica• Principios• Ciclo Vida Información

– Fuentes– Procesamiento– Uso– Escenario

• Desarrollos empresariales• Conclusiones y Futuro

Principio: Identificador Universal

• Todo referenciable mediante URIs– documentos, servicios, personas, lugares …

• URI– URL: localizador, de-referenciable.– URN: sólo identificador (p.e. ISBN)

Principio: Modelo Grafo

• Modelo común datos bajo nivel, en el aplicar mapeos.

• Tripleta. Elementos:– Recurso: algo identificable por una URI– Propiedad: relaciones binarias entre recursos– Objeto: URI o literal

• Conjunto tripletas: Grafohttp://recursos.org

/recurso1

http://recursos.org/recurso2

http://recursos.org/propiedad1

Album

Listcontains

Song "..."

"..."title

item_1 title

item_2Song "..."title

MusicGroupauthor

author

release

Principio: Modelo Grafo

• Ejemplo grafo RDF:

• Grafo puede modelar árbol, tabla, …

Principio: Modelo Grafo

• Problema interoperabilidad vocabularios– Definir un conjunto de “etiquetas”– Formalizar su semántica para facilitar

interoperabilidad– Mecanismos para mapear vocabularios

Principio: Diseño Minimalista

• Estandarización mínima• Proporcionar marco global con reglas de

mapeo para interoperabilidad a nivel semántico– Subclase– Disjunto– Clase equivalente– Propiedad equivalente– Mismo individuo– …

?

SongClass

AudioClass

subClassOf

http://music.org/song1

type

titleProperty

attributeProperty

subPropertyOf

LiteralClass

“...”

title

type

domain

range

RDFSchema

RD

F

type

Principio: Diseño Minimalista

• RDFSchema: primitivas tipo OO– tipo– clase, propiedad– subclase, subpropiedad– dominio, rango

Principio: Diseño Minimalista

• Lenguaje Ontología Web (OWL)• Aumentan el detalle del modelo conceptual• Primitivas OWL:

– clases y propiedades equivalentesequivalentClass, equivalentProperty

– clases disjuntasdisjointWith

– propiedades opuestas, transitivas, simétricasinverseOf, TransitiveProperty, SymmetricProperty

– CardinalidadesmaxCardinality, minCardinality

– Propiedad valor únicoFunctionalProperty

– Propiedad valor identificadorInverseFunctionalProperty

Principio: Facilitar Evolución

• Construir sobre lo ya existente

Principio: Información Parcial

• Sacrificar integridad a cambio de escalabilidad– “Cualquiera puede decir cualquier cosa sobre

cualquier cosa”

• Suposición “Mundo Abierto”: no se hacen inferencias que nuevos hechos puedan refutar

0 1 32

maxCardinality 2(n ≤ 2)

minCardinality 3(n ≥ 3)

Nuevos hechos

4

Principio: Red Confianza

• Afirmaciones no “ciertas/falsas”• Nivel de confianza (contexto)

– Redes sociales, caminos de confianza, demostraciones, firma electrónica,…

• Ejemplos:– FOAF: redes sociales– KAOS/REI: lenguajes políticas acceso– Firma digital RDF– Generación demostraciones lógicas

Valor Web Semántica

• “Sitio" donde "conectar" datos diferentes fuentes, marco común

• Modelo de datos grafo• Semántica formal para interoperabilidad

• Valor info exponencial respecto conexiones– Ley de Metcalfe: redes ordenadores, N(N-1)/2– Ley de Reed: redes sociales, 2N-N-1

http://en.wikipedia.org/wiki/Metcalfe’s_law http://en.wikipedia.org/wiki/Reed’s_law

Contenidos

• Necesidad Semántica• Principios• Ciclo Vida Información

– Fuentes– Procesamiento– Uso– Escenario

• Desarrollos empresariales• Conclusiones y Futuro

Ciclo de Vida Información

• Web Semántica: ciclo de vida informaciónFuentes de información

Web Semántica

Consumidoresde conocimiento

BD

XML

WWW

Otra Ontología

Ontología

Agente

Usuario

Fuentes Web Semántica

• Editores ontologías Protege, SWOOP, WebODE,…

• Web existente (HTML), fuente principal:– lenguaje natural– minería semántica de datos – screen scraping– …

• Aprovechar Web dinámica (BBDDHTML)– Modelo Relacional RDF (+ ontología)

Fuentes Web Semántica

• Consulta RDF SQL:– (?p, dc:author, http://pub.org/authors#Bizer)

– SELECT DISTINCT Papers.PaperID, Persons.URI FROM Rel_Person_Paper, Persons, Papers WHERE Rel_Person_Paper.PersonID = Persons.URI AND Papers.PaperID = Rel_Person_Paper.PaperID AND Persons.URI = ‘http://pub.org/authors#Bizer’;

Rel_Person_PaperPersons Papers

Papers.PaperID Persons.URI

5 http://pub.org/authors#Bizer

Subject http://conf.org/CON04/paper#5

Predicate http://purl.org/dc/elements/1.1/creator

Object http://pub.org/authors#Bizer

PaperIDURI

Fuentes Web Semántica

• Fuente también XML (XHTML)• Microformatos: patrones uso elementos

XHTML para codificar datos + presentación– Ej.: hCard (patrón vCard)

Tantek Çelik

• GDDRL (Gleaning Resource Descriptions from Dialects of Languages)

<head profile="http://www.w3.org/2003/g/data-view“>

<link rel="transformation"

href="http://www.w3.org/2000/06/dc-extract/dc-extract.xsl" />

BEGIN:VCARD FN:Tantek Çelik URL:http://tantek.comORG:Technorati END:VCARD

<div class="vcard"><a class="url fn“ href="http://tantek.com">Tantek Çelik</a> <div class="org">Technorati</div></div>

Fuentes Web Semántica

• ReDeFer: semántica implícita en XSD– XSD2OWL: XML Schema Def. OWL

XML Schema OWLelement|attribute rdf:Property element@substitutionGroup rdfs:subPropertyOf

element@type rdfs:rangecomplexType owl:Class…

– XML2RDF: XML RDFmodelar árbol con grafo

+ semántica

– Ejemplos: MPEG-21, MPEG-7, NewsML …

Fuentes Web Semántica

Signal ProcessingAudio

Video

MPEG-7 XML

Content-based metadata

XML2RDF

NewsML Ontology

RDF

RDFContext-based

metadata

MPEG-7 Ontology

XML

Integration

Retrieval

Higher-level metadata

DL Classifier

SWRL Engine

XSD2OWL

XMLSchemas: NewsML, NITF, MPEG-7...

RDFS / OWL: IPTC SRS...

Procesar la Web Semántica

• Semántica explícita: automatización procesos + complejos

• Inferencia lógica:– Demostradores LPO– Razonadores Lógica Descriptiva– Programación lógica– Motores reglas

• Alineación ontologías: – inferencia + estructura + lingüística + …

• Integración de datos• Servicios Web Semánticos

OWL-Full

OWL-DL

DLP

LP

Procesar la Web Semántica

• Implementación OWL-DL Ontología Copyright

Copy ⊒ Pattern' (1)

Pattern' ≡ ∃theme.{content01} (2)

Pattern'' ≡ Pattern' ⊓ (3)( (≥ 3 recipient ) ⊔ (4)

∃recipient.(¬ {peerC, peerD, peerB} ) )(5)

[ a Copy; theme :content02; recipient :peerB ]

Copy

Pattern’

[ a Copy; theme :content01; recipient :peerC, :peerD ]Pattern’’

[ a Copy; theme :content01; recipient :peerB, :peerC, :peerE ]

Uso Web Semántica

• Agentes software• Usuarios humanos

– Aprovechar semántica explícita para ajustar información a necesidades usuario

• Ej.: modelos semánticos para– Usuario: FOAF,…

– Dispositivo: CC/PP,…

Interacción Humano - Computador

Interacción Humano - Web Semántica

usabilidad,accesibilidad,

DCU…

formalización arquitectura información,…

Uso Web Semántica

• Situación: modelo interacción grafo– Poco usable, mapeo directo modelo datos

• Alternativas: interacción centrada usuario– mSpace: navegador poli-jerárquico, consultas

dinámicas interactivas.

Uso Web Semántica

– Tabulator: navegador Web Semántica• interacción genérica árbol• modelos específicos (mapa, calendario,…)

Uso Web Semántica

• Rhizomer: modelo genérico Web “clásica”– Hábito interacción con HTML

• enlaces, tablas, formularios,…

– Web Semántica HTML + Web 2.0

– Abstracción almacén RDF (Sesame, Jena,…)– Servicio web, REST (HTTP):

• GET: consultar• PUT: modificar• POST: crear nuevo• DELETE: borrar

MetadataStore

Rhizomer

Client

REST

Uso Web Semántica

• Rhizomer– Almacén grafo– Navegación fragmentos

Fragment 2

Fragment 1

Fragment 3

Fragment 4

Identified Resource

Anonymous Resource

Literal

Uso Web Semántica

• Cliente AJAX (interacción mejorada)– Consultas: SPARQL (SQL Web Semántica)– Respuestas: fragmentos RDF/XML

• Presentación/Edición: transformación XSL– RDF HTML– RDF HTML Forms

• Aplicar cambios: envío formulario– HTML Form RDF

Uso Web Semántica

<swrc:SoftwareProjectrdf:about="http://rhizomik.net/rhizomer"><rdfs:label>Rhizomer</rdfs:label><swrc:homepage rdf:resource="http://rhizomik.net/content/rhizomer"/><rdf:type

rdf:resource=“&swrc;ResearchProject"/></swrc:SoftwareProject>

ver, RDF2HTML

editar, RDF2HTMLForm

ver, RDF2HTML

añadir

Escenario del Ciclo de Vida

• Mashup Semánticocombinar datos en Web Semántica aportando valor añadido

• Escenario: preparar viaje evento• Fuentes: combinar en modelo común

– Red social amigos (localización lat/long)– Programa evento– Restaurantes (dirección y horarios)

• Procesamiento• Uso: diferentes visualizaciones

Escenario del Ciclo de Vida

• FOAF (Friend of a Friend)• Vocabulario descripción personas (RDF)

– nombre, dirección, foto, amigos,…

Escenario del Ciclo de Vida

• Programa conferencia: en base de datos

<rdfcal:vevent> <rdfcal:dtstart>2006-10-05</rdfcal:dtstart><rdfcal:dtend>2002-10-07</rdfcal:date> <rdfcal:location>Popayán</rdfcal:location> </rdfcal:vevent>

BD

Inicio: 5 de octubre de 2006Fin: 7 de octubre de 2006Lugar: Popayán

HTML

RDF Calendar

Escenario del Ciclo de Vida

Escenario del Ciclo de Vida

Escenario del Ciclo de Vida

• Lista restaurantes: screen scrapping

http://simile.mit.edu/solvent/screencasts/solvent_screencast.swf

<rdf:Description rdf:ID=“http://...”>

<rdfs:label>Parador…</rdfs:label>

<geo:lat>2°32’…</geo:lat>

<geo:long>76°46’…</geo:long>

<tampu:horario>… </tampu:horario>

</rdf:Description>

Escenario del Ciclo de Vida

• Procesamiento– “Los amigos de mis amigos son mis amigos”

foaf:knows – rdf:type owl:TransitiveProperty

– Filtrar amigos cerca Popayán– tampu:horario equivalente a rdfcal:vevent– …

Escenario del Ciclo de Vida

• Uso– Visualizar información de forma integrada– Diferentes vistas según tipo información

lat/long vevent

Contenidos

• Necesidad Semántica• Principios• Ciclo Vida Información

– Fuentes– Procesamiento– Uso– Escenario

• Desarrollos empresariales• Conclusiones y Futuro

Desarrollos Empresariales

• No sólo investigación …• Algunas empresas implicadas:

– HP Labs: Jena y Joseki [1]– IBM: herramientas alphaWorks [2]– Altova: semanticworks [2]– …

[1] http://www.hpl.hp.com/semweb

[2] http://www.alphaworks.ibm.com/topics/semantics

[3] http://www.altova.com/products

TopQuadrant

• TopBraid Composer: editor ontologías – D2RQ para importar BBDD– Integración

http://www.topbraidcomposer.com

Oracle

• Oracle Spatial 10g: soporte nativo RDF– Modelo de datos grafo– Inferencia RDF/S + reglas propias– SQL y API Java

Microsoft Research

• SensorMap: visualizar datos sensores en tiempo real mediante interfaz geográfica.– Temperatura, cámaras, tráfico,…– Descripción sensores ontología OWL

http://atom.research.microsoft.com/sensormap

Profium

• Profium: router información semántica• CMS basado en metadatos semánticos

Cerebra

• Cerebra: herramientas WS (editor ontologías, gestor ontologías,…).– Comprada por WebMethods para Servicios Web

semánticos, integrado en Fabric.

NASA

• Integración de datos internos.• RDF y OWL para:

– Razonamiento datos geoespaciales [1]– Navegar bases de conocimiento complejas– Integrar personas, organizaciones, proyectos y

competencias Proyecto POPS [2]

[1] http://xtech06.usefulinc.com/schedule/paper/147

[2] http://sweet.jpl.nasa.gov

NASA: POPS Project

• Localización de expertos – 75.000 personas)

• Datos dispersos 3 BBDD – personal, competencias y proyectos

• RDF + ontologías para integración• mSpace + navegación redes sociales

Contenidos

• Necesidad Semántica• Principios• Ciclo Vida Información

– Fuentes– Procesamiento– Uso– Escenario

• Desarrollos empresariales• Conclusiones y Futuro

Conclusiones

• Clave: marco común compartir datos– fácil comparar y mezclar datos

• Semántica explícita– Integración de datos– Alineación de ontologías– Razonamiento lógico…

• Uso: Interacción Humano-Web Semántica– Más allá del modelo interacción grafo– Nuevos (y antiguos) modelos interacción

Futuro

• Mucho por hacer …– Fuentes: LN, HTML, XML, BBDD …– Procesamiento: razonadores, reglas,

integración, servicios …– Uso: Web 2.0 + Web Semántica

• En mente los principios– Web Semántica no sólo tecnología

• Palabras clave: mashup semántico [1]

[1] http://www-128.ibm.com/developerworks/edu/x-dw-x-ultimashup1.html

Gracias por su atención

Roberto García González

Universitat de Lleida, España

http://rhizomik.net/~roberto

top related