integraciÓn de sistemas de informaciÓn
DESCRIPTION
INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN. Curso Doctorado “Sistemas Informáticos Avanzados” 2004/2005. Motivación. Repositorios Documentos. “Reporting”/Análisis. Sitios Web. ventas. ¡¡ Dominio e intereses comunes !!. BD Corporativas. BD Públicas (millones de registros). - PowerPoint PPT PresentationTRANSCRIPT
1
INTEGRACIÓN DE SISTEMAS DE INFORMACIÓN
Curso Doctorado“Sistemas Informáticos Avanzados”
2004/2005
2Integración de Sistemas de Información
RepositoriosDocumentos
Clusters Altas Prestaciones
Servidores de Mapas
Motivación
BD Públicas(millones de registros)
Sitios Web“Reporting”/Análisis
ventas
BD Corporativas
¡¡ Dominio e
intereses comunes
!!
3Integración de Sistemas de Información
Ejemplos
Plataformas integradas para
Bioinformática
Plataformas integradas para Hospitales
Sistemas de Información Geográfica
Integración de museos virtuales (Hypermuseum)
Comercio Electrónico
Etc.
4Integración de Sistemas de Información
¡¡ Dominio e
intereses comunes
!!
RepositoriosDocumentos
Clusters Altas Prestaciones
Servidores de Mapas
Motivación
BD Públicas(millones de registros)
Sitios Web“Reporting”/Análisis
ventas
BD Corporativas
¿Cómo obtener el máximo de información de
todas las componentes?
¿Cómo crear organizaciones
virtuales por encima deellas?
5Integración de Sistemas de Información
RepositoriosDocumentos
Clusters Altas Prestaciones
Servidores de Mapas
Motivación
BD Públicas(millones de registros)
Sitios Web“Reporting”/Análisis
ventas
BD Corporativas
MIDDLEWARE
Cliente/ServidorJDBC-ODBC
HTTPRMI, CORBA
SOAP ...
6Integración de Sistemas de Información
RepositoriosDocumentos
Clusters Altas Prestaciones
Servidores de Mapas
Capas a estudiar
BD Públicas(millones de registros)
Sitios Web “Reporting”/Análisis BD Corporativas
MIDDLEWARE
COMPONENTES INTEGRACIÓN/COORDINACIÓN
ORGANIZACIÓN VIRTUAL
COMPONENTES
7Integración de Sistemas de Información
Organizaciones Virtuales
ORGANIZACIÓN VIRTUAL
WorkflowUnidades
Organizativas
Proveedores Intermediarios Clientes
Perfiles: usuarios, grupos
Políticas globalesde acceso, seguridad y privacidad
8Integración de Sistemas de Información
RepositoriosDocumentos
Clusters Altas Prestaciones
Servidores de Mapas
Capas a estudiar
BD Públicas(millones de registros)
Sitios Web “Reporting”/Análisis BD Corporativas
MIDDLEWARE
COMPONENTES INTEGRACIÓN/COORDINACIÓN
ORGANIZACIÓN VIRTUAL
COMPONENTES
9Integración de Sistemas de Información
Integración/Coordinación
Dimensiones de estudio
en sistemas integrados
Au
ton
om
ía
Esca
labi
lidad
Heterogeneidad
10Integración de Sistemas de Información
Integración/Coordinación
Au
ton
om
ía
Esca
labi
lidad
HeterogeneidadS
em
án
tica
Pla
tafo
rma
Sin
táct
ica
11Integración de Sistemas de Información
Integración/Coordinación
Au
ton
om
ía
Esca
labi
lidad
HeterogeneidadS
em
án
tica
Pla
tafo
rma
Sin
táct
ica
MID
DELW
AR
E
12Integración de Sistemas de Información
Integración/Coordinación
Au
ton
om
ía
Esca
labi
lidad
HeterogeneidadS
em
án
tica
Pla
tafo
rma
Sin
táct
ica
13Integración de Sistemas de Información
Información
XMLOEMtablas objetos ASCII GIF MP3 WAV
datos
estructurados texto raw
RDBMS
ORDBMS
LoreOODBMS MM-SRI
Sistemas BBDD(universales)
ORDBMS(+Extensiones)
Información, Modelos de Datos
semi-estruct.
SGML HTML
documentos
Recuperación de la InformaciónNativas
(Tamino)
14Integración de Sistemas de Información
Poder expresivo de formatos
tablastexto
objetos
XMLSGML
HTML
RECUBRIMIENTOS
15Integración de Sistemas de Información
Conversiones
objetos XML
SGML
HTML
tuplas
texto
DTD oEsquema
DTD oEsquema
¿inferencia?
XHTML
EsquemaEsquema
¿extracción?
16Integración de Sistemas de Información
Ejemplos
(libro#1,isbn:1231, titulo: ’Tesis’, capítulos: ( (cap#3, titulo:’t1’), (cap#4, titulo:’t2’)))
<libro> <isbn>1231</isbn> <titulo>Tesis</titulo> <capitulos> <titulo>t1</titulo> <titulo>t2</titulo> </capitulos></libro>
<html><body> <h1>Libro:</h1> <b> isbn : 1231</b> <b>titulo : Tesis</b> <b>capitulos:<ul> <li>Titulo : t1</i> <li>Titulo : t2</i></b></ul></body></html>
(isbn:1231, titulo:’Tesis’)
Tupla
Objeto
XML
HTML
17Integración de Sistemas de Información
Integración Sintáctica
MODELO DE DATOS COMÚN o CANÓNICO:– Todas las fuentes exportarán sus datos a dicho modelo– Generalmente un modelo conceptual Orientado a
Objetos: UML, Ontologías, etc. MODELO DE ACCESO COMÚN
– Todas las fuentes son consultadas a través de un lenguaje común
– También Orientado a Objetos: OQL o similar RECUBRIDORES
– Dispondremos de mecanismos de traslación tanto de consultas como de respuestas
ESTRUCTURAS DE DATOS GLOBALES– Directorios, Catálogos de datos, esquemas globales,
etc.
18Integración de Sistemas de Información
Integración/Coordinación
Au
ton
om
ía
Esca
labi
lidad
HeterogeneidadS
em
án
tica
Pla
tafo
rma
Sin
táct
ica
19Integración de Sistemas de Información
Integración Semántica
Semántica: qué es y para qué sirve cada dato o información.
Diferentes conceptualizaciones utilizadas por diferentes administradores: relativismo.
Se expresa de muchas formas:– Conflictos de nombres (sinónimos, holónimos,...)– Conflictos de tipos (atributos, restricciones, etc.)– Conflictos de datos (objetos iguales?, valores
contradictorios?, etc.)– Conflicto de usos (diferentes aplicaciones)
20Integración de Sistemas de Información
¿Qué es una ontología?
“Una especificación de una conceptualización” (Gruber’93)
Conceptualización: Expresa todo lo que “existe” en el sistema como conceptos y relaciones entre ellos.
Especificación: Formal, sin ambigüedad
Expresión de un consenso
21Integración de Sistemas de Información
¿Por qué son útiles?
Definen una semántica formal– Permiten el procesamiento de información
por máquinas
Permiten una semántica del mundo real– Establecen una terminología por consenso– Unión entre el contenido procesable por
máquinas y por humanos
22Integración de Sistemas de Información
Ontologías y Metadatos
RECURSOS
BD1::Galería.Autor http://museo.com/cgi? pintor...
Museo1.xml/pintura{id=4}....URIs
BD2::Escultura.obra
Artist Artifact MuseumStringcreates
title
exhibitedfname
lname
Ontología
23Integración de Sistemas de Información
Axiomas lógicosAxiomas estructurales
MetadatosT
érm
inos
Tes
auru
s
Tax
onom
ías
Fra
mes
UM
L
O. D
escr
ipti
vas
O. E
xpre
siva
s
Dublin Core
WordNet
Yahoo!Diccionario Protégé
RDF(S)
OWLLite
OWLDL
OWLFull
Ontologías Ligeras Ontologías pesadas
WEB-based
24Integración de Sistemas de Información
Ejemplo de ontología
Artist Artifact
Painting
Cubist Flemish
Museum
Sculpture
String
Sculptor
Painter
creates
sculpts
paints
title
exhibitedfname
lname
technique
paintsGuernica
Oil on canvastechnique
title
Pablo
Picasso
lname
fname
I1 I2
25Integración de Sistemas de Información
Manejo de metadatos
Ontologías Esquemas– Expresadas en lenguaje natural– No son sistemas de tipos– Permiten describir datos/información de una
manera flexible Descubriendo metadatos:
– Lenguajes específicos: RQL, OWL-QL (solo una ontología)
– Buscadores basados en Recuperación de la Información (son aproximados!!)
26Integración de Sistemas de Información
Schema Matching
¿Cómo asociamos automáticamente los elementos de los esquemas con la ontología o esquema global?
Mezcla, alineamiento o combinación? Numerosas aproximaciones:
– COMA (Do, 2001)– CUPID (Madhavan, 2001)– Artemis (Castano, 2001)– PROMPT-Protégé (Noy, 2001)– S-Match (Giunchiglia, 2004)
27Integración de Sistemas de Información
Schema Matching
Nivel de elemento:– Similitud léxica (e.g. Distancia edición)– Diccionarios (sinónimos, hiperónimos, etc.)– Similitud de tipos (numéricos, tipos
nombrados,...) Nivel de estructura:
– Similitud entre árboles o grafos– Similitud taxonómica– Vecinos próximos
Nivel semántico (escasas propuestas)– Integración de axiomas consistente
28Integración de Sistemas de Información
Integración/Coordinación
Au
ton
om
ía
Esca
labi
lidad
Heterogeneidad
Global-as-view
Local-as-view
Global/Local-as-view
29Integración de Sistemas de Información
Autonomía de componentes
Fuerte relación con heterogeneidad:– A mayor autonomía, más redundancias,
heterogeneidades e inconsistencias.– A mayor autonomía, mayor DINAMICIDAD
del sistema integrado Varios aspectos:
– Autonomía en el diseño– Autonomía en la administración– Autonomía en el procesamiento de
consultas
30Integración de Sistemas de Información
Autonomía de componentes
Principales enfoques (Levy 1999):
Global as view (GAV). El esquema global se crea a partir de los esquema locales.
Local as view (LAV). Los esquemas locales se definen a partir de un esquema global común.
31Integración de Sistemas de Información
Ejemplo GAV
estudiante(id,nombre,grado)sigue(sno,id)profesor(sno,sname,dept#)
ug(id,nombre,grado,sno)tutor(sno,sname)
doctor(id,nombre,titulo)supervisa(sno,id)supervisor(sno,sname,dept)
Sg
S1
S2
GAV:estudiante(id, nombre, grado)={x,y,z | <x,y,z,_>ug <x,_,_,>doctor <x, y, z>doctor z = ‘phd’}
sigue(sno, id)={x, y | <x,_,_,y> ug <x,_,_,>doctor <x,y>supervisa}
profesor(sno, sname, dept)={x, y, z | <x,y>tutor <x,_,_,>supervisor <x,y,z> supervisor}
32Integración de Sistemas de Información
Ejemplo LAV
estudiante(id,nombre,grado)sigue(sno,id)profesor(sno,sname,dept#)
ug(id,nombre,grado,sno)tutor(sno,sname)
doctor(id,nombre,titulo)supervisa(sno,id)supervisor(sno,sname,dept)
Sg
S1
S2
LAV:S1
tutor(sno,sname)={x,y | <x,y,_>profesor <x,z> sigue <z, _, w>estudiante w ‘phd’}...S2
doctor(id, nombre, titulo)={x, y, w | <x,y,z>estudiante z=‘phd’ w=null}...
33Integración de Sistemas de Información
Pros y contras
GAV no soporta la evolución de los esquemas locales, pero facilita la reformulación de consultas globales a los esquemas locales.
En LAV los cambios del esquema local solo afectan a las reglas de ese esquema.
Pero, en LAV los cambios del esquema global afectan a todas las reglas de los esquemas locales!!, y la reformulación de consultas no es una tarea sencilla..
34Integración de Sistemas de Información
Global/Local as View
El esquema global es una ontología consensuada.
Las fuentes de información se encargan de traducir localmente sus datos/consultas según la ontología de referencia.
Los cambios de los esquemas locales deben ser administrados por las componentes.
La ontología de referencia es invariante. ¿Lenguaje de consulta global?
35
Aproximaciones de SS.II integrados
36Integración de Sistemas de Información
BBDD Federadas/Warehouses
Diccionario de DatosEsquema Importado
ESQ.EXP.
ESQ.EXP.
ESQ.EXP.
ESQ.EXP.
ESQUEMA EXTERNO
USUARIOSUSUARIOS
BDD
Esquema Local
USUARIOS
BDD
Esquema Local
USUARIOS
BDD
Esquema Local
USUARIOS
BDD
Esquema Local
USUARIOS
ESQUEMA EXTERNO
H
AS
37Integración de Sistemas de Información
Arquitectura I3-DARPA
Mediador
Intermediario
Aplicación Cliente
Aplicación Cliente
Aplicación Cliente
Mediador
Intermediario
Recubridor Recubridor Recubridor Recubridor
XML RDBMS XML ..
Interfacesde usuario
dinámico
diseñado
Servicios deCoordinación
Servicios deIntegración
Serviciosde conversión
Fuentes
AEH
38Integración de Sistemas de Información
Fauna del I3-DARPA Intemediario (Facilitator): son dinámicos. En tiempo de
ejecución seleccionan las fuentes y las componentes necesarias para el acceso e integración de los datos. Son útiles para el descubrimiento de nuevos recursos y su incorporación a las aplicaciones.
Mediadores (Mediators): codifican las tareas de consolidación de datos, fusión y análisis.
– Descomponen las consultas complejas de las aplicaciones en sub-consultas ajustadas a la semántica y estructura de las fuentes. Planifican estas sub-consultas y las mandan a los recubridores implicados.
– Integran los resultados intermedios y, una vez elaborados, los mandan a la aplicación.
Recubridores (Wrappers): transladan las consultas al lenguaje de interrogación de los servidores, y transforman las respuestas en el formato uniforme utilizado en los mediadores.
39Integración de Sistemas de Información
Otras emergentes: GRID
GRID: distribución transparente de procesos computacionales muy costosos.
Organizaciones Virtuales bien definidas y estrictas.
Middleware muy potente: OGSA (Open Grid Services Arquitecture)
Acceso integrado a datos aún pobre (OGSA-DAI)
Integración semántica aún en fase muy preliminar (GRID semántico) A
EH
40Integración de Sistemas de Información
Otras emergentes: redes P2P
Redes para compartir recursos entre pares. Operaciones básicas:
– Anuncios en la red (broadcast)– Búsqueda de pares afines (o grupos)– Reunión e intercambio par a par
Alta escalabilidad (redes de miles de nodos) Alta autonomía (cada usuario decide qué
desea compartir y con quién) Alta heterogeneidad semántica!!. Redes P2P semánticas:
– RDF como lenguajes para buscar y anunciar– Grupos semánticos basados en sus metadatos ...
AEH
41Integración de Sistemas de Información
¿qué falta?
Au
ton
om
ía
Esca
labi
lidad
HeterogeneidadS
em
án
tica
Pla
tafo
rma
Sin
táct
ica ¿textos e
imágenes?¿miles de
ontologías?¿organizaciones
virtuales dinámicas?¿seguridad,
privacidad, etc.?
Posible tamaño: la web de contenidos
(útiles) actual !!