los metadatos

Post on 10-Aug-2015

73 Views

Category:

Internet

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

LOS METADATOS

José Manuel Erbez

Objetivo: Encontrar información relevante en InternetProblema: Los métodos automáticos para identificar recursos en la red (robots de búsqueda y metabuscadores) recuperan gran cantidad de información pero con poca precisiónCausa: Los documentos de la red carecen de datos suficientes de descripción

Descripciones normalizadas de recursos quesirven para que éstos puedan ser correctamente identificados y recuperados en sistemas de información digital

¿Qué son los metadatos?

Normalizadas: Los datos responden a unas “normas” (que se denominan esquemas de metadatos)

Recursos: Los datos se refieren a recursos, documentos u objetos, que puede ser tanto físicos como lógicos (digitales)

Identificados y recuperados: La finalidad de los metadatos es facilitar la localización de los documentos mediante las diferentes herramientas de recuperación de la información

● Permiten indizar gran cantidad de datos de diferentes tipos sin necesidad de utilizar un gran ancho de banda ya que se indiza la representación del objeto y no el objeto en sí

● Ayudan a describir y recuperar recursos en la red, ya que analizan el contenido del recurso en profundidad

● Comparten e integran recursos de información heterogéneos y localizados en sitios muy diversos

● Pueden controlar el acceso a información restringida

¿Para qué sirven los metadatos?

Metadatos

Metadatos

Metadatos

Repositorio

Metadatos

MetadatosMeta

datos

Repositorio

Metadatos

Metadatos

Recolector

Metadatos

Metadatos

Metadatos

Metadatos

Formalmente, los metadatos adoptan la forma de registros, que presentan secuencias de pares “atributo” - “valor". Los atributos son las características o propiedades genéricas de una clase de objetos que se han de representar, mientras que los valores son propios y distintivos de cada recurso.

Registros de metadatos

Atributos Valores

Nombre o título Sitio web de la Universidad de La Laguna

Autor Universidad de La Laguna

Fecha o fecha de actualización 2013

Localización (URL) http://www.ull.es

Tema Educación Superior, Universidades, Canarias

Conjunto de reglas y elementos que constituyen un modelo de metadatos.

Recogen cuáles son las características más representativas de los objetos que tratan de describir, así como la forma de elaborar los registros de metadatos correspondientes.

Establecen los elementos y orden en que habrán de disponerse éstos, así como el formato de etiquetado o codificado de los metadatos.

Ofrecen recomendaciones de uso de los elementos, de vocabularios especializados o acepciones específicas de términos en determinados dominios

Esquemas de metadatos

Dos maneras: ● Interna (embedded metadata), mediante integración en

el código fuente del recurso. Se suelen generar en el momento de creación de los recursos

Descripción mediante metadatos

Descripción interna

http://dublincore.org/

Descripción interna

● Externa (stand-alone metadata). Se generan con posterioridad○ fichero separado de meta-información ○ campos de una base de datos que mantiene un

enlace al documento descrito; se suele usar para dar acceso a recursos externos

Descripción externa

Tipos de metadatos

Los metadatos pueden generarse por diversos métodos:● Por el propio autor/creador del recurso, con la ayuda de

herramientas creadas “ex profeso” para la generación automática de metadatos

● Por la organización que gestiona los recursos de información (P. ej., editores de bases de datos)

● Por un servicio de información, es decir, creadores externos a través de medios humanos (bibliotecarios, por ejemplo) o automáticos

Generación de metadatos

Capacidad de dos o más sistemas o componentes para intercambiar información y usar la información que han intercambiado

Interoperabilidad

Significa● Capacidad de los sistemas para trabajar entre sí en

tiempo real.● Capacidad del software para trabajar en diferentes

sistemas.● Capacidad de los datos para ser intercambiados entre

diferentes sistemas (portabilidad).

Interoperabilidad

Requiere● Formatos estandarizados de documentos.● Formatos estandarizados de metadatos.● Formatos estandarizados de protocolos de

comunicación y recuperación.● Medios estandarizados de autenticación y seguridad.

Interoperabilidad

Ejemplo de interoperabilidad: correspondencia Dublic Core / MARC

La Interoperabilidad se garantiza por medio del uso de estándares.

Los estándares son documentos que contienen especificaciones técnicas u otros criterios precisos, de modo que aquellos materiales productos, procesos y servicios que los cumplan sean compatibles entre sí.

Interoperabilidad y estándares

Estándares: identificación y localización

DOI (Digital Object Identifier). trata de proporcionar enlaces permanentes a los recursos a los que se refiere

10.5678/ISBN-0-7645-4889-4

URI (Universal Resource Identifier): cadena de caracteres que identifican a un recurso en la red. El más común es el URL (Uniform Resource Locator)

http://www.ull.es/view/institucional/ull/La_Institucion/es

Código de la organización Código específico del recurso

Protocolo de comunicación Nombre de dominio Ruta de la página

Estándares: lenguajes de marcado

HTML (HyperText Markup Language)● trata de facilitar la publicación de contenidos en la web mediante su

codificación con etiquetas (tags)● formato no propietario, independiente de plataformas● falta de capacidad expresiva, orientado a la presentación de los documentos y

no a su contenido● número limitado de etiquetas

XML (eXtensible Markup Language)● ofrece un modelo para representar el contenido informativo de los recursos de

manera que éste sea fácilmente procesable por distintas aplicaciones● permite diferenciar entre la forma de presentación de los documentos, su

estructura y su contenido informativo● número ilimitado de etiquetas

RDF (Resource Description Framework)● sistema para expresar las relaciones entre los datos (sujeto-predicado-objeto)● orientado a representar la semántica implícita en los documentos de manera

que ésta pueda ser procesada y “comprendida” por máquinas● generalmente se basa en XML

Estándares: protocolos

Z39.50● utilizado principalmente en el ámbito bibliotecario● permite realizar búsquedas en distintos catálogos de bibliotecas● permite intercambiar registros

OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting)● permite intercambiar registros de metadatos de publicaciones académicas

entre los distintos repositorios● “harvesting” o “recolección” de registros de metadatos hacia una base de

datos centralizada que actúa como intermediaria entre los repositorios que los contienen y el usuario final.

Estándar Dublin Core (ISO 15836:2003)

Problema:● La creciente cantidad de documentos electrónicos disponibles en la red

imposibilita su tratamiento profesional

Objetivo:● Facilitar que los propios autores dieran un tratamiento documental básico

a los contenidos que publican en la web con mínimas garantías de poder ser recuperados mediante motores de búsqueda

Estándar Dublin Core: características

Sigue cuatro principios:1. Simplicidad de creación y mantenimiento: mínimo número de elementos.2. Interdisciplinariedad. Los elementos se encuentran en documentos de

distintas disciplinas3. Alcance internacional. Existen versiones en varias lenguas.4. Extensibilidad. Se puede adaptar en función de las necesidades

mediante los denominados “perfiles de aplicación”, que posibilitan el uso del esquema DC junto con elementos procedentes de otros esquemas u otros de creación local (denominadas “extensiones”).

Se compone de 15 elementos:● Todos están al mismo nivel jerárquico.● Todos ellos son opcionales y repetibles tantas veces como sea preciso.● El orden en que se presenten es indiferente.

DC Simple y DC Cualificado

DC Simple: ● 15 elementos que sirven para describir un recurso informativo de manera

genérica

DC Cualificado: ● 15 elementos del DC Simple + 7 elementos adicionales + 33

subelementos (cualificadores)● los cualificadores matizan, especifican o precisan (no extienden) el

alcance de los elementos

DC Simple: Elementos

title [Título]: Nombre por el que formalmente se conoce el recurso.

creator [Creador]: Persona o entidad responsable de la creación del recurso o la versión del mismo

de que se trata.

subject [Materia]: Tema de que trata el recurso.

description [Descripción]: Descripción, a texto libre, del contenido del recurso.

publisher [Editor]: Entidad responsable de la publicación del recurso.

contributor [Colaborador]: Persona o entidad con responsabilidad parcial en la creación del

recurso.

date [Fecha]: Fecha de creación o publicación del recurso.

type [Tipo de recurso]: Naturaleza del recurso, en función de su contenido.

format [Formato]: Naturaleza del recurso, en función de sus características técnicas.

DC Simple: Elementos

identifier [Identificador]: Referencia para la identificación inequívoca del recurso (URI, URL, DOI,

etc,)

source [Fuente]: Referencia al identificador del recurso del que se deriva el recurso descrito.

language [Idioma]: Idioma o idiomas empleados en el recurso.

relation [Relación]: Referencia al identificador del recurso o recursos con los que está relacionado

el recurso descrito.

coverage [Cobertura]: Alcance espacial, temporal o jurisdiccional asociado al contenido del

recurso.

rights [Derechos]: Datos relativos al régimen de protección de derechos de autor que afecta al uso

del recurso descrito.

Ventajas y desventajas del uso de metadatos en la Web

En la Web, la recuperación de la información se hace, principalmente, a través de la interrogación a las grandes bases de datos que conforman los buscadores.

Interrogación: proceso mediante el cual un sistema es capaz de hacer coincidir las estrategias debúsqueda introducidas por un usuario con las representaciones de los documentos que la base contiene.

Precisión (relevancia): grado de adecuación de una respuesta documental a una necesidad de información concreta.

Ventajas y desventajas del uso de metadatos en la Web

Ventajas del uso de metadatos en la recuperación de información en la Web:

1. Su capacidad para representar el contenido de los documentos textuales

mejor que los propios documentos y que las representaciones

automáticas que de ellos efectúan los buscadores.

2. La mejora de la precisión de los sistemas de recuperación, posibilitando la

prestación de servicios “inteligentes”.

3. La posibilidad de representar el contenido de documentos no textuales,

tales como imágenes, sonidos o vídeos, que no se prestan fácilmente a

técnicas de indización automática.

Ventajas y desventajas del uso de metadatos en la Web

Inconvenientes:

1. Su creación, eminentemente manual, frente al V3 (Volumen, Variedad y

Volatilidad) que caracteriza la Web, hace que su coste sea elevado.

2. Su aplicación no resulta especialmente eficaz si no es en entornos

delimitados, finitos de la Web.

3. Puede ser objeto de usos malintencionados. Por ejemplo, mediante el uso

de en las metaetiquetas “keywords” o “description” de términos que no se

correponden con el cntenido pero que hacen que el recurso aparezca

bien posicionado.

Metadatos y Web semántica

Web semántica: una extensión de la web actual, en la que se otorga a la

información significado bien definido, mejorando las posibilidades de que los

ordenadores y las personas trabajen de forma cooperativa.

Los recursos web deben estar dotados de anotaciones semánticas

comprensibles para las máquinas (esto es, metadatos) con objeto de

desarrollar servicios sofisticados basados en técnicas automáticas de

recuperación de información.

Herramientas:

● XML

● RDF

● Agentes basados en ontologías (vocabularios)

Metadatos y Web 2.0

Web 2.0: una extensión de la web actual, en la que en la que el soporte

tecnológico tiende a hacerse invisible, facilitando la publicación de contenidos

y la comunicación entre los usuarios.

El usuario pasa a ocupar un primer plano, en el que desempeña un papel

activo

Sistemas sencillos de asignación de metadatos a los recursos por parte de

sus autores

Ventaja: facilidad de uso.

Inconveniente: falta de rigor y precisión.

Aplicaciones en bibliotecas

Una biblioteca es una unidad o sistema de información que presta servicios de

mediación de acceso a la información y los documentos

La biblioteca actual combina los soportes tradicionales con los nuevos

soportes de información

digitales (de contenido textual, imágenes, sonidos, videos, etc.).

La biblioteca ha ido avanzando en el desarrollo de distintos estándares que posibiliten una adecuada gestión de recursos de información para la prestación de dichos servicios.

Aplicaciones en bibliotecas: MODS

MODS (Metadata Object Description Schema)

Esquema XML para la descripción de recursos, a medio camino entre el MARC 21 y el Dublin Core.● Es más sofisticado y completo que DC.● No es tan complejo como el formato MARC.● Presenta un mayor grado de compatibilidad con MARC que cualquier otro esquema, por lo

que la pérdida de datos entre conversiones es menor.● Es más amigable que MARCXML

Se emplea:● Como extensión de METS.● Para generar descripciones de recursos que posibiliten su recolección (OAI-PMH).● Como formato admitido por el protocolo SRU (Search/Retrieval via URL,para la

interoperabilidad de datos de registros y su recuperación en sistemas distribuidos.● Como elemento de convergencia entre descripciones MARC y otras descripciones en lenguaje

XML.● Para la descripción de recursos en XML de manera más sencilla que con MARC.● Para generar registros de metadatos que deban ser empaquetados junto a recursos

electrónicos.

La conversión de registros de metadatos de MARC a MODS no se hace de forma directa, sino que se ha de realizar previamente una conversión de MARC a MARCXML y de ahí a MODS.

Aplicaciones en bibliotecas: MODS

Aplicaciones en bibliotecas: METS

METS (Metadata Encoding and Transmission Standard)

Especificación para la descripción, gestión e intercambio de todo tipo de recursos que puedan ser albergados en repositorios y bibliotecas digitales.

Componentes:

● Encabezamiento (metsHdr). Información relativa a la creación del documento: nombre del archivo, fecha de creación y modificación del mismo, nombre del responsable, etc.

● Metadatos descriptivos (dmdSec). Tipo de material, idioma, etc.● Metadatos administrativos (amdSec). Dispone de cuatro subcomponentes: metadatos

técnicos, derechos de acceso y uso, origen, y metadatos de conservación.● Directorio de archivos (fileSec). Registro de todos los ficheros que componen el recurso.● Mapa estructural (structMap). Especifica las relaciones jerárquicas y estructurales entre los

ficheros que componen el recurso● Enlaces estructurales (structLink). Recoge los hiperenlaces entre los ficheros indicados en

el mapa estructural.● Comportamiento (behaviorSec). Por ejemplo, tipo de aplicación necesaria para utilizar el

recurso

Aplicaciones en bibliotecas: PREMIS

PREMIS (Preservation Metadata: Implementation Strategies)

Estándar para almacenar la información necesaria para la conservación adecuada de un objeto digital

Muchas gracias

top related