modelo de enriquecimiento semántico de recursos de información

Post on 22-Mar-2017

30 Views

Category:

Technology

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Modelo de enriquecimiento semántico de recursos de informaciónFrancisco Cifuentes Silva

fcifuentes <at> bcn.cl

14 de marzo de 2017

Motivación

En el contexto de la meta 16.10 de la Agenda 2030 de las Naciones Unidas:

“Asegurar el acceso público a la información y proteger las libertades fundamentales, de conformidad con las legislaciones nacionales y los

acuerdos internacionales”

La extracción de conocimientos desde documentos no estructurados permite ampliar el acceso público a la información.

fcifuentes <at> bcn.cl 2017-03-14 2/29

Qué es Enriquecimiento Semántico de Recursos de Información - ESRI

Ampliar el ámbito de utilización de un RI (recurso de información) desde leíble por humanos hasta legible por máquinas con la idea de identificar en detalle todo aquello que sea de interés para su posterior extracción y consulta

Ejemplos

Para humano

Para máquina

fcifuentes <at> bcn.cl 2017-03-14 3/29

Por qué un modelo de ESRI

Para proveer un marco de referencia

Permite identificar a priori

fcifuentes <at> bcn.cl 2017-03-14 4/29

Un modelo de referencia habilita diversos mecanismos de provisión tecnológica:

Por qué un modelo de ESRI

fcifuentes <at> bcn.cl 2017-03-14 5/29

Permite recoger las mejores prácticas de diversos modelos existentes, como por ejemplo:

Por qué un modelo de ESRI

Schema.org OAI

AkomaNtoso

Modelo ESRI

Estándar documentos legales

Vocabulario metadatos Web

Estándar para gestión de repositorios

fcifuentes <at> bcn.cl 2017-03-14 6/29

Ventajas del enriquecimiento semántico

Marcaje estructural

Nivel deenriquecimientodel recurso de

información

Texto plano

Marcaje semántico inteligente

Metadatos básicos

Manual Semi-automático Automático

Naturaleza del proceso

Contenido no estructurado

Leíble por humano

Contenido estructurado

Leíble por humano y reusable por máquina a nivel de presentación

Contenido semántico

Leíble por humano, reusable e interpretable

por máquina

Fuente: Clarke et al [1]

Contenido de uso específico

Contenido reutilizable

Contenido multi-propósito

fcifuentes <at> bcn.cl 2017-03-14 7/29

¿Qué se puede identificar en un recurso de información?

URIs para entidadesEstructura del documento

Palabras clave

Sentimiento del contenido

Documentos relacionados

Lugares geográficosen el contenido

Entidades presentes

Recurso de información

fcifuentes <at> bcn.cl 2017-03-14 8/29

Por qué es necesario el uso de TI

Observación empírica en procesamiento de marcaje de documentos usando XML en BCN

fcifuentes <at> bcn.cl 2017-03-14 9/29

Conversores

Arquitectura TI de referencia para ESRI

SSL

XML

Modelos de datos / vocabularios

OCR

Speech to text

Análisis semántico

Analizador Sentimiento

Asignación de URI

Reconocedor de entidades

Georeferencia-ción semántica

Marcador estructural

Extractor palabras clave

Relacionador elementos

Editor de recursos

Linked Open Data

Big Data

fcifuentes <at> bcn.cl 2017-03-14 10/29

¿Qué se puede identificar en un recurso de información?

fcifuentes <at> bcn.cl 2017-03-14 11/29

Esquema XML de referencia para marcaje enriquecido

Borrador 1.0

fcifuentes <at> bcn.cl 2017-03-14 12/29

Esquema XML de referencia para marcaje enriquecido

Borrador 1.0

Metadatos del documento

fcifuentes <at> bcn.cl 2017-03-14 13/29

Esquema XML de referencia para marcaje enriquecido

Borrador 1.0

Ficha FRBR

fcifuentes <at> bcn.cl 2017-03-14 14/29

Esquema XML de referencia para marcaje enriquecido

Borrador 1.0

Informacióngenerada

fcifuentes <at> bcn.cl 2017-03-14 15/29

Esquema XML de referencia para marcaje enriquecido

Borrador 1.0

Estructura básica de contenido

fcifuentes <at> bcn.cl 2017-03-14 16/29

Esquema XML de referencia para marcaje enriquecido

Borrador 1.0

Contenido marcado

fcifuentes <at> bcn.cl 2017-03-14 17/29

Esquema XML de referencia para marcaje enriquecido

Borrador 1.0 Metadatos de laSección

fcifuentes <at> bcn.cl 2017-03-14 18/29

Consideraciones a la hora de implementar

Se requiere la implementación previa de una base de datos mínima de entidades (ejemplo, una bd de autoridades).

Las herramientas automáticas generalmente no son 100% precisas, facilitan la labor humana pero no la reemplazan totalmente.

Visión a mediano-largo plazo en la organización: se requiere espacio y tiempo para ver resultados

fcifuentes <at> bcn.cl 2017-03-14 19/29

Extraer la información

Extraer esta información permitirá obtener datos granulares

Un modelo basado contenido semántico permitirá obtener Linked Open Data

Un recurso de información enriquecido es solo un medio

fcifuentes <at> bcn.cl 2017-03-14 20/29

Ejemplos de productos utilizando ESRI

Informes basados en estadística descriptiva: de qué político hablan más los medios, qué lugar se menciona más, hablan cosas positivas o negativas, etc.

Visualizaciones de datos: despliegue de información sobre el mapa, en líneas de tiempo, grafos de relaciones u otros.

Desarrollo de productos o servicios a la medida

fcifuentes <at> bcn.cl 2017-03-14 21/29

Ejemplos de productos utilizando ESRI

Documento enriquecidoMarcaje estructural, de entidades y URIs para cada diario de sesión

fcifuentes <at> bcn.cl 2017-03-14 22/29

Ejemplos de productos utilizando ESRI

http://datos.bcn.cl/global-legislative-hackathon-2016/Hackaton/www/html/master.html

Menciones a una región en sesiones del Congreso Nacional

Utiliza diarios de sesiones del sistema Labor Parlamentaria

fcifuentes <at> bcn.cl 2017-03-14 23/29

Ejemplos de productos utilizando ESRI

Sistema Historia de la LeyBase de datos a partir de intervenciones de parlamentarios en diarios de sesiones

http://www.bcn.cl/historiadelaleyfcifuentes <at> bcn.cl 2017-03-14 24/29

Ejemplos de productos utilizando ESRI

Es posible obtener un dossier con intervenciones de solo un parlamentario asociado a la tramitación de la ley

fcifuentes <at> bcn.cl 2017-03-14 25/29

Ejemplos de productos utilizando ESRI

fcifuentes <at> bcn.cl 2017-03-14 26/29

Dirección de Bibliotecas y Centro Documental del Poder Judicial

Plataforma de minería de texto y extracción de información desde sentencias dictadas por la Excma. Corte Suprema

Ejemplos de productos utilizando ESRI

http://tcqdev.edina.ac.uk/search/commodity/

Análisis de consecuencias históricas del comercio

Se utilizaron documentos de comercio del siglo 19 para realizar análisis y explicar el por qué actual de la economía

Fuente: Hinrichs et al [2]

fcifuentes <at> bcn.cl 2017-03-14 27/29

Referencias

[1] How Smart Is Your Content? Using Semantic Enrichment to Improve Your User Experience and Your Bottom Line - Michael Clarke and Pam Harley - Science Editor 2014, Vol 37, No 2, pag 41

[2] Trading Consequences: A Case Study of Combining Text Mining and Visualization to Facilitate Document Exploration - Uta Hinrichs Beatrice Alex Jim Clifford Andrew Watson Aaron Quigley Ewan Klein Colin M. Coates - Digital Scholarship Humanities. 2015;30(suppl_1):i50-i75. doi:10.1093/llc/fqv046

fcifuentes <at> bcn.cl 2017-03-14 28/29

Fin

fcifuentes <at> bcn.cl 2017-03-14 29/29

top related