buscadores no textuales
DESCRIPTION
Práctica sobre buscadores no textualesTRANSCRIPT
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
Sistemas de recuperación de
documentos no textuales CURSO 2010
FACULTAD DE DOCUMENTACIÓN ASIGNATURA: SISTEMAS AVANZADOS DE RECUPERACIÓN DE LA
INFORMACIÓN PROFESOR: JOSÉ RAÚL FERNÁNDEZ DEL CASTILLO DIÉZ
ALUMNO: ROBERTO CARLOS ÁLVARE DELGADO AÑO: 2009/2010
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
ÍNDICE
I. INTRODUCCIÓN
II. METODOLOGÍA
III. ACTUALIDAD EN LA INDIZACIÓN Y RECUPERACIÓN DE
DOCUMENTOS AUDIOVISUALES
IV. LO MÁS RECIENTE
V. CONCLUSIONES
VI. BIBLIOGRAFÍA
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
Sistemas de recuperación de documentos no textuales INTRODUCCIÓN
El propósito del siguiente trabajo es el de tratar de determinar brevemente, a
través de un acercamiento a la materia, el estado de la cuestión y las expectativas de
proyección futura, en torno a la indización1 y recuperación automatizada de documentos
no textuales, esencialmente los documentos visuales y sonoros.
La situación actual de crecimiento exponencial en la cantidad de documentos
visuales y sonoros viene marcada especialmente por dos sucesos. La aparición de una
tecnología digital avanzada y accesible que ha “democratizado” y multiplicado de
manera inimaginable el uso del documento visual y sonoro. Y la aparición de
plataformas de intercambio, promovedoras del uso de estos documentos en la Web. Un
medio que evoluciona y crece “incontrolablemente” potenciando las necesidades de
ordenar e indizar sus contenidos para su posible recuperación y uso.
Con motivo de poner en relevancia datos que clarifiquen y den muestra de estos
sucesos expuestos, se ofrecen los siguientes datos. Según un informe de la consultora
internacional IDC y el fabricante de sistemas de almacenamiento EMC2, la cantidad de
información digitalizada sólo en 2006 fue 3 millones de veces mayor que la de todos los
libros escritos, la cantidad de información digital creada, capturada y replicada fue de
161 billones de gigabytes, aproximadamente el equivalente a toda la información
generada en los 5000 años anteriores por el hombre, y todo esto sólo en un año.
En cuanto al vídeo, portales como YouTube aumentan 65.000 vídeos nuevos al
día, otros tipos de vídeo en red, como las conexiones WebCam crecen un 21% y existen
1 Vale la pena mencionar aquí la distinción existente entre el proceso de indexación (generación de los
índices informáticos de un campo o de un fichero con sus estructuras apropiadas como diferentes tipos de
árboles) y la indización automática (asignación automática de términos para la representación del
contenido). 2 http://www.emc.com/collateral/analyst-reports/expanding-digital-idc-white-paper.pdf (20/02/2010)
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
datos que hablan de un aumento del 200% del vídeo empresarial (tráfico IP) de manera
anual.
En 2007 el número de páginas Web aumentó un 48%, 50 millones de sitios Web
nuevos en un solo año, es decir unos 155 millones de páginas Web en total donde los
blogs son los que más crecieron en ese año siendo los tres máximos proveedores
MySpace, Live Spaces y Blogger que registraron la mitad del total de nuevos registros
del año 2007.
De todas estas cifras y de muchas otras, podemos percatarnos de la cantidad de
información que hay en la red y las dimensiones que han alcanzado los contenidos
exclusivamente no textuales. El vídeo, la fotografía, los archivos sonoros, tanto de
música como conversaciones son los documentos que más crecimiento han registrado y
más se proyectan en la actualidad. Youtube, Picassa, Flickr, redes sociales, como
Facebook, Tuenti, Twiter, empresas de intercambio de música como Aplple con Itunes
y muchos otros… Son lugares en red donde la cantidad de información no textual, han
adquirido vital importancia. Sin olvidar los grandes bancos sonoros, de imágenes y
vídeo de los medios de comunicación3 y empresas especializadas cuyos fondos se
multiplican y crecen enormemente gracias, en buena parte, a las posibilidades del
documento digital (facilidad para su multiplicación, reproducción, conservación y unos
costes más asumibles).
A esta explosión de los contenidos digitales, hay que añadirles el abaratamiento
de los costes de producción digital y la rápida adopción de estos sistemas de manera
asequible por un público cada vez más elevado. Desde las más sofisticadas técnicas de
creación digital, hasta las cada vez más amplia gama de servicios ofrecidos desde por
ejemplo, un teléfono móvil, capaz de ser grabadora, cámara de fotos, de video,
reproductor de música, video consola… por un coste casi irrisorio, el uso del documento
no textual, es decir el visual y sonoro, se ha ido introduciendo en nuestra cultura de
manera muy arraigada y permanente.
3 AUMENTE, Jerome; ARQUERO, Rosario (traducción y adaptación): “Bibliotecas, periodismo y Mass Media en la era digital de Internet; retos y transformaciones”. F. Ciencias de la Información, Universidad Complutense de Madrid, 1999. ISSN:0210-4210
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
Sin embargo, actualmente las únicas técnicas avanzadas de recuperación de estos
documentos pasan por la indización textual y manual de los contenidos de estos
formatos. Es claro que una indización automática e inteligente de los contenidos de
estos documentos es un objetivo hacia el que se dirigen muchas miradas en el ámbito de
la investigación en la recuperación de este tipo de información, el poder alcanzar un
sistema que permitiera indizar de forma automática y eficaz para una posterior
recuperación exhaustiva y precisa de la información, todo el contenido visual y sonoro
generado por los millones de usuarios en la red o los cientos de miles de profesionales
dedicados al uso de este tipo de documentos, sería una autentica revolución.
En el siguiente trabajo se expondrán algunas de las técnicas actuales de
indización de estos contenidos y posteriormente se analizará las posibilidades de alguna
de las nuevas técnicas que pretenden asentar el futuro de los sistemas avanzados de
recuperación de documentos visuales y sonoros.
METODOLOGÍA
Como se ha expuesto en la introducción de este trabajo el objetivo principal de
éste es el de ofrecer una visión generalista de la situación actual en indización y
recuperación de documentos no textuales, además de ofrecer algunas líneas sobre las
proyecciones de futuro en esta materia.
Otro de los requisitos de este trabajo es el de ser especialmente actuales en los
contenidos, (“trabajo de actualidad”) ese es el motivo por el que los métodos de
búsqueda de información para su realización han sido principalmente los ofrecidos a
través de la red.
Para el establecimiento de esta información se han realizado búsquedas en dos
sentidos, generalistas, a través del acceso avanzado a los buscadores más populares y
búsquedas precisas, lanzadas contra bases de datos y Webs especializadas en contenidos
científicos (artículos, tesis, monografías). Estas búsquedas se han realizado tanto en
castellano como en inglés y se ha tratado de respetar el mayor contenido bibliográfico
posible, a pesar de no contar con el texto completo en línea (pero sí algún fragmento
interesante).
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
Por otro lado, también se ha manejado una bibliografía más estable,
especialmente para el asentamiento de los conceptos básicos en los que se centra el
contenido del trabajo.
Por ultimo añadir la relevancia de algunos aspectos destacados en los medios de
comunicación y el uso tanto de blogs, como de foros y webs, para rastrear información
pertinente al trabajo. Hecho que especialmente enriquece el enfoque de actualidad que
se le ha primado contener.
ACTUALIDAD EN LA INDIZACIÓN Y RECUPERACIÓN DE DOCUMENTOS
AUDIOVISUALES
En primer lugar cabe destacar que a pesar de que existen diferencias destacables
entre los documentos visuales (fotografía) y los sonoros en su construcción y
tratamiento digital. En el caso del vídeo, donde se relacionan tanto la imagen como el
sonido, el tratamiento de ambas partes debe ser procesado para su correcta recuperación.
Existen técnicas para procesar la imagen fija que aun están en proceso de desarrollo y
perfeccionamiento (basados en el histograma de la imagen) y técnicas de
reconocimiento de archivos sonoros (basadas en las ondas sonoras). La imagen y el
sonido se pueden estudiar por separado para conseguir un método propicio para su
recuperación, sin embargo, la unión de estas técnicas futuras determinarán la base para
la recuperación de los documentos audiovisuales (imagen + audio) por lo que a pesar de
ser documentos diferentes, sus estudios e investigaciones en este campo viajan
paralelamente.
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
(Ondas de audio con idéntico espectro)
Actualmente son diversas las técnicas que se utilizan para la indización o
indexación de contenidos audiovisuales. Pero principalmente todas se basan en un
mismo método, el de la indexación textual (humana).
« Tanto desde un punto de vista semántico como técnico (formatos de
representación y métodos de procesamiento) la indización automática de
imágenes es mucho más complicada que la de texto. Además, el vídeo —o
imagen en movimiento— añade más elementos a esa complejidad. Todo esto
hace que los resultados en el campo de la indización automática de vídeo, a
pesar de los avances, estén aún lejos de los conseguidos con texto.4 »
Los métodos de indización automática de texto toman como unidad mínima para
sus procesos, la palabra (generalmente), que es extraída del texto mediante unos
procesos de selección y normalización que permitirán la indización y recuperación de la
información que contienen. Sin embargo, con los documentos audiovisuales, nos
encontramos ante un problema básico, la determinación de esa unidad mínima de
significado, que nos permita realizar el proceso automatizado de ordenación y
recuperación.
Por ejemplo, si intentamos indizar la oración, “Hoy en día, la indización
automatizada de imágenes es muy complicada” el método automático comenzaría por
“eliminar” las palabras bacías (podría variar dependiendo del método) “en, la, de, muy”
4 NAVARRETE, Toni y BLAT, Josep: “Indización automática de vídeo” El profesional de la Información, v. 12, n. 6, noviembre-diciembre 2003.
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
y otorgaría como entradas otras como “indización, automatizada, imágenes…” Al hacer
una búsqueda por la palabra “indización” recuperaría dicha palabra (tras una secuencia
de acciones. Este proceso puede ser más complicado, pero en definitiva arrojaría una
solución similar, pudiendo variar la precisión o la exhaustividad dependiendo del
método empleado).
Sin embargo ¿qué sucede con las imágenes? Hoy por hoy el método manual es
el que prevalece, pueden ser mediante la asignación de descriptores a las imágenes e
introducirlos en el índice. O mediante la redacción de una descripción textual libre, que
posteriormente recibirá un tratamiento similar al descrito anteriormente.
Igualmente se hace necesario el uso del texto y de un proceso manual previo.
Pero ¿qué ocurre con los métodos automatizados, de recuperación de imágenes? Estos
métodos no pueden seguir el mismo enfoque, si no que se centran (entre otros) en el
denominado paradigma de recuperación de imágenes basado en el contenido, que no
procesan la consulta a través de palabras (se desligan del descriptor), sino que lo hacen
mediante muestras o bocetos.
Recuperación basada en el contenido, ¿en qué consiste? Básicamente en la
extracción de un conjunto de parámetros de la imagen que la puedan identificar de
manera unívoca. En este caso, parámetro de bajo nivel, relacionados con el color, la
forma y la estructura. Este cambio de enfoque, como ya hemos comentado, implica un
cambio en la concepción determinada con respecto al proceso de recuperación. La
consulta típica, dejará de ser un proceso textual, para pasar a convertirse en un proceso
de comparación entre imágenes o bocetos, que servirán de base para contrastar colores,
formas y texturas.
Para poder visualizar de forma más precisa este proceso, se muestra a
continuación una herramienta, elaborada por IBM para el Museo del Hermitage en San
Petersburgo, que se basa en este paradigma de recuperación de imágenes basado en el
contenido, es el Qbic5 (Query by image content) versión CueVideo:
5 FLICKNER, M.; SAWHNEY, H.; NIBLACK, W.; ASHLEY Huang, Q.; Dom, B. y otros “Query by
image content: the Qbic system”. En: Ieee computer, 1995, septiembre, pp. 23-31.
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
http://www.hermitagemuseum.org
Métodos de búsqueda: El museo permite la realización de búsquedas entre sus fondos de muy
diversas maneras, principalmente a través del método tradicional, el textual mediante palabras
claves, índices, descriptores, tesauro y diccionario de autoridades, pero añade entre sus
búsquedas la opción del Qbic.
Al acceder a este buscador podemos apreciar detenidamente sus herramientas
para la recuperación y comprobar sus resultados. Para poder realizar una búsqueda más
óptima en todo momento es posible cumplimentarla con otros mecanismos más
convencionales de búsqueda.
En todo momento se ofrece mucha información a cerca del uso y el método de
empleo de la herramienta, así como incluso una demo de su funcionamiento. Y nos
permite seleccionar entre una búsqueda basada simplemente en el color, u otra más
precisa con color y formas.
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
Se realiza una búsqueda de ejemplo en el modo LAYOUT:
Búsqueda basada en la composición de color como unidad mínima para la recuperación
Búsqueda basada en las formas y en la disposición de los elementos, además de en el color
A través de sus herramientas, se crea una forma que intente recordar a un retrato con unos colores determinados, fondo amarillo, cuerpo rojo y cabeza naranja. Realizamos la búsqueda:
Estos son algunos de los resultados que arrojan la búsqueda, donde podemos observar, que existen tres retratos que se acercan mucho al objetivo de la búsqueda. Mientras que el resto de las opciones, manejan una tonalidad parecida y cierta similitud formal, aunque no la esperada.
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
Como hemos podido comprobar en el ejemplo, los resultados obtenidos durante
la recuperación de la información visual pueden ser un poco ambiguos o discutibles, sin
embargo, suponen un pequeño avance hacia la consecución de un método más complejo
en el camino de la creación de un sistema automatizado de recuperación visual.
Otros conocidos sistemas que se basan en este método son Swim, de la Nacional
University of Singapore, VideoQ6 y VisualSeek de Columbia University, todos ellos con
soporte también para vídeo
http://www.ctr.columbia.edu/VideoQ/
http://www.ctr.columbia.edu/VisualSEEk/7
En cuanto al vídeo, el proceso sigue una actividad similar al de la imagen
estática, pero con una serie de matices relacionados con las peculiaridades propias de
este formato. El vídeo no deja de ser una continuidad de imágenes estáticas que en una
sucesión constante y determinada crean la ilusión del movimiento, al que le acompaña
generalmente una banda de audio.
En lo que concierne a la imagen, es preciso que durante el proceso de
identificación automatizada, se determine una unidad mínima, que en este caso no será
una imagen simple, si no que se tratará de un segmento gobernado por un keyframe o
fotograma clave base de ese segmento8.
El vídeo se divide en esos segmentos (proceso de segmentación), a través de la
luminancia y el color del fotograma, es posible determinar cuando hay un cambio
brusco de la escena, (análisis del histograma) y por lo tanto un cambio de segmento. Sin
embargo este proceso puede encerrar diversos problemas desencadenados por los
métodos de edición, creando segmentos que realmente se encuentran vacíos de
significado (por ejemplo un zoom, movimientos de cámara, panorámicas o un flash).
6 CHANG, S.; CHEN, W.; MENG, H.; SUNDARAM, H.; ZHONG, D. “VideoQ: an automated content based video search system using visual cues”. En: ACM international conference on multimedia, 1997, pp. 313-324. 7http://www.ee.columbia.edu/ln/dvmm/researchProjects/MultimediaIndexing/VisualSEEk/VisualSEEk.htm 8 Hay que tener en cuenta que existen otros modelos de segmentación que no toman el plano como base. (ver OTROS METODOS DE SEGMENTACIÓN notas anexas)
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
Este problema se puede afinar determinando duraciones mínimas para cada segmento9 o
analizando fragmentos de la imagen y sus movimientos.
Una vez determinados los segmentos se seleccionan uno ovarios keyframes que
serán los representantes de ese segmento, hay muchos métodos para determinarlos, pero
los más lógico suele ser el que mejor represente al total del segmento (cuyo histograma
sea más cercano a la media). Serán estos los que se indizarán siguiendo un método
similar al descrito con las imágenes estáticas y posteriormente servirán como base para
la recuperación de información.
«La mayoría de los sistemas utilizan estos fotogramas clave no
sólo como base para la indización sino también como forma de presentar
los resultados de las búsquedas. Algunos también los usan agrupados en
varios niveles para generar una navegación jerárquica del vídeo, como el
caso de Swim o Físchlár entre otros. En este sentido, es también
interesante la interfaz de visualización rápida de un vídeo basada en
fotogramas clave de Mbase12, del Fuji Xerox Palo Alto Laboratory. »10
Mediante la combinación de determinados parámetros centrados en el color, la
forma y la textura, se realizará la indización que permitirá las posteriores
recuperaciones. El color se analiza atendiendo a su histograma elemento que tolera con
bastante flexibilidad los cambios de cámara, rotación, escalado… mientras que las
formas se presentan como un indicador más rígido. La forma se centra en dos
parámetros la región y el contorno, un método frecuente para representarlos es hacerlo a
partir de los ángulos que presentan, consiguiendo una mayor independencia de
traslación, rotación y escalado; y su calculo no es demasiado complejo. También son
posibles las relaciones espaciales entre estas formas y sus variaciones a lo largo de la
reproducción del segmento. En cuanto a la textura algunos modelos se basan en la
frecuencia de repetición, la orientación o el contraste.
9 LEE, H.; SMEANTON, A. F.; O'TOOLE, C.; MURPHY, N. y otros “The Físchlár digital video recording, analysis, and browsing system”. En: Riao: content-based multimedia information access, 2000. 10 NAVARRETE, Toni y BLAT, Josep: “Indización automática de vídeo” El profesional de la información, v. 12, n. 6, noviembre-diciembre 2003.
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
Para finalizar hay que añadir que algunos sistemas incluyen también cierta
información sobre el movimiento en el segmento, tanto de las regiones (objetos) como
los posibles movimientos de cámara.
Como es francamente fácil de deducir, estos procedimientos de indización y
recuperación de información en la práctica convencional no tienen hoy en día una
usabilidad destacable dentro de los usuarios más generalizados, sin embargo, si se
emplean para estas u otras técnicas más sofisticadas, para otros usos como por ejemplo
el reconocimiento automático de matrículas de coches, reconocimiento facial (en este
aspecto se ha invertido mucho en investigación), y otros sistemas para usos parecidos.
Cuanto más normalizada esté la imagen más sencillo es de sacar partido a estas
técnicas11.
Además de estas técnicas para el reconocimiento de imágenes existen otras que
intentan emplear un mecanismo basado en una información suplementaria adjunta, que
intenten abrir las posibilidades de la búsqueda de este tipo de documentos a medios más
generalistas como Internet. Es imposible plantearse el ir etiquetando todo el contenido
existente en la red, por lo que se está planteando el analizar toda la información que
suele ir “adjunta” al la imagen y extraer de ahí la semántica necesaria para la indización
y recuperación de los documentos.
¿De qué se está hablando? De utilizar como fuentes para la indización el texto
que aparece en el nombre del vídeo o la fotografía, en el código HTML donde aparezca
insertado, el directorio donde se almacene el documento, las carátulas de vídeo, etcétera
(además de las etiquetas y descriptores propios del vídeo que han podido introducirse).
Por ejemplo Google o Webseek utilizan, entre otras, versiones similares a las de esta
técnica de analizar la información adjunta para recuperar estos formatos. En otras
ocasiones se utiliza el texto para el que se creó esas imágenes, como en el caso de las
noticias o películas,12 el propio audio del vídeo,13 y/o el texto impreso en imágenes.14
11 Un ejemplo sería el sistema de Wang (et al.) que a partir de una base de datos de 2000 especies de peces logra identificar su aparición en vídeos, tolerando incluso cambios de angulo etc. Wang, C. H.; Lin, H. C.; Shih, C. C.; Tyan, H. R.; Lin, C. F.; Mark Liao, H. Y. “Querying image database by video content”. En: Advances in multimedia information processing, PCM 2002. Third Ieee Pacific rim conference on multimedia, 2002. 12 KIM, Y. B.; SHIBATA, M. “Content-based video indexing and retrieval– a natural language approach”. En: Ieice transactions on information and systems, 1996, E79-D (6), pp. 695-705.
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
En definitiva, vuelve hacerse palpable la necesidad de datos que no sean los
meramente correspondientes a la propia imagen, para poder indizar de manera
apropiada el contenido de los documentos no textuales. Siendo de nuevo determinantes
todo tipo de datos textuales que acompañen al contenido, ya sean datos normalizados o
preparados a priori o los propios de la gestión y creación del archivo.
LO MÁS RECIENTE
Estas técnicas expuestas son los caminos más recientes y actuales en los que se
llevan años trabajando para la indización automática de imágenes, sin embargo, siguen
apareciendo nuevas “ideas” basadas en las anteriores para lograr estos objetivos. Un
ejemplo son los recientes estudios publicados en estos últimos años por el Investigador
Antonio Torralba, y su grupo de investigación en el MIT Computer Science And
Artificial Intelligence Laboratory, sobre el reconocimiento de imágenes.
Sus investigaciones se basan en la idea de que es necesaria la máxima
simplificación de las imágenes para poder reducir enormemente tanto las necesidades
técnicas (por el peso en bytes de las imágenes, sobre todo en vídeo) como el tratamiento
y uso de éstas. Si tan sólo con unos pocos píxeles de información, el ser humano, es
capaz de reconocer una imagen, es posible reducir las imágenes hasta ese mínimo, y así
optimizar los sistemas de reconocimiento.
Según, Torralba, conociendo cuál es la menor cantidad de información óptima
necesaria, que es posible obtener de una imagen, para determinar su contenido, es el
camino idóneo para alcanzar un sistema de catalogación de imágenes on line, capaz de
indizar automáticamente millones de imágenes en Internet.
“Estamos tratando de encontrar la representación más corta para las
imágenes, de forma que si dos imágenes tienen una secuencia similar (de
números), serán probablemente similares”15
13 http://www.almaden.ibm.com/projects/cuevideo.shtml 14 http://www.informedia.cs.cmu.edu (una de las mayores videotecas digitales del mundo) 15 http://web.mit.edu/newsoffice/2008/csail-tt0521.html (explicación de sus objetivos)
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
Consiguiendo esto, si una imagen ha sido etiquetada de forma manual, otras
imágenes parecidas podrán “heredar” de forma correcta esa descripción.
“Con grandes cantidades de imágenes, incluso los algoritmos más
simples son capaces de funcionar bastante bien a la hora de identificar
imágenes”16
Si nos fijamos en las imágenes, las zonas rodeadas por un círculo, son
prácticamente iguales, sin embargo, en una se muestra una botella, en otra una persona,
un móvil y un zapato, con ello, se pretende llamar la atención sobre el hecho de quel
contexto afecta enormemente al reconocimiento del objeto.
“Somos capaces de reconocer las imágenes incluso con una resolución
muy pobre, porque conocemos mucho sobre las imágenes […] La
cantidad de información que necesitamos para identificar muchísimas
imágenes ronda entorno a los 32x32 píxels de resolución”17
Utilizando el sistema de codificación que proponen estos investigadores, el
objetivo principal sería el crear una enorme base de datos, en la que se representasen
millones de imágenes. Este grupo, ha sido capaz de representar 12,9 millones de
imágenes extraídas de Internet con sólo 600 megabytes. Esta cantidad de memoria tan
pequeña, hace posible su uso como referencias para comparar e identificar otras
fotografías que vayan entrando automáticamente, de manera más efectiva y eficaz.
16 http://web.mit.edu/newsoffice/2008/csail-tt0521.html 17 Ibídem
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
Siguiendo con esta dinámica de trabajo, es destacable, la creación de una
herramienta de etiquetado de imágenes bajo esta filosofía, que es posible de ser utilizada
de manera colaborativa. Mediante esta herramienta, podemos marcar, identificar y en
definitiva etiquetar, fotografías, pasando a alimentar la enorme base de datos que
pretende convertirse en el catalogo potenciador de las catalogaciones automatizadas.
Esta herramienta se llama LabelMe18, a través, de esta herramienta on line, se
puede participar el en proyecto de etiquetar y reconocer las formas y los contenidos de
la imágenes, para alimentar así la fortaleza de la base de datos.
18 http://labelme.csail.mit.edu/
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
Se trata de una base de datos usada para el entrenamiento y evaluación del
sistema de reconocimiento visual automatizado. Con multitud de diferentes imágenes
compuestas por escenas y objetos diferentes, que han servido para alimentar de datos a
este sistema de reconocimiento.19
En definitiva mediante una serie de actuaciones de reconocimiento basadas en
logaritmos y funciones matemáticas, que se han centrado en la identificación de
contenidos, en resoluciones muy pequeñas, pero capaces de permitir la identificación
eficaz, han sido capaces de construir una enorme base de datos de categorías de objetos
y escenas, que han servido y servirán para identificar de manera automatizada los
contenidos. Sin olvidar que han tenido y tendrán que ser motivadas y completadas con
multitud de referencias y etiquetas de contenidos “manuales”, que servirán de herencia
para las posteriores identificaciones de contenido similar.
19 http://people.csail.mit.edu/torralba/publications/labelmeApplications.pdf
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
Posteriormente y tras establecer una serie de jerarquías contextuales de los
modelos posicionales y de los objetos, se hará todavía más factible la identificación
efectiva de imágenes de manera automatizada20
Así se pretende hacer posible una identificación eficaz de los objetos,
resumiendo mucho el proceso, basándose en imágenes con un tamaño mínimo para ser
reconocibles, se convierten en modelos más operativos. Se identifican y marcan los
contenidos con etiquetas, este proceso se enriquece al máximo posible, incluso
elaborando herramientas colaborativas. De esta enorme base de datos se crean
protocolos de actuación frente a contenidos nuevos, basándose no sólo en el objeto, si
no que también en los contextos y las jerarquías razonables. De esta manera, se pretende
seguir alimentando estas bases de datos.
20 http://web.mit.edu/~myungjin/www/HContext.html
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
Por el contrario, pueden aparecer objetos que no estén contextualizados en sus
escenas, esto de momento puede suponer un problema y no puede ser detectado a priori,
pero si puede “entrenar se al sistema para detectarlo”.
Todos este mecanismo ideado por este grupo de investigación, se proyecta de
manera útil, tanto para imagen fija, como para la imagen en movimiento, es decir, el
vídeo. E incluso existen las herramientas necesarias para colaborar con este tipo de
documento. LabelMe, para vídeo.
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
CONCLUSIONES
Las imágenes (digitales) se componen de un número determinado de píxeles,
que contienen la información del color de su posición, la unión conjunta de todos estos
píxeles crean la “ilusión de la imagen”, en el caso del audio, hablamos de una onda
analógica que tras un muestreo se convierte en una onda digital que permite su posterior
reproducción “casi” sin pérdida de información. El documento no textual digital, por lo
tanto, está formado por un gran número de datos, que si bien, puede parecer muy
elevado, “simplifican” el objeto analógico, permitiendo el poder trabajar con este tipo
de documentos de manera operativa en el “mundo digital”.
Por lo tanto, actualmente nos encontramos con un volumen enorme de formatos
no textuales circulando por la red, que inundan de datos la red, dando lugar a una gran
cantidad de información a la que sólo se puede acceder de manera efectiva, a través, de
los metadatos que forman parte de estos archivos, y que permiten identificar su
contenido.
En el caso de los archivos visuales y sonoros, se ha trabajado y se sigue
trabajando en la actualidad, por encontrar mecanismos efectivos de indización exitosa
que permitan una posterior recuperación eficaz.
El método más extendido y efectivo que existe actualmente es el basado en el
texto, es decir, el de dotar de etiquetas, descriptores, palabras clave, en definitiva el de
describir el contenido de los documentos no textuales, para a través de esta información
textual, realizar la indexación y posterior recuperación del documento. Sin embargo este
sistema de recuperación, al depender de un proceso manual previo, ralentiza
enormemente la ejecución para la obtención de resultados positivos dentro de un mar de
documentos, como puede ser la red.
Otro de los métodos que destaca son los que han tratado de recuperar la máxima
información “periférica” adjunta a los archivos y a su contexto, desde el nombre del
archivo, hasta el texto que se haya a su alrededor, el contexto, estos datos permiten
intuir el contenido para poder indexarlo de manera apropiada. Un ejemplo de esta
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
técnica puede ser el método de recuperación de imágenes de Google, cuyos resultados
no siempre son los esperados, pero que cumple sus expectativas de manera optima.
Por otro lado, y como se ha explicado a lo largo del trabajo, otras técnicas de
recuperación de imágenes han tratado de cambiar el concepto de búsqueda, y el
concepto de indización de los contenidos. Se tratan de métodos como el descrito por
Qbic, en el que la importancia reside en la descomposición formal y por colores de las
imágenes, para una posterior búsqueda basada en un análisis por semejanza o parecidos,
posible, gracias, a un cambio en el concepto de “método de recuperación”.
Por otro lado, llama también la atención el camino desarrollado por Antonio
Torralba (y colaboradores) y sus estudios. La búsqueda de la simplificación de las
imágenes hasta el umbral mínimo de reconocimiento, para un posterior análisis de los
contenidos, con el objetivo de crear procesos definidos de identificación de los objetos
retratados y sus contextos, a través de la comparación y su información heredada,
supone un nuevo paso, hacia la recuperación automatizada de los documentos no
textuales.
Sin embargo, a pesar de los esfuerzos que se han realizado y se siguen
realizando en investigación, para la identificación y recuperación positiva y efectiva de
documentos no textuales, es preciso ser conscientes, de que actualmente ninguno de los
métodos alternativos, ha sido capaz de superar el basado en el texto para la indización y
recuperación de la información. Actualmente las bases de datos de imágenes, vídeos y
archivos sonoros, dependen casi por exclusividad de las técnicas documentales de
indización de contenidos, mediante el uso de texto escrito. De donde con posterioridad
se extraerán la información necesaria para la indexación y posterior recuperación de los
documentos.
Si bien, es cierto, que métodos como los descritos por el grupo de investigación
del MIT anteriormente mencionado parecen describir las líneas de lo que en un futuro
podría ser el proceso definitivo para el reconocimiento automatizado del contenido de
los documentos no textuales. Aun estamos lejos de conseguirlo de manera totalmente
resuelta.
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
En definitiva, existen grandes avances en el camino de la creación de un sistema
de reconocimiento automatizado de documentos no textuales, no obstante, aun se
encuentra en un estado muy inicial de ejecución y no presenta una alternativa al proceso
descriptivo textual. Es evidente, que el camino se ha iniciado y que las necesidades
empujan hacia la consecución de un método que de solución a la ingente cantidad de
información no textual que inundan las redes y las computadoras de todo el mundo, así
como otras finalidades a las que se les pueda aplicar este tipo de sistemas de
recuperación, como pudiera ser la seguridad, que pueden aportar importantes cantidades
de inversión en investigación.
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
BIBLIOGRAFÍA
1. AUMENTE, Jerome; ARQUERO, Rosario (traducción y adaptación):
“Bibliotecas, periodismo y Mass Media en la era digital de Internet; retos y
transformaciones”. F. Ciencias de la Información, Universidad Complutense de
Madrid, 1999. ISSN:0210-4210
2. BAILAC, M.; CATALÁ, M. “La fototeca”. En: Fuentes, M. E. (ed.). Manual de
Documentación periodística. Madrid: Síntesis, 1995.
3. BRODSKY, M. «Las agencias gráficas como centros de documentación de
imágenes». En: BELLVESER, E. (director). “La documetació als mitjans
d’informació: l’experiència multimèdia.” Valencia: Generalitat Valenciana;
Unió de Periodistes, 1994, p. 197-203.
4. CHANG, S.; CHEN, W.; MENG, H.; SUNDARAM, H.; ZHONG, D. “VideoQ:
an automated content based video search system using visual cues”. En: ACM
international conference on multimedia, 1997, pp. 313-324.
5. CODINA, LI.; FUENTES, M. E. “Documentación periodística y bases de datos:
elementos para su fundamento como disciplina y propuesta de conjunto nuclear
de bases de datos”. En: Fuentes, M. E. (dir.). Anuario de biblioteconomía,
documentación e información. Barcelona: COBDC, 1999, p. 113-132.
6. CODINA, Ll. «Fundamentos para la organización de un banco de fotografías».
El profesional de la información, v. 9, n. 4, abril 2000, p. 31-34.
7. DAUTZATS, M. “Le thesaurus de l’image: etude des langages documentaires
pour l’audiovisuel.” Paris: Editions, 1994, 96 p.
8. FLICKNER, M.; SAWHNEY, H.; NIBLACK, W.; ASHLEY Huang, Q.; Dom,
B. y otros “Query by image content: the Qbic system”. En: Ieee computer, 1995,
septiembre, pp. 23-31.
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
9. GRAHAM, M. E. The description and indexing of images, May 1999.
http://www.unn.ac.uk/iidr/ARLIS/
10. KIM, Y. B.; SHIBATA, M. “Content-based video indexing and retrieval– a
natural language approach”. En: Ieice transactions on information and systems,
1996, E79-D (6), pp. 695-705.
11. LEE, H.; SMEANTON, A. F.; O'TOOLE, C.; MURPHY, N. y otros “The
Físchlár digital video recording, analysis, and browsing system”. En: Riao:
content-based multimedia information access, 2000.
12. LÓPEZ YEPES, J. “Hacia una teoría de la documentación”. En: López Yepes,
José (coordinador). Manual de información y documentación. Madrid: Pirámide,
1996, p. 63-95
13. LÓPEZ YEPES, A. “Manual de documentación audiovisual” Pamplona:
Ediciones Universidad de Navarra, 1992, 263 p.
14. LÓPEZ YEPES, A. “Bases de datos documentales multimedia”. En: López
Yepes, José (coord.). Manual de información y documentación. Madrid:
Pirámide, 1996, p. 414-446.
15. MUÑOZ, J. E. “Bancos de imágenes: evaluación y análisis de los mecanismos
de recuperación de imágenes”. El profesional de la información, v. 10, n. 3,
marzo 2001, p. 4-18.
16. NAVARRETE, Toni y BLAT, Josep: “Indización automática de vídeo” El
profesional de la Información, v. 12, n. 6, noviembre-diciembre 2003.
17. TORRALBA, Antonio: “Exploiting Hierarchical Context on a Large Database
of Object Categories” IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), San Francisco, CA, June 2010.
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
18. TORRALBA, Antonio: “Part and Appearance Sharing: Recursive
Compositional Models for Multi-View Multi-Object Detection” IEEE
Conference on Computer Vision and Pattern Recognition (CVPR), San
Francisco, CA, June 2010.
19. VALLE GASTAMINZA, F. del. Manual de documentación fotográfica. Madrid:
Síntesis, 1999, 255 p.
20. WebSeek. http://disney.ctr.columbia.edu/webseek
21. Informe de EMC e IDC. http://www.emc.com/collateral/analyst-
reports/expanding-digital-idc-white-paper.pdf
22. Cuadernos de Documentación Multimedia. www.ucm.es/info/multidoc/revista
23. Guidelines for digital imaging. http://www.rlg.org/preserv/joint/chapman.html
24. Image and Multimedia Database Resources.
http://sunsite.berkeley.edu/Imaging/Databases
OTROS RECURSOS ON LINE
25. http://dialnet.unirioja.es/servlet/libro?codigo=24643
Indización y resumen de documentos digitales y multimedia: técnicas y
procedimientos
26. http://dialnet.unirioja.es/servlet/articulo?codigo=962587
Indización de imágenes en Internet: problemática, medios y técnicas para el
tratamiento de la información visual. Image indexing on the Internet: problems,
means and techniques to manage visual information
27. http://dialnet.unirioja.es/servlet/articulo?codigo=1232736
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
Bancos de imágenes en Internet
28. http://dialnet.unirioja.es/servlet/articulo?codigo=113332
Métodos y técnicas para la indización y recuperación de los recursos de la World
Wide Web
29. http://dialnet.unirioja.es/servlet/tesis?codigo=7270
Elaboración de un tesauro de información de actualidad y conversión en red
semántica para su empleo en un sistema de recuperación periodístico.
30. http://dialnet.unirioja.es/servlet/articulo?codigo=568788
La supervivencia de los servicios de indización y resúmenes con la explosión de
Internet
31. http://dialnet.unirioja.es/servlet/articulo?codigo=964494
La organización temática de la información: tendencias en la clasificación e
indización de documentos
32. http://dialnet.unirioja.es/servlet/articulo?codigo=1018809
Indización y representación de documentos visuales y audiovisuales
33. http://dialnet.unirioja.es/servlet/articulo?codigo=34956
Bancos de imágenes y sonido y motores de indicación en la www
34. http://dialnet.unirioja.es/servlet/articulo?codigo=169984
Acceso a la información basado en su contenido: la clave de la gestión documental
en la empresa
35. http://dialnet.unirioja.es/servlet/articulo?codigo=313588
Etapas del tratamiento documental de imagen en movimiento para televisión
36. http://dialnet.unirioja.es/servlet/articulo?codigo=326625
Topics maps y la indización de recursos electrónicos en la web
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
37. http://dialnet.unirioja.es/servlet/articulo?codigo=743212
La documentación audiovisual en las empresas televisivas
38. http://dialnet.unirioja.es/servlet/articulo?codigo=749168
Indización automática de vídeo
39. http://dialnet.unirioja.es/servlet/articulo?codigo=787659
Indización de un fondo de documentación especializado (I). Lista índice de
descriptores: desarrollo de un lenguaje a medida
40. http://dialnet.unirioja.es/servlet/articulo?codigo=963367
Tesauros e Información Audiovisual: estudio de caso
41. http://dialnet.unirioja.es/servlet/articulo?codigo=1024739
Proyecto Tesauro de cine español
42. http://dialnet.unirioja.es/servlet/articulo?codigo=1299356
Karpanta, un motor de búsqueda experimental
43. http://dialnet.unirioja.es/servlet/articulo?codigo=1417179
Web semántica: un nuevo enfoque para la organización y la recuperación de
información en el Web
44. http://dialnet.unirioja.es/servlet/articulo?codigo=2893641
La indización en la recuperación de la información
45. http://dialnet.unirioja.es/servlet/articulo?codigo=649057
Tendencias en los sistemas de indización automática. Estudio evolutivo
46. http://dialnet.unirioja.es/servlet/articulo?codigo=3042229
Sistema automatizado de indización y de recuperación de documentos visuales de
Radio-Quebec
47. http://dialnet.unirioja.es/servlet/articulo?codigo=2035900
SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES
Metodología para la indización de documentos no textuales: algunas precisiones a
propósito de los documentos gráficos y audiovisuales
48. http://web.mit.edu/torralba/www/
Página de contenidos de Antonio Torralba, desde donde se pueden acceder a todos
los papers y publicaciones de manera on line, donde hace referencia a sus estudios y
se pueden seguir sus investigaciones.
49. http://labelme.csail.mit.edu/VideoLabelMe/
Herramienta para la anotación de contenidos.
OTROS METODOS DE SEGMENTACIÓN
50. Davenport, G.; Aguirre, S.; Pincever, N. “Cinematic primitives for
multimedia”. En: Ieee computer graphics & applications, 1991, julio.
51. Aguierre Smith, T. G. If you could see what I mean. MIT MS thesis.
Cambridge, Massachusetts, EUA, 1992.
52. Hjelsvold, R.; Midtstraum, R. “Modelling and querying data”. En: 20th
International Conference on very large data bases, 1994.
53. Adali, S.; Candan, K. S.; Chen, S.; Erol, K.; Subrahmanian, V. S.
“Advanced video information system: data structures and query processing”.
En: ACM-Springer multimedia systems journal, 1996.
54. Subramanian, V. S. Principles of multimedia database systems. San Francisco:
Morgan Kaufman Publishers, 1997. Isbn 1558604669.
55. Tran, D. A.; Hua, K. A.; Vu, K. “Semantic reasoning based video database
systems”. En: 11th International conference on databases and expert systems
applications, 2000.