buscadores no textuales

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

Sistemas de recuperación de

documentos no textuales CURSO 2010

FACULTAD DE DOCUMENTACIÓN ASIGNATURA: SISTEMAS AVANZADOS DE RECUPERACIÓN DE LA

INFORMACIÓN PROFESOR: JOSÉ RAÚL FERNÁNDEZ DEL CASTILLO DIÉZ

ALUMNO: ROBERTO CARLOS ÁLVARE DELGADO AÑO: 2009/2010


ÍNDICE

I. INTRODUCCIÓN

II. METODOLOGÍA

III. ACTUALIDAD EN LA INDIZACIÓN Y RECUPERACIÓN DE

DOCUMENTOS AUDIOVISUALES

IV. LO MÁS RECIENTE

V. CONCLUSIONES

VI. BIBLIOGRAFÍA


Sistemas de recuperación de documentos no textuales INTRODUCCIÓN

El propósito del siguiente trabajo es el de tratar de determinar brevemente, a

través de un acercamiento a la materia, el estado de la cuestión y las expectativas de

proyección futura, en torno a la indización1 y recuperación automatizada de documentos

no textuales, esencialmente los documentos visuales y sonoros.

La situación actual de crecimiento exponencial en la cantidad de documentos

visuales y sonoros viene marcada especialmente por dos sucesos. La aparición de una

tecnología digital avanzada y accesible que ha “democratizado” y multiplicado de

manera inimaginable el uso del documento visual y sonoro. Y la aparición de

plataformas de intercambio, promovedoras del uso de estos documentos en la Web. Un

medio que evoluciona y crece “incontrolablemente” potenciando las necesidades de

ordenar e indizar sus contenidos para su posible recuperación y uso.

Con motivo de poner en relevancia datos que clarifiquen y den muestra de estos

sucesos expuestos, se ofrecen los siguientes datos. Según un informe de la consultora

internacional IDC y el fabricante de sistemas de almacenamiento EMC2, la cantidad de

información digitalizada sólo en 2006 fue 3 millones de veces mayor que la de todos los

libros escritos, la cantidad de información digital creada, capturada y replicada fue de

161 billones de gigabytes, aproximadamente el equivalente a toda la información

generada en los 5000 años anteriores por el hombre, y todo esto sólo en un año.

En cuanto al vídeo, portales como YouTube aumentan 65.000 vídeos nuevos al

día, otros tipos de vídeo en red, como las conexiones WebCam crecen un 21% y existen

1 Vale la pena mencionar aquí la distinción existente entre el proceso de indexación (generación de los

índices informáticos de un campo o de un fichero con sus estructuras apropiadas como diferentes tipos de

árboles) y la indización automática (asignación automática de términos para la representación del

contenido). 2 http://www.emc.com/collateral/analyst-reports/expanding-digital-idc-white-paper.pdf (20/02/2010)


datos que hablan de un aumento del 200% del vídeo empresarial (tráfico IP) de manera

anual.

En 2007 el número de páginas Web aumentó un 48%, 50 millones de sitios Web

nuevos en un solo año, es decir unos 155 millones de páginas Web en total donde los

blogs son los que más crecieron en ese año siendo los tres máximos proveedores

MySpace, Live Spaces y Blogger que registraron la mitad del total de nuevos registros

del año 2007.

De todas estas cifras y de muchas otras, podemos percatarnos de la cantidad de

información que hay en la red y las dimensiones que han alcanzado los contenidos

exclusivamente no textuales. El vídeo, la fotografía, los archivos sonoros, tanto de

música como conversaciones son los documentos que más crecimiento han registrado y

más se proyectan en la actualidad. Youtube, Picassa, Flickr, redes sociales, como

Facebook, Tuenti, Twiter, empresas de intercambio de música como Aplple con Itunes

y muchos otros… Son lugares en red donde la cantidad de información no textual, han

adquirido vital importancia. Sin olvidar los grandes bancos sonoros, de imágenes y

vídeo de los medios de comunicación3 y empresas especializadas cuyos fondos se

multiplican y crecen enormemente gracias, en buena parte, a las posibilidades del

documento digital (facilidad para su multiplicación, reproducción, conservación y unos

costes más asumibles).

A esta explosión de los contenidos digitales, hay que añadirles el abaratamiento

de los costes de producción digital y la rápida adopción de estos sistemas de manera

asequible por un público cada vez más elevado. Desde las más sofisticadas técnicas de

creación digital, hasta las cada vez más amplia gama de servicios ofrecidos desde por

ejemplo, un teléfono móvil, capaz de ser grabadora, cámara de fotos, de video,

reproductor de música, video consola… por un coste casi irrisorio, el uso del documento

no textual, es decir el visual y sonoro, se ha ido introduciendo en nuestra cultura de

manera muy arraigada y permanente.

3 AUMENTE, Jerome; ARQUERO, Rosario (traducción y adaptación): “Bibliotecas, periodismo y Mass Media en la era digital de Internet; retos y transformaciones”. F. Ciencias de la Información, Universidad Complutense de Madrid, 1999. ISSN:0210-4210


Sin embargo, actualmente las únicas técnicas avanzadas de recuperación de estos

documentos pasan por la indización textual y manual de los contenidos de estos

formatos. Es claro que una indización automática e inteligente de los contenidos de

estos documentos es un objetivo hacia el que se dirigen muchas miradas en el ámbito de

la investigación en la recuperación de este tipo de información, el poder alcanzar un

sistema que permitiera indizar de forma automática y eficaz para una posterior

recuperación exhaustiva y precisa de la información, todo el contenido visual y sonoro

generado por los millones de usuarios en la red o los cientos de miles de profesionales

dedicados al uso de este tipo de documentos, sería una autentica revolución.

En el siguiente trabajo se expondrán algunas de las técnicas actuales de

indización de estos contenidos y posteriormente se analizará las posibilidades de alguna

de las nuevas técnicas que pretenden asentar el futuro de los sistemas avanzados de

recuperación de documentos visuales y sonoros.

METODOLOGÍA

Como se ha expuesto en la introducción de este trabajo el objetivo principal de

éste es el de ofrecer una visión generalista de la situación actual en indización y

recuperación de documentos no textuales, además de ofrecer algunas líneas sobre las

proyecciones de futuro en esta materia.

Otro de los requisitos de este trabajo es el de ser especialmente actuales en los

contenidos, (“trabajo de actualidad”) ese es el motivo por el que los métodos de

búsqueda de información para su realización han sido principalmente los ofrecidos a

través de la red.

Para el establecimiento de esta información se han realizado búsquedas en dos

sentidos, generalistas, a través del acceso avanzado a los buscadores más populares y

búsquedas precisas, lanzadas contra bases de datos y Webs especializadas en contenidos

científicos (artículos, tesis, monografías). Estas búsquedas se han realizado tanto en

castellano como en inglés y se ha tratado de respetar el mayor contenido bibliográfico

posible, a pesar de no contar con el texto completo en línea (pero sí algún fragmento

interesante).


Por otro lado, también se ha manejado una bibliografía más estable,

especialmente para el asentamiento de los conceptos básicos en los que se centra el

contenido del trabajo.

Por ultimo añadir la relevancia de algunos aspectos destacados en los medios de

comunicación y el uso tanto de blogs, como de foros y webs, para rastrear información

pertinente al trabajo. Hecho que especialmente enriquece el enfoque de actualidad que

se le ha primado contener.

ACTUALIDAD EN LA INDIZACIÓN Y RECUPERACIÓN DE DOCUMENTOS

AUDIOVISUALES

En primer lugar cabe destacar que a pesar de que existen diferencias destacables

entre los documentos visuales (fotografía) y los sonoros en su construcción y

tratamiento digital. En el caso del vídeo, donde se relacionan tanto la imagen como el

sonido, el tratamiento de ambas partes debe ser procesado para su correcta recuperación.

Existen técnicas para procesar la imagen fija que aun están en proceso de desarrollo y

perfeccionamiento (basados en el histograma de la imagen) y técnicas de

reconocimiento de archivos sonoros (basadas en las ondas sonoras). La imagen y el

sonido se pueden estudiar por separado para conseguir un método propicio para su

recuperación, sin embargo, la unión de estas técnicas futuras determinarán la base para

la recuperación de los documentos audiovisuales (imagen + audio) por lo que a pesar de

ser documentos diferentes, sus estudios e investigaciones en este campo viajan

paralelamente.


(Ondas de audio con idéntico espectro)

Actualmente son diversas las técnicas que se utilizan para la indización o

indexación de contenidos audiovisuales. Pero principalmente todas se basan en un

mismo método, el de la indexación textual (humana).

« Tanto desde un punto de vista semántico como técnico (formatos de

representación y métodos de procesamiento) la indización automática de

imágenes es mucho más complicada que la de texto. Además, el vídeo —o

imagen en movimiento— añade más elementos a esa complejidad. Todo esto

hace que los resultados en el campo de la indización automática de vídeo, a

pesar de los avances, estén aún lejos de los conseguidos con texto.4 »

Los métodos de indización automática de texto toman como unidad mínima para

sus procesos, la palabra (generalmente), que es extraída del texto mediante unos

procesos de selección y normalización que permitirán la indización y recuperación de la

información que contienen. Sin embargo, con los documentos audiovisuales, nos

encontramos ante un problema básico, la determinación de esa unidad mínima de

significado, que nos permita realizar el proceso automatizado de ordenación y

recuperación.

Por ejemplo, si intentamos indizar la oración, “Hoy en día, la indización

automatizada de imágenes es muy complicada” el método automático comenzaría por

“eliminar” las palabras bacías (podría variar dependiendo del método) “en, la, de, muy”

4 NAVARRETE, Toni y BLAT, Josep: “Indización automática de vídeo” El profesional de la Información, v. 12, n. 6, noviembre-diciembre 2003.


y otorgaría como entradas otras como “indización, automatizada, imágenes…” Al hacer

una búsqueda por la palabra “indización” recuperaría dicha palabra (tras una secuencia

de acciones. Este proceso puede ser más complicado, pero en definitiva arrojaría una

solución similar, pudiendo variar la precisión o la exhaustividad dependiendo del

método empleado).

Sin embargo ¿qué sucede con las imágenes? Hoy por hoy el método manual es

el que prevalece, pueden ser mediante la asignación de descriptores a las imágenes e

introducirlos en el índice. O mediante la redacción de una descripción textual libre, que

posteriormente recibirá un tratamiento similar al descrito anteriormente.

Igualmente se hace necesario el uso del texto y de un proceso manual previo.

Pero ¿qué ocurre con los métodos automatizados, de recuperación de imágenes? Estos

métodos no pueden seguir el mismo enfoque, si no que se centran (entre otros) en el

denominado paradigma de recuperación de imágenes basado en el contenido, que no

procesan la consulta a través de palabras (se desligan del descriptor), sino que lo hacen

mediante muestras o bocetos.

Recuperación basada en el contenido, ¿en qué consiste? Básicamente en la

extracción de un conjunto de parámetros de la imagen que la puedan identificar de

manera unívoca. En este caso, parámetro de bajo nivel, relacionados con el color, la

forma y la estructura. Este cambio de enfoque, como ya hemos comentado, implica un

cambio en la concepción determinada con respecto al proceso de recuperación. La

consulta típica, dejará de ser un proceso textual, para pasar a convertirse en un proceso

de comparación entre imágenes o bocetos, que servirán de base para contrastar colores,

formas y texturas.

Para poder visualizar de forma más precisa este proceso, se muestra a

continuación una herramienta, elaborada por IBM para el Museo del Hermitage en San

Petersburgo, que se basa en este paradigma de recuperación de imágenes basado en el

contenido, es el Qbic5 (Query by image content) versión CueVideo:

5 FLICKNER, M.; SAWHNEY, H.; NIBLACK, W.; ASHLEY Huang, Q.; Dom, B. y otros “Query by

image content: the Qbic system”. En: Ieee computer, 1995, septiembre, pp. 23-31.


http://www.hermitagemuseum.org

Métodos de búsqueda: El museo permite la realización de búsquedas entre sus fondos de muy

diversas maneras, principalmente a través del método tradicional, el textual mediante palabras

claves, índices, descriptores, tesauro y diccionario de autoridades, pero añade entre sus

búsquedas la opción del Qbic.

Al acceder a este buscador podemos apreciar detenidamente sus herramientas

para la recuperación y comprobar sus resultados. Para poder realizar una búsqueda más

óptima en todo momento es posible cumplimentarla con otros mecanismos más

convencionales de búsqueda.

En todo momento se ofrece mucha información a cerca del uso y el método de

empleo de la herramienta, así como incluso una demo de su funcionamiento. Y nos

permite seleccionar entre una búsqueda basada simplemente en el color, u otra más

precisa con color y formas.


Se realiza una búsqueda de ejemplo en el modo LAYOUT:

Búsqueda basada en la composición de color como unidad mínima para la recuperación

Búsqueda basada en las formas y en la disposición de los elementos, además de en el color

A través de sus herramientas, se crea una forma que intente recordar a un retrato con unos colores determinados, fondo amarillo, cuerpo rojo y cabeza naranja. Realizamos la búsqueda:

Estos son algunos de los resultados que arrojan la búsqueda, donde podemos observar, que existen tres retratos que se acercan mucho al objetivo de la búsqueda. Mientras que el resto de las opciones, manejan una tonalidad parecida y cierta similitud formal, aunque no la esperada.


Como hemos podido comprobar en el ejemplo, los resultados obtenidos durante

la recuperación de la información visual pueden ser un poco ambiguos o discutibles, sin

embargo, suponen un pequeño avance hacia la consecución de un método más complejo

en el camino de la creación de un sistema automatizado de recuperación visual.

Otros conocidos sistemas que se basan en este método son Swim, de la Nacional

University of Singapore, VideoQ6 y VisualSeek de Columbia University, todos ellos con

soporte también para vídeo

http://www.ctr.columbia.edu/VideoQ/

http://www.ctr.columbia.edu/VisualSEEk/7

En cuanto al vídeo, el proceso sigue una actividad similar al de la imagen

estática, pero con una serie de matices relacionados con las peculiaridades propias de

este formato. El vídeo no deja de ser una continuidad de imágenes estáticas que en una

sucesión constante y determinada crean la ilusión del movimiento, al que le acompaña

generalmente una banda de audio.

En lo que concierne a la imagen, es preciso que durante el proceso de

identificación automatizada, se determine una unidad mínima, que en este caso no será

una imagen simple, si no que se tratará de un segmento gobernado por un keyframe o

fotograma clave base de ese segmento8.

El vídeo se divide en esos segmentos (proceso de segmentación), a través de la

luminancia y el color del fotograma, es posible determinar cuando hay un cambio

brusco de la escena, (análisis del histograma) y por lo tanto un cambio de segmento. Sin

embargo este proceso puede encerrar diversos problemas desencadenados por los

métodos de edición, creando segmentos que realmente se encuentran vacíos de

significado (por ejemplo un zoom, movimientos de cámara, panorámicas o un flash).

6 CHANG, S.; CHEN, W.; MENG, H.; SUNDARAM, H.; ZHONG, D. “VideoQ: an automated content based video search system using visual cues”. En: ACM international conference on multimedia, 1997, pp. 313-324. 7http://www.ee.columbia.edu/ln/dvmm/researchProjects/MultimediaIndexing/VisualSEEk/VisualSEEk.htm 8 Hay que tener en cuenta que existen otros modelos de segmentación que no toman el plano como base. (ver OTROS METODOS DE SEGMENTACIÓN notas anexas)


Este problema se puede afinar determinando duraciones mínimas para cada segmento9 o

analizando fragmentos de la imagen y sus movimientos.

Una vez determinados los segmentos se seleccionan uno ovarios keyframes que

serán los representantes de ese segmento, hay muchos métodos para determinarlos, pero

los más lógico suele ser el que mejor represente al total del segmento (cuyo histograma

sea más cercano a la media). Serán estos los que se indizarán siguiendo un método

similar al descrito con las imágenes estáticas y posteriormente servirán como base para

la recuperación de información.

«La mayoría de los sistemas utilizan estos fotogramas clave no

sólo como base para la indización sino también como forma de presentar

los resultados de las búsquedas. Algunos también los usan agrupados en

varios niveles para generar una navegación jerárquica del vídeo, como el

caso de Swim o Físchlár entre otros. En este sentido, es también

interesante la interfaz de visualización rápida de un vídeo basada en

fotogramas clave de Mbase12, del Fuji Xerox Palo Alto Laboratory. »10

Mediante la combinación de determinados parámetros centrados en el color, la

forma y la textura, se realizará la indización que permitirá las posteriores

recuperaciones. El color se analiza atendiendo a su histograma elemento que tolera con

bastante flexibilidad los cambios de cámara, rotación, escalado… mientras que las

formas se presentan como un indicador más rígido. La forma se centra en dos

parámetros la región y el contorno, un método frecuente para representarlos es hacerlo a

partir de los ángulos que presentan, consiguiendo una mayor independencia de

traslación, rotación y escalado; y su calculo no es demasiado complejo. También son

posibles las relaciones espaciales entre estas formas y sus variaciones a lo largo de la

reproducción del segmento. En cuanto a la textura algunos modelos se basan en la

frecuencia de repetición, la orientación o el contraste.

9 LEE, H.; SMEANTON, A. F.; O'TOOLE, C.; MURPHY, N. y otros “The Físchlár digital video recording, analysis, and browsing system”. En: Riao: content-based multimedia information access, 2000. 10 NAVARRETE, Toni y BLAT, Josep: “Indización automática de vídeo” El profesional de la información, v. 12, n. 6, noviembre-diciembre 2003.


Para finalizar hay que añadir que algunos sistemas incluyen también cierta

información sobre el movimiento en el segmento, tanto de las regiones (objetos) como

los posibles movimientos de cámara.

Como es francamente fácil de deducir, estos procedimientos de indización y

recuperación de información en la práctica convencional no tienen hoy en día una

usabilidad destacable dentro de los usuarios más generalizados, sin embargo, si se

emplean para estas u otras técnicas más sofisticadas, para otros usos como por ejemplo

el reconocimiento automático de matrículas de coches, reconocimiento facial (en este

aspecto se ha invertido mucho en investigación), y otros sistemas para usos parecidos.

Cuanto más normalizada esté la imagen más sencillo es de sacar partido a estas

técnicas11.

Además de estas técnicas para el reconocimiento de imágenes existen otras que

intentan emplear un mecanismo basado en una información suplementaria adjunta, que

intenten abrir las posibilidades de la búsqueda de este tipo de documentos a medios más

generalistas como Internet. Es imposible plantearse el ir etiquetando todo el contenido

existente en la red, por lo que se está planteando el analizar toda la información que

suele ir “adjunta” al la imagen y extraer de ahí la semántica necesaria para la indización

y recuperación de los documentos.

¿De qué se está hablando? De utilizar como fuentes para la indización el texto

que aparece en el nombre del vídeo o la fotografía, en el código HTML donde aparezca

insertado, el directorio donde se almacene el documento, las carátulas de vídeo, etcétera

(además de las etiquetas y descriptores propios del vídeo que han podido introducirse).

Por ejemplo Google o Webseek utilizan, entre otras, versiones similares a las de esta

técnica de analizar la información adjunta para recuperar estos formatos. En otras

ocasiones se utiliza el texto para el que se creó esas imágenes, como en el caso de las

noticias o películas,12 el propio audio del vídeo,13 y/o el texto impreso en imágenes.14

11 Un ejemplo sería el sistema de Wang (et al.) que a partir de una base de datos de 2000 especies de peces logra identificar su aparición en vídeos, tolerando incluso cambios de angulo etc. Wang, C. H.; Lin, H. C.; Shih, C. C.; Tyan, H. R.; Lin, C. F.; Mark Liao, H. Y. “Querying image database by video content”. En: Advances in multimedia information processing, PCM 2002. Third Ieee Pacific rim conference on multimedia, 2002. 12 KIM, Y. B.; SHIBATA, M. “Content-based video indexing and retrieval– a natural language approach”. En: Ieice transactions on information and systems, 1996, E79-D (6), pp. 695-705.


En definitiva, vuelve hacerse palpable la necesidad de datos que no sean los

meramente correspondientes a la propia imagen, para poder indizar de manera

apropiada el contenido de los documentos no textuales. Siendo de nuevo determinantes

todo tipo de datos textuales que acompañen al contenido, ya sean datos normalizados o

preparados a priori o los propios de la gestión y creación del archivo.

LO MÁS RECIENTE

Estas técnicas expuestas son los caminos más recientes y actuales en los que se

llevan años trabajando para la indización automática de imágenes, sin embargo, siguen

apareciendo nuevas “ideas” basadas en las anteriores para lograr estos objetivos. Un

ejemplo son los recientes estudios publicados en estos últimos años por el Investigador

Antonio Torralba, y su grupo de investigación en el MIT Computer Science And

Artificial Intelligence Laboratory, sobre el reconocimiento de imágenes.

Sus investigaciones se basan en la idea de que es necesaria la máxima

simplificación de las imágenes para poder reducir enormemente tanto las necesidades

técnicas (por el peso en bytes de las imágenes, sobre todo en vídeo) como el tratamiento

y uso de éstas. Si tan sólo con unos pocos píxeles de información, el ser humano, es

capaz de reconocer una imagen, es posible reducir las imágenes hasta ese mínimo, y así

optimizar los sistemas de reconocimiento.

Según, Torralba, conociendo cuál es la menor cantidad de información óptima

necesaria, que es posible obtener de una imagen, para determinar su contenido, es el

camino idóneo para alcanzar un sistema de catalogación de imágenes on line, capaz de

indizar automáticamente millones de imágenes en Internet.

“Estamos tratando de encontrar la representación más corta para las

imágenes, de forma que si dos imágenes tienen una secuencia similar (de

números), serán probablemente similares”15

13 http://www.almaden.ibm.com/projects/cuevideo.shtml 14 http://www.informedia.cs.cmu.edu (una de las mayores videotecas digitales del mundo) 15 http://web.mit.edu/newsoffice/2008/csail-tt0521.html (explicación de sus objetivos)


Consiguiendo esto, si una imagen ha sido etiquetada de forma manual, otras

imágenes parecidas podrán “heredar” de forma correcta esa descripción.

“Con grandes cantidades de imágenes, incluso los algoritmos más

simples son capaces de funcionar bastante bien a la hora de identificar

imágenes”16

Si nos fijamos en las imágenes, las zonas rodeadas por un círculo, son

prácticamente iguales, sin embargo, en una se muestra una botella, en otra una persona,

un móvil y un zapato, con ello, se pretende llamar la atención sobre el hecho de quel

contexto afecta enormemente al reconocimiento del objeto.

“Somos capaces de reconocer las imágenes incluso con una resolución

muy pobre, porque conocemos mucho sobre las imágenes […] La

cantidad de información que necesitamos para identificar muchísimas

imágenes ronda entorno a los 32x32 píxels de resolución”17

Utilizando el sistema de codificación que proponen estos investigadores, el

objetivo principal sería el crear una enorme base de datos, en la que se representasen

millones de imágenes. Este grupo, ha sido capaz de representar 12,9 millones de

imágenes extraídas de Internet con sólo 600 megabytes. Esta cantidad de memoria tan

pequeña, hace posible su uso como referencias para comparar e identificar otras

fotografías que vayan entrando automáticamente, de manera más efectiva y eficaz.

16 http://web.mit.edu/newsoffice/2008/csail-tt0521.html 17 Ibídem


Siguiendo con esta dinámica de trabajo, es destacable, la creación de una

herramienta de etiquetado de imágenes bajo esta filosofía, que es posible de ser utilizada

de manera colaborativa. Mediante esta herramienta, podemos marcar, identificar y en

definitiva etiquetar, fotografías, pasando a alimentar la enorme base de datos que

pretende convertirse en el catalogo potenciador de las catalogaciones automatizadas.

Esta herramienta se llama LabelMe18, a través, de esta herramienta on line, se

puede participar el en proyecto de etiquetar y reconocer las formas y los contenidos de

la imágenes, para alimentar así la fortaleza de la base de datos.

18 http://labelme.csail.mit.edu/


Se trata de una base de datos usada para el entrenamiento y evaluación del

sistema de reconocimiento visual automatizado. Con multitud de diferentes imágenes

compuestas por escenas y objetos diferentes, que han servido para alimentar de datos a

este sistema de reconocimiento.19

En definitiva mediante una serie de actuaciones de reconocimiento basadas en

logaritmos y funciones matemáticas, que se han centrado en la identificación de

contenidos, en resoluciones muy pequeñas, pero capaces de permitir la identificación

eficaz, han sido capaces de construir una enorme base de datos de categorías de objetos

y escenas, que han servido y servirán para identificar de manera automatizada los

contenidos. Sin olvidar que han tenido y tendrán que ser motivadas y completadas con

multitud de referencias y etiquetas de contenidos “manuales”, que servirán de herencia

para las posteriores identificaciones de contenido similar.

19 http://people.csail.mit.edu/torralba/publications/labelmeApplications.pdf


Posteriormente y tras establecer una serie de jerarquías contextuales de los

modelos posicionales y de los objetos, se hará todavía más factible la identificación

efectiva de imágenes de manera automatizada20

Así se pretende hacer posible una identificación eficaz de los objetos,

resumiendo mucho el proceso, basándose en imágenes con un tamaño mínimo para ser

reconocibles, se convierten en modelos más operativos. Se identifican y marcan los

contenidos con etiquetas, este proceso se enriquece al máximo posible, incluso

elaborando herramientas colaborativas. De esta enorme base de datos se crean

protocolos de actuación frente a contenidos nuevos, basándose no sólo en el objeto, si

no que también en los contextos y las jerarquías razonables. De esta manera, se pretende

seguir alimentando estas bases de datos.

20 http://web.mit.edu/~myungjin/www/HContext.html


Por el contrario, pueden aparecer objetos que no estén contextualizados en sus

escenas, esto de momento puede suponer un problema y no puede ser detectado a priori,

pero si puede “entrenar se al sistema para detectarlo”.

Todos este mecanismo ideado por este grupo de investigación, se proyecta de

manera útil, tanto para imagen fija, como para la imagen en movimiento, es decir, el

vídeo. E incluso existen las herramientas necesarias para colaborar con este tipo de

documento. LabelMe, para vídeo.


CONCLUSIONES

Las imágenes (digitales) se componen de un número determinado de píxeles,

que contienen la información del color de su posición, la unión conjunta de todos estos

píxeles crean la “ilusión de la imagen”, en el caso del audio, hablamos de una onda

analógica que tras un muestreo se convierte en una onda digital que permite su posterior

reproducción “casi” sin pérdida de información. El documento no textual digital, por lo

tanto, está formado por un gran número de datos, que si bien, puede parecer muy

elevado, “simplifican” el objeto analógico, permitiendo el poder trabajar con este tipo

de documentos de manera operativa en el “mundo digital”.

Por lo tanto, actualmente nos encontramos con un volumen enorme de formatos

no textuales circulando por la red, que inundan de datos la red, dando lugar a una gran

cantidad de información a la que sólo se puede acceder de manera efectiva, a través, de

los metadatos que forman parte de estos archivos, y que permiten identificar su

contenido.

En el caso de los archivos visuales y sonoros, se ha trabajado y se sigue

trabajando en la actualidad, por encontrar mecanismos efectivos de indización exitosa

que permitan una posterior recuperación eficaz.

El método más extendido y efectivo que existe actualmente es el basado en el

texto, es decir, el de dotar de etiquetas, descriptores, palabras clave, en definitiva el de

describir el contenido de los documentos no textuales, para a través de esta información

textual, realizar la indexación y posterior recuperación del documento. Sin embargo este

sistema de recuperación, al depender de un proceso manual previo, ralentiza

enormemente la ejecución para la obtención de resultados positivos dentro de un mar de

documentos, como puede ser la red.

Otro de los métodos que destaca son los que han tratado de recuperar la máxima

información “periférica” adjunta a los archivos y a su contexto, desde el nombre del

archivo, hasta el texto que se haya a su alrededor, el contexto, estos datos permiten

intuir el contenido para poder indexarlo de manera apropiada. Un ejemplo de esta


técnica puede ser el método de recuperación de imágenes de Google, cuyos resultados

no siempre son los esperados, pero que cumple sus expectativas de manera optima.

Por otro lado, y como se ha explicado a lo largo del trabajo, otras técnicas de

recuperación de imágenes han tratado de cambiar el concepto de búsqueda, y el

concepto de indización de los contenidos. Se tratan de métodos como el descrito por

Qbic, en el que la importancia reside en la descomposición formal y por colores de las

imágenes, para una posterior búsqueda basada en un análisis por semejanza o parecidos,

posible, gracias, a un cambio en el concepto de “método de recuperación”.

Por otro lado, llama también la atención el camino desarrollado por Antonio

Torralba (y colaboradores) y sus estudios. La búsqueda de la simplificación de las

imágenes hasta el umbral mínimo de reconocimiento, para un posterior análisis de los

contenidos, con el objetivo de crear procesos definidos de identificación de los objetos

retratados y sus contextos, a través de la comparación y su información heredada,

supone un nuevo paso, hacia la recuperación automatizada de los documentos no

textuales.

Sin embargo, a pesar de los esfuerzos que se han realizado y se siguen

realizando en investigación, para la identificación y recuperación positiva y efectiva de

documentos no textuales, es preciso ser conscientes, de que actualmente ninguno de los

métodos alternativos, ha sido capaz de superar el basado en el texto para la indización y

recuperación de la información. Actualmente las bases de datos de imágenes, vídeos y

archivos sonoros, dependen casi por exclusividad de las técnicas documentales de

indización de contenidos, mediante el uso de texto escrito. De donde con posterioridad

se extraerán la información necesaria para la indexación y posterior recuperación de los

documentos.

Si bien, es cierto, que métodos como los descritos por el grupo de investigación

del MIT anteriormente mencionado parecen describir las líneas de lo que en un futuro

podría ser el proceso definitivo para el reconocimiento automatizado del contenido de

los documentos no textuales. Aun estamos lejos de conseguirlo de manera totalmente

resuelta.


En definitiva, existen grandes avances en el camino de la creación de un sistema

de reconocimiento automatizado de documentos no textuales, no obstante, aun se

encuentra en un estado muy inicial de ejecución y no presenta una alternativa al proceso

descriptivo textual. Es evidente, que el camino se ha iniciado y que las necesidades

empujan hacia la consecución de un método que de solución a la ingente cantidad de

información no textual que inundan las redes y las computadoras de todo el mundo, así

como otras finalidades a las que se les pueda aplicar este tipo de sistemas de

recuperación, como pudiera ser la seguridad, que pueden aportar importantes cantidades

de inversión en investigación.


BIBLIOGRAFÍA

1. AUMENTE, Jerome; ARQUERO, Rosario (traducción y adaptación):

“Bibliotecas, periodismo y Mass Media en la era digital de Internet; retos y

transformaciones”. F. Ciencias de la Información, Universidad Complutense de

Madrid, 1999. ISSN:0210-4210

2. BAILAC, M.; CATALÁ, M. “La fototeca”. En: Fuentes, M. E. (ed.). Manual de

Documentación periodística. Madrid: Síntesis, 1995.

3. BRODSKY, M. «Las agencias gráficas como centros de documentación de

imágenes». En: BELLVESER, E. (director). “La documetació als mitjans

d’informació: l’experiència multimèdia.” Valencia: Generalitat Valenciana;

Unió de Periodistes, 1994, p. 197-203.

4. CHANG, S.; CHEN, W.; MENG, H.; SUNDARAM, H.; ZHONG, D. “VideoQ:

an automated content based video search system using visual cues”. En: ACM

international conference on multimedia, 1997, pp. 313-324.

5. CODINA, LI.; FUENTES, M. E. “Documentación periodística y bases de datos:

elementos para su fundamento como disciplina y propuesta de conjunto nuclear

de bases de datos”. En: Fuentes, M. E. (dir.). Anuario de biblioteconomía,

documentación e información. Barcelona: COBDC, 1999, p. 113-132.

6. CODINA, Ll. «Fundamentos para la organización de un banco de fotografías».

El profesional de la información, v. 9, n. 4, abril 2000, p. 31-34.

7. DAUTZATS, M. “Le thesaurus de l’image: etude des langages documentaires

pour l’audiovisuel.” Paris: Editions, 1994, 96 p.

8. FLICKNER, M.; SAWHNEY, H.; NIBLACK, W.; ASHLEY Huang, Q.; Dom,

B. y otros “Query by image content: the Qbic system”. En: Ieee computer, 1995,

septiembre, pp. 23-31.


9. GRAHAM, M. E. The description and indexing of images, May 1999.

http://www.unn.ac.uk/iidr/ARLIS/

10. KIM, Y. B.; SHIBATA, M. “Content-based video indexing and retrieval– a

natural language approach”. En: Ieice transactions on information and systems,

1996, E79-D (6), pp. 695-705.

11. LEE, H.; SMEANTON, A. F.; O'TOOLE, C.; MURPHY, N. y otros “The

Físchlár digital video recording, analysis, and browsing system”. En: Riao:

content-based multimedia information access, 2000.

12. LÓPEZ YEPES, J. “Hacia una teoría de la documentación”. En: López Yepes,

José (coordinador). Manual de información y documentación. Madrid: Pirámide,

1996, p. 63-95

13. LÓPEZ YEPES, A. “Manual de documentación audiovisual” Pamplona:

Ediciones Universidad de Navarra, 1992, 263 p.

14. LÓPEZ YEPES, A. “Bases de datos documentales multimedia”. En: López

Yepes, José (coord.). Manual de información y documentación. Madrid:

Pirámide, 1996, p. 414-446.

15. MUÑOZ, J. E. “Bancos de imágenes: evaluación y análisis de los mecanismos

de recuperación de imágenes”. El profesional de la información, v. 10, n. 3,

marzo 2001, p. 4-18.

16. NAVARRETE, Toni y BLAT, Josep: “Indización automática de vídeo” El

profesional de la Información, v. 12, n. 6, noviembre-diciembre 2003.

17. TORRALBA, Antonio: “Exploiting Hierarchical Context on a Large Database

of Object Categories” IEEE Conference on Computer Vision and Pattern

Recognition (CVPR), San Francisco, CA, June 2010.


18. TORRALBA, Antonio: “Part and Appearance Sharing: Recursive

Compositional Models for Multi-View Multi-Object Detection” IEEE

Conference on Computer Vision and Pattern Recognition (CVPR), San

Francisco, CA, June 2010.

19. VALLE GASTAMINZA, F. del. Manual de documentación fotográfica. Madrid:

Síntesis, 1999, 255 p.

20. WebSeek. http://disney.ctr.columbia.edu/webseek

21. Informe de EMC e IDC. http://www.emc.com/collateral/analyst-

reports/expanding-digital-idc-white-paper.pdf

22. Cuadernos de Documentación Multimedia. www.ucm.es/info/multidoc/revista

23. Guidelines for digital imaging. http://www.rlg.org/preserv/joint/chapman.html

24. Image and Multimedia Database Resources.

http://sunsite.berkeley.edu/Imaging/Databases

OTROS RECURSOS ON LINE

25. http://dialnet.unirioja.es/servlet/libro?codigo=24643

Indización y resumen de documentos digitales y multimedia: técnicas y

procedimientos

26. http://dialnet.unirioja.es/servlet/articulo?codigo=962587

Indización de imágenes en Internet: problemática, medios y técnicas para el

tratamiento de la información visual. Image indexing on the Internet: problems,

means and techniques to manage visual information



Bancos de imágenes en Internet


Métodos y técnicas para la indización y recuperación de los recursos de la World

Wide Web

29. http://dialnet.unirioja.es/servlet/tesis?codigo=7270

Elaboración de un tesauro de información de actualidad y conversión en red

semántica para su empleo en un sistema de recuperación periodístico.


La supervivencia de los servicios de indización y resúmenes con la explosión de

Internet


La organización temática de la información: tendencias en la clasificación e

indización de documentos


Indización y representación de documentos visuales y audiovisuales


Bancos de imágenes y sonido y motores de indicación en la www


Acceso a la información basado en su contenido: la clave de la gestión documental

en la empresa


Etapas del tratamiento documental de imagen en movimiento para televisión


Topics maps y la indización de recursos electrónicos en la web



La documentación audiovisual en las empresas televisivas


Indización automática de vídeo


Indización de un fondo de documentación especializado (I). Lista índice de

descriptores: desarrollo de un lenguaje a medida


Tesauros e Información Audiovisual: estudio de caso


Proyecto Tesauro de cine español


Karpanta, un motor de búsqueda experimental


Web semántica: un nuevo enfoque para la organización y la recuperación de

información en el Web


La indización en la recuperación de la información


Tendencias en los sistemas de indización automática. Estudio evolutivo


Sistema automatizado de indización y de recuperación de documentos visuales de

Radio-Quebec



Metodología para la indización de documentos no textuales: algunas precisiones a

propósito de los documentos gráficos y audiovisuales

48. http://web.mit.edu/torralba/www/

Página de contenidos de Antonio Torralba, desde donde se pueden acceder a todos

los papers y publicaciones de manera on line, donde hace referencia a sus estudios y

se pueden seguir sus investigaciones.

49. http://labelme.csail.mit.edu/VideoLabelMe/

Herramienta para la anotación de contenidos.

OTROS METODOS DE SEGMENTACIÓN

50. Davenport, G.; Aguirre, S.; Pincever, N. “Cinematic primitives for

multimedia”. En: Ieee computer graphics & applications, 1991, julio.

51. Aguierre Smith, T. G. If you could see what I mean. MIT MS thesis.

Cambridge, Massachusetts, EUA, 1992.

52. Hjelsvold, R.; Midtstraum, R. “Modelling and querying data”. En: 20th

International Conference on very large data bases, 1994.

53. Adali, S.; Candan, K. S.; Chen, S.; Erol, K.; Subrahmanian, V. S.

“Advanced video information system: data structures and query processing”.

En: ACM-Springer multimedia systems journal, 1996.

54. Subramanian, V. S. Principles of multimedia database systems. San Francisco:

Morgan Kaufman Publishers, 1997. Isbn 1558604669.

55. Tran, D. A.; Hua, K. A.; Vu, K. “Semantic reasoning based video database

systems”. En: 11th International conference on databases and expert systems

applications, 2000.

buscadores no textuales

Documents