le - scielo.org.mx · ello supone una limitación, puesto que la presentación de objetos en tres...

14
ARTÍCULO DE INVESTIGACIÓN REVISTA MEXICANA DE INGENIERÍA BIOMÉDICA ib Vol. 37, No. 2, May-Ago 2016, pp. 101-114 dx.doi.org/10.17488/RMIB.37.2.5 Sistema de Apoyo Experimental para el Reconocimiento Visual y el Nombrado de Objetos W.R. Rodríguez Dueñas 1 , H. Marín Manrique 2 , B.J. Hernández Jaramillo 1 , M. Torres Narvaez 1 , E. Galindo Rojas 1 1 Escuela de Medicina y Ciencias de la Salud, Universidad del Rosario, Bogotá, Colombia. 2 Facultad de Ciencias Sociales y Humanas, Universidad de Zaragoza, Campus Universitario de Teruel, España. RESUMEN En la práctica clínica relacionada con la rehabilitación cognitiva, perceptual y del lenguaje, es habitual emplear como estímulos representaciones de objetos en dos dimensiones como dibujos o fotografías para que sean identificados por los pacientes. Ello supone una limitación, puesto que la presentación de objetos en tres dimensiones, dada su mayor riqueza visual, facilita su identificación y podría apoyar procesos de rehabilitación. Objetivo. Diseñar una configuración experimental para conocer el grado en que las modalidades de presentación de estímulos afectan el reconocimiento visual de objetos. Materiales y Métodos. Se diseñó un sistema de bajo costo para mostrar estímulos en tres modalidades: imágenes, videos y objetos reales. Fueron seleccionados 80 objetos, controlando las variables de manipulabilidad, edad de adquisición, familiaridad, complejidad visual y frecuencia léxica. Se realizó una prueba piloto utilizando el sistema con cinco personas sanas y se midieron los tiempos de reacción en la nominación de los objetos. Resultados. Las diferencias en los tiempos de reacción entre las modalidades observadas apoyan la influencia de la modalidad de presentación en el reconocimiento de objetos. Conclusiones. Las propiedades de volumen de los objetos permitirían la exploración de características que las fotografías no tendrían; razón por la cual, los tiempos de reacción para los objetos reales y los videos fueron menores. Son valiosos los aportes que ofrecen una alternativa de bajo costo para la visualización y el reconocimiento de objetos. Palabras clave: rehabilitación, reconocimiento de objetos, agnosia visual, diseño en ingeniería. Correspondencia: William R. Rodríguez Escuela de Medicina y Ciencias de la Salud, Universidad del Rosario. Cra 24 63C 74 Bogotá, Colombia. Correo electrónico: [email protected] Fecha de recepción: 14 de octubre del 2015 Fecha de aceptación: 1 de marzo del 2016

Upload: trinhliem

Post on 02-Nov-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

ARTÍCULO DE INVESTIGACIÓN REVISTA MEXICANA DE

INGENIERÍA BIOMÉDICAibVol. 37, No. 2, May-Ago 2016, pp. 101-114

dx.doi.org/10.17488/RMIB.37.2.5

Sistema de Apoyo Experimental para el ReconocimientoVisual y el Nombrado de Objetos

W.R. Rodríguez Dueñas1, H. Marín Manrique2, B.J. Hernández Jaramillo1, M. Torres Narvaez1,E. Galindo Rojas1

1Escuela de Medicina y Ciencias de la Salud, Universidad del Rosario, Bogotá, Colombia.2Facultad de Ciencias Sociales y Humanas, Universidad de Zaragoza, Campus Universitario de Teruel, España.

RESUMENEn la práctica clínica relacionada con la rehabilitación cognitiva, perceptual y del lenguaje, es habitual emplear

como estímulos representaciones de objetos en dos dimensiones como dibujos o fotografías para que sean identificadospor los pacientes. Ello supone una limitación, puesto que la presentación de objetos en tres dimensiones, dada sumayor riqueza visual, facilita su identificación y podría apoyar procesos de rehabilitación. Objetivo. Diseñar unaconfiguración experimental para conocer el grado en que las modalidades de presentación de estímulos afectan elreconocimiento visual de objetos. Materiales y Métodos. Se diseñó un sistema de bajo costo para mostrarestímulos en tres modalidades: imágenes, videos y objetos reales. Fueron seleccionados 80 objetos, controlando lasvariables de manipulabilidad, edad de adquisición, familiaridad, complejidad visual y frecuencia léxica. Se realizó unaprueba piloto utilizando el sistema con cinco personas sanas y se midieron los tiempos de reacción en la nominaciónde los objetos. Resultados. Las diferencias en los tiempos de reacción entre las modalidades observadas apoyanla influencia de la modalidad de presentación en el reconocimiento de objetos. Conclusiones. Las propiedades devolumen de los objetos permitirían la exploración de características que las fotografías no tendrían; razón por la cual,los tiempos de reacción para los objetos reales y los videos fueron menores. Son valiosos los aportes que ofrecen unaalternativa de bajo costo para la visualización y el reconocimiento de objetos.Palabras clave: rehabilitación, reconocimiento de objetos, agnosia visual, diseño en ingeniería.

Correspondencia:William R. RodríguezEscuela de Medicina y Ciencias de la Salud, Universidad del Rosario.Cra 24 63C 74 Bogotá, Colombia.Correo electrónico: [email protected]

Fecha de recepción:14 de octubre del 2015

Fecha de aceptación:1 de marzo del 2016

102 Revista Mexicana de Ingeniería Biomédica · volumen 37 · número 2 · May-Ago, 2016

ABSTRACTA wide variety of stimuli or objects such as drawings or photographs are used in cognitive perceptual and language

rehabilitation. However, the presentation of objects in three dimensions, due to the visual richness, facilitates theidentification and could support the rehabilitation process. Objective. Design an experimental setup to determinethe extent to which the modality of presentation of objects affects the visual recognition of objects. Materials andmethods. A low-cost experimental system was designed in order to show the stimulus in three ways: images, videosand real objects. Eighty objects were selected and variables as manipulability, age of acquisition, familiarity, visualcomplexity, agreement on the label and lexical frequency were controlled. A pilot study was conducted using thesystem in five healthy participants and the reaction time to identify objects was measured. Results. The findingsreveal that the differences in reaction times between the modalities of presentation support the influence of the modeof presentation in object recognition. Conclusions. The volume object properties could allow the exploration ofcharacteristics that the photographs would not have. This may be why the reaction time to identify real objectsor videos was lower. Low-cost alternatives for the visualization and object recognition are valuable in cognitiveperceptual and language rehabilitation.Keywords: rehabilitation, object recognition, agnosia, engineering design.

INTRODUCCIÓN

La nominación de objetos es una habilidadfundamental que usamos las personasdurante la comunicación verbal y consiste enreconocer un objeto presentado visualmentey mencionar su nombre en voz alta. Deallí que los objetos presentados visualmentesean comúnmente usados como estímulostanto en la investigación de funcionesmentales superiores (ej., percepción,memoria y lenguaje) como en la prácticaterapéutica. Sin embargo, los estímulospictóricos empleados varían ampliamente endimensiones como: 1) la concordancia delnombre (de acuerdo en la forma como losobjetos son llamados por diferentes personasy culturas); 2) la edad de adquisición dela etiqueta o nombre del objeto; 3) lacomplejidad visual; 4) la categoría semánticadel objeto y 5) la frecuencia de uso y sufamiliaridad, entre otros. Es decir, todolo cual puede afectar el éxito y el tiempode nombrado de los estímulos visuales. Enconsecuencia, ha habido en los últimos años

un esfuerzo por normalizar este tipo devariables en bases de datos que puedan serusadas con fines investigativos y clínicos[1, 2, 3].

En la investigación sobre percepción ensujetos atípicos, como ocurre en el caso delos pacientes agnósicos, el reconocimiento deobjetos se ve influenciado por el modo depresentación de los mismos. Los pacientesagnósicos tienen un mayor éxito parareconocer objetos reales en comparación confotografías o dibujos [4, 5], esto seguramentedebido a que los objetos reales proporcionaninformación tridimensional que resulta clavepara ayudar en su identificación [6, 7].

En el reconocimiento de objetos se asociala entrada visual con una categoría semántica;de allí el interés por estudiar la relación entrepercepción y acción, en especial de aquellosobjetos accionables versus los no accionableso que requieren de un agarre que no evocaun uso específico. Wolk y colaboradores[8] demostraron que la manipulabilidad delos objetos predecía la probabilidad dereconocimiento de los mismos por parte

Rodríguez et al, Sistema de apoyo experimental para el reconocimiento visual y el nombrado de objetos 103

de sujetos agnósicos, en el sentido que, amayor manipulabilidad mayor probabilidadde reconocimiento. Sin embargo, definir elgrado de manipulabilidad de un objeto noes tan sencillo. Mientras que para Magniéy colaboradores [9] la manipulabilidad de unobjeto viene determinada por el grado en quese puede imitar su uso (pantomima) a travésde gestos; otros autores proponen que loimportante en relación a la manipulabilidades saber hasta qué punto la forma del objetoindica su modo de uso [8]. En este sentidovale la pena recordar que las representacionesmotoras asociadas al uso de un objeto podríanactivarse ante la visión de dicho objeto yayudar en su reconocimiento y nombrado.Por ello, la prueba piloto del diseño aquípresentado permite comparar el efecto quepara el éxito del nombrado (tasas de aciertosy tiempo de reacción) tiene la modalidadde presentación de los estímulos (imágenes,videos y objetos reales).

En el área de la rehabilitación algunospacientes, en especial aquellos sobrevivientesde enfermedad cerebro vascular, presentanalteraciones en su capacidad para identificarobjetos. Esta situación puede reducir elgrado de independencia funcional afectandosu relación con el entorno, cuyas exigenciasimplican el reconocimiento y nombradode objetos. Los terapeutas disponen derecursos para la rehabilitación que se apoyanmayoritariamente en la presentación deláminas con dibujos o fotografías en dosdimensiones de los objetos. A priori estoparece una limitación, puesto que si laidentificación de los objetos se ve facilitadapor la riqueza de detalles visuales, resultaríamás conveniente presentar los objetos realesy no una representación gráfica de losmismos. Sin embargo, teniendo en cuenta lacantidad ingente de estímulos (objetos) quese necesitan en un proceso de rehabilitaciónclínica y los problemas derivados de su gestióny almacenamiento, es entendible que se siganempleando dibujos o fotografías.

Una tendencia de investigación es el

escaneo de objetos reales por medio detecnologías digitales para su posteriorreconstrucción virtual. Como ejemplo de ellose encuentra el escaneo con láser de objetosreales y la utilización de avanzados algoritmosde reconstrucción para obtener al final delproceso, objetos virtuales para diversasaplicaciones [10, 11, 12]. También existenbases de datos libres en internet como laOB3D, una herramienta para la investigaciónexperimental en ciencias cognitivas [13, 14].OB3D es una buena alternativa para estudiosde reconocimiento de objetos, sin embargo,un objeto consiste en una nube de puntosen el espacio que carece de superficie, colore iluminación, lo que dificulta su aplicaciónya que lo que se busca es imitar lo mejorposible las características de un objeto real.Las anteriores son posibilidades tangiblespara trabajar el reconocimiento visual y elnombrado de objetos. No obstante, sonalternativas que toman bastante tiempopara su adecuación además de requerir deimportantes recursos financieros para contarcon los equipos necesarios.

El presente proyecto trata de dar unasolución a este problema puesto que proponeuna configuración experimental de bajo costoque utiliza videos de alta definición enlugar de objetos reales. Este sistemapermitirá comparar el grado en que lapresentación de objetos familiares en video enla pantalla de un computador y la de esosobjetos reales, facilitan su reconocimientoy nombrado en contraposición con lasrepresentaciones gráficas en dos dimensiones.De esta manera se optimizarían los recursosterapéuticos en la rehabilitación de pacientescon déficit en la percepción visual y enla nominación, reduciendo los problemasderivados de la gestión de objetos reales,y posiblemente ampliando el banco deestímulos visuales terapéuticos. La evidenciadisponible no permite conocer la aplicación dela modalidad de presentación de videos comoestímulos terapéuticos para la intervención enalteraciones de la percepción visual.

104 Revista Mexicana de Ingeniería Biomédica · volumen 37 · número 2 · May-Ago, 2016

El trabajo interprofesional entrepsicólogos, rehabilitadores e ingenierosbiomédicos busca aportar alternativastecnológicas para abordar este problema yfacilitar la disponibilidad y accesibilidad deestímulos terapéuticos en la atención depacientes con alteraciones en la percepciónvisual.

Este trabajo reporta el diseño, laconstrucción y el pilotaje de una plataformade visualización de objetos reales comoherramienta para controlar la forma ytiempo de presentación de los estímulosque se utilizarán en una fase experimentalsubsiguiente con pacientes con agnosia visual.La plataforma permite la visualización delos objetos seleccionados reales en rotacióny la generación de los videos de losobjetos. Para probar el sistema, se realizóun estudio piloto con personas sanas sindiagnóstico de enfermedad neurológica nidéficit visual, en el que fueron ejecutadas dostareas: 1) nombrado de objetos presentadosen fotografías versus objetos reales y 2)nombrado de objetos reales versus objetospresentados en video.

MATERIALES Y MÉTODOS

La metodología incluyó cuatro fases. Enla Fase 1 se seleccionaron los objetos(estímulos) que serían utilizados en lasdiferentes modalidades de presentación. LaFase 2 incluyó el diseño y construcción de losdispositivos necesarios para la visualizaciónde estímulos en la modalidad de objetosreales; estos dispositivos consistieron en unaplataforma para visualizar los objetos enrotación y en un biombo que los ocultaradurante la transición de estímulos en lassesiones experimentales. En la Fase 3 seadquirieron los medios (fotografías y videos)que debían cumplir con ciertos criterios decalidad. Finalmente, en la Fase 4 se realizóuna prueba piloto para probar el desempeñodel sistema.

Fase 1 - Selección de estímulos/objetos

Fueron seleccionados 80 objetos del bancode imágenes estandarizado propuesto porSalmon y colaboradores [1], controlandovariables como el uso funcional, el agarre,la edad de adquisición, la familiaridad, lacomplejidad visual, la concordancia en laetiqueta y la frecuencia léxica, obtenidas delas medias y desviaciones estándar reportadasen otros estudios de normatización [2, 15,16, 17]. Fueron controladas también eluso unimanual o bimanual mediante unatarea de normatización en un grupo de44 personas típicas, en cuyo caso debíanclasificar los 80 objetos en uni o bimanuales,para lo cual se obtuvo del total de estímulosun 58,75% unimanual y 41,25% bimanual,valores que fueron tenidos en cuenta parala distribución homogénea de objetos enlas listas de presentación utilizados en losexperimentos. Un tratamiento similar sellevó a cabo para la frecuencia de uso de losobjetos, en cuyo caso las cinco personas queparticiparían en la prueba piloto calificaronmediante una escala Likert la periodicidadcon la cual hacían uso de los objetos en lalista obteniendo, que de la totalidad de losestímulos, el 42,5% fueron de baja frecuenciay 57,5% de alta. Para el análisis de losresultados de la escala Likert se tuvieron encuenta los valores de 0 a 10 por cada objeto,clasificando en alta frecuencia a los estímuloscon un número mayor o igual a 5 y baja menorde 5.

Los valores de frecuencia léxica de laetiqueta para cada objeto fueron obtenidosdel Léxico Informatizado del Español-LEXESP [18] (ver Tabla 1). La frecuencialéxica se corresponde a la aparición dela palabra por un conteo de millón depalabras, de manera que hubo palabras oetiquetas de alta y baja frecuencia. Paralos objetos no contenidos en el LEXESP,fueron tomados los valores de Brodeur [2]y Cuetos [15]. Otros objetos (8% del totalde estímulos) seleccionados para la pruebapiloto no cuentan con valores normalizados.

Rodríguez et al, Sistema de apoyo experimental para el reconocimiento visual y el nombrado de objetos 105

Tabla 1. Listado de los 80 objetos utilizados en el estudio y su valores de frecuencia léxica.Objetos Frecuencia Léxica Objetos Frecuencia Léxicaalicates 23 armónica 2,86bisturí 6,07 atomizador 0,18bombilla 5,36 batidora —botella 31,61 bota 5,18bufanda 4,11 cepillo 5,18caja 45 cepillo de dientes 39

calculadora 2,14 clip 0,54cámara 39,82 collar 6,25campana 11 compota 0,18cenicero 6,43 control remoto 23

cepillo de cabello — corbata 17,14cigarrillo 39,82 cuchara 3,75

cinta métrica 0 cuchilla de afeitar 5,58cinturón 14,64 cuchillo 15,36cortaúñas 31 dados —depilador 30 descorchador —destapador 24 destornillador 35encendedor 1,61 escoba 2,86

gorra 7,68 esfero —guante 8,39 gafas 33,04calcetín 1,43 grapadora 37

pandereta 1,07 lápiz 10pantalón 18,21 libro 194,29

papel higiénico 35 llave 22,86paraguas 12,5 llave alemana —peine 5 maracas 1,43

pinzas de hielo — marcador 6,07pistola 26,79 martillo 5,36pitillo 8,93 pala 4,82plancha 5,18 pelota 18,39rayador 15 perforadora 0,54

sacaganchos 25 pincel 3,57salero 0,71 pinza de ropa —sobre 1458,75 puntilla 0,89taladro 1,43 secador de pelo 25tambor 6,79 serrucho 1,07teléfono 80,18 silbato 1,61tornillo 1,43 sonajero 0,71

transportador 13 tajalápiz 24violín 5,18 tijeras 4,82

106 Revista Mexicana de Ingeniería Biomédica · volumen 37 · número 2 · May-Ago, 2016

6 Revista Mexicana de Ingeniería Biomédica

con valores normalizados.En aquellos casos en los cuales los valores de

las medias de las variables de interés no estabandisponibles en la estandarización en español [15,16], se tomaron los valores establecidos de labase de datos en inglés [1] para el mismo objeto.Cada sesión experimental quedó constituidapor 40 estímulos distribuidos en dos gruposcontrabalanceados por las variables de control;de manera que ambos grupos incluyeron objetosde medias equivalentes de uso funcional, agarre,edad de adquisición, familiaridad, complejidadvisual, concordancia en la etiqueta y frecuencialéxica. La Figura 1 es una muestra de seis de los80 estímulos/objetos seleccionados.

Figura 1. Algunos de los objetos utilizados.

Fase 2 - Diseño y construcción dedispositivos

En esta fase se trabajó en el diseño yconstrucción de la plataforma de rotación quepermitió la toma de videos y fotografías, así comola visualización de objetos en modalidad real.Adicionalmente, se construyó un biombo paraocultar la plataforma y los objetos en modalidadreal que fueron presentados a los participantes.Para garantizar el buen funcionamiento dedichos dispositivos y el éxito de las pruebas seestablecieron los siguientes requisitos de diseño:

Requisitos de diseño

Los dispositivos debían ser de bajo costo yportables.

No debían contener elementos distractores(el participante debe centrar su atención enel objeto).

La plataforma debía generar el menor ruidoposible durante su funcionamiento.

La velocidad de rotación de la plataformadebía ser ajustable y después permanecerconstante.

El área efectiva de trabajo para colocarlos objetos en la plataforma debía serde 1200 cm2 aproximadamente (circulo de40 cm de diámetro).

La plataforma debía soportar objetos de unpeso máximo de 4 kilogramos.

El biombo debía ser liviano, de fácilmanipulación y tener una altura máximade 60 cm.

El biombo debía tener un área efectivapara ocultar los objetos y la plataforma de0, 5 m2.

Si los dispositivos no cumplían con losrequisitos de diseño establecidos estos eranrediseñados o ajustados hasta lograrlo.

Se obtuvo un diseño de la plataformagiratoria como la observada en la Figura 2.Esta requirió una inversión aproximada de250 dólares americanos. Fue construida enmadera aglomerada tipo MDF (Medium DensityFibreboard) y acrílico blanco de 6 milímetros degrosor. El sistema de rotación de la base (círculoblanco) es por contacto directo con un motorcon motoreductor de 12 voltios. El diagrama debloques de la plataforma puede apreciarse en laFigura 3. Este consta de un microcontrolador(PIC12C671) en donde una entrada analógicamodifica el ancho de pulso (PWM por sus siglasen inglés) que afectará la velocidad del motor. Elmotor posee un motoreductor que transmite sumovimiento directamente a la base de rotación.Por último, un regulador de corriente alimentauna cinta de LEDs que ilumina la base dela plataforma para resaltar los objetos allícolocados.

Figura 1. Algunos de los objetos utilizados.

En aquellos casos en los cuales losvalores de las medias de las variablesde interés no estaban disponibles en laestandarización en español [15, 16], setomaron los valores establecidos de labase de datos en inglés [1] para el mismoobjeto. Cada sesión experimental quedóconstituida por 40 estímulos distribuidosen dos grupos contrabalanceados por lasvariables de control; de manera queambos grupos incluyeron objetos de mediasequivalentes de uso funcional, agarre, edad deadquisición, familiaridad, complejidad visual,concordancia en la etiqueta y frecuencialéxica. La Figura 1 es una muestra de seis delos 80 estímulos/objetos seleccionados.

Fase 2 - Diseño y construcción dedispositivos

En esta fase se trabajó en el diseño yconstrucción de la plataforma de rotaciónque permitió la toma de videos y fotografías,así como la visualización de objetos enmodalidad real. Adicionalmente, seconstruyó un biombo para ocultar laplataforma y los objetos en modalidad realque fueron presentados a los participantes.Para garantizar el buen funcionamiento dedichos dispositivos y el éxito de las pruebasse establecieron los siguientes requisitos dediseño:

Requisitos de diseño• Los dispositivos debían ser de bajo costoy portables.

• No debían contener elementosdistractores (el participante debecentrar su atención en el objeto).

• La plataforma debía generar elmenor ruido posible durante sufuncionamiento.

• La velocidad de rotación de laplataforma debía ser ajustable y despuéspermanecer constante.

• El área efectiva de trabajo para colocarlos objetos en la plataforma debía serde 1200 cm2 aproximadamente (circulode 40 cm de diámetro).

• La plataforma debía soportar objetos deun peso máximo de 4 kilogramos.

• El biombo debía ser liviano, defácil manipulación y tener una alturamáxima de 60 cm.

• El biombo debía tener un área efectivapara ocultar los objetos y la plataformade 0, 5 m2.

Si los dispositivos no cumplían con losrequisitos de diseño establecidos estos eranrediseñados o ajustados hasta lograrlo.

Se obtuvo un diseño de la plataformagiratoria como la observada en la Figura2. Esta requirió una inversión aproximadade 250 dólares americanos. Fue construidaen madera aglomerada tipo MDF (MediumDensity Fibreboard) y acrílico blanco de 6milímetros de grosor. El sistema de rotaciónde la base (círculo blanco) es por contactodirecto con un motor con motoreductor de12 voltios. El diagrama de bloques de laplataforma puede apreciarse en la Figura3. Este consta de un microcontrolador(PIC12C671) en donde una entrada analógicamodifica el ancho de pulso (PWM por sussiglas en inglés) que afectará la velocidad delmotor. El motor posee un motoreductor quetransmite su movimiento directamente a labase de rotación. Por último, un reguladorde corriente alimenta una cinta de LEDs queilumina la base de la plataforma para resaltarlos objetos allí colocados.

Rodríguez et al, Sistema de apoyo experimental para el reconocimiento visual y el nombrado de objetos 107W. R. Rodríguez y cols. Sistema de apoyo experimental para el reconocimiento visual y el nombrado de objetos. 7

Figura 2. Plataforma desarrollada.

La parte de madera de la plataforma se pintóde color negro mate para evitar reflejos y pararesaltar los objetos ubicados en la base blanca.

Figura 3. Diagrama de bloques de laplataforma.

El biombo consiste en dos estructurasverticales simples construidas en tubo PVC(Policloruro de vinilo) de media pulgada (Figura4). A estas dos estructuras verticales se acoplaun telón negro mediante un tubo horizontalhecho también de PVC (no acoplado en laFigura 4). El biombo se arma y se desarmarápidamente ocupando un mínimo de espacio.Requirió una inversión de aproximada de 30dólares americanos.

Figura 4. Biombo construido.

Fase 3 - Adquisición de medios

En esta fase fue necesario adquirir los medios(fotografías y videos) con la mejor calidadposible, es decir, que tanto las fotografías(imágenes) como los videos debían ofrecer lamáxima información posible al observador acercadel objeto, tal y como si se tratara de laobservación del objeto real.

En un inicio, las fotografías se tomaronsin contar con el factor facilitador de lamanipulación, es decir sin la condición de ubicarlos objetos en una posición que estuvieran “listospara usarse”; también se tomaron las fotografíascon una resolución de 1334 X 750 píxeles(media resolución) para evitar el elevado pesoen MB (megabytes) de las fotografías finales, sinembargo, objetos pequeños como un depiladorpresentaron pixelación. Por otro lado, los videospresentaron una irregularidad porque la rotaciónde la plataforma no había sido controlada, lo queprodujo una inestabilidad visual en la imagen delvideo.

Con estas anomalías, se reinició el procesode toma de fotos y videos pero ahora en altaresolución y en alta definición respectivamentepara lo cual se debía cumplir con los siguientescriterios de la calidad:

Criterios de calidad de los medios

Las fotografías debían ser tomadas en altaresolución (2592 X 1728 píxeles) a 14 bitsen grano fino.

Los videos debían ser tomados en Full HD(1920 X 1080 píxeles).

Los medios debían tener las mismasdimensiones entre sí, es decir, el mismotamaño todas las fotografías y el mismotamaño todos los videos.

La distancia entre la cámara y los objetosa fotografiar/filmar debía ser siempreconstante, 80 cm.

El ángulo formado entre el plano horizontalde la plataforma y la dirección de enfoque

Figura 2. Plataforma desarrollada.

W. R. Rodríguez y cols. Sistema de apoyo experimental para el reconocimiento visual y el nombrado de objetos. 7

Figura 2. Plataforma desarrollada.

La parte de madera de la plataforma se pintóde color negro mate para evitar reflejos y pararesaltar los objetos ubicados en la base blanca.

Figura 3. Diagrama de bloques de laplataforma.

El biombo consiste en dos estructurasverticales simples construidas en tubo PVC(Policloruro de vinilo) de media pulgada (Figura4). A estas dos estructuras verticales se acoplaun telón negro mediante un tubo horizontalhecho también de PVC (no acoplado en laFigura 4). El biombo se arma y se desarmarápidamente ocupando un mínimo de espacio.Requirió una inversión de aproximada de 30dólares americanos.

Figura 4. Biombo construido.

Fase 3 - Adquisición de medios

En esta fase fue necesario adquirir los medios(fotografías y videos) con la mejor calidadposible, es decir, que tanto las fotografías(imágenes) como los videos debían ofrecer lamáxima información posible al observador acercadel objeto, tal y como si se tratara de laobservación del objeto real.

En un inicio, las fotografías se tomaronsin contar con el factor facilitador de lamanipulación, es decir sin la condición de ubicarlos objetos en una posición que estuvieran “listospara usarse”; también se tomaron las fotografíascon una resolución de 1334 X 750 píxeles(media resolución) para evitar el elevado pesoen MB (megabytes) de las fotografías finales, sinembargo, objetos pequeños como un depiladorpresentaron pixelación. Por otro lado, los videospresentaron una irregularidad porque la rotaciónde la plataforma no había sido controlada, lo queprodujo una inestabilidad visual en la imagen delvideo.

Con estas anomalías, se reinició el procesode toma de fotos y videos pero ahora en altaresolución y en alta definición respectivamentepara lo cual se debía cumplir con los siguientescriterios de la calidad:

Criterios de calidad de los medios

Las fotografías debían ser tomadas en altaresolución (2592 X 1728 píxeles) a 14 bitsen grano fino.

Los videos debían ser tomados en Full HD(1920 X 1080 píxeles).

Los medios debían tener las mismasdimensiones entre sí, es decir, el mismotamaño todas las fotografías y el mismotamaño todos los videos.

La distancia entre la cámara y los objetosa fotografiar/filmar debía ser siempreconstante, 80 cm.

El ángulo formado entre el plano horizontalde la plataforma y la dirección de enfoque

Figura 3. Diagrama de bloques de la plataforma.

W. R. Rodríguez y cols. Sistema de apoyo experimental para el reconocimiento visual y el nombrado de objetos. 7

Figura 2. Plataforma desarrollada.

La parte de madera de la plataforma se pintóde color negro mate para evitar reflejos y pararesaltar los objetos ubicados en la base blanca.

Figura 3. Diagrama de bloques de laplataforma.

El biombo consiste en dos estructurasverticales simples construidas en tubo PVC(Policloruro de vinilo) de media pulgada (Figura4). A estas dos estructuras verticales se acoplaun telón negro mediante un tubo horizontalhecho también de PVC (no acoplado en laFigura 4). El biombo se arma y se desarmarápidamente ocupando un mínimo de espacio.Requirió una inversión de aproximada de 30dólares americanos.

Figura 4. Biombo construido.

Fase 3 - Adquisición de medios

En esta fase fue necesario adquirir los medios(fotografías y videos) con la mejor calidadposible, es decir, que tanto las fotografías(imágenes) como los videos debían ofrecer lamáxima información posible al observador acercadel objeto, tal y como si se tratara de laobservación del objeto real.

En un inicio, las fotografías se tomaronsin contar con el factor facilitador de lamanipulación, es decir sin la condición de ubicarlos objetos en una posición que estuvieran “listospara usarse”; también se tomaron las fotografíascon una resolución de 1334 X 750 píxeles(media resolución) para evitar el elevado pesoen MB (megabytes) de las fotografías finales, sinembargo, objetos pequeños como un depiladorpresentaron pixelación. Por otro lado, los videospresentaron una irregularidad porque la rotaciónde la plataforma no había sido controlada, lo queprodujo una inestabilidad visual en la imagen delvideo.

Con estas anomalías, se reinició el procesode toma de fotos y videos pero ahora en altaresolución y en alta definición respectivamentepara lo cual se debía cumplir con los siguientescriterios de la calidad:

Criterios de calidad de los medios

Las fotografías debían ser tomadas en altaresolución (2592 X 1728 píxeles) a 14 bitsen grano fino.

Los videos debían ser tomados en Full HD(1920 X 1080 píxeles).

Los medios debían tener las mismasdimensiones entre sí, es decir, el mismotamaño todas las fotografías y el mismotamaño todos los videos.

La distancia entre la cámara y los objetosa fotografiar/filmar debía ser siempreconstante, 80 cm.

El ángulo formado entre el plano horizontalde la plataforma y la dirección de enfoqueFigura 4. Biombo construido.

La parte de madera de la plataforma sepintó de color negro mate para evitar reflejosy para resaltar los objetos ubicados en la baseblanca.

El biombo consiste en dos estructurasverticales simples construidas en tubo PVC(Policloruro de vinilo) de media pulgada(Figura 4). A estas dos estructuras verticalesse acopla un telón negro mediante untubo horizontal hecho también de PVC (noacoplado en la Figura 4). El biombo se

arma y se desarma rápidamente ocupando unmínimo de espacio. Requirió una inversión deaproximada de 30 dólares americanos.

Fase 3 - Adquisición de medios

En esta fase fue necesario adquirir los medios(fotografías y videos) con la mejor calidadposible, es decir, que tanto las fotografías(imágenes) como los videos debían ofrecerla máxima información posible al observadoracerca del objeto, tal y como si se tratara dela observación del objeto real.

En un inicio, las fotografías se tomaronsin contar con el factor facilitador de lamanipulación, es decir sin la condición deubicar los objetos en una posición queestuvieran “listos para usarse”; también setomaron las fotografías con una resolución de1334 X 750 píxeles (media resolución) paraevitar el elevado peso en MB (megabytes) delas fotografías finales, sin embargo, objetospequeños como un depilador presentaronpixelación. Por otro lado, los videospresentaron una irregularidad porque larotación de la plataforma no había sidocontrolada, lo que produjo una inestabilidadvisual en la imagen del video.

Con estas anomalías, se reinició el procesode toma de fotos y videos pero ahoraen alta resolución y en alta definiciónrespectivamente para lo cual se debía cumplircon los siguientes criterios de la calidad:

Criterios de calidad de los medios

• Las fotografías debían ser tomadas enalta resolución (2592 X 1728 píxeles) a14 bits en grano fino.

• Los videos debían ser tomados en FullHD (1920 X 1080 píxeles).

• Los medios debían tener las mismasdimensiones entre sí, es decir, el mismotamaño todas las fotografías y el mismotamaño todos los videos.

• La distancia entre la cámara y losobjetos a fotografiar/filmar debía sersiempre constante, 80 cm.

108 Revista Mexicana de Ingeniería Biomédica · volumen 37 · número 2 · May-Ago, 2016

8 Revista Mexicana de Ingeniería Biomédica

de la cámara debía ser el mismo en la tomade fotos y de videos, 30◦. Esto correspondeaproximadamente al ángulo de visión deuna persona sentada que mira hacia laplataforma.

Las mismas condiciones de iluminaciónpara la toma de fotografías y de videos.

Posición adecuada para manipulación delobjeto sobre la plataforma en la fotografíay en el primer fotograma del video (véasela posición de los objetos en la Figura 1).

La grabación de los videos debe tenerestabilización de imagen y sin pista deaudio.

Los medios fueron auditados por dosinvestigadores en forma independiente paraconceptuar la calidad de los mismos, de nocoincidir con la evaluación, estos debían serrepetidos hasta lograrlo. La configuración finalutilizada para la toma de fotografías y videos seobserva en la Figura 5 (el objeto en este casoes un guante). Se utilizó una cámara profesionalCanon EOS Rebel T2i de 18 mega píxeles conun flash inalámbrico marca Vivitar, trípodes yaccesorios de mesa. El monitor utilizado para lavisualización de los medios fue de 20 pulgadasreferencia HP LV2011, con retroiluminación LEDy resolución 1920X1080 a 60Hz.

Figura 5. Configuración para la toma de videosy fotografías.

Al final de esta etapa y después de variasrepeticiones, los medios incluían 80 fotografíasde alta resolución y 80 videos en alta definición.

Fase 4 - Prueba piloto

Participantes

Se escogieron por conveniencia cincoparticipantes adultos típicos, (4 mujeres y unhombre) sin compromisos cognitivos ni viso-perceptuales, con una media de edad de 54años y con un nivel de escolaridad que incluíasecundaria, técnico y profesional. Una vez leídoy firmado el consentimiento informado porparte de los participantes, se aplicaron comopruebas de tamizaje el test del Estado MínimoMental [19] (funciones mentales superiores), eltest de Boston (dominio del lenguaje) [20] y elVisual Motor Integration (subtest de percepciónvisual) [21]. Los resultados de la aplicación deestas pruebas determinaron la continuidad delos participantes, por cuanto descartaban laexistencia de alteraciones cognitivas, visuales ydel lenguaje.

Sesión 120 minutos

Sesión 220 minutos

Sesión 320 minutos

Sesión 420 minutos

1 se

man

a

Imágenes Objetosreales

Videos

1 se

man

a

1 se

ma

na

Experimento 1 Experimento 2

Objetosreales

Figura 6. Metodología de la prueba piloto.

La Figura 6 esquematiza la pruebapiloto realizada, la cual tuvo las siguientescaracterísticas:

Se diseñaron dos experimentos.

En cada experimento, cada participanteasistió a dos sesiones de 20 minutos cadauna, en dos días distintos con un intervalode una semana entre una sesión y otra.El ambiente donde se realizó la tareafue controlado, garantizando luminosidad,comodidad y ausencia de interferencia parala tarea.

El Experimento 1 condujo dos sesiones:una en donde fueron presentados 40estímulos en fotografía, y una semanadespués una sesión en la cual se lepresentaron los mismos 40 objetos pero enversión real, rotando en la plataforma.

Figura 5. Configuración para la toma de videos yfotografías.

• El ángulo formado entre el planohorizontal de la plataforma y ladirección de enfoque de la cámara debíaser el mismo en la toma de fotosy de videos, 30◦. Esto correspondeaproximadamente al ángulo de visión deuna persona sentada que mira hacia laplataforma.

• Las mismas condiciones de iluminaciónpara la toma de fotografías y de videos.

• Posición adecuada para manipulacióndel objeto sobre la plataforma en lafotografía y en el primer fotograma delvideo (véase la posición de los objetosen la Figura 1).

• La grabación de los videos debe tenerestabilización de imagen y sin pista deaudio.

Los medios fueron auditados por dosinvestigadores en forma independiente paraconceptuar la calidad de los mismos, de nocoincidir con la evaluación, estos debían serrepetidos hasta lograrlo. La configuraciónfinal utilizada para la toma de fotografías yvideos se observa en la Figura 5 (el objetoen este caso es un guante). Se utilizó unacámara profesional Canon EOS Rebel T2ide 18 mega píxeles con un flash inalámbricomarca Vivitar, trípodes y accesorios de mesa.El monitor utilizado para la visualizaciónde los medios fue de 20 pulgadas referenciaHP LV2011, con retroiluminación LED yresolución 1920X1080 a 60Hz.

Al final de esta etapa y después devarias repeticiones, los medios incluían 80fotografías de alta resolución y 80 videos enalta definición.

Fase 4 - Prueba piloto

Participantes

Se escogieron por conveniencia cincoparticipantes adultos típicos, (4 mujeres yun hombre) sin compromisos cognitivos niviso-perceptuales, con una media de edadde 54 años y con un nivel de escolaridadque incluía secundaria, técnico y profesional.Una vez leído y firmado el consentimientoinformado por parte de los participantes, seaplicaron como pruebas de tamizaje el testdel Estado Mínimo Mental [19] (funcionesmentales superiores), el test de Boston(dominio del lenguaje) [20] y el Visual MotorIntegration (subtest de percepción visual)[21]. Los resultados de la aplicación deestas pruebas determinaron la continuidad delos participantes, por cuanto descartaban laexistencia de alteraciones cognitivas, visualesy del lenguaje.

La Figura 6 esquematiza la pruebapiloto realizada, la cual tuvo las siguientescaracterísticas:

Rodríguez et al, Sistema de apoyo experimental para el reconocimiento visual y el nombrado de objetos 109

8 Revista Mexicana de Ingeniería Biomédica

de la cámara debía ser el mismo en la tomade fotos y de videos, 30◦. Esto correspondeaproximadamente al ángulo de visión deuna persona sentada que mira hacia laplataforma.

Las mismas condiciones de iluminaciónpara la toma de fotografías y de videos.

Posición adecuada para manipulación delobjeto sobre la plataforma en la fotografíay en el primer fotograma del video (véasela posición de los objetos en la Figura 1).

La grabación de los videos debe tenerestabilización de imagen y sin pista deaudio.

Los medios fueron auditados por dosinvestigadores en forma independiente paraconceptuar la calidad de los mismos, de nocoincidir con la evaluación, estos debían serrepetidos hasta lograrlo. La configuración finalutilizada para la toma de fotografías y videos seobserva en la Figura 5 (el objeto en este casoes un guante). Se utilizó una cámara profesionalCanon EOS Rebel T2i de 18 mega píxeles conun flash inalámbrico marca Vivitar, trípodes yaccesorios de mesa. El monitor utilizado para lavisualización de los medios fue de 20 pulgadasreferencia HP LV2011, con retroiluminación LEDy resolución 1920X1080 a 60Hz.

Figura 5. Configuración para la toma de videosy fotografías.

Al final de esta etapa y después de variasrepeticiones, los medios incluían 80 fotografíasde alta resolución y 80 videos en alta definición.

Fase 4 - Prueba piloto

Participantes

Se escogieron por conveniencia cincoparticipantes adultos típicos, (4 mujeres y unhombre) sin compromisos cognitivos ni viso-perceptuales, con una media de edad de 54años y con un nivel de escolaridad que incluíasecundaria, técnico y profesional. Una vez leídoy firmado el consentimiento informado porparte de los participantes, se aplicaron comopruebas de tamizaje el test del Estado MínimoMental [19] (funciones mentales superiores), eltest de Boston (dominio del lenguaje) [20] y elVisual Motor Integration (subtest de percepciónvisual) [21]. Los resultados de la aplicación deestas pruebas determinaron la continuidad delos participantes, por cuanto descartaban laexistencia de alteraciones cognitivas, visuales ydel lenguaje.

Sesión 120 minutos

Sesión 220 minutos

Sesión 320 minutos

Sesión 420 minutos

1 se

man

aImágenes Objetos

realesVideos

1 se

man

a

1 se

ma

na

Experimento 1 Experimento 2

Objetosreales

Figura 6. Metodología de la prueba piloto.

La Figura 6 esquematiza la pruebapiloto realizada, la cual tuvo las siguientescaracterísticas:

Se diseñaron dos experimentos.

En cada experimento, cada participanteasistió a dos sesiones de 20 minutos cadauna, en dos días distintos con un intervalode una semana entre una sesión y otra.El ambiente donde se realizó la tareafue controlado, garantizando luminosidad,comodidad y ausencia de interferencia parala tarea.

El Experimento 1 condujo dos sesiones:una en donde fueron presentados 40estímulos en fotografía, y una semanadespués una sesión en la cual se lepresentaron los mismos 40 objetos pero enversión real, rotando en la plataforma.

Figura 6. Metodología de la prueba piloto.

• Se diseñaron dos experimentos.

• En cada experimento, cada participanteasistió a dos sesiones de 20 minutoscada una, en dos días distintos conun intervalo de una semana entre unasesión y otra. El ambiente dondese realizó la tarea fue controlado,garantizando luminosidad, comodidad yausencia de interferencia para la tarea.

• El Experimento 1 condujo dos sesiones:una en donde fueron presentados 40estímulos en fotografía, y una semanadespués una sesión en la cual sele presentaron los mismos 40 objetospero en versión real, rotando en laplataforma.

• En el Experimento 2 se repitió la mismametodología del Experimento 1 pero,en este caso, la presentación de objetosfue en versión real y en video; además,se utilizaron 40 objetos diferentes. Entotal, la prueba piloto usó 80 estímulos.

• La presentación de los estímulos enfotografías y videos se hizo por mediodel programa informático SuperLab1,del cual el grupo de investigaciónposee una licencia para su uso; sinembargo, como la filosofía del grupo esfomentar también el uso de tecnologíasde bajo costo, en una etapa posteriordel proyecto se utilizarán herramientasgratuitas como OpenSesame2 o comoPsychoPy3. Estas son herramientasde código abierto y permiten la

presentación de estímulos y la recogidade datos para una amplia gamade experimentos en neurociencia ypsicología [22, 23]. En el caso deSuperLab, es una herramienta quefacilita la presentación de estímulospara la investigación comportamentalen neurociencias cognitivas. Coneste programa es posible temporizary controlar el orden de presentaciónde los estímulos. Al momento depresentar un estímulo en fotografía o envideo, el sistema generaba un discretosonido (tipo bip) y se visualizaba dichoestímulo por un tiempo máximo deocho segundos para luego pasar alsiguiente estímulo; pero si el sujetorespondía antes de este intervalo detiempo, el sistema permitía avanzar alsiguiente estímulo oprimiendo una tecla.El tiempo de visualización de cadaobjeto fue obtenido de la descripciónde procedimientos similares en estudiosprevios de reconocimiento de objetosusando este tipo de herramientas [24,25].

• La totalidad de las sesiones fueronregistradas mediante grabaciones deaudio y analizadas con el programainformático Praat4, que es unaherramienta para estudios científicos delingüística, que se encarga de analizarel espectrograma de sonidos grabados,lee sonidos registrados directamentecon el programa y los edita paracomprobar la entonación, intensidad,volumen de voz y otros aspectos máscomplejos del habla. En este caso seusó para controlar el tiempo de inicioy finalización de nombrado de cadaobjeto.

• Para un análisis más exhaustivo,Praat es capaz de analizar fragmentos

1SuperLab, Cedrus Corporation, http://www.superlab.com.2OpenSesame, Herramienta para psicología experimental y neurociencia, http://osdoc.cogsci.nl/3PsychoPy, The University of Nottingham, http://www.psychopy.org/4Praat, Boersma Paul y Weenink David, http://www.fon.hum.uva.nl/praat/.

110 Revista Mexicana de Ingeniería Biomédica · volumen 37 · número 2 · May-Ago, 2016

de sonido, visualizar las formas deonda y sus componentes frecuenciales.En dicho análisis, se obtuvieronlas latencias en milisegundos entreel momento de presentación de losestímulos (ubicando el estímulo sonorobip) y la producción sonora del sujetoal nominar dicho estímulo. Cuando lapresentación de los estímulos era enversión real rotando en la plataforma,las latencias también se obtuvieronde las grabaciones de audio pero eneste caso la señal sonora tipo bip, fuereemplazada por la emisión oral /¡ya!/generada por el terapeuta al momentode soltar el manto negro del biombo. Apartir de este momento se despreciabanlos siguientes 380 milisegundos queera el tiempo que le tomaba al mantonegro caer del biombo. De esta manerase garantizaba que el tiempo cero delatencia comenzaba cuando el objetoera totalmente descubierto por el mantonegro del biombo.La Figura 7 muestra en su parteizquierda la situación inicial vista por unsujeto en una sesión de estímulos reales,y en la parte derecha, la situación vistapor el mismo sujeto 380 milisegundosdespués de haber soltado el manto negrodel biombo.

Fueron obtenidos los tiempos de reaccióno latencias de nombrado de los objetos,representados en el tiempo en milisegundosque tardaba el participante en pronunciar elnombre de un objeto después de que este hasido mostrado. Luego se analizaron los datospor medio del programa estadístico R5. Yaque la distribución de los datos (latencias)fue no normal, se aplicó la prueba estadísticano paramétrica de Wilcoxon para medir lasdiferencias entre las latencias de nombradopara las condiciones de presentación de lassesiones del Experimento 1 (imégenes versusobjetos reales) y del Experimento 2 (videosversus objetos reales) [26].

10 Revista Mexicana de Ingeniería Biomédica

Figura 7. Montaje ejemplo para sesiones conestímulos reales.

Fueron obtenidos los tiempos de reaccióno latencias de nombrado de los objetos,representados en el tiempo en milisegundosque tardaba el participante en pronunciar elnombre de un objeto después de que este hasido mostrado. Luego se analizaron los datospor medio del programa estadístico R5. Yaque la distribución de los datos (latencias)fue no normal, se aplicó la prueba estadísticano paramétrica de Wilcoxon para medir lasdiferencias entre las latencias de nombrado paralas condiciones de presentación de las sesiones delExperimento 1 (imégenes versus objetos reales) ydel Experimento 2 (videos versus objetos reales)[26].

RESULTADOS

Los resultados relacionados con la plataformay el biombo como prototipos finales puedenapreciarse en las Figuras 2 y 4 respectivamente.

Considerando que la distribución de los datosno fue normal para ninguna de las sesionesdel estudio (empleando el test de normalidadde Shapiro-Wilk), se obtuvieron las medianasy los rangos intercuartílicos y se utilizó laprueba de Wilcoxon (Alpha=0,05; una cola) paraestablecer si existían diferencias estadísticamentesignificativas entre las medianas de las latencias[26].

Las medianas y los rangos intercuartílicos(RI) de los tiempos de reacción (en milisegundos)para el conjunto de las cuatro sesionesfueron: sesión 1-imágenes (mediana=879 -RI=445), sesión 2-Objetos reales (mediana=820- RI=769), sesión 3-objetos reales (mediana=598- RI=564) y sesión 4-videos (mediana=729 -

RI=764), estos datos se observan en la Figura 8.Por su parte, la Figura 9 muestra las medianasde las latencias obtenidas por modalidad depresentación, es decir: imágenes (sesión 1),objetos reales (sesiones 2 y 3) y videos (sesión 4).

La comparación se hizo entre las latenciasregistradas en las tres modalidades depresentación: imágenes versus objetos realesunidos (sesiones 2 y 3), videos versus objetosreales unidos (sesiones 2 y 3) e imágenes versusvideos. Los resultados se muestran en la Tabla2 y los valores con asterisco (*) representansignificancia estadística.

Analizando las modalidades de presentación(Figura 9), se confirma la hipótesis establecida:los tiempos de reacción para la condición deobjetos en imágenes fueron mayores que losregistrados para el reconocimiento y nombradode los objetos reales y los videos. No hubomayores diferencias entre las modalidades depresentación en videos y objeto real. Sinembargo, aunque los tiempos de reacción fueronmayores para la condición de imágenes encomparación con las otras dos modalidades depresentación visual, contrario a lo esperado,no se encontraron diferencias estadísticamentesignificativas entre los tiempos de reacción en laslatencias de las modalidades de imagen y video.

Figura 8. Resultados de la prueba piloto porsesiones.

5The R Project for Statistical Computing, http://www.r-project.org/

Figura 7. Montaje ejemplo para sesiones conestímulos reales.

RESULTADOS

Los resultados relacionados con la plataformay el biombo como prototipos finalespueden apreciarse en las Figuras 2 y 4respectivamente.

Considerando que la distribución de losdatos no fue normal para ninguna de lassesiones del estudio (empleando el test denormalidad de Shapiro-Wilk), se obtuvieronlas medianas y los rangos intercuartílicos y seutilizó la prueba de Wilcoxon (Alpha=0,05;una cola) para establecer si existíandiferencias estadísticamente significativasentre las medianas de las latencias [26].

Las medianas y los rangos intercuartílicos(RI) de los tiempos de reacción (enmilisegundos) para el conjunto de lascuatro sesiones fueron: sesión 1-imágenes(mediana=879 - RI=445), sesión 2-Objetosreales (mediana=820 - RI=769), sesión 3-objetos reales (mediana=598 - RI=564) ysesión 4-videos (mediana=729 - RI=764),estos datos se observan en la Figura 8. Porsu parte, la Figura 9 muestra las medianasde las latencias obtenidas por modalidad depresentación, es decir: imágenes (sesión 1),objetos reales (sesiones 2 y 3) y videos (sesión4).

La comparación se hizo entre las latenciasregistradas en las tres modalidades depresentación: imágenes versus objetos realesunidos (sesiones 2 y 3), videos versus objetosreales unidos (sesiones 2 y 3) e imágenesversus videos. Los resultados se muestranen la Tabla 2 y los valores con asterisco (*)

5The R Project for Statistical Computing, http://www.r-project.org/

Rodríguez et al, Sistema de apoyo experimental para el reconocimiento visual y el nombrado de objetos 111

representan significancia estadística.

Analizando las modalidades depresentación (Figura 9), se confirma lahipótesis establecida: los tiempos de reacciónpara la condición de objetos en imágenesfueron mayores que los registrados parael reconocimiento y nombrado de losobjetos reales y los videos. No hubomayores diferencias entre las modalidades depresentación en videos y objeto real. Sinembargo, aunque los tiempos de reacciónfueron mayores para la condición de imágenesen comparación con las otras dos modalidadesde presentación visual, contrario a loesperado, no se encontraron diferenciasestadísticamente significativas entre lostiempos de reacción en las latencias de lasmodalidades de imagen y video.

10 Revista Mexicana de Ingeniería Biomédica

Figura 7. Montaje ejemplo para sesiones conestímulos reales.

Fueron obtenidos los tiempos de reaccióno latencias de nombrado de los objetos,representados en el tiempo en milisegundosque tardaba el participante en pronunciar elnombre de un objeto después de que este hasido mostrado. Luego se analizaron los datospor medio del programa estadístico R5. Yaque la distribución de los datos (latencias)fue no normal, se aplicó la prueba estadísticano paramétrica de Wilcoxon para medir lasdiferencias entre las latencias de nombrado paralas condiciones de presentación de las sesiones delExperimento 1 (imégenes versus objetos reales) ydel Experimento 2 (videos versus objetos reales)[26].

RESULTADOS

Los resultados relacionados con la plataformay el biombo como prototipos finales puedenapreciarse en las Figuras 2 y 4 respectivamente.

Considerando que la distribución de los datosno fue normal para ninguna de las sesionesdel estudio (empleando el test de normalidadde Shapiro-Wilk), se obtuvieron las medianasy los rangos intercuartílicos y se utilizó laprueba de Wilcoxon (Alpha=0,05; una cola) paraestablecer si existían diferencias estadísticamentesignificativas entre las medianas de las latencias[26].

Las medianas y los rangos intercuartílicos(RI) de los tiempos de reacción (en milisegundos)para el conjunto de las cuatro sesionesfueron: sesión 1-imágenes (mediana=879 -RI=445), sesión 2-Objetos reales (mediana=820- RI=769), sesión 3-objetos reales (mediana=598- RI=564) y sesión 4-videos (mediana=729 -

RI=764), estos datos se observan en la Figura 8.Por su parte, la Figura 9 muestra las medianasde las latencias obtenidas por modalidad depresentación, es decir: imágenes (sesión 1),objetos reales (sesiones 2 y 3) y videos (sesión 4).

La comparación se hizo entre las latenciasregistradas en las tres modalidades depresentación: imágenes versus objetos realesunidos (sesiones 2 y 3), videos versus objetosreales unidos (sesiones 2 y 3) e imágenes versusvideos. Los resultados se muestran en la Tabla2 y los valores con asterisco (*) representansignificancia estadística.

Analizando las modalidades de presentación(Figura 9), se confirma la hipótesis establecida:los tiempos de reacción para la condición deobjetos en imágenes fueron mayores que losregistrados para el reconocimiento y nombradode los objetos reales y los videos. No hubomayores diferencias entre las modalidades depresentación en videos y objeto real. Sinembargo, aunque los tiempos de reacción fueronmayores para la condición de imágenes encomparación con las otras dos modalidades depresentación visual, contrario a lo esperado,no se encontraron diferencias estadísticamentesignificativas entre los tiempos de reacción en laslatencias de las modalidades de imagen y video.

Figura 8. Resultados de la prueba piloto porsesiones.

5The R Project for Statistical Computing, http://www.r-project.org/

Figura 8. Resultados de la prueba piloto porsesiones.W. R. Rodríguez y cols. Sistema de apoyo experimental para el reconocimiento visual y el nombrado de objetos. 11

Figura 9. Resultados de la prueba piloto pormodalidad de presentación.

Tabla 2. Resultados estadísticos.Test de Wilcoxon (pareado, una cola, alpha 0.05) p-valorImágenes vs Objetos reales unidos 0.005832*Videos vs Objetos reales unidos 0.4598

Imágenes vs Videos 0.4125

DISCUSIÓN

El estudio del reconocimiento de objetos escentral en la investigación básica y clínica de lasfunciones cognitivas. Sin embargo, esta área dela investigación enfrenta dificultades a la hora deencontrar recursos tecnológicos asequibles quepermitan la visualización y el reconocimiento deobjetos estandarizados o de selección arbitrariapor parte de terapeutas e investigadores. Eneste sentido, son valiosos los aportes que buscanofrecer una alternativa de bajo costo para lavisualización y el reconocimiento de objetos quepueda ser utilizada en la práctica clínica.

Los resultados del presente trabajo apoyanla dependencia en la modalidad de presentaciónen la percepción y nombrado de objetos, dadoque los tiempos de reacción para la condiciónde objetos reales fueron menores que para lasotras dos modalidades de presentación. En estesentido, al parecer las propiedades de volumen,permiten la exploración de características de losobjetos que las fotografías no tendrían; razónpor la cual, los tiempos de reacción para losobjetos reales y videos fueron menores que lacondición en imágenes, produciéndose un efectode facilitación para su identificación.

La no significancia estadística de las

diferencias mostradas entre las condiciones deimágen y video quizás pueda ser explicadaporque los datos fueron obtenidos de personasque no presentan ningún tipo de fallo en lapercepción visual y, por tanto, dichas diferenciasen la modalidad de presentación no resultentan evidentes en casos típicos. Será necesariocomparar estos resultados con el desempeño deun grupo atípico como en el caso de pacientescon agnosia visual.

Las personas reconocemos una amplia gamade objetos con poco esfuerzo, a pesar del hechoque el objeto puede variar en diferentes puntosde vista, tamaños o escala e incluso cuandoestán rotados. Mucho se ha discutido sobresi el reconocimiento de objetos es un asuntode la percepción de la forma en comparacióncon la congruencia de la apariencia [6]. Laapariencia de un objeto en una imagen dependede condiciones relacionadas con el registrofotográfico como la forma y tamaño del objeto,de las propiedades refractarias de la luz, dellugar que ocupan o del contexto físico en elcual se presente y hasta de las condiciones deiluminación [14]. Unas condiciones intrínsecase invariables de los objetos como su forma, yotras, extrínsecas y variables como la posición.Ello hace que para que el sistema visual seahábil para reconocer objetos estos deban tenerun modelo representado en la memoria. Esclaro que la apariencia de los objetos juega unpapel primordial en el aprendizaje, la evocacióny el reconocimiento visuales. Poco sabemossobre cómo nuestro cerebro construye estasrepresentaciones exactas de los objetos. Lo que ahoy quizás parece ser aceptado es que el cerebroalmacena propiedades constantes de los objetosy ello facilita su reconocimiento. Para el casode la prueba piloto realizada en el presenteestudio se usaron objetos cuya apariencia estabaligada a una misma categoría, herramientas,que implican una relación con su uso funcionalvinculado con un programa motor de activacióncerebral. Ello podría explicar la no diferenciaen tiempo de reacción cuando se analizan losobjetos en función de su uso, es decir, que altratarse de herramientas hay una praxia asociadaque facilita su evocación, por la activación

Figura 9. Resultados de la prueba piloto pormodalidad de presentación.

Tabla 2. Resultados estadísticos.Test de Wilcoxon (pareado, una cola, alpha 0.05) p-valorImágenes vs Objetos reales unidos 0.005832*Videos vs Objetos reales unidos 0.4598

Imágenes vs Videos 0.4125

DISCUSIÓN

El estudio del reconocimiento de objetoses central en la investigación básica yclínica de las funciones cognitivas. Sinembargo, esta área de la investigaciónenfrenta dificultades a la hora de encontrarrecursos tecnológicos asequibles que permitanla visualización y el reconocimiento de objetosestandarizados o de selección arbitraria porparte de terapeutas e investigadores. En estesentido, son valiosos los aportes que buscanofrecer una alternativa de bajo costo para lavisualización y el reconocimiento de objetosque pueda ser utilizada en la práctica clínica.

Los resultados del presente trabajoapoyan la dependencia en la modalidad depresentación en la percepción y nombrado deobjetos, dado que los tiempos de reacciónpara la condición de objetos reales fueronmenores que para las otras dos modalidadesde presentación. En este sentido, al parecerlas propiedades de volumen, permiten laexploración de características de los objetosque las fotografías no tendrían; razón porla cual, los tiempos de reacción para losobjetos reales y videos fueron menores quela condición en imágenes, produciéndose unefecto de facilitación para su identificación.

La no significancia estadística de lasdiferencias mostradas entre las condiciones deimágen y video quizás pueda ser explicadaporque los datos fueron obtenidos de personasque no presentan ningún tipo de fallo enla percepción visual y, por tanto, dichasdiferencias en la modalidad de presentaciónno resulten tan evidentes en casos típicos.Será necesario comparar estos resultados conel desempeño de un grupo atípico como en elcaso de pacientes con agnosia visual.

112 Revista Mexicana de Ingeniería Biomédica · volumen 37 · número 2 · May-Ago, 2016

Las personas reconocemos una ampliagama de objetos con poco esfuerzo, a pesardel hecho que el objeto puede variar endiferentes puntos de vista, tamaños o escalae incluso cuando están rotados. Mucho seha discutido sobre si el reconocimiento deobjetos es un asunto de la percepción dela forma en comparación con la congruenciade la apariencia [6]. La apariencia deun objeto en una imagen depende decondiciones relacionadas con el registrofotográfico como la forma y tamaño delobjeto, de las propiedades refractarias de laluz, del lugar que ocupan o del contextofísico en el cual se presente y hasta delas condiciones de iluminación [14]. Unascondiciones intrínsecas e invariables de losobjetos como su forma, y otras, extrínsecasy variables como la posición. Ello haceque para que el sistema visual sea hábilpara reconocer objetos estos deban tener unmodelo representado en la memoria. Es claroque la apariencia de los objetos juega un papelprimordial en el aprendizaje, la evocación yel reconocimiento visuales. Poco sabemossobre cómo nuestro cerebro construye estasrepresentaciones exactas de los objetos. Loque a hoy quizás parece ser aceptado es que elcerebro almacena propiedades constantes delos objetos y ello facilita su reconocimiento.Para el caso de la prueba piloto realizadaen el presente estudio se usaron objetoscuya apariencia estaba ligada a una mismacategoría, herramientas, que implican unarelación con su uso funcional vinculado conun programa motor de activación cerebral.Ello podría explicar la no diferencia entiempo de reacción cuando se analizan losobjetos en función de su uso, es decir, queal tratarse de herramientas hay una praxiaasociada que facilita su evocación, por laactivación de la representación mental delpatrón motor. Habría que explorarse otrotipo de objetos no funcionales para estimar elvalor predictivo de esta variable relacionadacon la manipulabilidad. Una limitación enesta prueba piloto fue el 8% de objetos

seleccionados que no contaron con valoresnormalizados.

CONCLUSIONES

Todos los campos científicos aplicados,como la rehabilitación, dependen de lainvestigación para avanzar en la provisióne innovación de tratamientos, serviciosy productos tecnológicos. Así mismo,el trabajo de equipos interprofesionales(ingenieros, psicólogos y terapeutas) en lainvestigación en rehabilitación garantiza quela tecnología propuesta se aproxime más alas necesidades y realidades de la poblaciónobjetivo. Por ello, es necesario avanzar enla investigación inter y multidisciplinar quegarantice soluciones integrales de bajo costopero de alto impacto social.

Tal como la investigación en percepciónha mostrado, la modalidad de presentaciónde los estímulos visuales determina suprobabilidad de reconocimiento y nombrado.Los resultados de la prueba piloto delpresente estudio van en la misma dirección.Una segunda fase de este estudio deberáresponder a qué tipo de características de losobjetos resulta clave para su identificacióny qué correlación existe entre la modalidadde presentación y las variables intrínsecas delos objetos como tamaño, forma, complejidadvisual, manipulabilidad, frecuencia de uso yfrecuencia léxica, edad de adquisición, entreotras. De igual forma, deberá avanzarseen cómo estas variables de los estímulosvisuales afectan distintamente a quienestienen alteraciones en la percepción visual,como en el caso de la agnosia asociativa.Debe reconocerse, como limitaciones de estetipo de estudios, la dificultad para controlarlas características propias de los sujetosque implica diversidad en las estrategias deresolución de tareas perceptivas-cognitivas,los factores intrínsecos relacionados con laexperiencia previa en el uso de los objetos, elnivel socioeducativo, la edad y el género. Losdesarrollos, la disponibilidad y aplicabilidadde dispositivos tecnológicos que mediaron

Rodríguez et al, Sistema de apoyo experimental para el reconocimiento visual y el nombrado de objetos 113

el diseño y conducción del estudio en losaspectos técnicos tuvieron una implicación enel alcance de la investigación.

Agradecimientos

Los autores de este trabajo quieren agradecera los estudiantes: Álvaro José BocanegraPérez, Sergio David Sierra Marín, JuanSebastián Lara Ramirez y Paola Andrea CruzVargas, por su apoyo y colaboración en larealización de esta investigación; a HernánAlfredo Bernal Muñoz por su apoyo técnicoen fotografía y diseño y a Adriana María RíosRincón por su apoyo en el análisis estadístico.

REFERENCIAS

[1] J. P. Salmon, P. a. McMullen, andJ. H. Filliter, “Norms for two typesof manipulability (graspability andfunctional usage), familiarity, and ageof acquisition for 320 photographs ofobjects.,” Behavior research methods,vol. 42, pp. 82–95, feb 2010.

[2] M. B. Brodeur, K. Guérard, andM. Bouras, “Bank of StandardizedStimuli (BOSS) Phase II: 930 NewNormative Photos,” PLoS ONE, vol. 9,p. e106953, jan 2014.

[3] C. A. Ankerstein, R. A. Varley, andP. E. Cowell, “A new set of 84colored nonobjects.,” Behavior researchmethods, vol. 41, pp. 172–6, feb 2009.

[4] M. J. Farah, Visual Agnosia: Disordersof Object Recognition and WhatThey Tell Us About Normal Vision.Cambridge, MA.: MIT Press, 1990.

[5] O. H. Turnbull, J. Driver, and R. A.McCarthy, “2D but not 3D: pictorial-depth deficits in a case of visualagnosia.,” Cortex; a journal devoted tothe study of the nervous system andbehavior, vol. 40, pp. 723–38, jan 2004.

[6] H. Chainay and G. W. Humphreys,“The real-object advantage in agnosia:Evidence for a role of surface and depthinformation in object recognition.,”Cognitive neuropsychology, vol. 18,pp. 175–91, mar 2001.

[7] E. De Renzi, “Disorders of visualrecognition.,” Seminars in neurology,vol. 20, pp. 479–85, jan 2000.

[8] D. A. Wolk, H. B. Coslett, andG. Glosser, “The role of sensory-motor information in object recognition:evidence from category-specific visualagnosia.,” Brain and language, vol. 94,pp. 131–46, aug 2005.

[9] M. N. Magnié, M. Besson, M. Poncet,and C. Dolisi, “The Snodgrass andVanderwart set revisited: norms forobject manipulability and for pictorialambiguity of objects, chimeric objects,and nonobjects.,” Journal of clinical andexperimental neuropsychology, vol. 25,pp. 521–60, jun 2003.

[10] S. Zhang, “Recent progresses on real-time 3D shape measurement usingdigital fringe projection techniques,”Optics and Lasers in Engineering,vol. 48, pp. 149–158, feb 2010.

[11] S. Khalfaoui, R. Seulin, Y. Fougerolle,and D. Fofi, “An efficient methodfor fully automatic 3D digitizationof unknown objects,” Computers inIndustry, vol. 64, pp. 1152–1160, dec2013.

[12] Z. Liu, H. Qin, S. Bu, M. Yan,J. Huang, X. Tang, and J. Han, “3D realhuman reconstruction via multiple low-cost depth cameras,” Signal Processing,vol. 112, pp. 162–179, jul 2015.

[13] “[OB3D] A data base of 3 dimensionalObjects.”

[14] S. Buffat, V. Chastres, A. Bichot,D. Rider, F. Benmussa, and

114 Revista Mexicana de Ingeniería Biomédica · volumen 37 · número 2 · May-Ago, 2016

J. Lorenceau, “OB3D, a new set of3D objects available for research: a web-based study.,” Frontiers in psychology,vol. 5, p. 1062, jan 2014.

[15] F. Cuetos, A. W. Ellis, andB. Alvarez, “Naming times for theSnodgrass and Vanderwart pictures inSpanish,” Behavior Research Methods,Instruments, & Computers, vol. 31,pp. 650–658, dec 1999.

[16] M. C. Sanfeliu and A. Fernandez,“A set of 254 Snodgrass-Vanderwartpictures standardized for Spanish:Norms for name agreement, imageagreement, familiarity, and visualcomplexity,” Behavior ResearchMethods, Instruments, & Computers,vol. 28, pp. 537–555, dec 1996.

[17] M. B. Brodeur, E. Dionne-Dostie,T. Montreuil, and M. Lepage, “The Bankof Standardized Stimuli (BOSS), a newset of 480 normative photos of objectsto be used as visual stimuli in cognitiveresearch.,” PloS one, vol. 5, p. e10773,jan 2010.

[18] N. Sebastián-Gallés, LEXESP: léxicoinformatizado del español. Edicions dela Universitat de Barcelona, 2000.

[19] M. F. Folstein, S. E. Folstein, andP. R. McHugh, “"Mini-mental state".A practical method for grading thecognitive state of patients for theclinician.,” Journal of psychiatricresearch, vol. 12, pp. 189–98, nov 1975.

[20] H. Goodglass, E. Kaplan, and B. Barresi,Test de Boston para el diagnóstico dela afasia: adaptación española. Bogotá:Editorial Medica Panamericana, 3ed. ed., 2005.

[21] K. Beery and N. Buktenica, VMI,the Developmental Test of Visual-motorIntegration: Specimen Set. ModernCurriculum Press, 1982.

[22] S. Mathôt, D. Schreij, and J. Theeuwes,“OpenSesame: an open-source,graphical experiment builder forthe social sciences.,” Behavior researchmethods, vol. 44, pp. 314–24, jun 2012.

[23] J. W. Peirce, “PsychoPy–Psychophysicssoftware in Python.,” Journal ofneuroscience methods, vol. 162, pp. 8–13, may 2007.

[24] F. J. Moreno-Martínez and P. R.Montoro, “An ecological alternative toSnodgrass & Vanderwart: 360 highquality colour images with norms forseven psycholinguistic variables.,” PloSone, vol. 7, p. e37527, jan 2012.

[25] D. D. Leeds, J. A. Pyles, and M. J. Tarr,“Exploration of complex visual featurespaces for object perception.,” Frontiersin computational neuroscience, vol. 8,p. 106, jan 2014.

[26] L. G. Portney and M. P. Watkins,Foundations of Clinical Research:Applications to Practice. Chapter 22.Pearson/Prentice Hall, 2009.

ib