propuesta de tesis doctoral: seguimiento 3d de la...

35
Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel Molina Rueda Asesores: Dr. Enrique Sucar Dr. Eduardo Morales 18 de Enero 2010 Resumen En el ´ area de visi´ on computacional, el tema de reconocimiento 3D de la postura de la mano ha sido tratado desde mediados de los 90’s, logr´ andose hasta ahora pocos avances. ´ Este tema tiene un importan- te potencial de aplicaci´ on en rob´ otica, entretenimiento, interacci´ on humano-computadora entre otras, al permitir una interacci´ on m´ as na- tural y sin marcadores ni sensores estorbosos. Si bien algunos autores han trabajado ya en el ´ area y han logrado reconocimiento de partes de la mano con un n´ umero reducido de grados de libertad, el reco- nocimiento de la mano entera est´ a lejos de ser logrado. Los sistemas encontrados en la literatura actual restringen severamente la movili- dad de la mano debido a la gran limitaci´ on de grados de libertad y no permiten ninguno de ellos m´ as que ligeras deformaciones o mo- vimiento de una cantidad limitada de dedos. Es por lo anterior que se presenta un trabajo en el ´ area de visi´ on computacional enfocado en seguimiento 3D de la mano. Se propone un novedoso modelo ci- nem´ atico 3D que representa de manera realista los movimientos de los dedos y permite expresividad para realizar diversos movimientos naturales. Mediante el uso del modelo propuesto y un modelo predic- tivo de m´ ultiples hip´ otesis se espera lograr seguimiento 3D de la mano con mayor expresividad que cualquiera de los sistemas mencionados en la literatura contempor´ anea. Se espera lograr, por primera vez, un seguimiento de la mano 3D en tiempo real y con amplia expresividad. Como avances preliminares se reportan: el modelo cinem´ atico 3D y su descripci´ on matem´ atica, un sistema de seguimiento de mano est´ atica 1

Upload: nguyentuyen

Post on 27-Sep-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Propuesta de Tesis Doctoral:Seguimiento 3D de la mano

Ariel Molina RuedaAsesores:

Dr. Enrique SucarDr. Eduardo Morales

18 de Enero 2010

Resumen

En el area de vision computacional, el tema de reconocimiento 3Dde la postura de la mano ha sido tratado desde mediados de los 90’s,lograndose hasta ahora pocos avances. Este tema tiene un importan-te potencial de aplicacion en robotica, entretenimiento, interaccionhumano-computadora entre otras, al permitir una interaccion mas na-tural y sin marcadores ni sensores estorbosos. Si bien algunos autoreshan trabajado ya en el area y han logrado reconocimiento de partesde la mano con un numero reducido de grados de libertad, el reco-nocimiento de la mano entera esta lejos de ser logrado. Los sistemasencontrados en la literatura actual restringen severamente la movili-dad de la mano debido a la gran limitacion de grados de libertad yno permiten ninguno de ellos mas que ligeras deformaciones o mo-vimiento de una cantidad limitada de dedos. Es por lo anterior quese presenta un trabajo en el area de vision computacional enfocadoen seguimiento 3D de la mano. Se propone un novedoso modelo ci-nematico 3D que representa de manera realista los movimientos delos dedos y permite expresividad para realizar diversos movimientosnaturales. Mediante el uso del modelo propuesto y un modelo predic-tivo de multiples hipotesis se espera lograr seguimiento 3D de la manocon mayor expresividad que cualquiera de los sistemas mencionadosen la literatura contemporanea. Se espera lograr, por primera vez, unseguimiento de la mano 3D en tiempo real y con amplia expresividad.Como avances preliminares se reportan: el modelo cinematico 3D y sudescripcion matematica, un sistema de seguimiento de mano estatica

1

Page 2: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

y un sistema de render de mallas 3D, todos ellos encaminados haciael cumplimiento de los objetivos de la tesis.

Palabras clave: vision computacional, seguimiento 3D, seguimientosin marcas.

1. Introduccion

El area de vision computacional ha venido cobrando cada vez mas im-portancia. Dentro del area, el problema de seguimiento de objetos ha tenidogran auge. El problema de seguimiento en general se refiere a detectar carac-terısticas de un objeto en un cuadro de video (o fotograma) y posteriormenteidentificarlas en cuadros posteriores, idealmente un seguimiento robusto lo-gra la identificacion en todos los cuadros en los que aparezca. En el caso deseguimiento 3D de la mano, se refiere a detectar la configuracion de los dedosy la matriz de transformacion de la mano.

En algunos casos complicados, como lo es el seguimiento 3D de la mano,se hace uso de lo que se conocen como “marcas”, las cuales son cintas de colo-res, estampas, esferas y/o algun otro tipo de objetos que son adheridos parafacilitar el seguimiento. El seguimiento sin marcas no usa este tipo de ayudasy por ende tiene un enorme potencial para abrir novedosas formas de inter-accion con las computadoras sin requerir aditamentos especiales que puedenllegar a ser estorbosos, difıciles de colocar, engorrosos o incluso costosos.

Los humanos tienen una gran habilidad natural para lograr seguimientode objetos (con o sin marcas) y pueden hacerlo incluso en ambientes ruidososy en diversas condiciones de iluminacion, pero un seguimiento robusto deuna mano humana sin marcas realizando mediante vision computacional esun problema aun sin solucion. Las aplicaciones son muy diversas, algunas deellas son en robotica, entretenimiento, rehabilitacion, captura de movimientoy la interaccion humano-computadora, las cuales no tienen en la actualidadinterfaces naturales y libres de artificios externos.

Es en esta area, la de seguimiento 3D de la mano usando vision sin mar-cas, donde se desarrolla este trabajo. En la literatura contemporanea se hanpresentado algunos avances en el area, pero ninguno ha logrado el objetivocomo tal. La literatura unicamente muestra sistemas parciales de seguimientode uno o dos dedos [25], o bien seguimiento 3D de la mano pero con algorit-mos que requieren recursos computacionales muy elevados [29, 4, 5] tomandodesde varios segundos hasta minutos para procesar cada cuadro con diver-sos procentajes de exito pero nunca logrando seguimiento 3D sin sacrificarexpresividad.

El objetivo principal de este trabajo es lograr un seguimiento 3D de la

2

Page 3: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

mano mediante el uso de un modelo 3D derivado del analisis de aspectoscinematicos de la mano. El modelo representa la mayorıa de movimientos“naturales” de la mano, reduce la cantidad de grados de libertad y simplificalos calculos sin sacrificar la eficacia en la representacion de la mano.

El modelo propuesto ataca un gran problema que tiene el seguimiento 3Dde la mano: la alta dimensionalidad. Lo anterior es debido a que una manopuede tener entre 20 y 25 grados de libertad o DOF1 dependiendo de la re-presentacion, por lo que una busqueda directa sobre un espacio de tan grandedimensionalidad conlleva costos computacionales altos. El modelo propuestotiene el beneficio de reducir practicamente a la mitad la dimensionalidad delproblema sin sacrificar la expresividad de movimientos tıpicos de la mano.

Las contribuciones centrales de este trabajo son

1. La propuesta de un modelo 3D cinematico de la mano que reduce ladimensionalidad de la cinematica de la mano humana.

2. El seguimiento 3D de la mano en tiempo real con movimientos naturalesde alta expresividad.

Se presentan animaciones del esqueleto que muestran la expresividad delmodelo, en la que no se ve reducida la capacidad de recrear movimientosnaturales de la mano, lo cual comprueba la viabilidad para el uso del es-queleto en el reconocimiento de la mano. El modelo y sistema propuestostienen aplicaciones interesantes en interaccion humano–maquina, rehabilita-cion, robotica, captura de movimiento, entre otros.

1.1. Organizacion del documento

El resto del documento esta organizado de la siguiente manera. Primerose hace un recorrido por la literatura actual y estado del arte. Se comienzadescribiendo la mano humana y enseguida son descritos los diversos enfoquesque se han presentado a lo largo de los anos en el area de seguimiento 3Dde la mano mostrando sus caracterısticas y debilidades. Posteriormente sedetallan los objetivos a alcanzar durante la realizacion de este trabajo detesis, luego se presenta la metodologıa a seguir y se finaliza con los avancespreliminares y el plan de trabajo.

1DOF es un termino usado frecuentemente, proviene del ingles “Degrees of freedom”.

3

Page 4: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

2. Estado del arte

Disenar un sistema para el seguimiento del movimiento humano no esuna tarea trivial. Existen muchas dificultades incluyendo ambiguedades enla profundidad, deformidades en la apariencia, complejidad en los modeloscinematicos y oclusiones [13, 28]. Para simplificar los problemas del segui-miento del movimiento humano, la mayorıa de los algoritmos de seguimientoemplean modelos tridimensionales, otros emplean multiples camaras para me-jorar la robustez. Los modelos de la forma del sujeto varıan desde un simplemodelo de estructura de alambre [6], hasta modelos volumetricos sofisticados[8, 10, 16].

El seguimiento visual de la mano articulada es actualmente una area deinvestigacion activa y que posee retos en la comunidad de vision computacio-nal. El seguimiento 3D de la mano articulada tiene enorme potencial parala interaccion humano–computadora (HCI), realidad virtual y realidad au-mentada son dos ejemplos. Pero como ya se menciono, el muy alto numerode grados de libertad de los modelos de la mano, la frecuente auto oclusionde los dedos y las singularidades cinematicas en el movimiento articulado delos dedos hacen del seguimiento 3D un reto especialmente difıcil. El reto esaun mayor si se considera el uso de sistemas monoculares, manos sin marcassobre fondos con distractores y ruido; y los problemas de iluminacion tıpicosde los sistemas de vision.

Enseguida se presenta una descripcion de la mano humana, la cual es desuma importancia para nuestro objetivo ya que es el objeto al que se pretendedar seguimiento.

Despues se hara un recuento de la bibliografıa mas representativa que,mediante el uso de vision computacional, intenta lograr interaccion humano–maquina en la categorıa de seguimiento de la mano sin marcas. Aunquealgunos de los artıculos que se mencionan no necesariamente estan enfocadosen interaccion humano–maquina, son mencionadas porque son directamenteaplicables. En su mayorıa, es investigacion realizada en los problemas dedeteccion, seguimiento 2D y 3D, estimacion de pose 3D y reconocimiento degestos.

2.1. La mano humana

La mano humana consiste de una palma formada por los metacarpos y 5dedos (salvo raras excepciones) y esta unida al cuerpo por una articulacion(carpio) [1]. La parte posterior de la mano usualmente se le llama dorso dela mano.

En la Fig. 1 se puede ver una descripcion de los huesos y los grados de

4

Page 5: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Figura 1: Esquema de una mano humana, se muestran los huesos que con-forman la mano y las articulaciones. Especial atencion debe tenerse en elrecuento de grados de libertad. De acuerdo a esta figura, son en total 23 losDOF, sin considerar la muneca. Imagen derecha obtenida de [12], imagenizquierda obtenida de [27].

libertad de cada hueso, y en la tabla que se muestra a continuacion se puedever un recuento de los grados de libertad de la mano si los tomamos deacuerdo a la Tabla 1.

DOF Dedo5 Dedo pulgar (1)4 Dedo ındice (2)4 Dedo medio (3)5 Dedo anular (4)5 Dedo menique (5)23 TOTAL DOF

Tabla 1. Recuento de grados de libertad de la mano.

Con 23 grados de libertad sumados a las dificultades relacionadas conseguimiento mediante vision y 6 grados adicionales para encontrar la posiciony rotacion en el espacio2, no es de extranarse que el seguimiento de la manosea un problema difıcil de resolver.

El movimiento de las falanges (huesos de los dedos) se describira usandola terminologıa, que para facilitar su comprension, se muestra en la Fig. 2.

Una manera en la que generalmente se representa la estructura anatomicade la mano humana es usando un modelo cinematico tridimensional. Estosmodelos se basan en un esqueleto simplificado de la mano humana y pueden

2Algunos autores difieren en el numero de grados de libertad, pero todos coinciden conuna cantidad entre 22DOF y 25DOF [2]

5

Page 6: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Figura 2: Movimientos de los dedos. Izquierda: Flexion es el movimiento quejunta los dedos en forma de espiral hacia la palma, a la izquierda se puedenver varios dedos parcialmente flexionados. La extension es el movimientoopuesto. Derecha: Abduccion es el movimiento de los dedos alejandose delplano perpendicular al plano de la mano y que cruza entre el dedo medio yel anular (plano sagital). En foto de la derecha se ve el dedo ındice abducido,se marca la abduccion a la derecha con flecha gruesa y la aduccion que es elmovimiento opuesto, se marca con flecha delgada.

representar su estado en el tiempo. El modelo incluye las longitudes de lossegmentos correspondientes a los dedos, los angulos de las uniones de losdedos con la mano y algunas restricciones en el movimiento de los dedos.Un modelo cinematico correcto de la mano tiene 26 (o 25 segun [2]) gradosde libertad (DOF) luego de agregar las variables necesarias para las posicion3D. Si se ignoran las uniones metacarpocarpales situadas dentro de la palmade la mano se puede simplificar el modelo a 21 DOF.

Al hacer algunos analisis basicos de funcionalidad de la mano, se puedereducir el rango de movimientos validos de la mano. Lo anterior se puedelograr usando un guante para obtener datos mientras se mueve una manosana por todas las posibles configuraciones. Luego, haciendo analisis de com-ponentes principales se puede reducir el modelo cinematico. Esta tecnica esjusto la que se describe en el trabajo de 2001 de Wu et al. [30], en ese trabajolograron reducir el numero de grados de libertad de la mano a solo 7 DOF.Una alternativa diferente para la reduccion de grados de libertad de objetosarticulados, es el uso de cinematica inversa similar a lo propuesto en [11]. Masadelante veremos como en esta tesis se usa un numero de grados de libertadde 11, basandose en algunas ideas sobre movimientos utiles de la mano untanto similar a lo propuesto en [18]. En [18], se asume que a pesar de quela mano tiene muchos grados de libertad, tambien tiene muchas restriccionesen su movimiento y en ese mismo artıculo se enumeran tres tipos de restric-ciones basadas en los sensores que fueron colocados en el pulgar y los dedos,las cuales se listan a continuacion (refierase a Fig. 3 para una ilustracion de

6

Page 7: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

los angulos):

(I) Restricciones estaticas (lımites fısicos). Lımites en el rango demovimiento causadas por limitaciones en la anatomıa de los huesos ytendones. Se consideran unicamente movimientos de los dedos en loscuales no actua ninguna fuerza externa. Usualmente son referidos comorestricciones estaticas.

0 ≤θMCPF≤ 90o (1)

0 ≤θPIPF≤ 110o (2)

0 ≤θDIPF≤ 90o (3)

−15o ≤θMCPAA≤ 15o (4)

Con θMCPFsiendo los sensores que se colocaron en los 4 dedos y θMCPAA

los sensores para detectar la abduccion y aduccion entre los 4 dedos.Para el dedo medio asumen θMCPAA

= 0 e igualmente para la uniontrapeciometacarpal θTMAA

= 0.

(II) Restricciones dinamicas o cinematicas Restricciones impuestaspor los mismos dedos durante el movimiento. Usualmente referidas co-mo restricciones dinamicas y se pueden dividir en restricciones intra-dedo e inter-dedo. Son provocadas porque para doblar una articulacionse requiere doblar al mismo tiempo otra. Por ejemplo, para doblar lasarticulaciones PIP (los nudillos), se requiere doblar las articulacionesDIP de manera forzosa (ver Fig. 3). En el caso de inter-dedos, para fle-xionar el dedo anular, se requiere flexionar parcialmente los dedos medioy menique; o cuando los dedos ındice, medio y menique son flexionados“arrastran” en la flexion al dedo anular y lo obligan a flexionarse. Lasrelaciones las asumen [18] (Ver Fig. 3 para mejor compresion):

θDIP =2

3θPIP (5)

(III) Restricciones ergonomicas Este tipo de restricciones son causadaspor la manera en que una mano se mueve de manera natural. Casi na-da se ha hecho en esta area [18], la cual debe reflejar un movimiento“natural” en el sentido de que refleja los movimientos tıpicos que unapersona hace al mover objetos. Este tipo de restriccion es importante,puesto que, a pesar de que la mano tiene muchos grados de libertad,en la vida real las personas no utilizan todos los movimientos. Inclusocuando la manera en que se mueven los dedos y las manos difiere de per-sona a persona, hay ciertos movimientos “naturales” que se conservanen todos los individuos.

7

Page 8: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Figura 3: Esqueleto simplificado de la mano, se muestran los huesos comolineas y las articulaciones como puntos; DIP, PIP y MCP son los nombresabreviados de las articulaciones, ver Fig. 1. (Reproducido de [18], los nombresde los dedos fueron traducidos).

El tipo III, es el que menos atencion ha recibido por parte de los autoresen la literatura actual. Este trabajo hace gran enfasis en el y esa es la razonpor la cual se puede lograr una reduccion en el numero de grados de libertaddel modelo.

Para ver la comparacion que se hace en [18] del algoritmo de estimacionde pose de la mano con y sin las restricciones listadas, vea la Fig. 4.

2.2. Seguimiento mediante vision

Son casi 15 anos los que hay en investigacion sobre el seguimiento 3D dela pose de la mano humana. A continuacion se presenta una revision de losdiversos enfoques que se han ideado para el problema de seguimiento 3D deuna mano. Varıan en gran medida y existen desde los primeros y tal vez losmas complejos, que modelan una mano con mallas deformables o con modelosde alta dimensionalidad, hasta ideas innovadoras –aunque poco exitosas– queintercambian el problema por aquel de busqueda sobre una base de datos.

2.2.1. Basados en modelos geometricos

La tesis doctoral de Regh [24] realizada en 1995 es ampliamente consi-derada como los primeros intentos en la deteccion de manos articuladas apartir de fotogramas de video. En el reporte tecnico del sistema DigitEyes[25], el autor logra recuperar movimientos de una mano representada con un

8

Page 9: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Figura 4: Arriba: e1, e2, e3, e4, cuatro ejemplos de estimacion de la pose3D de la mano en un fotograma con un fondo homogeneo oscuro, se muestrala observacion arriba y su pose estimada abajo. Abajo: Detalle de mejoraen la estimacion mediante aplicacion de restricciones. a) Observacion, b)Estimacion que incluye solo las restricciones tipo I. c) Estimacion que incluyerestricciones tipo I y II. d) Estimacion que incluye restricciones tipo I, II yIII. Figuras tomadas de [18].

modelo cinematico de 27 grados de libertad mediante la captura de imagenescon dos camaras en escala de grises. DigitEyes funcionaba sobre un harwareespecializado en procesamiento de imagenes que lograba seguimiento a 10cuadros por segundo siempre y cuando los movimientos no fueran demasiadorapidos. DigiEyes utilizaba un modelo de la mano en que los dedos fueronrepresentados mediante cilindros, para el pulgar se utilizo el mismo modeloque uso Rijpkema y Girard [26], ya que ellos obtuvieron animaciones realis-tas usando ese modelo. Si DigitEyes se modificaba para usar un modelo de 6DOF, era capaz de funcionar con un sistema de vision monocular y fue usadopara pruebas de un raton 3D.

En DigitEyes, las oclusiones de los dedos se manejaban fuera de lınea me-diante el uso de plantillas arregladas en capas cuyo orden se extraıa medianteinferencia desde el modelo cinematico. El sistema de Regh requerıa alrede-dor de 4 horas para readaptarse a un nuevo usuario mientras que lograba ladeteccion de las nuevas medidas de la mano, lo que representa una desven-taja importante. Por otro lado, en el experimento del raton 3D, el modelode la mano sufrıa graves mutilaciones al grado de no representar realmenteuna mano humana. Al mutilar el modelo, lograba reducir la complejidad delproblema y era aplicado a una emulacion de un raton de computadora.

9

Page 10: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Figura 5: Arriba: Arreglo de pruebas de Regh [25] para DigitEyes con eluso de 2 camaras y un modelo de la mano de 27DOF que usaba cilindrospara los dedos. Abajo: Modelo simplificado de 6DOF que uso para realizarexperimentos para simular un raton 3D. Regh utilizo un modelo de 27DOFy un sistema estereo y un modelo restringido de 6DOF que representaba 3dedos con restricciones cinematicas para algunas pruebas para crear un raton3D.

Con el modelo reducido, ya no se puede estrictamente afirmar que elDigitEyes realizaba un seguimiento 3D de la pose de la mano, pues lo rea-lizaba unicamente de 3 dedos y con restricciones cinematicas considerables.En la Fig. 5 se muestra una ilustracion del arreglo experimental y el modelorestringido de 6DOF usado por Regh. Las ideas principales del seguimientose basaban en la deteccion de la punta del dedo y de los angulos entre lasarticulaciones.

En los mismos anos, Kuch [17] logro reducir el tiempo de re–entrenamientohaciendolo mas rapido al utilizar tres configuraciones de la mano predefinidasque eran capturadas de tres imagenes que posteriormente tenıan una selec-cion interactiva. Regh posteriormente desarrollo un metodo junto con Morrispara capturar movimiento tridimensional utilizando un modelo de 2 dimen-siones. Dicho modelo se uso para capturar movimiento 3D de una personabailando y luego el sistema podıa recuperar el movimiento 3D a partir de lainformacion del video usando un modelo cinematico del cuerpo de la persona.En ese documento, Regh presenta lo que llama un Modelo Prismatico Esca-lado (SPM) que presume tiene menores problemas de singularidades que losmodelos 3D convencionales. El modelo SPM actua como un plano paraleloal plano de la camara y simula el movimiento del objeto 3D. Los enlaces del

10

Page 11: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

SPM tienen la misma conectividad que en el modelo 3D, rotan sobre su baseen un eje perpendicular al plano y se escalan de manera uniforme.

Con la misma idea de modelar la mano con herramientas geometricas, pe-ro con un enfoque mas matematico y utilizando herramientas de geometrıaproyectiva, Stenger et al. [29] construyeron un modelo basado en quadrics(superficies parametricas basadas en ecuaciones cuadraticas). El modelo, alhacer uso de geometrıa proyectiva, resulto tener ventajas interesantes a lahora de hacer la proyeccion 2D. Las palmas de la mano, los dedos y lasarticulaciones se representaron con elipsoides y circulos truncados. Para elseguimiento se utilizo el Unscented Kalman Filter (UKF) sobre imagenesprovenientes de sistemas monoculares y estereo. El uso del UKF es paraminimizar el error entre los perfiles y las orillas extraıdas de las imagenes.El UKF les permitio obtener mas cuadros por segundo que metodos de es-timacion de particulas como CONDENSATION mientras proveıa de mejorprecision que el filtro extendido de Kalman [29].

El modelo de Stenger era restringido a 7 DOF, de los cuales 6 DOF eranpara la posicion y rotacion en el espacio y tan solo un grado de libertad sele daba al pulgar, asumiendose todos los demas dedos como estaticos. Origi-nalmente se utilizo una secuencia de cuadros de 360x288 pixeles en escala degrises. El sistema logro 3 cuadros por segundo, lo cual no es aceptable paravideo en tiempo real. Si se considera ademas que solamente 1 DOF era asig-nado para el pulgar, entonces este sistema no se puede considerar realmentecomo un sistema de seguimiento 3D de la pose de la mano completo. En Fig.6 se muestra el sistema de Stenger en funcionamiento.

Posteriormente Stenger mejorarıa su trabajo para llevarlo a un arboljerarquico de posturas de la mano en el cual hace una busqueda donde laprofundidad de busqueda en el arbol mejora la precision en la deteccion (sehablara de estas mejoras en la discusion de sistemas de plantillas mas ade-lante).

2.2.2. Modelo de malla deformable

Heap y Hogg [14] han propuesto un modelo deformable de la mano obte-nido desde un modelo fısico con 6 DOF y al cual se le permite deformarse.El seguimientos se hace con un sistema monocular. El modelo fısico de lamano se obtuvo semi–automaticamente a partir de manos reales en diversasposiciones y se detectaron las formas en que una mano real puede o no puedemoverse. La mano se modela luego con una malla hexagonal en la que laspropiedades de contornos pueden extraerse de manera sencilla. La tecnica usaalgebra lineal en muchos de sus pasos. Adicionalmente, la postura de la manoes representada por pocos escalares para facilitar una posterior aplicacion en

11

Page 12: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Figura 6: En el trabajo de Stenger et al. [29], el modelo de la mano es re-presentado mediante herramientas de geometrıa proyectiva, lo que hace quela proyeccion en 2D se haga de manera matematicamente elegante. Arriba:Dos filas de imagenes representan 2 camaras que ven una mano moviendoseen un fondo negro, la tercer fila es la configuracion de la mano detectada.Note que en los 3 fotogramas se muestra unicamente movimiento del pulgar,y es que el modelo tiene solo 7 DOF, de los cuales 6 son para posicion yorientacion y uno mas para el pulgar. Abajo: Se muestra el modelo basadoen quadrics, el cual esta compuesto de diversas quadrics truncadas, se mues-tra tanto el modelo acoplado como desacoplado para hacer mas claras lasformas geometricas de las cuales esta compuesto.

12

Page 13: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

reconocimiento de gestos.Toda la informacion de entrenamiento del modelo fısico de la mano fue

extraıda mediante un dispositivo de resonancia magnetica tridimensional queusa una superficie deformable. El desempeno del sistema de Heap y Hogg esde 10 cuadros por segundo con el sistema monocular. Sin embargo, los 6DOF del modelo usado unicamente permiten el seguimiento de manos estati-cas pues los grados de libertad unicamente corresponden a las coordenadas(x, y, x) y a la rotacion de la mano. La restriccion en el movimiento de losdedos es casi total, permitiendoles unicamente pequenas deformaciones.

2.2.3. Seguimiento de contorno 2D

Separandose un poco de las tecnicas de seguimiento 3D per se, esta eltrabajo que involucra la deteccion de contorno 2D de los cuadros observa-dos para hacer seguimiento de los contornos de una mano. En el trabajo deHeap y Samaria [15] usan deteccion de contornos e introdujeron el uso desmart snakes para reconocer gestos y hacer seguimiento de la mano. En elmismo camino de los contornos, Blake e Isard [9] establecieron un conjun-to de herramientas para hacer seguimiento de contornos deformables en 2D.Una de las caracterısticas principales de su trabajo fue el uso del algoritmoCONDENSATION para seguimiento en tiempo real de contornos en fondosnotablemente imperfectos. Demostraron lo robusto de su algoritmo de segui-miento en una serie de experimentos tales como: seguimiento de una hojacon follaje en la parte del fondo, seguimiento de personas, seguimiento deautos y de expersiones faciales, e incluso el seguimiento de objetos articu-lados. Sin embargo, el seguimiento de objetos articulados fue ineficiente yaque el numero de particulas necesarias para seguir un objeto articulado creceexponencialmente con el numero de grados de libertad del objeto. Para inten-tar evitar el costo del seguimiento, McCormick y Blake [20, 19] introdujeronuna tecnica llamada muestreo de particiones, que hace posible evitar el altocosto de los filtros de particulas. Utilizando esta nueva tecnica, introdujeronun sistema de seguimiento de mano articulada [20] que funcionaba exclusi-vamente sobre manos que tenıan la forma de “apuntar” con el dedo ındice.Vea la Fig. 7.

El trabajo de MacCormick y Blake lograba encontrar una mano en laforma “apuntar” en los cuadros del video a una tasa de procesamiento de25 cuadros por segundo, lo que permite considerarsele para uso en tiemporeal. Aun asi, no hace de su trabajo realmente un seguimiento de la postura3D de la mano. El trabajo de MacCormick y Blake se enfoca unicamentea encontrar la mano en una posicion especial y realizar seguimiento en 2Dbasado en contornos, pero no encuentra la configuracion de los dedos ni puede

13

Page 14: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Figura 7: El trabajo de MacCormick y Blake de [20] se basaba en deteccionde contornos 2D para detectar una mano sin grados de libertad con forma de“apuntar”. Arriba puede verse el seguimiento de la mano en forma de “apun-tar” y como el seguimiento no es distraıdo por objetos adicionales que tienencolores de la piel (mano sin apuntar). Abajo se notan ligeras variaciones enel pulgar, mientras se mantiene la forma de “apuntar”.

darles seguimiento.

2.2.4. Busqueda de plantillas y apariencia

El trabajo de Stenger posteriormente evoluciono [7] en una discretizaciondel espacio de estados de su modelo de la mano, organizandolo en una jerar-quıa de plantillas que contiene todas las configuraciones de la mano posiblesy/o permitidas. Esta evolucion es similar a la manera jerarquica de detec-cion de objetos. Las areas del espacio de estados que son poco probables decontener la configuracion observada de la mano son rechazadas en ramas su-periores de la jerarquıa, al buscar mas dentro del arbol jerarquico se refina elajuste en el modelo para empatar la configuracion del modelo de la mano. Elmodelo de deteccion jerarquico mediante plantilla se ha usado con eficienciaen deteccion de rostros en tiempo real o en la deteccion de peatones [23].Sin embargo, en la deteccion de postura 3D de la mano, el problema se com-plica debido a la enorme variacion de la forma de la mano que hace que lacantidad de plantillas crezca demasiado. Para evitar la busqueda exhaustiva,Stenger toma representantes prototipo de un conjunto de plantillas creadocon la distancia chamfer. El prototipo se compara con la imagen observada ysolo en el caso que se encuentre debajo de cierto umbral es que las plantillasdel conjunto son evaluadas. Segun [23], el uso de este arbol de jerarquıasincrementa hasta 3 ordenes de magnitud la velocidad cuando se le compara

14

Page 15: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

con busqueda exhaustiva.En general, se puede decir que este ultimo metodo [7] tiene buenos re-

sultados, ya que puede manejar rotaciones de plano, movimientos rapidos eincluso se puede recuperar de manera automatica si es que llegase a perderel seguimiento. Sin embargo, tiene altas necesidades computacionales quelo hacen estar lejos del funcionamiento en tiempo real, pues requiere de 3segundos para procesar cada cuadro [7].

En el trabajo de Athitsos y Sclaroff [4], se sugiere el uso de un modelo3D de la mano pero realizando busqueda basada en apariencia sobre unagran base de datos creada con imagenes generadas de manera artificial. Elproblema del seguimiento se intercambia por aquel de una consulta en unabase de datos que tiene las apariencias almacenadas y los parametros delmodelo registrados. En ese trabajo utilizan un modelo de 20 DOF al cual legeneran diversas variaciones, rotaciones y posturas. En total 26 posturas dela mano se utilizaron, cada una capturada a partir de un modelo artificialel cual fue observado desde 86 puntos distintos localizados en una esferacircundante. Para cada una de las 86 posiciones de observacion se tomaron48 imagenes de distintos planos de rotacion de los planos de la mano. En totalmas de 100,000 capturas del modelo artificial fueron usadas; las propiedadesdel modelo 3D fueron almacenadas tambien en la base de datos. Incluso conel gran numero de capturas almacenadas en la base de datos, se tenıa quehacer una preseleccion manual para elegir un conjunto de datos. Cuando lasimagenes de prueba fueron ingresadas habıa aproximadamente 40 candidatos.El tiempo de procesamiento fue de 25 minutos por imagen de prueba, algomuy lejano del seguimiento en tiempo real y funciona solo para 28 posturaspredefinidas. El propio autor conjetura que para que un sistema de basesde datos sea funcional para proposito general se deberıan tener entre variosmiles hasta miles de millones de vistas, y para cada vista entre 400 millonesy 100 millones de formas de la mano [4]. Vea algunas posturas del sistemade Athistos en la Fig. 8.

En trabajos mas recientes, Athistos [5] hace deteccion probabilıstica delıneas sobre imagenes con fondos ruidosos sobre la misma base de datosde poco mas de 100 mil capturas de un modelo artificial. El desempenomejora, pero la confiabilidad en que el sistema detecta las posturas de lamano es reducida aun mas, por lo que en otro trabajo propone un metodo decontruccion de esambles: BoostMap [3] y lo prueba haciendo seguimiento depostura de la mano, de nuevo usando la misma base de datos. Los resultadosde BoostMap resultaron prometedores al reducir los 25 minutos originalesde busqueda en la base de datos, a solo 250 segundos. Tambien se redujo elnumero de candidatos elegidos a 25.

Aun con la reduccion que Athistos logro con BoostMap, no se puede dar

15

Page 16: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Figura 8: El trabajo de Athistos [4, 5, 3] intercambia el problema de segui-miento por una busqueda en una enorme base de datos. Arriba: Algunasde las 26 posturas fijas almacenadas en la base de datos y que se puedendetectar. Medio: Diferentes vistas de cada postura. Abajo: Reconocimientode imagenes de prueba mediante el uso de BootMap.

seguimiento a la postura 3D mano pues sigue con la restriccion de 26 posesfijas. Sin embargo, el trabajo de Athistos puede ser de gran utilidad parainicializacion y eventual recuperacion de un sistema de seguimiento si es quese logra reducir el tiempo de procesamiento.

Aprovechando recientes avances en la tecnologıa de las tarjetas graficas,que ahora permiten una programabilidad util para tareas de proposito general[22], Mohr & Zachman presentan en [21] otro enfoque para el seguimiento. Elenfoque de Mohr & Zachman usa tambien empate de plantillas. Mediante elaprovechamiento de las capacidades de paralelizacion de las tarjetas graficasrealiza multiples convoluciones de 300 plantillas sobre cada cuadro del videopara encontrar similaridades. Sin embargo, no realizaba seguimiento 3D dela mano y se enfoca principalmente en encontrar mapas de confianza sobrelas 300 plantillas. A pesar de una enorme paralelizacion, el sistema es capazde procesar unicamente 1.1 cuadros por segundo para un video de 320x258pixeles con plantillas de 80x80 pixeles en promedio.

16

Page 17: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Figura 9: El trabajo de Mohr &Zachman usa convoluciones de plantillas rea-lizadas sobre procesadores de tarjetas graficas [21] . Se muestran dos ejemplosde mapas de confianza realizados mediante una convolucion. 1.a) Observa-cion obtenida de una camara, 1.b) Mapa de confianza generado con distanciachamfer. 1.c) Mapa de confianza obtenido mediante el enfoque de Mohr &Zach. Tanto en 1.b como en1.c los niveles de gris indican la probabilidadde que la plantilla, o una imagen similar a la plantilla, este presente. Puedenotarse que el enfoque de Mohr & Zachman produce mapas de probabilidadmenos dispersos y con altos valores en los lugares en donde se encuentra unamano humana. En la segunda fila, 2.a, 2.b y 2.c son otro ejemplo con unapostura de la mano distinta.

17

Page 18: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

2.3. Conclusion

Los trabajos que se han propuesto hasta este momento en la literaturano logran hacer seguimiento 3D de la mano como tal. Estrictamente hablan-do, la mayorıa de ellos solo logran el seguimiento de la mano en el espacioconsiderandola un objeto rıgido. Desde el trabajo de [24], el cual es de losprimeros en la literatura ha habido diversos intentos por atacar el problemade seguimiento de la mano en 3D mediante modelos cinematicos, plantillasy algunos metodos matematicos como el de Stenger [7]. Al final todos lostrabajos terminan o bien mutilando la mano o restringiendo los grados delibertad de los dedos, dejando con libertad en el mejor de los casos unica-mente al pulgar. En otros casos las busquedas de plantillas han demostradoser efectivas, pero la gran cantidad de posturas posibles, la auto oclusion ytodo el conjunto de angulos en que una mano puede ser observada hacen delempate con plantillas un problema extremadamente demandante estimando-se que se necesitan entre 1021 y 4×1056 plantillas (calculos hechos a partir deestimaciones en [4]), no hace falta hacer demasiados calculos para entenderla cantidad de almacenamiento requerido por semejante base de datos. Unaposible interpretacion de lo que ha ocurrido hasta el momento es la canti-dad de grados de libertad de la mano humana que convierte las busquedasdirectas exhaustivas en problemas computacionalmente muy demandantes.

Por otro lado se ha hecho muy poco en el analisis de la mano para des-cubrir dependencias en sus movimientos. Algo que este trabajo propone, esprecisamente generar un nuevo modelo 3D de la mano con un numero degrados de libertad reducidos aprovechando dependencias y restricciones na-turales de los dedos. Un modelo con grados reducidos puede ayudar en granmedida a la tratabilidad del problema.

En la Tabla 2 se resumen los trabajos mas representativos de la literaturaen el area de seguimiento 3D.

18

Page 19: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Tabla 2. Comparativa entre algunos autores representativos. Se presentanlas fechas de publicacion, la categorıa a la que pertenecen los enfoques, el

desempeno reportado y comentarios sobre sus debilidades.19

Page 20: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

3. Objetivos

3.1. Preguntas de Investigacion

¿Que tipo de modelo reducido podrıa representar una mano 3D sinperder demasiada expresividad?

¿Que tipo de restricciones adicionales pueden agregarse al modelo?

¿Se puede lograr un reconocimiento 3D efectivo usando este tipo demodelo restringido?

¿Para que propositos puede servir el seguimiento 3D con un modelo deeste tipo? ¿Para cuales no servirıa?

¿Es posible lograr todo lo anterior unicamente con un sistema de visionmonocular? ¿Sera posible lograrlo sin utilizar ningun tipo de marcas?

3.2. Objetivo General

Desarrollar un algoritmo de seguimiento 3D de la mano humana, quefuncione usando vision computacional monocular y que pueda representarmovimientos naturales de la mano con suficiente expresividad y en tiemporeal.

3.3. Objetivos Especıficos

Modelo 3D Se tiene como objetivo el analisis del movimiento de unamano humana para encontrar restricciones y dependencias en movi-mientos de las articulaciones debidas a las diversas restricciones quenaturalmente tiene una mano. Un objetivo posterior es la propuesta deun modelo de la mano obtenido gracias al analisis realizado y a analisisde expresividad.

Seguimiento 3D En esta fase se tiene como objetivo el proponer unalgoritmo que asocie un modelo cinematico a observaciones y que puedamanejar multiples hipotesis para hacer seguimiento 3D de una manohumana sin marcas.

Experimentar, evaluar y comparar.

Experimentar el seguimiento. Se realizaran grabaciones de videos parapoder evaluar el algoritmo y modelo propuestos contra otros algorit-mos y modelos actuales. Se experimentara con usuarios para obtenerevaluaciones adicionales tales como la libertad y la expresividad.

20

Page 21: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Corroborar la naturalidad del modelo. Se realizaran pruebas con hu-manos y con modelos de artistas para evaluar la naturalidad de losmovimientos que admite el modelo cinematico 3D que se propone. Secomparara el modelo con otros modelos de la literatura contemporanea.

Comparar con la literatura actualizada y con otros sistemas. Se me-dira el desempeno del algoritmo y modelo propuestos tanto para evaluarla velocidad como la naturalidad en los movimientos y la expresividadque se logra, especialmente se pondra enfasis en la comparacion conotros enfoques.

3.4. Contribuciones

Un modelo cinematico de la mano de baja dimensionalidad y con buenaexpresividad.

Un algoritmo de seguimiento 3D de la mano humana usando vision porcomputadora y el modelo cinematico propuesto.

4. Metodologıa

4.1. Modelo 3D de la mano y modelo cinematico pro-puesto

Se propone un modelo 3D de la mano con un numero restringido de gradosde libertad. La reduccion de grados de libertad se logra gracias a las propiasrestricciones que la mano tiene sobre el movimiento.

Para encontrar un modelo de la mano con grados de libertad reducidos sedebe analizar la mano para encontrar dependencias. Luego se puede mostrarla expresividad animando un esqueleto virtual o un modelo 3D virtual.

A la tercia: (θMCPF, θPIPF

, θDIPF) correspondiente a las articulaciones me-

tacarpofalangea, proxima-interfalangea y distal-interfalangea (Ver Fig. 1),por facilidad de escritura denotaremos como (αi, βi, γi), con i ∈ 1.,4, una pa-ra cada dedo (sin contar el pulgar) Enseguida, notamos las restricciones queson causadas por la manera en que una mano se mueve de manera naturaly vemos que usualmente los tres angulos (αi, βi, γi) no son en realidad inde-pendientes en los movimientos naturales ya que es difıcil para un humanoflexionar solo uno de ellos. Mas bien en movimientos naturales se flexionanlos 3 al mismo tiempo para asir cosas y para separar la palma. Entonces po-demos parametrizar estos 3 angulos en lo que denominaremos como “flexion”(τ) ∈ (0, ..., 1), de la siguiente manera:

21

Page 22: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Figura 10: Simplificacion de movimientos. El valor de τ controla 3 articula-ciones de un dedo, lo que permite simplificar el modelo. De esta manera 15grados de libertad se reducen a 5. a) Mano extendida con τ = 0, b)Mano enun punto de flexion intermedio, c)Mano flexionada con τ = 0,8. Los angulosde las tres articulaciones de cada dedo dependen de τ .

αi = A(τ) = 90 ∗ τ (6)

βi = B(τ) = 110 ∗ τ (7)

γi = C(τ) = 90 ∗ τ (8)

De esta manera, la flexion de cada dedo se puede representar con unaunica variable. Entonces, hemos parametrizado un vector de 15 dimensiones,con un vector de 5, a las que llamaremos (τ0, τ1, τ2τ3, τ4) representando a laflexion de los dedos: pulgar, ındice, medio, anular y menique respectivamen-te. Pero tambien notemos que los dedos anular y menique rara vez puedenmoverse independientes, por lo que podemos hacer τ4 = τ3 y atar el meniqueal anular, quedandonos con 4 variables hasta el momento.

22

Page 23: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Siguiendo con el analisis del numero de grados de libertad, consideremosque el dedo medio tiene pocas posiciones utiles en las que se realizan movi-mientos de abduccion o aduccion, y unicamente los angulos localizados entrelos dedos pulgar-ındice, ındice-medio, medio-anular y anular-mequine repre-sentan movimientos naturales de aduccion y abduccion, entonces agregamosestos 4 angulos que denotaremos como (ν0, ν1, ν2, ν3) los cuales de acuerdoa las mediciones realizadas en [18] tienen libertad en un angulo de 30o. Sinembargo es imposible que un humano promedio pueda mantener un angulode 30o en cualquiera de los νi si al mismo tiempo tiene los dedos flexionadoscon τi = 1. Lo cual nos indica una dependencia y el grado de libertad decada dedo ψi queda definido como:

ψi = 30 ∗ νi ∗ (1− τi) νi, τi ∈ (0, ..., 1) (9)

De esta manera cuando los dedos estan completamente flexionados yτ = 1 el angulo de los dedos queda fijo en cero, y cuando los dedos estancompletamente extendidos con τ = 0, los dedos tienen la libertad de moverse30 segun la variable ν. Ver Fig. 11.

Figura 11: La aduccion y abduccion se torna imposible mientras mas se fle-xionan los dedos. a) La aduccion y abduccion se pueden realizar con libertadcon los dedos extendidos. b) Conforme se flexionan los dedos se restringe laaduccion y abduccion. c) Al tener los dedos completamente flexionados laaduccion y abduccion son imposibles. En ese caso unicamente el pulgar tieneesa libertad.

En este momento tenemos 8 variables, 4 correspondientes a flexion (τ)y 4 para aduccion/abduccion (ν). Unicamente resta agregar los 6 grados delibertad correspondientes al posicionamiento en el espacio para un total de14 grados de libertad.

Con los movimientos de aduccion, abduccion y flexion de todos los dedosy el pulgar, tenemos un modelo de gran expresividad que puede utilizarse pa-ra la mayorıa de movimientos tıpicos de una persona. Hemos logrado definirun modelo cinematico con grados de libertad reducidos, con unicamente 14

23

Page 24: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Figura 12: Izquierda: Tıpico estado del algoritmo de seguimiento en funcio-namiento, se tienen multiples hipotesis del estado de la mano, teniendo encuenta los grados de libertad. Al recibir una nueva observacion el sistema seactualiza y hace una nueva prediccion y genera un conjunto nuevo de hipote-sis. El proceso se repite. Derecha: El algoritmo de empate detecta puntoscaracterısticos en la observacion que son empatados con puntos conocidos dela malla del modelo 3D.

grados de libertad (8 de la mano y 6 de posicion y orientacion), una reduccionde casi un 50 % y unicamente hemos dejado fuera movimientos independien-tes de dedo. No obstante, la expresividad del modelo permite expresar ma-nos abiertas, aduccion, abduccion, flexiones y extensiones simutaneas lo quepuede ser aplicable a modelos de gestos ya que permite gestos como “asir”,“soltar”, “senalar” entre otros.

Este modelo simplificado de 14 grados de libertad puede utilizarse paraanimar un esqueleto y demostrar la expresividad de la que puede ser capaz.

4.2. Algoritmo de seguimiento

El algoritmo de seguimiento se basa en un algoritmo estimacion-correccionbasado en un estimador de multiples hipotesis. Se asume que la postura iniciales una postura de facil reconocimiento, por ejemplo, una palma de frente conlos dedos separados y extendidos. A partir de la postura inicial se comienzael seguimiento y se aplica el siguiente algoritmo (Vea tambien Fig. 12)

Inicializar el seguimiento, obtener vector de postura inicial observa-da/estimada.

24

Page 25: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Para cada observacion:

• Realizar estimacion con un estimador multi-hipotesis y la posturaprevia.

• Multiples posturas del modelo 3D de la mano y sus vectores aso-ciados representan las posturas estimadas.

• Obtener puntos caracterısticos de la imagen obtenida de camara.

◦ Detectar similaridades entre los puntos de interes del modelo3D y los puntos caracterısticos de la mano.

◦ El render 3 del modelo mas similar se asume como la posturade la mano, almacenar vector de postura observada.

◦ Se corrobora el empate haciendo procesamiento y extraccionde puntos caracterısticos en el render.

4.3. Metodo de evaluacion

La manera mas directa de evaluar el algoritmo y el modelo propuestos esla obtencion de datos de un sistema probado. Para ello se pueden usar sis-temas profesionales de captura de movimiento los cuales mediante el uso demultiples detectores opticos con marcadores y/o sensores magneticos puedendetectar con gran fidelidad movimientos finos de objetos articulados. Se pre-tende realizar sesiones con uno de estos sistemas y al mismo tiempo grabarcon una camara de video la sesion. Posteriormente se procesara el video dela sesion y se le aplicara el algoritmo y modelo propuestos. Al obtener lasmediciones del sistema profesional y las estimaciones del algoritmo y modelopropuestos se puede hacer una comparacion directa para calcular la precisionen el seguimiento.

Se ha establecido un contacto externo a INAOE con un grupo de inves-tigacion de CINVESTAV en la Ciudad de Mexico, a pocos kilometros deINAOE. El grupo de investigacion mencionado posee equipo comercial pro-fesional de captura de movimiento que puede ser adaptado al seguimiento dela mano mediante el uso de marcadores y equipo especial. Mediante la cola-boracion con este grupo se puede comparar directamente el funcionamientodel algoritmo propuesto con el sistema que ellos manejan.

3Render o Rendering es un vocablo usado en computacion grafica, es el proceso degenerar una imagen a partir de un modelo mediante programas de computadora. El modeloes una descripcion de objetos tridimensionales en algun lenguaje o estructura de datos.

25

Page 26: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Adicionalmente el laboratorio de robotica de INAOE tiene planeado ad-quirir para un sistema comercial llamado Optitrack de la empresa Natural-Point que mediante el uso de varias camaras, marcadores especiales y un tipode luz especial logra el seguimiento de objetos deformables. Se piensa adaptareste sistema al seguimiento de manos humanas y de esa manera tener datospara comparacion con el sistema propuesto.

Finalmente una manera indirecta de comparar el modelo 3D para de-terminar su efectividad es comparar el desempeno con un modelo que notenga restricciones cinematicas. Esto es, representar una mano con la tota-lidad de grados de libertad (de 20 a 26), luego repetir los experimentos ymedir el desempeno. La ganancia o perdida de desempeno serıa atribuıbledirectamente al modelo.

5. Resultados preliminares

5.1. Modelo 3D

La cinematica de la mano ha sido analizada y se ha logrado obtener unmodelo 3D que tiene una cantidad sustancialmente reducida de grados de li-bertad. El modelo aproxima el movimiento de una mano pero con un numerode grados de libertad menor a los que una mano real sana tiene. El modelorepresenta la cinematica de la mano con 14 DOF (8 para la mano y 6 maspara la posicion y rotacion en el espacio). Se implemento un programa decomputadora que tiene integrado el modelo, el programa logra movimien-tos “naturales” de la mano mediante la parametrizacion de los 8 grados delibertad propuestos.

Se puede ver en la Fig. 13 un esqueleto al que se le ha restringido a rea-lizar unicamente las posturas que el modelo cinematico propuesto permite.El esqueleto puede adoptar diversas posturas naturales, algunas de las mos-tradas son los gestos “apuntar”, “saludar”, “todo bien”; otras son posturasutiles para “asir” y “liberar”. El modelo tambien permite la palma abierta yel puno cerrado.

5.2. Modelo virtual

Para la labor de realizar seguimiento, en este trabajo se tiene planeadoutilizar un modelo 3D virtual de la mano que sera animado usando el modelopropuesto.

Lo primero es, realizar implementaciones de rendering sobre algun con-junto de herramientas que permitan animacion. Se eligio OpenGL debido a

26

Page 27: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Figura 13: Algunas posiciones que el modelo 3D propuesto puede adoptar.Se muestra para cada una su esqueleto visto en dos angulos distintos y lapostura de la mano que representa.(mejor visto en pantalla)

su ubicuidad y su caracterıstica multiplataforma.Se presenta en la Fig. 14 un modelo 3D de la mano que puede ser animado

con tecnicas de programacion grafica y mediante el uso del modelo sobre elesqueleto de los puntos que conforman la mano. El modelo consta de 1184puntos y 2315 orillas, las cuales conforman 2283 caras. Una tarjeta de vi-deo moderna, como la Nvidia 280 GTX puede hacer rendering de alrededorde 3,000,000 de triangulos por segundo. Lo cual equivale a aproximadamen-te 1,300 renders por segundo de este modelo de la mano. El rendering sehara fuera de pantalla (offscreen rendering) ya que no es necesario mostraren pantalla los resultados. Como punto de comparacion, la camara que seutiliza para la captura puede realizar la captura de 30 cuadros por segudo.

Es importante mencionar que se puede reducir la complejidad del modelovirtual de la mano mediante diversas tecnicas para obtener una superficie conmenos puntos, menos caras y, por lo tanto, una menor cantidad de triangulos.

El modelo ha mostrado ser capaz de representar los movimientos natu-rales de la mano, ademas ha mostrado tener expresividad suficiente pararepresentar gran cantidad de posturas que los humanos realizan con muchafrecuencia. El modelo es pues una representacion adecuada para lograr se-guimiento 3D sobre una gran variedad de movimientos y posturas.

27

Page 28: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Figura 14: Modelo virtual de una mano masculina. Izquierda: Modelo devarillado para mostrar los polıgonos. Centro: Rendering sin textura conun modelo de luz simplificado. Derecha: Rendering del modelo luego deaplicarle imagenes de textura.

5.3. Seguimiento 3D

En cuanto al trabajo sobre algoritmos propios de este trabajo para realizarseguimiento 3D sobre la mano, se ha implementado el algoritmo detector decaracterısticas SURF que se puede ver en funcionamiento en Fig. 15

En Fig. 15 se aprecia la deteccion de puntos caracterısticos en dos cuadrosde video distintos en los cuales la configuracion de la mano ha sido ligeramen-te alterada. Se puede ver como ciertos puntos importantes, como las puntasde los dedos, e incluso las bases de los dedos y algunos angulos importantesen la muneca han sido detectados de manera correcta.

Las condiciones de prueba estan por definirse de manera formal, perotemporalmente se ha utilizado una habitacion iluminada con luz blanca difusay muros blancos. El fondo de los videos es blanco homogeneo. No se tieneequipo para medir de manera fiel las condiciones lumınicas.

El siguiente paso es el seguimiento de todos los puntos caracterısticos yasociar el modelo cinematico para incrementar la robustez en el seguimiento.Tambien es preciso aplicar un filtro para eliminar la gran cantidad de puntosadicionales que han sido detectados.

El algoritmo del filtro a aplicarse es el siguiente:

Para cada cuadro C(k) en base al cuadro anterior C(k − 1):

• Calcular la matriz fundamental de transformacion T de los puntos{C(k)i} sobre los puntos {C(k + 1)i}.

28

Page 29: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Figura 15: Detector de caracterısticas SURF durante la deteccion de puntosclave en la palma de una mano. La repetibilidad de los puntos caracterısticoses un factor importante. Se puede notar en rojo, como las puntas de losdedos han sido correctamente detectadas. Ademas, note en color azul queotros puntos tambien han sido detectados de manera correcta.

• Aplicar la matriz T a los puntos {C(k)i} y descartar los puntosdel conjunto {C(k + 1)i} que esten fuera de cierto umbral.

• Realizar la misma operacion con T−1 sobre {C(k)i}

• Tomar unicamente los puntos sobrevivientes a ambas operaciones

De manera adicional y con el fin de intentar duplicar los trabajos de la li-teratura para el trabajo de comparacion, se tienen implementados algoritmosque procesan video y, luego de algunos ajustes de brillo y contraste, obtienenlos contornos de los objetos que se incluyen en escena. Se puede ver en laFig. 16 una captura de pantalla del software.

Note en la Fig 16 la correcta deteccion de los bordes de la mano en elcuadro. Tambien aparecen detalles como las marcas de doblez de piel carac-terısticas de la palma de la mano.

29

Page 30: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

Figura 16: Software para procesamiento del video proveniente de la camara.Tambien funciona alimentado con archivos de video pregrabado. Tiene di-versos ajustes para lograr una deteccion de contornos exitosa. En el estadoactual el software puede procesar video a mas de 100 cuadros por segundo,la camara usada lo alimenta a 30 cuadros por segundo.

30

Page 31: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

5.4. Conclusiones

El objetivo general de este trabajo se puede dividir dos grandes metas,la propuesta de un modelo cinematico con grados de libertad reducidos quepermita tratar el problema de seguimiento de una mano, y la propuesta deun algoritmo de seguimiento de la mano 3D. Ambos puntos son a su vez lasaportaciones centrales de este trabajo ya que en la literatura por un ladono existe un modelo cinematico que sea tanto expresivo como reducido ensus grados de libertad y por otro el problema de seguimiento de la mano 3Desta aun sin solucion.

Esta propuesta de tema de trabajo doctoral presenta de antemano avan-ces en los objetivos propuestos. El conjunto de variables que gobiernan elmovimiento de la mano humana ha sido analizado y se ha presentado unmodelo cinematico con 14 grados de libertad (8 de la mano y 6 de posicion yorientacion espacial), que si se comparan con los 23 grados de libertad de lamano humana se puede afirmar que tiene una reduccion de casi un 50 %. Seha mostrado la expresividad de la mano mediante posturas tıpicas y gestosutiles para robotica e interaccion humano–maquina. Ademas se ha descritoun boceto del algoritmo de seguimiento que se propone. Finalmente, se hanpresentado avances en lo referente a procesamiento de imagen y en los im-portantes detalles de deteccion de puntos caracterısticos en los cuadros devideo, lograndose un seguimiento preliminar de manos rıgidas.

No solo se ha mostrado la viabilidad de un modelo con grados de libertadreducidos sino que se han realizado ya trabajos para mostrar su expresividad.Por otro lado el sistema de seguimiento indica un camino prometedor yaque actualmente se tiene seguimiento preliminar de manos rıgidas que sepretende mejorar con la inclusion del modelo. Se puede afirmar que variosde los objetivos particulares acerca del seguimiento de la mano han sidocumplidos en esta etapa.

Queda aun trabajo por realizar. El algoritmo de seguimiento, el cual esun objetivo primordial de este trabajo, no esta detallado en su totalidad. Porende hace falta trabajar en el algoritmo, para posteriormente implementarloy realizar los experimentos y mediciones pertinentes.

Algunas aplicaciones de este trabajo son en las areas de interaccion humano–computadora, en aprendizaje semi-automatico por imitacion para robots. Yel modelo puede ser aplicado a la animacion por computadora ademas deaplicaciones en modelos fısicos de manos roboticas.

31

Page 32: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

6. Plan de Trabajo

El plan de trabajo separa el trabajo del modelo 3D y su implementa-cion en un programa que usa OpenGL para hacer render, y el trabajo sobreel algoritmo de seguimiento, el algoritmo de medicion de similaridad y laimplementacion del programa que logra seguimiento 3D de la mano. En laFig. 6 puede verse un cronograma que describe a grandes rasgos el trabajo arealizar.

Figura 17: El cronograma que describe el trabajo a realizar. Se separa entrimestres y se describen las actividades a realizar. El cronograma unicamenteespecifica fechas a partir de los dos anos posteriores a la presentacion de estapropuesta.

Referencias

[1] Animal hands. Nature Bulletin No. 611, 1960.

[2] 3-dimensional kinematic model for predicting hand posture during cer-tain gripping tasks. ASB, Annual Meeting, 2005.

[3] Vassilis Athitsos, Jonathan Alon, Stan Sclaroff, and George Kollios.Boostmap: A method for efficient approximate similarity rankings. InIn CVPR, pages 268–275, 2004.

[4] Vassilis Athitsos and Stan Sclaroff. 3d hand pose estimation by findingappearance-based matches in a large database of training views. In InIEEE Workshop on Cues in Communication, 2001.

32

Page 33: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

[5] Vassilis Athitsos and Stan Sclaroff. Estimating 3d hand pose from acluttered image. ICCV, 2003.

[6] A. Bharatkumara, K. Daigle, M. Pandy, Q. Cai, and J. Aggarwal. Lowerlimb kinematics of human walking with the medial axis transformation.Proc. of IEEE Workshop on Non-Rigid Motion, pages 70–76, 1994.

[7] Bayesian Filter Bj, Bjorn Stenger, Arasanathan Thayananthan, PhilipH. S. Torr, and Roberto Cipolla. Model-based hand tracking using ahierarchical. IEEE Trans. Pattern Analysis and Machine Intelligence,28:1372–1384, 2006.

[8] AM. Black, Y. Yaccob, A. Jepson, and D. Fleet. Learning parameterizedmodels of image motion. Proc. of CVPR, pages 561–567, 1997.

[9] Andrew Blake and Michael Isard. Active contours.

[10] G. K. M. Cheung, S. Baker, and T. Kanade. Shape-from-silhouette ofarticulated objects and its use for human body kinematics estimationand motion capture. ACM SIGGRAPH, pages 77–84, 2003.

[11] Kevin G. Der, Robert W. Sumner, and Jovan Popovic. Inverse kinema-tics for reduced deformable models. ACM Trans. Graph., 25(3):1174–1179, 2006.

[12] Sturman D.J. Whole Hand Input. PhD thesis, Massachusetts Instituteof Technology, 1992.

[13] Sidenbladh H. Probabilistic Tracking and Reconstruction of 3D HumanMotion in Monocular Video Sequences. PhD thesis, Dept. of NumericalAnalysis and Comp. Sci., 2001.

[14] Tony Heap and David Hogg. Towards 3d hand tracking using a de-formable model. In In Face and Gesture Recognition, pages 140–145,1996.

[15] Tony Heap, Old Addenbrookes Site, and A Trumpington St. Real-timehand tracking and gesture recognition using smart snakes, 1995.

[16] N. R. Howe, M. E. Leventon, and W. T. Freeman. Bayesian reconstruc-tion of 3d human motion from single-camera video. Technical report, AMitsubishi Electric Research Laboratory (MERL), 1999.

33

Page 34: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

[17] J. J. Kuch and T. S. Huang. Vision based hand modeling and tracking forvirtual teleconferencing and telecollaboration. In ICCV ’95: Proceedingsof the Fifth International Conference on Computer Vision, page 666,Washington, DC, USA, 1995. IEEE Computer Society.

[18] John Lin, Ying Wu, and T.S. Huang. Modeling the constraints of humanhand motion. Human Motion, Workshop on, 2000.

[19] John MacCormick and Andrew Blake. A probabilistic exclusion principlefor tracking multiple objects. Int. J. Comput. Vision, 39(1):57–71, 2000.

[20] John MacCormick and Michael Isard. Partitioned sampling, articulatedobjects, and interface-quality hand tracking. In ECCV ’00: Proceedingsof the 6th European Conference on Computer Vision-Part II, pages 3–19,London, UK, 2000. Springer-Verlag.

[21] Daniel Mohr and Gabriel Zachmann. Continuous edge gradient-basedtemplate matching for articulated objects. In Helder J. Araujo, editor,International Conference on Computer Vision Theory and Applications(VISAPP), pages 519–524, Lisbon, Portugal, 05–08 February 2009. Ins-ticc Press.

[22] John D. Owens, David Luebke, Naga Govindaraju, Mark Harris, JensKrA1

4ger, Aaron E. Lefohn, and Timothy J. Purcell. A survey of general-

purpose computation on graphics hardware. Computer Graphics Forum,26(1):80–113, 2007.

[23] Vasanth Philomin, Ramani Duraiswami, and Larry Davis. Pedestriantracking from a moving vehicle. In in Procs. IEEE Intelligent VehiclesSymposium 2000, pages 350–355, 2000.

[24] J. Rehg. Visual Analysis of High DOF Articulated Objects with Ap-plication to Hand Tracking. PhD thesis, Carnegie Mellon University,1995.

[25] Jim Rehg and Takeo Kanade. Digiteyes: Vision-based human handtracking. Technical Report CMU-CS-93-220, Computer Science Depart-ment, Pittsburgh, PA, December 1993.

[26] Hans Rijpkema and Michael Girard. Computer animation of knowledge-based human grasping. SIGGRAPH Comput. Graph., 25(4):339–348,1991.

34

Page 35: Propuesta de Tesis Doctoral: Seguimiento 3D de la …ccc.inaoep.mx/~villasen/CursoSeminarioII/PropuestaArielMolina.pdf · Propuesta de Tesis Doctoral: Seguimiento 3D de la mano Ariel

[27] L. Sibille, M. Teschner, S. Srivastava, and J. Interactive simulation of thehuman hand. Proceedings of Computer Assisted Radiology and Surgery,pages 7–12, 2002.

[28] C. Sminchisescu. Estimation Algorithms for Ambiguous Visual Mo-dels Three-Dimensional Human Modelling and Motion Reconstructionin Monocular Video Sequences. PhD thesis, National Politechnique deGrenoble (INRIA), 2002.

[29] B. Stenger, P. R. S. Mendonca, and R. Cipolla. Model-based handtracking using an unscented kalman filter. In In Proc. British MachineVision Conference, volume I, pages 63–72, 2001.

[30] Ying Wu, John Y. Lin, and Thomas S. Huang. Capturing naturalhand articulation. Computer Vision, IEEE International Conferenceon, 2:426, 2001.

35