centro nacional de investigación y desarrollo …...digital de imágenes, es decir, las tareas de...
TRANSCRIPT
nológico
Centro Nacional de Investigación y Desarrollo Tecnológico
Subdirección Académica
Cuernavaca, Morelos, México. Marzo de 2013.
Subsecretaría de Educación Superior
Dirección General de Educación Superior Tecnológica
Coordinación Sectorial Académica
Dirección de Estudios de Posgrado e Investigación
Departamento de Ciencias Computacionales
TESIS DE MAESTRÍA EN CIENCIAS
Caracterización Visual de Movimientos “Sospechosos” de
Personas en Estacionamientos
presentada por
Ing. Rafael Alcantar Juárez
como requisito para la obtención del grado de Maestro en Ciencias en Ciencias de la Computación
Director de tesis Dr. José Ruiz Ascencio
Codirector de tesis
Dr. Gerardo Reyes Salgado
Dedicatorias
Dedico esta tesis con cariño, respeto y mucha admiración a mi mamá María Juárez
Gálvez y mi papá Jaime Alcantar Rivera, por su incondicional amor, por estar siempre al
tanto de mis necesidades, por su confianza y por caminar siempre a mi lado.
También la dedico a mis hermanos: Fernando, Jorge, Marco Antonio, Gustavo,
Rufina, Griselda y Jaime Enrique. A mis cuñados: Elizabeth, Lorena, Hilario, Héctor y
Nayeli. Y a mi novia Gabriela.
A quienes jamás encontraré la forma de agradecer el cariño, comprensión y apoyo
brindados en las derrotas y logros obtenidos haciendo de éste, un triunfo más suyo que
mío, por la forma en que lo hemos compartido y sólo espero que comprendan que mis
ideales, esfuerzos y logros han sido también suyos e inspirados en ustedes.
Con cariño y respeto: Rafael
Agradecimientos
Agradezco a dios, que me ha permitido y ayudado a alcanzar una meta más en mi vida.
Al Consejo Nacional de Ciencia y Tecnología (CONACYT) por su importante ayuda
económica otorgada durante mis estudios de maestría.
Al Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET) por
haberme dado la oportunidad de realizar la maestría, principalmente gracias al personal
del departamento de Ciencias Computacionales por todas sus atenciones y por brindarme
un espacio de trabajo cómodo y agradable.
Al personal de los diferentes departamentos, por facilitarme llevar a cabo mi
documentación, por darme un buen servicio bibliotecario, por mantener siempre limpia la
escuela, por abrir las puertas de la institución siempre a tiempo, por esto y muchas otras
cosas, gracias.
Al grupo de Reconocimiento Facial & Visión Artificial (FRAV) de la Universidad Rey
Juan Carlos en Móstoles Madrid España: el Dr. Enrique Cabello, a la Dra. Cristina Conde,
al Dr. Isaac Martín de Diego y al M. en C. Óscar Sánchez, por la gran oportunidad de
realizar una estancia, por compartir sus conocimientos, valiosas aportaciones, tiempo,
atención y amistad.
Al Dr. Gerardo Reyes Salgado, al Dr. Manuel Mejía Lavalle y al Dr. José Ruiz
Ascencio, ambos directores de tesis, por guiarme en el desarrollo de este trabajo, por
regalarme parte de su valioso tiempo y por compartir sus conocimientos y experiencia.
A mi comité de revisión: la M. en C. Andrea Magadán Salazar, al Dr. Raúl Pinto
Elías y al Dr. Enrique Cabello Pardos, por sus importantes observaciones y sugerencias,
por su tiempo en escucharme, pero sobre todo gracias por sus consejos y por su
accesibilidad como profesores investigadores y amigos.
A una gran mujer y amiga Yazmín Toledano Campos, gracias por ayudarme en
emprender este gran sueño.
A mis amigos y compañeros estudiantes de CENIDET, por regalarme su
convivencia y por dejarme aprender de ellos: Gabriela D’ León Hernández, Paola, Leticia,
Abel Vázquez, Carlos, Cruz L. Gómez, Celestino Estrada, Jorge A. Fuentes Pacheco,
Samuel, Juan Carlos, G. Emmanuel, Jaime, Armando, Christian, César Geovany, Jorge
Ochoa, César Octavio, Said, Juan Diego, Rodrigo, Luis y José.
“Da el primer paso con fe, no te
preocupes si no puedes ver la escalera,
sólo da el primer paso”
(Martin Luther King, 1929-1968)
“Si crees que puedes o no puedes, igual
tienes la razón”
(Henry Ford 1863-1947)
“La imaginación lo es todo, es una
visión preliminar de lo que sucederá en
tu vida”
Albert Einstein (1879-1955)
Resumen
El uso generalizado de cámaras en el contexto de videovigilancia es una práctica ya muy
extendida en nuestra sociedad, esta actividad generalmente persigue garantizar la
seguridad de los bienes y las personas. Los estacionamientos son un ejemplo de lugares
donde se emplean estos sistemas como herramienta para la disminución y prevención de
robos y daños vehiculares. Sin embargo, la videovigilancia tradicional es todavía reactiva
(no prevé amenazas).
Por lo anterior, se requiere el uso de nuevas tecnologías que utilicen algoritmos
que permitan hacer una detección temprana y automática de movimientos de personas
considerados sospechosos, tales como los Sistemas de videovigilancia Inteligentes (SVI).
En esta tesis se desarrolló un SVI, capaz de hacer la detección y seguimiento de
personas, y en segundo lugar hacer la caracterización de cinco movimientos
sospechosos: correr, levantar una o ambas manos, merodear, agacharse y acostarse.
Este sistema se compone de tres módulos, el primer módulo consta del procesamiento
digital de imágenes, es decir, las tareas de generar y actualizar el modelo de fondo, la
segmentación de objetos en movimiento, la supresión de sombras, la validación de
objetos como personas utilizando un filtro de tamaño, la localización de partes del cuerpo
y la tarea de seguimiento. En el segundo módulo se lleva a cabo el cálculo de
propiedades geométricas y descriptores de forma útiles para la caracterización de los
movimientos propuestos; finalmente, el tercer módulo se encarga de la gestión de la
caracterización, determina y alerta de la ocurrencia de un evento sospechoso.
Las pruebas se realizaron con dos tipos de conjuntos de videos; con bancos de
videos disponibles en internet citadas en el estado del arte, cuya principal característica
es que son grabados en escenarios poco complejos. Y con un conjunto de videos de un
estacionamiento adquiridos personalmente, en un ambiente natural sin control alguno.
Abstract
The widespread use of cameras in the context of video surveillance is a practice already
very extended in our company; this activity generally chases to guarantee the safety of the
goods and the persons. The Parking lots are an example of where these systems are used
as a tool for reducing and preventing theft and vehicle damage. Nevertheless, the
traditional video surveillance is still reactivates (it doesn’t foresee threats).
Therefore, currently requires the use of new technologies that use algorithms for
making the early detection and automatic movements of people considered suspicious,
such as Intelligent Video Surveillance Systems (SVI).
The principal aim of this work of thesis was to develop Intelligent Video
Surveillance Systems, capable of doing the detection and persons' follow-up, and secondly
to do the characterization of five suspicious movements; to run, to raise one or both hands,
to maraud, to stoop and to go to bed. The above mentioned system consists of three
complementary modules, the first module there is the part of digital treatment of images,
that is to say, the tasks of generating and updating the model of bottom, the segmentation
of movement, the filter of size to determine when an object in movement is a person and
the task of realizing the follow-up. The second module, he takes charge of the extraction of
points of interest, of the calculation of distances and angles between the same ones,
besides the analysis of the geometric properties of the located persons, the third module is
the manager of the management of the characterization, determines and alert of the
occurrence of a suspicious event.
The tests were conducted with two types of bases videos, with bases available on
the Internet, whose main characteristic is that they are recorded in some complex scenarios. And with a set of videos from a parking lot personally acquired in a natural environment without control.
Contendido
ix
Contenido Resumen ........................................................................................................................................... vi
Abstract ............................................................................................................................................ vii
Contenido .......................................................................................................................................... ix
Índice de figuras .............................................................................................................................. xii
Índice de tablas............................................................................................................................... xiv
Capítulo I ............................................................................................................................................ 1
Introducción ....................................................................................................................................... 1
1.1 Antecedentes del proyecto ....................................................................................... 2
1.2 Descripción del problema y objetivo de la tesis ........................................................ 3
1.3 Metodología de solución ........................................................................................... 5
1.4. Organización de la tesis .......................................................................................... 6
Capítulo II ........................................................................................................................................... 7
Estado del Arte .................................................................................................................................. 7
2.1 Arquitectura de un Sistema de Videovigilancia Inteligente ........................................ 7
2.2 Arquitectura de un Sistema de Visión Artificial ......................................................... 9
2.3 Recopilación y estudio del estado del arte .............................................................. 11
2.3.1 Detección y Seguimiento de Objetos ............................................................................... 11
2.3.2 Caracterización de movimientos de personas ................................................................. 13
2.4 Comentarios ........................................................................................................... 16
Capítulo III ........................................................................................................................................ 17
Análisis del Problema y Propuesta de Solución .......................................................................... 17
3.1 Propuesta de solución ............................................................................................ 17
3.1.1 Modelado y actualización de fondo ................................................................................. 19
3.1.2 Detección de objetos de primer plano ............................................................................. 20
3.1.3 Eliminación de sombras ................................................................................................... 20
3.1.4 Operaciones morfológicas ................................................................................................ 23
3.1.5 Validación de personas .................................................................................................... 23
3.1.6 Extracción de puntos de interés ....................................................................................... 24
3.1.7 Seguimiento de personas ................................................................................................. 26
3.1.8 Cálculo de descriptores geométricos y de forma ............................................................. 27
3.1.9 Caracterización de movimientos ...................................................................................... 28
3.2 Comentarios ........................................................................................................... 31
Capítulo IV ........................................................................................................................................ 33
Marco Teórico .................................................................................................................................. 33
4.1 Moda de píxeles ..................................................................................................... 34
Contendido
x
4.2 Diferencia de imágenes .......................................................................................... 35
4.3 Método de eliminación de sombras, enfoque DNM ................................................ 35
4.4 Modelos de color y conversión de RGB a HSV....................................................... 37
4.4.1 Modelo de color RGB ....................................................................................................... 37
4.4.2 Modelo de color HSV ........................................................................................................ 38
4.4.3 Conversión de RGB a HSV ................................................................................................. 39
4.5 Operaciones morfológicas ...................................................................................... 39
4.5.1 Erosión .............................................................................................................................. 39
4.5.2 Dilatación.......................................................................................................................... 40
4.5.3 Apertura ........................................................................................................................... 41
4.6 Filtro de tamaño ..................................................................................................... 41
4.6.1 Función discreta como filtro de tamaño .......................................................................... 42
4.7 Código de cadena .................................................................................................. 43
4.8 Modelo de alambre ................................................................................................. 44
4.9 Relocalización de regiones en movimiento ............................................................. 44
4.10 Momentos invariantes de Hu ................................................................................ 45
4.11 Comentarios ......................................................................................................... 46
Capítulo V ......................................................................................................................................... 47
Análisis, Diseño e Implementación del Sistema .......................................................................... 47
5.1 Base de videos ....................................................................................................... 47
5.1.1 Conjunto de videos KTH ................................................................................................... 47
5.1.2 Conjunto de videos Weizmann ........................................................................................ 48
5.1.3 Conjunto de videos CAVIAR ............................................................................................. 49
5.1.4 Conjunto de videos ViSOR ................................................................................................ 49
5.1.5 Base de videos CENIDET ................................................................................................... 50
5.2 Análisis del sistema ................................................................................................ 50
5.3 Diseño del sistema ................................................................................................. 50
5.4 Descripción de las fases del diseño ........................................................................ 51
5.5 Cálculo de reglas de tamaño .................................................................................. 71
5.6 Implementación del sistema ................................................................................... 74
5.6.1 interfaz gráfica .................................................................................................................. 74
5.7 Comentarios ........................................................................................................... 76
Capítulo VI ........................................................................................................................................ 77
Pruebas y resultados ...................................................................................................................... 77
6.1 Ambiente de pruebas ............................................................................................. 77
6.2 Plan de pruebas ..................................................................................................... 78
Contendido
xi
6.3 Realización de pruebas .......................................................................................... 80
6.3.1 Prueba 1. “Modelado y actualización de Fondo” ............................................................ 81
6.3.2 Prueba 2. “Detección de objetos en movimiento y validación de objetos como persona” ................................................................................................................................................... 84
6.3.3 Prueba 3 “Extracción del borde, partes del cuerpo y seguimiento de personas” ........... 90
6.3.4 Prueba 4 “Caracterización de movimientos” ................................................................... 93
6.4 Conclusiones y resultados .................................................................................... 101
6.4.1 Conclusiones................................................................................................................... 101
6.4.2 Comentarios ................................................................................................................... 102
Capítulo VII ..................................................................................................................................... 105
Conclusiones y trabajos futuros ................................................................................................. 105
7.1 Conclusiones finales ............................................................................................ 105
7.2 Aportaciones ........................................................................................................ 106
7.3 Trabajos futuros ................................................................................................... 107
Referencias bibliográficas ............................................................................................................ 110
Referencias en línea .................................................................................................. 113
Contendido
xii
Índice de figuras
Capítulo III Análisis del Problema y Propuesta de Solución
Figura 3.1. Secuencia de etapas de la propuesta de solución. .................................................................... 17 Figura 3.2. Arquitectura del Sistema. ......................................................................................................... 18 Figura 3.3. a) Imagen de entrada. b) Modelo de fondo. c) Actualización de fondo. .................................... 20 Figura 3.4. Clasificación de los algoritmos de detección de sombras basada en el proceso de decisión. En
primer lugar los enfoques se clasifican por medio de su enfoque estadístico o no estadístico. La sub-clasificación consta del tipo paramétrico o basados en modelos. Finalmente, cada enfoque puede ser identificado por las características espectrales, espaciales y temporales que presenten [Cucchiara, 2001]. ................................................................................................................................................ 21
Figura 3.5. Resultados de la primer etapa de segmentación (Imágenes de la Izquierda) y de la eliminación de sombras etapa de post-segmentación con el enfoque DNM (Imágenes de la Derecha). ................ 22
Figura 3.6. Ejemplo de los efectos de perspectiva y cobertura de visualización de una cámara. ................. 24 Figura 3.7. Ejemplos de extracción de puntos de interés. ........................................................................... 26 Figura 3.8. Radio de búsqueda para la persona en el cuadro N+1. ............................................................. 27 Figura 3.9. a) Análisis de distancia entre centroides (caminar y correr). b) Cálculo de distancia y ángulo
entre Cabeza y Mano 2. c) Ejemplo de contabilización de cuadros en el seguimiento de personas. d) Análisis de la variación de la altura de una persona al agacharse. .................................................... 31
Figura 4.1. Modelado de fondo con la moda en el espacio de color RGB. ................................................... 34 Figura 4.2. Implementación del proceso de decisión para la supresión de sombras. .................................. 36 Figura 4.3. Modelo de color RGB en el espacio 3D [Gonzales, 1996]. .......................................................... 38 Figura 4.4. Representación del color HSV. .................................................................................................. 38 Figura 4.5. Para el ejemplo, el conjunto X se representa en el inciso (a), el conjunto B se representa en el
inciso (b) y XӨB se representa en el inciso (c). .................................................................................... 40 Figura 4.6. Para el ejemplo, el conjunto X se representa en el inciso (a), el conjunto B se representa en el
inciso (b) y X⨁B se representa en el inciso (c). ................................................................................... 40 Figura 4.7. a) Segmentación de movimiento en bruto. b) Detección de objetos en movimiento en bruto. c)
Segmentación de personas usando un filtro de tamaño. d) Detección de personas empleando un filtro de tamaño. ........................................................................................................................................ 42
Figura 4.8. a) Código de cadena 4-direccional. b) Código de cadena 8-direccional. c) Localización de borde en un segmento. ................................................................................................................................ 43
Figura 4.9. Secuencia de imágenes que representan el modelo de alambre de una persona en movimiento. .......................................................................................................................................................... 44
Figura 4.10. Imagen binaria en diferentes condiciones. a) Imagen original. b) Imagen escalada. c) Imagen rotada (45°). e) Imagen con perspectiva. ........................................................................................... 46
Figura 5.1. Escenario de la base de videos KTH. ......................................................................................... 48 Figura 5.2. Escenario de la base de videos Weizmann. .............................................................................. 48 Figura 5.3. Escenario de la base de videos Caviar. ...................................................................................... 49 Figura 5.4. Escenario de la base de videos Visor. ........................................................................................ 49 Figura 5.5. Escenario de la base de videos CENIDET. .................................................................................. 50 Figura 5.6 Arquitectura del diseño del sistema. .......................................................................................... 51 Figura 5.7. Esquema del modelado y actualización de fondo. .................................................................... 52 Figura 5.8. Esquema de diseño para la detección de objetos de primer plano. ........................................... 54 Figura 5.9. Flujo desde la entrada de video hasta la post-segmentación. ................................................... 55 Figura 5.10. Etiquetado de componentes con datos geométricos. .............................................................. 56 Figura 5.11. Esquema de la detección y localización de objetos en movimiento. ........................................ 57 Figura 5.12. Esquema de la validación de personas .................................................................................... 59 Figura 5.13. Ejemplos detección de borde y localización del centroide ....................................................... 60 Figura 5.14. Parámetros de búsqueda de extremidades. ............................................................................ 61 Figura 5.15. Esquema de la extracción del borde y localización de partes del cuerpo ................................. 62
Contendido
xiii
Figura 5.16. Esquema del seguimiento de personas. .................................................................................. 63 Figura 5.17. Esquema del cálculo de propiedades geométricas y de forma ................................................ 64 Figura 5.18. Esquema de la caracterización del movimiento correr. ........................................................... 67 Figura 5.19. Esquema de la caracterización del movimiento levantar manos. ............................................ 67 Figura 5.20. Esquema de la caracterización del movimiento merodear. ..................................................... 68 Figura 5.21. Esquema de la caracterización del movimiento agacharse. .................................................... 68 Figura 5.22. Esquema de la caracterización del movimiento acostarse. ..................................................... 69 Figura 5.23. Esquema general del diseño del sistema. ................................................................................ 70 Figura 5.24. Análisis manual del tamaño de personas en la BD de videos Caviar. ...................................... 71 Figura 5.25. Comportamiento del área con respecto a su coordenada Y (BD Caviar). ................................ 72 Figura 5.26. Representación de las reglas de tamaño para la BD Caviar .................................................... 74 Figura 5.27. Ventana principal del sistema................................................................................................. 75 Figura 6.1. a) Imagen de fondo para KTH, b) Imagen de fondo para Weizmann. ........................................ 79 Figura 6.2. Resultados del modelado de fondo inicial ................................................................................. 82 Figura 6.3. Resultados de la actualización del modelo de fondo. ................................................................ 83 Figura 6.4. Resultados de la diferencia de imágenes. ................................................................................. 85 Figura 6.5. Resultados de la detección de píxeles pertenecientes a sombra ............................................... 87 Figura 6.6. Resultados de la aplicación de la apertura y de la validación de personas ............................... 89 Figura 6.7. Resultados de la extracción del borde, partes del cuerpo y seguimiento. ................................. 92 Figura 6.8. Ejemplos de la caracterización del movimiento correr .............................................................. 95 Figura 6.9. Ejemplos de la caracterización del movimiento levantar manos ............................................... 97 Figura 6.10. Ejemplos de la caracterización del movimiento merodear. ..................................................... 98 Figura 6.11. Ejemplos de la caracterización del movimiento agacharse. .................................................. 100 Figura 6.12. Ejemplos de la caracterización del movimiento acostarse. ................................................... 100
Contendido
xiv
Índice de tablas
Capítulo IV Marco Teórico Tabla 4.1 Técnicas empleadas en las fases de la metodología de solución 33 Tabla 4.2. Tabla definición de los momentos de Hu [Hu, 1962]. 45 Tabla 5.1. Propiedades geométricas y de forma necesarias para la caracterización. 64 Tabla 5.2. Distancias para la acción caminar y correr para las BDs KTH y Weizmann 65 Tabla 5.3. Registro de personas con su respectivos datos; coordenada Y del píxel más abajo y área 71 Tabla 5.4. Primera regla de tamaño para la BD Caviar 73 Tabla 5.5. Segunda regla de tamaño para la BD Caviar 73 Tabla 6.1. Bases de videos usadas en la etapa de pruebas 77 Tabla 6.2. Especificación de umbrales y reglas de tamaño. 78 Tabla 6.3. Especificaciones para los movimientos correr y merodear. 79 Tabla 6.4. Descripción de los videos utilizados en los experimentos (Nombre del video y número de
cuadro). 81 Tabla 6.5. Resumen de las pruebas realizadas en la fase de caracterización de movimientos. 94 Tabla 6.6. Porcentajes total en la caracterización de movimientos. 103
1
Capítulo I Introducción
La videovigilancia se puede definir como todo aquel sistema instalado en un espacio
público o privado, para la vigilancia y prevención de personas y bienes contra intrusión,
agresión, robo o hurto [Carrasco, 2010].
El aumento en el uso de la videovigilancia tradicional se refleja en
estacionamientos donde se emplean estos sistemas, como herramienta para la
disminución de robos y daños a los vehículos, dotando así de una mayor seguridad a
dichos establecimientos [Tilley, 1993].
Sin embargo, el principal problema de los sistemas tradicionales de videovigilancia
es la incapacidad para interpretar por sí mismos los eventos que se producen y los
comportamientos llevados a cabo por los individuos que realizan acciones en el entorno.
Estos sistemas dependen de la atención continua de personal humano, que debe estar
concentrado en una elevada cantidad de monitores, analizando permanentemente las
situaciones que se observan en cada uno de ellos [Albusac, 2009]. Esta práctica, resulta
ineficaz: transcurridos los primeros 20 minutos de observación continua, la atención
comienza a dispersarse ignorando hasta el 95% de actividad en la escena monitoreada
[Albusac, 2007]. Por tales motivos surgen los Sistemas de Vigilancia Inteligentes (SVI),
diseñados para interpretar lo que sucede en un entorno monitoreado a partir de la
información procedente de las cámaras. Su principal objetivo es el diseño de sistemas
que desempeñen una actividad similar a la que llevan a cabo los vigilantes humanos en
tareas de vigilancia [Albusac, 2009].
El concepto videovigilancia inteligente, implica el uso de sistemas informáticos
para el análisis de los escenarios y la detección automática de eventos, objetos y
personas así como la observación de comportamientos. Este tipo de sistemas utilizan
técnicas pertenecientes al área de la Inteligencia Artificial y al de Visión por Computadora
[Ai2, 2011]. Las técnicas y métodos pertenecientes al área de Visión por Computadora
permiten a cualquier sistema artificial captar un entorno real de una forma similar a como
lo hacen los vigilantes humanos mediante el sentido de la vista. Por otro lado, las técnicas
pertenecientes al área de la Inteligencia Artificial permiten representar y adquirir el
conocimiento necesario para identificar los eventos que se producen en el entorno
vigilado, todo ello para una posterior activación de alarmas si fuera necesario [Albusac,
2009].
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
2
Tomando en cuenta lo citado en párrafos anteriores, en los estacionamientos
existe la necesidad de adoptar tecnologías que utilicen algoritmos que permitan hacer una
detección anticipada y automática de movimientos de personas caracterizados
sospechosos que pudieran dar lugar a un daño o robo vehicular.
Por lo tanto, en este trabajo de tesis se desarrolló e implementó un sistema de
Visión Artificial que lleva a cabo la detección y seguimiento de personas en entornos
vigilados, capaz de realizar la caracterización de cinco movimientos sospechosos los
cuales son: correr, levantar una o ambas manos, merodear, agacharse y acostarse.
1.1 Antecedentes del proyecto
A continuación, se presenta una breve descripción de los trabajos de investigación
desarrollados en el Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET)
sobre la caracterización visual de movimientos de personas.
La tesis “Seguimiento y Caracterización del Comportamiento de Varios Objetos en
Movimiento” [Toscano, 2011] consiste en el desarrollo de un sistema de Visión Artificial
que realiza la detección, seguimiento y caracterización del comportamiento de varios
objetos en movimiento en ambientes poco controlados, este trabajo hace uso de
algoritmos implementados en el entorno para el análisis del conocimiento de la
Universidad de Waikato (Weka) [1]. Los movimientos aquí propuestos son: caminar correr
y levantar manos.
En la tesis “Caracterización automática de una muestra de acciones en video”
[Dávila, 2009] se desarrolló un sistema de visión artificial capaz de detectar, seguir,
caracterizar y cuantificar de manera automática los movimientos presentados por distintas
partes del cuerpo humano (cabeza, manos y brazos) en movimiento al realizar las
acciones de visualizar, aproximarse y tocar una zona específica con el fin de obtener una
descripción numérica de las características más importantes de estas acciones.
Finalmente, en la tesis “Caracterización de imágenes en movimiento: Correr y
caminar” [Saldaña, 2007], se diseñó un sistema, apoyado en el uso de técnicas de Visión
Artificial, que realiza la caracterización automática de dos acciones: correr y caminar,
considerando una vista lateral del sujeto. Para lo cual se lleva a cabo un procesamiento y
análisis de una secuencia de imágenes en dos dimensiones, aquí se creó una base de
videos que contiene la información para caracterizar dichas acciones y esto le permitió
lograr patrones de posición de las partes del cuerpo al realizarlos.
Capítulo I. Introducción
3
Estos trabajos presentan interesantes metodologías para realizar la detección y
seguimiento de personas y para la caracterización de movimientos; sin embargo, son
enfocados principalmente a escenarios donde los únicos objetos en movimiento real son
personas, además la adquisición de imágenes es a una altura no mayor a la altura
promedio de una persona, teniendo como ventaja la poca variación del tamaño de las
personas.
El presente trabajo de tesis a diferencia de los anteriores, es enfocado a
escenarios en donde los objetos en movimiento pueden ser coches y personas
principalmente; además, debido a que está enfocado al contexto de videovigilancia las
secuencias de imágenes se adquirieron desde una altura superior a la de los objetos en
movimiento, por lo que la cámara tiene gran un campo visual en el cual las personas
pueden estar cerca o lejos de la ubicación de la misma. Por tal motivo, se utilizó un
algoritmo basado en reglas que permite clasificar a los objetos de primer plano como
personas o no personas en base a su tamaño, considerando la perspectiva de la cámara.
Otra diferencia es que se abordan tres movimientos poco tratados en el estado del arte:
merodeo, agacharse y acostarse.
1.2 Descripción del problema y objetivo de la tesis
En el área de la videovigilancia, los sistemas de visión están formados por un conjunto de
cámaras de video que envían la señal a un centro de control, donde los vigilantes
humanos son los responsables de analizar la información visual, es decir observar el
comportamiento de las personas que participan en la escena y detectar eventos
inseguros. El problema de este proceso es, que los videos son largos y, en su mayor
parte aburridos, ocasionando que el vigilante desatienda a los monitores.
Por estos motivos, surge la necesidad de desarrollar sistemas de videovigilancia
inteligentes capaces de realizar automáticamente la detección y seguimiento de personas
para poder extraer información espacio-temporal para caracterizar movimientos
sospechosos. Sin embargo, existen diferentes factores que intervienen para lograr esta
tarea, tales como: la iluminación, ruido, oclusiones de partes del cuerpo, traslapes entre
objetos, segmentación poco precisa de objetos de interés e incluso el mismo movimiento.
Además, normalmente en la realidad no sólo se presenta un sólo objeto en movimiento
sino varios, para estos tipos de casos la complejidad del problema aumenta [Toscano,
2011]. Tal es el caso de los estacionamientos, donde participan tanto vehículos como
personas, por lo que es necesario el uso de algoritmos de clasificación de objetos que
consideren además la perspectiva de la cámara.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
4
Por tal motivo, el objetivo principal de esta tesis es desarrollar un sistema de Visión
Artificial que realice dos tareas principales, la primera: hacer la detección y seguimiento
de personas y la segunda, tener la capacidad de caracterizar cinco movimientos
sospechosos (correr, levantar una o ambas manos, merodear1, agacharse y acostarse) en
secuencias de imágenes pertenecientes a un estacionamiento externo.
En las especificaciones iniciales se planteó trabajar con videos en los que
participara una sola persona, pero fue posible realizar el seguimiento a múltiples
personas; es decir, se realiza el seguimiento a todos aquellos objetos que fueron
validados como personas. Por lo tanto, también es posible realizar la caracterización de
movimientos de más de una persona a la vez. Sin embargo, debido a que el seguimiento
se realiza asociando dos personas en cuadros consecutivos tomando en cuenta
únicamente la distancia de desplazamiento, en los casos en que exista traslape o cruce
de personas durante sus trayectorias, el resultado del seguimiento puede que sea errado,
ya que no se hace la detección de puntos destacados para realizar la diferenciación entre
objetos.
Debido a que la caracterización del movimiento merodear depende directamente
de la fase de seguimiento, dicha caracterización está supeditada a no confundir la
persona durante una oclusión2 o cruce.
En cuanto al movimiento correr, sólo es posible realizar la caracterización en
bancos de videos donde se presentan los movimientos caminar y correr, ya que se
determina la distancia de desplazamiento promedio que represente a la acción caminar, si
dicha distancia se supera, la caracterización correspondería al movimiento correr. Por lo
tanto, también influye el factor perspectiva, es decir, este método resulta ineficaz en
videos en donde el tamaño de las personas tenga una variación considerable. Por tales
motivos, las pruebas de la caracterización del movimiento correr se realizó en bancos de
videos donde los escenario son poco complejos y con ambiente controlado, las
grabaciones fueron a una altura no mayor a la altura promedio de una persona, evitando
con esto que la cámara tenga perspectiva.
Los principales beneficios ofrecidos con el desarrollo de esta tesis son:
1 Vagar por las inmediaciones de un algún lugar.
2 Una oclusión se produce cuando un objeto no es visible total o parcialmente debido a que otro
objeto se interpone entre éste y la trayectoria de la cámara.
Capítulo I. Introducción
5
1. Se realiza la caracterización de tres movimientos poco tratados en el estado del
arte: merodear, agacharse y acostarse.
2. Se implementó un algoritmo de clasificación de objetos como personas invariante
a perspectiva de la cámara basado en reglas de tamaño.
3. Se realiza la segmentación, seguimiento y localización de las partes del cuerpo de
interés, bajo distintas condiciones de iluminación.
4. Se lleva a cabo el seguimiento de todos los objetos validados como personas
presentes en la escena.
5. La obtención de un conjunto de reglas aplicadas a las propiedades geométricas y
de forma para la caracterización de los movimientos propuestos.
1.3 Metodología de solución
La metodología propuesta para la solución del problema involucra las siguientes
actividades:
1. Estudio del estado del estado del arte. Analizar los trabajos relacionados con:
a) Detección de objetos.
b) Seguimiento de personas.
c) Caracterización de movimientos de personas.
2. Adquirir bases de videos públicas. Descargar bases de videos disponibles en
internet para desarrollar un sistema de visión que pueda ser comparable con
trabajos relacionados en el estado del arte.
3. Crear una base de videos propia. Tener un banco de videos específicamente de
un estacionamiento externo que contengan los movimientos de interés.
4. Estudiar y seleccionar técnicas de procesamiento digital de imágenes.
5. Diseñar una solución. Crear un diagrama de flujo para procesar los videos y
obtener los resultados esperados.
6. Implementar la solución. Codificar la solución en algún lenguaje de programación.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
6
7. Desarrollar un plan de pruebas. Someter el prototipo a pruebas para validar los
procedimientos propuestos y corroborar el cumplimiento de los objetivos de esta
tesis.
8. Analizar los resultados de las pruebas. Obtener conclusiones a partir de la
solución propuesta y del desempeño de la implementación.
1.4. Organización de la tesis
Este documento de tesis se compone de 7 capítulos, además de las referencias. Éstos se
organizan de la siguiente forma.
En el capítulo 2 se presenta una revisión de trabajos relacionados con las tareas
de detección, seguimiento y caracterización de movimientos de personas.
En el capítulo 3 se analiza y diseña la metodología que da origen a la solución del
problema.
En el capítulo 4 se describen los métodos y técnicas utilizadas para llevar a cabo
la detección, seguimiento y la caracterización de movimientos de personas.
En el capítulo 5 se describe el análisis, diseño e implementación del sistema.
En el capítulo 6 se presentan las pruebas realizadas al sistema desarrollado con la
finalidad de conocer el rendimiento y efectividad del mismo.
En el capítulo 7 se exponen los comentarios finales, aportaciones y trabajos
futuros.
7
Capítulo II Estado del Arte
En este capítulo se presenta un estudio y análisis de trabajos relacionados, donde se
describen los conceptos, enfoques y la arquitectura de un sistema de visión artificial y de
sistemas de videovigilancia inteligente. Además se observó y analizó la forma en que
abordan y dan solución a las tareas de detección, seguimiento y caracterización de
movimientos de personas, las metodologías y técnicas que emplearon así como de los
resultados obtenidos.
2.1 Arquitectura de un Sistema de Videovigilancia Inteligente
Normalmente, los Sistemas de Videovigilancia Inteligente disponen de una
arquitectura multicapa. Cada capa de la arquitectura desempeña una función bien definida
y genera una serie de resultados que sirven como flujo de entrada para las capas
superiores. En [Valera, 2005] y [Wang, 2004] se realizan dos propuestas interesantes
sobre las etapas o fases de las que debería constar un SVI. En [Albusac, 2009] se
presenta un esquema que unifica las fases propuestas por los diferentes autores (ver
Figura 2.1), además, ofrece una descripción detallada de las etapas que aquí participan.
Figura 2.1. Posible secuencia de etapas que podrían formar parte de la arquitectura de un sistema de vigilancia inteligente [Albusac, 2009].
Modelado
del entorno
Detección de objetos
(segmentación)
Clasificación de
objetos
Seguimiento de los
objetos
Interpretación de comportamientos
y eventos
Fusión de información de
múltiples
sensores
Toma de
decisiones
Gestión de
crisis
Recuperación de contenido
multimedia
1 2 3 4 5
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
8
1. Modelado del entorno: La primera fase, o fase de modelización [Wang, 2004],
consiste en definir los elementos o actores que pueden participar en el entorno, así
como sus propiedades y las principales relaciones que existen entre éstos y el
entorno.
2. Detección de objetos: En esta etapa se pretende obtener los objetos o regiones
que se encuentren en movimiento, esto como resultado de la sustracción de fondo.
La forma en la que los objetos móviles son detectados puede variar en gran
medida en función del tipo de sensores instalados.
3. Clasificación de objetos: Normalmente, los sistemas de seguridad se centran en
el estudio de los comportamientos de personas y vehículos, que suelen ser los
elementos con capacidad de movimiento. La clasificación de objetos en un entorno
vigilado es considerada como un problema clásico de reconocimiento de patrones,
en donde se estudia la pertenencia de un objeto a una clase a partir de un
conjunto de características, que son proporcionadas en gran parte por los
sensores de vídeo y audio.
4. Seguimiento de objetos: El siguiente paso a la identificación y clasificación de un
objeto, es el seguimiento del mismo hasta que este deja de ser percibido por la red
de sensores instalada en el entorno vigilado. Este proceso determina la posición
en la que se encuentra un objeto en cada instante de tiempo, también es conocido
como tracking. Este proceso es un requisito fundamental para la siguiente capa, ya
que sin la evolución temporal de los objetos, ésta sería incapaz de interpretar
comportamientos complejos. Es decir, sin la evolución temporal de los objetos tan
sólo es posible obtener conclusiones referentes a eventos simples que se
producen en instantes concretos de tiempo [Albusac, 2009].
5. Interpretación de comportamientos y eventos: A partir de la información
obtenida en las etapas anteriores, el sistema de vigilancia debe intentar reconocer
los comportamientos y eventos que suceden en el entorno observado. El
comportamiento de un objeto viene dado por una simple acción o evento que se
produce en un instante concreto, o bien por una secuencia de acciones simples a
lo largo del tiempo. Si el comportamiento es complejo se representa mediante una
secuencia de acciones, las cuales siguen un orden determinado y cumplen una
serie de restricciones temporales. Por tanto, para que un sistema artificial pueda
reconocer comportamientos complejos, es necesario que éste identifique las
acciones simples cuando suceden y estudiar las relaciones temporales que existen
entre ellas. La principal problemática de esta etapa es la fuerte dependencia que
Capítulo II. Estado del Arte
9
existe con las etapas anteriores. Una clasificación errónea de un objeto o una
reproducción equivocada de su trayectoria derivaría, casi con toda seguridad, en
una interpretación inapropiada de su conducta.
6. Fusión de información de múltiples sensores: Opcionalmente, la capa de
razonamiento e interpretación de comportamientos puede incluir la posibilidad de
fusionar la información que proviene de múltiples sensores. Esta fusión puede
proporcionar grandes beneficios como por ejemplo la eliminación de ruidos y
distorsiones, tratamiento del problema de la oclusión.
7. Toma de decisiones y gestión de crisis: La toma de decisiones en una situación
de crisis es un aspecto muy delicado que puede afectar a la integridad de las
personas que habitan en el entorno observado. Por esta razón y debido a que las
propuestas en esta etapa no han alcanzado un nivel de madurez suficiente, la
amplia mayoría de instituciones que disponen de un sistema de seguridad
prefieren que las decisiones las tome un experto humano en colaboración con el
sistema.
8. Recuperación de contenido multimedia: En esta última etapa se podría
encuadrar una actividad demandada frecuentemente, tanto por el personal de
seguridad de la institución donde está implantado el sistema, como por las fuerzas
de seguridad del estado: recuperación de datos multimedia para reproducir los
sucesos pasados, los cuales han servido como prueba válida en multitud de
juicios.
El análisis de la arquitectura de un Sistema de Videovigilancia Inteligente, resultó
ser de gran ayuda, ya que se consideró como referencia para establecer el flujo de
actividades que se siguieron en el desarrollo del presente trabajo de tesis.
2.2 Arquitectura de un Sistema de Visión Artificial
En la implementación de un sistema para la caracterización visual de imágenes en
movimiento es necesario realizar una serie de etapas en las cuales se destacan la
segmentación, el seguimiento de las partes del cuerpo y su caracterización. Estas
actividades pertenecen a la arquitectura de un Sistema de Visión Artificial (SVA), que
consiste en extraer información de movimiento de interés en la escena, empleando
técnicas de Procesamiento Digital de Imágenes (PDI). La figura 2.3 muestra un diagrama
de bloques de un SVA y la descripción correspondiente en cada etapa de acuerdo con
[González, 1996].
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
10
El procesamiento digital de imágenes comprende un amplio rango de hardware,
software y recursos teóricos; según [González, 1996] un sistema de visión artificial cuenta
con seis módulos los cuales van desde la adquisición de la imagen(es) hasta la
interpretación de un resultado, mismas que se describen a continuación
a) Adquisición de la imagen: Conjunto de operaciones que se efectúan para
transformar la información luminosa de una escena en una señal digital. Para ello
se necesita un sensor de imágenes y la posibilidad de digitalizar la señal producida
por el sensor. Este proceso permite almacenar una escena (imagen) en memoria o
disco de forma digitalizada.
b) Preprocesamiento. La función básica del preprocesamiento es la de mejorar la
imagen de forma que se aumenten las posibilidades de éxito en los procesos
posteriores. Este proceso trata típicamente las técnicas de optimizar el contraste,
eliminar el ruido y aislar regiones cuya textura indica la probabilidad de información
alfanumérica.
c) Segmentación. De manera general, la segmentación consiste en dividir una
imagen en sus partes constituyentes u objetos, con cierto sentido. En general, la
segmentación autónoma es una de las labores más difíciles del tratamiento digital
de imágenes. Por una parte, un procedimiento de segmentación demasiado tosco
dilata la solución satisfactoria de un problema de procesamiento de imágenes. Por
otra parte, un algoritmo de segmentación débil casi siempre garantiza que tarde o
temprano habrá un fallo.
Resultado
Escenas 3D Adquisición de Imágenes
Preprocesado
Segmentación Representación y Descripción
Reconocimiento
e
Interpretación
Base de
Conocimiento
Figura 2.2. Etapas fundamentales del procesamiento digital de imágenes [González, 1996].
Capítulo II. Estado del Arte
11
A la salida del proceso de segmentación habitualmente se tienen los datos
de píxel en bruto, que constituyen ya sea el contorno de una región o bien todos
los puntos de una región determinada. En cada caso es necesario convertir los
datos a una forma adecuada para el procesamiento por computadora. La primera
decisión que hay que tomar es, si los datos se han de representar como un
contorno o como una región completa.
d) Representación y Descripción. También denominada selección de rasgos,
consiste en extraer rasgos con alguna información cuantitativa de interés o que
sean fundamentales para diferenciar una clase de objetos de otra.
e) Reconocimiento e Interpretación. El reconocimiento es el proceso que asigna
una etiqueta a un objeto basándose en la información proporcionada por sus
descriptores. La interpretación implica asignar significado a un conjunto de objetos
reconocidos.
f) Base del conocimiento. Contiene información del dominio del problema. Este
conocimiento puede ser simple o complejo. Ayuda a guiar la operación de cada
etapa y contribuye a que éstas puedan retroalimentarse e interactuar entre sí.
Como bien ya se mencionó, en un SVI intervienen principalmente las áreas de Visión
por Computadora e Inteligencia Artificial, dichas áreas ofrecen técnicas que en conjunto
dan el resultado objeto de un SVI. De lo anterior, la importancia del análisis de la
arquitectura de un Sistema de Videovigilancia Inteligente y la de un Sistema de Visión
Artificial.
2.3 Recopilación y estudio del estado del arte
En esta sección se hace referencia y descripción algunos trabajos relacionados con las
tareas de detección, seguimiento y caracterización de movimientos de personas.
2.3.1 Detección y Seguimiento de Objetos
Análisis de comportamiento humano: Metodología para localización y
seguimiento de personas en secuencias de video [Realpe, 2009]
Este artículo presenta una técnica para la detección y seguimiento de personas en
movimiento a partir de secuencias de video. La detección de objetos en movimiento es
obtenida usando algoritmos de diferencia temporal y sustracción de fondo. El proceso de
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
12
detección de personas es el siguiente; cada nueva imagen del video es analizada para
clasificar los píxeles que representan al fondo o a un objeto en movimiento. Para
determinar los objetos en movimiento se realiza la diferencia absoluta entre la imagen de
fondo y la nueva imagen del video. Las regiones resultantes son consideradas como
objetos en movimiento y finalmente, representadas por medio de siluetas. Un proceso de
filtrado a través de operadores morfológicos es aplicado a los objetos detectados a modo
de eliminar el ruido y generar únicamente siluetas de movimiento representando a
personas.
Para el proceso de seguimiento se extraen dos grupos de puntos de interés desde
las siluetas obtenidas, el primero se define como los puntos extremos del cuerpo humano
(cabeza y extremidades) junto con el centroide, y el segundo grupo son los puntos
óptimos para realizar el seguimiento. Posteriormente un algoritmo de seguimiento basado
en características es aplicado. Al final del procedimiento se obtiene un listado que
representa el desplazamiento de ambos grupos de puntos a través del tiempo, el cual
puede servir para realizar la interpretación de acciones o actividades humanas.
Detección de objetos móviles en una escena utilizando flujo óptico [Mora,
2009]
En este artículo se presenta un algoritmo que permite detectar objetos móviles a partir de
la estimación del flujo óptico e información a priori del tipo de objeto. La estimación del
flujo óptico es realizada utilizando una implementación piramidal del algoritmo de Lucas y
Kanade sobre un conjunto de puntos específicos. Los puntos que presentan movimiento
son detectados y agrupados de acuerdo a la distancia, velocidad e información a priori.
El algoritmo aquí propuesto parte de las siguientes presunciones: un número
mínimo de puntos de interés son ubicados sobre el objeto en movimiento, el contraste
entre el objeto y el fondo permite percibir su desplazamiento, el desplazamiento entre
puntos pertenecientes a un mismo objeto es similar y se cuenta con información a priori
del objeto a detectar. Dado que la estimación del flujo óptico permite determinar la nueva
localización de los puntos de interés, los puntos pertenecientes a un objeto rígido en
movimiento, deben presentar valores similares de velocidad (magnitud y dirección del
vector de flujo óptico). Así mismo la distancia euclidiana de puntos pertenecientes a un
mismo objeto debe ser pequeña y la distribución de los puntos debe satisfacer las
condiciones geométricas definidas a priori.
Capítulo II. Estado del Arte
13
Robust tracking by-detection using a detector confidence particle filter
[Breitenstein, 2009]
En este artículo el objetivo consiste en realizar automáticamente la detección y
seguimiento de un número variable de personas en escenas complejas. Se hace uso del
método secuencial de Monte Carlo mejor conocido como filtro de partículas, el cual ofrece
un marco de trabajo para la representación de la incertidumbre del seguimiento de
manera Marcoviana por considerar únicamente marcos pasados.
El enfoque propuesto inicializa y separa una partícula del filtro por cada persona
detectada con alta confianza. Para resolver la asociación de la información de las
detecciones finales fiables y el seguimiento en cada cuadro, el enfoque evalúa una
función de puntuación integrando un clasificador entrenado, la distancia del seguimiento
meta y una función probabilística que representa el tamaño del destino, dirección del
movimiento y la velocidad. Si una detección final es clasificada como fiable en base a la
función, esta es usada principalmente para guiar la partícula de la asociación del
seguimiento. De lo contrario, la continua confianza del detector de la clase y los
clasificadores de instancias específicas son usados. Finalmente el algoritmo calcula la
función de observación de verosimilidad por cada partícula del filtro usando la asociación
de las detecciones, la salida intermedia del detector, y la evaluación del clasificador por
cada localización de la partícula.
2.3.2 Caracterización de movimientos de personas
Human Action Recognition using a Hybrid NTLD Classifier [Rani, 2010]
En este trabajo se propone un clasificador híbrido para el reconocimiento de acciones
humanas, en diferentes contextos. Dicho clasificador es denominado NTLD, por sus siglas
en inglés (Neural Tree with Linear Discriminant nodes NTLD), árbol neuronal con nodos
de discriminación lineal, cuyos nodos pueden ser perceptrones simples o clasificadores de
discriminación lineal recursiva (RFLD), para el reconocimiento de diferentes acciones
humanas.
Como primer paso se obtiene la silueta de las personas en cada cuadro del video
a través de un método de sustracción de fondo, una vez que se obtiene la silueta se
calcula el esqueleto del objeto en movimiento. La idea de utilizar el esqueleto de siluetas
es: que cualquier acción puede ser considerada como una función de cambio en la forma
y la posición del objeto en imágenes consecutivas. Por lo tanto, de este proceso se
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
14
obtiene un vector función que describe una acción, mismo que se utiliza como entrada
para el clasificador propuesto.
En la fase de clasificación, un patrón o vector función comienza a recorrer el árbol
desde el nodo raíz moviéndose a través del árbol en forma top-down (de arriba hacia
abajo), adoptando el camino sugerido por la clasificación dada. Cuando un nodo hoja se
alcanza, el patrón se clasifica en base a la etiqueta de este nodo.
Aprendizaje de reglas difusas para la clasificación de comportamientos en
un sistema de videovigilancia cognitiva [Albusac, 2007]
En este artículo el autor presenta el diseño de un componente para el análisis de
normalidad basado en lógica difusa denominado como componente de normalidad difuso,
cuyo objetivo principal es la generación de reglas difusas que permitan clasificar los
eventos de una escena; a partir de las relaciones espaciales que existen entre los objetos
móviles y las zonas. Clasifica los eventos simples a partir de un conjunto de reglas difusas
generadas por un algoritmo de aprendizaje inductivo. El motor de inferencia, a partir de
las reglas obtenidas, tiene capacidad para determinar qué clases de objetos pueden
invadir ciertas zonas y en qué grado.
Su procedimiento consiste en integrar dicho componente en un sistema de
vigilancia cognitivo basado en técnicas de softcomputing, con una arquitectura dividida en
tres niveles. En el primer nivel, se encuentran los sensores encargados de capturar el
entorno y los algoritmos de visión que realizan la segmentación y el seguimiento de los
objetos. En el segundo nivel se analizan los eventos que se producen en una escena y se
determina si estos son normales o anormales.
The model-based human body motion analysis system [Chang, 1999]
En este trabajo, se propone un método basado en modelos para analizar el movimiento
humano. Este sistema consta de tres fases: la fase de pre-procesamiento, la fase de
construcción de modelos, y la de análisis de movimiento. Las principales contribuciones
son: (1) desarrollo de un método basado en esqueleto para analizar el movimiento
humano, (2) Se describe el tipo de movimiento mediante el uso de un modelo oculto de
Markov (HMM) y los patrones de postura.
Capítulo II. Estado del Arte
15
Para realizar el seguimiento de los parámetros de movimiento, se centran en la
estimación de movimiento de las articulaciones de los segmentos corporales entre
fotogramas consecutivos. Para el reconocimiento de la actividad humana, consideran dos
métodos: el enfoque de correspondencia de plantilla y el enfoque de espacio de estado.
La desventaja de hacer coincidir la plantilla es su sensibilidad a la variación de la duración
del movimiento. Para evitar este problema, el enfoque de espacio de estado se define
cada postura estática como un estado. Estos estados están conectados por ciertas
probabilidades, cualquier secuencia de movimiento se traduce en una secuencia de
estados. Después de analizar el movimiento en secuencia de imágenes, se pude convertir
a una secuencia de modelo de estado, que puede ser descrita por un camino trazado en
el gráfico de la postura, llamada transición de postura.
Unsupervised learning of human action categories using spatial-temporal
words [Niebles, 2007]
Se propone un modelo para aprender y reconocer las acciones humanas en video,
usando la representación de los puntos de interés espacial-temporal y un enfoque de
aprendizaje no supervisado. El aprendizaje no supervisado se logra mediante la obtención
de parámetros de acción en la secuencia de vídeo no segmentado y sin etiqueta, que
contienen un número conocido de las clases de la acción humana.
Las aportaciones son: 1) un enfoque de aprendizaje no supervisado de las
acciones humanas usando una bolsa de palabras. 2) El método puede localizar y
clasificar múltiples acciones simples y complejas, de manera simultánea, en una misma
secuencias de imágenes. Esto incluye, los casos en que varias personas están realizando
acciones distintas al mismo tiempo, y también situaciones en las que una sola persona
está llevando a cabo distintas acciones a través del tiempo.
Action recognition by learning mid-level motion features [Fathi, 2008]
En este trabajo se presenta un enfoque para el reconocimiento de la acción basada en las
características de movimiento de nivel medio. La detección de movimiento lo hacen
usando flujo óptico. Para el reconocimiento se centran en las regiones locales de la
secuencia de imágenes obtenidas usando una variante del AdaBoost. Dichas
características se ajustan para discriminar entre diferentes clases de acciones, y son
eficientes para calcular en tiempo de ejecución. Las acciones que se reconocen son
caminar, correr y palmar.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
16
Uno de los enfoques empleados se basa en las características que describen la
figura humana en su totalidad y además otras características denominadas locales, tales
como manos, pies o codos. Dichas características tienen la ventaja de ser robustas en el
desorden y tolerantes a la deformación global debido a las diferentes formas del cuerpo y
puntos de vista. El método empleado para el reconocimiento de la acción utiliza una
"figura centrada", obtenida mediante la ejecución de un sistema de detección/seguimiento.
2.4 Comentarios
Con el paso del tiempo el uso de sistemas de videovigilancia crece exponencialmente,
debido a la demanda y la aparición de soluciones cada vez más sofisticadas. Sin
embargo, la Videovigilancia Inteligente es un tema de estudio abierto, ya que la
identificación de comportamientos normales/anormales por computadora no es una tarea
sencilla, es un proceso de análisis de alto nivel, que requiere de interpretar y reconocer
acciones o actividades de los seres humanos, a través de la observación de una
secuencia de video [De León, 2012].
En el estudio y análisis del estado del arte destacan los siguientes puntos:
Las diferentes propuestas para la mejora de los sistemas de seguridad provienen
tanto del ámbito académico como del comercial, aportando nuevas técnicas y
soluciones para conseguir mejores resultados en la detección, seguimiento y
caracterización automática de movimientos de personas y objetos en movimientos.
En la mayoría de los trabajos relacionados siguen una metodología similar. Sin
embargo, no se puede hablar aún de una metodología madura, esto debido a que
intervienen diversos problemas para poder conseguir resultados favorables para
una gran gama de movimientos y en diferentes escenarios.
En cuanto a la caracterización de movimientos de personas, los trabajos
relacionados se centran en una cantidad acotada de movimientos. Además, estos
comúnmente trabajan con bases de videos de laboratorios en escenarios poco
complejos.
Los escenarios en que se trabajan existe el control del ambiente para erradicar
factores (como el fenómeno sombra) que afectan la segmentación y generan una
mala clasificación de objetos en movimiento.
17
Capítulo III Análisis del Problema y Propuesta de Solución
En este capítulo se analiza y diseña la propuesta de solución al problema planteado en el
presente trabajo de investigación.
3.1 Propuesta de solución De acuerdo al estudio del estado del arte en el capítulo 2, un Sistema Videovigilancia
Inteligente está compuesto por una serie de fases que siguen un orden de procesamiento
[Albusac, 2009], cada una de ellas genera un resultado que sirve como entrada para la
siguiente fase. Por lo tanto, la propuesta de solución en este trabajo de tesis, consta de
tres módulos principales (véase la figura 3.1), que a su vez se integran de sub-etapas.
Primer Módulo: Corresponde a la capa de bajo nivel. Las sub-etapas que lo
integran son: 1) Modelado y actualización de fondo, 2) Detección de objetos en
movimiento, 3) Filtro de tamaño, 4) Extracción de puntos de interés y 5) Seguimiento de
personas.
Figura 3.1. Secuencia de etapas de la propuesta de solución.
Módulo 1
Módulo 3
Módulo 2
Detección Seguimiento
Personas
Videos
Extracción de Puntos de Interés
Caracterización de Movimientos
Sospechosos de Personas
Descriptores de movimiento
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
18
Segundo Módulo: El primer módulo da como resultado la detección y seguimiento
de objetos en movimiento que se han identificado como personas; además, de la
localización de sus puntos de interés. Dicho resultado es la entrada para el módulo 2, que
se encarga de calcular medidas de relación (ubicación, distancias y ángulos) entre los
mismos; además, del análisis de su forma. Dicho nivel se compone por los algoritmos de:
1) Análisis y cálculo de propiedades geométricas y 2) Cálculo de descriptores de forma.
Tercer Módulo: En el último módulo se analizan y comparan los resultados
obtenidos en el módulo 2 con los valores y parámetros previamente especificados que
modelan cada uno de los movimientos a caracterizar (Correr, Levantar una o ambas
Manos, Merodear, Agacharse y Acostarse). Este módulo se compone de la sub-etapa de:
1) Caracterización de movimientos de personas.
Unificando los esquemas de cada uno de los módulos de la propuesta de solución,
la arquitectura general se representa como se muestra en la figura 3.2.
A continuación se realiza la descripción más detallada de cada una de las etapas.
Figura 3.2. Arquitectura del Sistema.
Módulo 1
Modelado y Actualización
de la escena
Detección de objetos de
primer plano
Filtro de
Personas
Seguimiento de Personas
Extracción de
Puntos de Interés
Módulo 2
Módulo 3 Caracterización de Movimientos
de Personas Resultado
Análisis y cálculo de
propiedades geométricas
Cálculo de descriptores de forma
Videos
Capítulo III. Análisis del Problema y Propuesta de Solución
19
3.1.1 Modelado y actualización de fondo Crear el modelo de fondo es una de las tareas más importante dentro de la fase de
segmentación por sustracción de fondo, ya que la segmentación se realiza mediante
comparaciones contra este modelo. En este trabajo se crea el modelo de fondo que
considera la evolución de la escena durante todo el video.
Modelado de Fondo
El modelo se crea utilizando el espacio de color RGB, en el cual están
representadas originalmente las imágenes del video. Como primer paso se toman los
primeros 50 cuadros del video (generalmente libre de objetos móviles), con el fin de poder
estimar la distribución estadística del fondo a partir de los valores observados. Por lo
tanto, a lo largo de este periodo no es posible detectar objetos.
La técnica utilizada es la moda de píxeles, por lo tanto se obtienen los tres valores
de RGB de todos los píxeles que componen la imagen, por último se eligen aquellos
valores que tengan mayor frecuencia de ocurrencia, de esta forma dichos valores
representarán a su respectivo píxel dentro de la imagen del modelo de fondo.
Actualización del Modelo de Fondo
Con el paso del tiempo, la escena inicial de fondo puede variar, ya sea por cambios de
iluminación o por objetos que han entrado o salido en dicha escena. Por tal motivo, se
lleva a cabo la actualización constante del modelo de fondo.
El método que se empleó en esta tarea es similar al método para realizar el
modelo inicial de fondo, es decir se hace uso de la técnica de la moda de píxeles. El
proceso para la actualización es el siguiente; después de haber construido el modelo de
fondo, éste se actualiza tomando el valor de cada píxel con mayor frecuencia de
ocurrencia en periodos de 50 cuadros. De esta forma se consigue una imagen de fondo
sin ruido de movimiento (estelas), con la propiedad de introducir gradualmente objetos
nuevos en la escena después de cierto tiempo de inmovilidad.
En la figura 3.3 se muestran 3 imágenes que representan el proceso de
actualización del modelo de fondo en el escenario perteneciente a un estacionamiento. En
la figura 3.3a pertenece a un cuadro de entrada de la secuencia de video, mismo que
emplea para el método de moda de píxeles. En la figura 3.3b se muestra el resultado del
modelo de fondo, donde se aprecia una imagen con poco ruido o estela originada por el
movimiento, este modelo se actualiza después de 50 cuadros; por lo que en la figura 3.3c
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
20
corresponde a la actualización del modelo de fondo, en este se puede observar que con el
paso del tiempo un coche va formando parte del fondo después de permanecer inmóvil.
3.1.2 Detección de objetos de primer plano En procesamiento digital de imágenes se entiende por detección de primer plano o de
foreground al conjunto de técnicas que tienen por objetivo detectar objetos en movimiento
que aparecen en la secuencia de video sobre la que se trabaja [Mateu, 2009].
Posterior a la creación del modelo de fondo y teniendo en cuenta su constante
actualización, este se toma como referencia para hacer la detección de objetos de primer
plano en la secuencia de video. Por lo tanto este módulo entra después de la etapa de
modelado de fondo.
En primer lugar las imágenes de entrada y la imagen que representa al modelo de
fondo son convertidas a modo escala de grises, posteriormente se realiza una diferencia
absoluta de imágenes. Esta consta de realizar la diferencia de valores de cada uno de los
píxeles de la imagen de frente (imagen actual) con sus respectivos píxeles de la imagen
de fondo (modelo de fondo). El resultado de este proceso es una imagen binaria, en la
que aparecen únicamente las regiones que se han detectado en movimiento.
3.1.3 Eliminación de sombras
Concretamente, el efecto de las sombras puede provocar, en determinadas situaciones, la
fusión de varios objetos independientes, distorsión de la forma del objeto detectado o
incluso la no detección de objetos debido a la proyección de una sombra sobre dichos
objetos [Cabrejas, 2010].
Figura 3.3. a) Imagen de entrada. b) Modelo de fondo. c) Actualización de fondo.
Capítulo III. Análisis del Problema y Propuesta de Solución
21
Las dificultades que presenta una correcta detección de sombras radican en que
tanto las sombras como los objetos que las proyectan comparten dos importantes
características: ambas modifican la escena y seguirán el mismo comportamiento. No
obstante, existen diversos métodos para reducir los efectos negativos que provocan las
sombras en movimiento durante la etapa de detección de objetos.
Por lo tanto, en este trabajo de tesis se realizó un estudio de los diferentes
algoritmos de detección de sombras, mediante del cual se eligió un algoritmo para
identificar y eliminar aquellos píxeles que pudieran pertenecer a sombra y que fueron
detectados como movimiento en la fase anterior.
La mayoría de los algoritmos de detección y eliminación de sombras en
movimiento desarrollados en la literatura se caracterizan por basarse en el modelo de
sombras descrito en [Stauder, 1990] y [Prati, 2001]. En [Cucchiara, 2001] se propone una
clasificación de algoritmos, tal y como se muestra en la figura 3.4, basándose en los
procesos de decisión desarrollados, y destacando las diferentes características que se
plantean para el análisis de la secuencia.
Figura 3.4. Clasificación de los algoritmos de detección de sombras basada en el proceso de decisión. En
primer lugar los enfoques se clasifican por medio de su enfoque estadístico o no estadístico. La sub-clasificación consta del tipo paramétrico o basados en modelos. Finalmente, cada enfoque puede ser identificado por las características espectrales, espaciales y temporales que presenten [Cucchiara, 2001].
Espectrales
Escala de
grises Espacio de
color
Espaciales
Local Región
Temporales
Estático Dinámico
No basados
en el modelo
Estadísticos Deterministas
Paramétricos No
Paramétricos Basados en el
modelo
Algoritmos de
detección de sombras
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
22
Del estudio de los algoritmos de detección y eliminación de sombras se eligió el
enfoque Determinístico no basado en el modelo (DNM) por sus siglas en inglés
(Deterministic Non-Model based). Dicho enfoque se basa en la aplicación de umbrales
sobre la reducción de intensidad y cromaticidad para evaluar si un determinado píxel se
encuentra en una región sombreada o no. En [Piccardi, 2001] se propone la aplicación de
este enfoque en el espacio de color HSV (Hue, Saturation, Value), el motivo por el cual se
inclinan por este espacio de color radica en que el comportamiento de dicho espacio
corresponde estrechamente con la percepción humana del color, y ofrece una mayor
precisión en la detección de sombras [Herodotou, 1998].
La etapa de detección y eliminación de sombras se realiza a los resultados de
la etapa de detección de objetos de primer plano, ya que sólo dichas zonas serán
consideradas. En la figura 3.5 se muestra un ejemplo de la pre-segmentación (diferencia
de imágenes), y el resultado de eliminación de sombras etapa de post-segmentación
utilizando el enfoque DNM.
Figura 3.5. Resultados de la primer etapa de segmentación (Imágenes de la Izquierda) y de la
eliminación de sombras etapa de post-segmentación con el enfoque DNM (Imágenes de la Derecha).
Capítulo III. Análisis del Problema y Propuesta de Solución
23
3.1.4 Operaciones morfológicas
Posteriormente, al resultado de la post-segmentación se le aplica la operación
morfológica denominada apertura, la cual puede definirse como una composición de las
funciones erosión y dilatación. Dicha operación es aplicada con la finalidad de reducir el
posible ruido que se presente y mejorar la forma de los objetos. Finalmente se realiza la
localización de los objetos de primer plano con la aplicación de la técnica de etiquetado de
componentes conexas, etiquetando y agrupando los píxeles que se encuentran conexos,
con esto se obtienen la ubicación y el área de los objetos en movimiento.
3.1.5 Validación de personas Después de haber obtenido la ubicación de todos los objetos de primer plano se procede
a ejecutar el algoritmo de la validación de personas, que consiste en analizar todos los
objetos en movimiento detectados en la fase anterior para determinar si es una persona o
no.
En esta fase para cada uno de los objetos en movimiento detectados, se compara
su área (tamaño) con dos umbrales (reglas de tamaño) para validar si es o no una
persona. El valor de dichos umbrales depende de la ubicación del objeto; si el área de un
determinado objeto cumple con ambos umbrales el objeto se clasifica como persona, si el
área no cumple con al menos uno de los umbrales, el objeto se define como no persona.
Sin embargo, en este procedimiento existe una problemática la cual se describe a
continuación.
Problemática en la validación de personas
En la validación de objetos de primer como personas en base a su tamaño,
interviene la relación entre la posición del objeto y la posición de la cámara; por lo tanto,
se debe considerar la distancia que existe entre el objeto y la cámara; es decir, se debe
considerar el factor perspectiva. Es importante considerar este factor, ya que el tamaño
del objeto de interés va a depender directamente de la distancia antes mencionada, a
mayor distancia menor tamaño (área), y viceversa, si el objeto está cerca de la cámara, su
tamaño será mayor.
El cambio de escala de los objetos en movimiento se origina debido a la altura con
la que son colocados los dispositivos de captura, la cual normalmente es una altura
superior a la altura promedio de una persona, permitiendo que la cámara tenga una
extensa cobertura de visualización. Por tal motivo, el desplazamiento de un objeto móvil
puede ser amplio y aún así permanecer dentro del campo de visión de la cámara,
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
24
originando la variación de las propiedades geométricas (área) de dicho objeto en
movimiento (véase la figura 3.6).
Por tales motivos, en este trabajo de tesis se utilizó un método denominado filtro
de tamaño, que atiende la relación entre el tamaño de la persona y su ubicación con
respecto a la cámara. Con este método se obtienen dos reglas que permiten validar un
objeto en movimiento como persona en base a su tamaño, considerando los aspectos
antes mencionados. Por lo tanto, se consigue detectar y por ende ignorar, regiones en
movimiento que sean demasiado pequeñas o grandes, cuyo tamaño no se ajuste al de
una persona.
El procedimiento del filtro de tamaño se describe en la sección 4.6, además, se
presenta un ejemplo del mismo en la sección 5.4, en el que se calculan las reglas de
tamaño para un escenario de la base de videos Caviar [5].
De esta forma se realiza la validación de objetos en movimiento como personas,
para los cuales se procede a realizar la localización de partes del cuerpo (puntos de
interés).
3.1.6 Extracción de puntos de interés Posterior a la validación de objetos en movimiento como personas, se procede a realizar
la extracción de puntos de interés, la cual consiste en localizar las extremidades del
cuerpo (cabeza, manos y pies) y centroide. Dichos puntos son la parte fundamental para
realizar la caracterización de los movimientos de caminar, correr, y levantar manos.
Para esta tarea se realizó un procedimiento similar al método usado en [Toscano,
2011]. El primer punto que se localiza es el centroide del cuerpo de la persona, para esto
Figura 3.6. Ejemplo de los efectos de perspectiva y cobertura de visualización de una cámara.
Capítulo III. Análisis del Problema y Propuesta de Solución
25
se necesita obtener la silueta de la persona en movimiento, que no es más que el borde
de la región que representa al objeto de interés, por lo que se utilizó la técnica de código
de cadena descrita en la sección 4.7. Posteriormente a la localización del borde la
persona se promedia los valores de las coordenadas de todos y cada uno de los píxeles
que pertenecen a la silueta de persona, tal como se muestra en la ecuación 3.1.
∑
∑
Donde:
(xc, yc) = Coordenada del centroide
Nb = Número de píxeles en la silueta
(xi, yi) = Coordenada de cada píxel de la silueta
El segundo punto a localizar es la cabeza, el cual se localiza tomando como
criterio que sea uno de los píxeles más alto del borde de la persona, que no esté más allá
de 1/10 (horizontalmente) de la altura total de la personas en cada lado con respecto al
centroide. Para la localización de las manos se toma como punto de partida el punto de la
cabeza, a partir de éste se realiza la búsqueda de los píxeles del borde que estén más a
la izquierda y más a la derecha, esta búsqueda se realiza hasta el centroide de la
persona. Los puntos resultantes representan a la mano 1 (mano derecha) y mano 2
(mano izquierda). En cuanto a la localización de los pies se toma como referencia el píxel
más bajo del borde, y en base al punto del centroide se determina si este píxel está a la
derecha o izquierda, a partir de esta información se localiza el primer pie (dependiendo
del lado que esté el píxel) realizando su búsqueda de abajo hacia arriba recorriendo la
silueta de la persona, posterior a la localización del primer pie este se ocupa para
encontrar el segundo pie de manera similar. En la búsqueda para cada uno de los pies
tiene un parámetro de parada, el cual depende de qué lado esté el píxel más abajo.
Las reglas utilizadas para la localización de la cabeza, pies y manos fueron el
resultado de un análisis de las dimensiones del cuerpo humano mencionado en [Toscano,
2011]. Otras de las reglas específicas empleadas se obtuvieron de la observación y
análisis del comportamiento de dichas extremidades durante la primera etapa de pruebas.
En la sección 5.4 se hace una descripción más detallada acerca de la localización de las
extremidades del cuerpo de la persona.
Para la representación gráfica de los puntos de interés se usa el modelo de
alambre, con el cual se unen las extremidades por medio de líneas rectas unidas al centro
(centroide) del cuerpo de la persona (véase la figura 3.7).
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
26
En la figura 3.7 se muestran resultados de la localización de partes del cuerpo de
la persona (extracción de puntos de interés). El centroide de la persona se representa con
un círculo de color rojo, la cabeza está representada por un círculo de color azul, para la
mano 1 (mano derecha) se representa con un círculo de color amarillo, la mano 2 (lado
izquierdo) está representada por un círculo de color azul, el pie 1 (pie derecho) se
representa con un círculo rosa y finalmente el pide 2 (pie del lado izquierdo) se representa
con un círculo de color negro.
3.1.7 Seguimiento de personas
Esta fase tiene como objetivo realizar el seguimiento de las personas detectadas. El
propósito del seguimiento radica en relacionar temporalmente la información obtenida en
el análisis de cada imagen y así caracterizar el movimiento del objeto en cuestión. Dicha
etapa está interrelacionada con la etapa de detección del movimiento durante todo el
proceso.
La técnica que se utilizó es la relocalización de regiones en movimiento, dicha
técnica depende de la tarea de extracción de puntos de interés, ya que se ocupa el punto
del centroide para realizar la relocalización de una persona en cuadros siguientes, en
segundo término se ocupa un radio de búsqueda, el cual consiste en una medida que se
obtuvo de un análisis en pruebas realizadas. Se concluyó que una persona difícilmente se
puede desplazar distancias mayores a su propia altura de un cuadro a otro, por lo que el
radio de búsqueda es equivalente a la altura de la persona.
De manera general el procedimiento es el siguiente; como primer paso se obtienen
y almacenan las coordenadas (x, y) del centroide de cada una de las personas detectadas
en el cuadro n y cuadro n+1. Finalmente, se calcula la distancia D entre los centroides de
los diferentes cuadros (distancia entre dos puntos). Si, dicha distancia es menor o igual a
Figura 3.7. Ejemplos de extracción de puntos de interés.
Capítulo III. Análisis del Problema y Propuesta de Solución
27
la altura de la persona (en el cuadro n) se dice que se ha relocalizado la misma persona
del cuadro n, ahora en el cuadro n+1 con una distancia desplazamiento D.
Problemática
La técnica de relocalización de regiones funciona correctamente siempre y cuando la
aparición de la persona sea constante en todos los cuadros. Sin embargo, esto no
siempre es posible, y un factor es la segmentación que no siempre es tan precisa.
Por tanto, para dar solución a este problema, durante el seguimiento se considera
una tolerancia de 10 cuadros en que una persona puede no ser detectada, respetando
que dicha persona esté dentro del radio de búsqueda para su relocalización. En la figura
3.8 se ejemplifica visualmente el procese de seguimiento.
3.1.8 Cálculo de descriptores geométricos y de forma Para la caracterización de los 5 movimientos de personas propuestos en este trabajo, se
calcula una serie de descriptores de movimiento y forma que aportan la información
necesaria para llevar a cabo dicha actividad.
Debido a la diferencia entre los movimientos a caracterizar, los descriptores son
diferentes para cada movimiento. En general los descriptores que se calculan son:
distancia, ángulo, ubicación y desplazamiento entre puntos de interés, además, para los
movimientos agacharse y acostarse, a la región completa se calcula el primer momento
invariante de Hu [Hu, 1962], como descriptor de forma.
Figura 3.8. Radio de búsqueda para la persona en el cuadro N+1.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
28
A continuación se enlistan los 5 movimientos con sus respectivos descriptores
para su caracterización.
Correr:
Distancia entre centroides de una misma persona en cuadros consecutivos.
Levantar una o ambas manos:
Ubicación de las manos, para determinar si están por abajo o arriba de la cabeza.
Cálculo de las distancias entre Cabeza-Mano 1, y Cabeza-Mano 2.
Cálculo del Ángulo formado entre Cabeza-Mano 1, y Cabeza-Mano 2.
Merodear:
Contabilización de los cuadros del seguimiento de una persona.
Agacharse y acostarse:
Análisis de la evolución de la altura de la persona durante su seguimiento.
Utilizando el primer momento invariante de Hu [Hu, 1962].
3.1.9 Caracterización de movimientos El objetivo de este módulo es llevar a cabo la caracterización de los cinco movimientos
propuestos en el presente trabajo, correr, levantar una o ambas manos, merodear,
agacharse y acostarse. El proceso para realizar dicha tarea consta de la comparación y
evaluación de los descriptores de la fase anterior con respecto al modelo de cada acción.
A continuación se describe el proceso de caracterización para cada movimiento:
Correr La caracterización de este movimiento se realiza analizando la distancia entre centroides
de una misma persona en cuadros consecutivos. Por lo tanto, es necesario calcular la
distancia promedio entre centroides que represente la acción caminar, si durante el
seguimiento de una persona dicha distancia es mayor a la distancia promedio del
movimiento caminar, se dice que la persona está corriendo.
Es importante mencionar que, el criterio anterior surge del análisis de la notable
diferencia de las distancias entre centroides en cuadros consecutivos para los
movimientos caminar y correr (véase la figura 3.9a).
Capítulo III. Análisis del Problema y Propuesta de Solución
29
Debido al método empleado para la caracterización del movimiento correr, dicha
caracterización sólo se realizó en bases de videos que contienen los movimientos de
caminar y correr. Además, en dichos videos de prueba no presentan el factor de
perspectiva, ya que para estos casos la variabilidad del tamaño de las personas así como
su distancia de desplazamiento no permite realizar la caracterización de este movimiento.
Por lo tanto, para este movimiento en particular los bancos de videos utilizados en la
etapa de pruebas del sistema fueron aquellos descargados de internet, los cuales
presentan la característica de ser grabados a una distancia no mayor a la altura promedio
de una persona.
Levantar una o ambas manos En la caracterización de este movimiento es necesario especificar lo siguiente:
Mano 1: Extremidad superior izquierda de la región en movimiento.
Mano 2: Extremidad superior derecha de la región en movimiento.
A continuación se describe el proceso que permite determinar si una persona tiene a)
mano 1 levantada, b) mano 2 levantada o c) ambas manos levantadas.
Como primer paso, se determina si las manos están por arriba o debajo de la cabeza,
para ello se analiza la coordenada Y de las manos y de la cabeza. Posteriormente se
analizan los siguientes casos:
Caso 1: Si, una (ambas) mano(s) está(n) por debajo de la cabeza se calcula la
distancia entre el punto que representa a dicha mano y el punto de la cabeza, además, se
calcula el ángulo formado por la recta que une a estos dos puntos con respecto a la
horizontal. Si, la distancia es mayor o igual a un tercio (1/3) de la altura de la persona y el
ángulo formado es menor o igual a 20°, entonces se dice que la persona está levantando
manos (véase la figura 3.9b).
Caso 2: Para el caso que una (ambas) mano(s) esté(n) por arriba de la cabeza se
calcula únicamente la distancia que hay entre el punto representante de dicha mano y el
punto representante de la cabeza. Si, la distancia es mayor o igual a un tercio (1/3) de la
altura de la persona, se dice que la persona está levantando manos (véase la figura 3.9
b).
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
30
Merodear
Es conveniente mencionar que el movimiento de merodeo para este trabajo de tesis se
define como la presencia de una persona en la escena por más de n segundos (este valor
depende del escenario). Por lo tanto, la caracterización del merodeo depende totalmente
de la etapa de seguimiento.
El método empleado es como sigue: durante el seguimiento de una persona se lleva el
registro de la cantidad de cuadros consecutivos en que dicha persona ha sido detectada,
si esta cantidad supera el equivalente a n segundos (previamente establecidos) se dice
que la persona está merodeando (véase la figura 3.9c).
Agacharse y acostarse Como primer paso para la caracterización de los movimientos agacharse y acostarse, se
calculó el primer momento invariante de Hu [Hu, 62] a un conjunto de imágenes binarias,
que representan las acciones agacharse y acostarse. De este proceso se obtuvieron los
siguientes valores:
Movimiento agacharse
Primero Momento de Hu Mayor a 0.180 y menor a 0.230
Movimiento acostarse
Primero Momento de Hu Mayor a 0.500 y menor a 0.800
Por lo tanto, el procedimiento es el siguiente:
Para el movimiento Agacharse se analiza la evolución de la altura de la persona, si
durante el seguimiento su altura es menor o igual a dos tercios (2/3) de la altura inicial, se
procede a calcular el primer momento invariante de Hu. Posteriormente se compara el
valor obtenido, para determinar si éste está dentro del rango de valores que van de 0.180
a 0.230, si es así se determina la persona como agachada (véase la figura 3.9 d).
La caracterización del movimiento acostarse sigue la misma dinámica que se usa para
caracterizar cuando una persona se agachada. Se analiza la evolución de la altura de la
persona, si durante el seguimiento su altura inicial disminuye a la mitad (1/2), se procede
a calcular el primer momento invariante de Hu. Si el valor calculado está dentro del rango
de valores que van de 0.500 a 0.800 se determina la persona como acostada.
Capítulo III. Análisis del Problema y Propuesta de Solución
31
3.2 Comentarios En las etapas de detección y seguimiento de personas, interviene una gran gama de
factores, por lo que se consideran temas de estudio abiertos donde se sigue realizando
investigación para mejorar los resultados que hasta el momento se han conseguido. De
igual forma, en el presente trabajo de tesis se identificaron algunos problemas a los
cuales se intentó dar solución y mejorar la parte de segmentación y seguimiento de las
personas.
Para el problema de aparición de sombras, se implementó un método
determinístico no basado en el modelo por sus siglas en inglés DNM (Deterministic-Non
Based model) [Cucchiara, 2001], este emplea el espacio de color HSV para identificar los
píxeles candidatos a sombra e ignorarlos en la segmentación final. Cabe mencionar que,
debido a las diferentes condiciones de iluminación en los diferentes escenarios
considerados, los umbrales para la detección de sombras son diferentes.
Figura 3.9. a) Análisis de distancia entre centroides (caminar y correr). b) Cálculo de distancia y ángulo entre Cabeza y Mano 2. c) Ejemplo de contabilización de cuadros en el seguimiento de personas. d) Análisis de la variación de la altura de una persona al agacharse.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
32
En cuanto a la validación de objetos como personas y no personas, debido a que
se emplea un filtro de tamaño, este se ve afectado por la distancia que hay entre la
ubicación de la persona y la ubicación de la cámara. Por lo tanto, se implementó un
algoritmo basado en una función discreta, el cual consta de una ecuación que considera
la ubicación de las regiones en movimiento, el área y la variación (incremento o
decremento) del área de acuerdo a su desplazamiento con respecto a la cámara
(acercamiento o alejamiento). De esta forma el resultado son 2 ecuaciones denominadas
filtro de tamaño, con las que se obtienen 2 umbrales que se emplean para discriminar
objetos que sean demasiado grandes o demasiado pequeños respectivamente. Para
realizar esta se requiere de un análisis manual de los diferentes escenarios de prueba
para obtener aquellas ecuaciones que clasifiquen a las regiones en movimiento como
personas o no personas en base a su área.
En lo respectivo al seguimiento, se emplea la técnica de relocalización de regiones
en movimiento, misma que depende directamente de los resultados de la etapa de
segmentación, si una persona es mal segmentada esta no aparecerá en los cuadros
siguientes, provocando un fallo en su relocalización. Como solución a este problema, se
considera una tolerancia de 10 cuadros en los que la persona puede no ser detectada.
33
Capítulo IV
Marco Teórico
Este capítulo trata del marco teórico, en donde se presenta una descripción de los
algoritmos y técnicas utilizadas en las etapas de la propuesta de solución. En la tabla 4.1
se listan las fases de la metodología con sus respectivas técnicas utilizadas,
posteriormente se realiza una descripción más detallada de cada una de ellas.
Tabla 4.1 Técnicas empleadas en las fases de la metodología de solución
No. Fases de la metodología de solución Técnicas utilizadas
1 Modelado y Actualización de la escena Moda de píxeles.
2 Detección de objetos de primer plano
Resta de imágenes.
Método DNM.
Espacios de color y
conversiones.
Operaciones morfológicas.
3 Validación de Personas Filtro de tamaño.
4 Extracción de Puntos de Interés Código de cadena.
Modelo de alambre.
5 Seguimiento de Personas Relocalización de regiones
en movimiento.
6 Caracterización de Movimientos de
Personas
Momentos invariantes de
Hu.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
34
4.1 Moda de píxeles Entre las técnicas más simples para el mejoramiento de las imágenes se encuentran los
procesos punto a punto, los cuales se basan sólo en la intensidad de los píxeles
[González, 1996]. La moda es un procedimiento punto a punto utilizado en el presente
trabajo.
La moda es el valor con una mayor frecuencia de ocurrencia en una distribución de
datos, en este caso la moda de un píxel para el modelo de fondo, es el valor que ese
mismo píxel toma con mayor número de repeticiones dentro de las n imágenes de
muestra. Dicho lo anterior, se asume que para todas las imágenes de muestra cada píxel
se encuentra siempre en la misma posición, variando únicamente las intensidades. Esto
significa que los objetos de la escena y la cámara permanecen en reposo durante el
proceso la creación del modelo de fondo [Pajares, 2008]. Esta técnica presenta mayor
robustez en el modelado de fondo pero tiene la desventaja de requerir un mayor coste
computacional.
En la figura 4.1 se esquematiza la construcción del modelo de fondo con la moda
en los tres planos del RGB.
Figura 4.1. Modelado de fondo con la moda en el espacio de color RGB.
Capítulo IV. Marco Teórico
35
4.2 Diferencia de imágenes Existen diferentes métodos para hacer la detección de primer plano, uno de los más
simples es hacer una resta de imágenes o sustracción de fondo, en dicha operación los
píxeles que produzcan un resultado mayor a un umbral establecido, se clasifican como
píxeles en movimiento. Una imagen de diferencias D se obtiene para cada localización (x,
y) calculando la diferencia [Pajares, 2008]:
{
Donde:
D(x, y) = Diferencia de Imagen
I Act(x, y) = Imagen actual
I Back(x, y) = Imagen de fondo
Umbral = Umbral de movimiento
4.3 Método de eliminación de sombras, enfoque DNM
Una de las etapas fundamentales en la segmentación de objetos es el post-
procesamiento. Esto es en general necesario para la eliminación de ruido y otros
elementos inherentes a la escena, al modelo de segmentación fondo/frente utilizado y/o a
la cámara. Dentro de este post-procesamiento un aspecto interesante es la detección y
eliminación de las sombras producidas por los objetos.
El método aquí utilizado es con enfoque Determinístico no basado en el modelo
(DNM) [Cabrejas, 2010] por siglas en inglés (Deterministic Non-Model Based) sse basa en
la aplicación de umbrales sobre la reducción de intensidad y cromaticidad para evaluar si
un determinado píxel se encuentra en una región sombreada o no. Debido a que dicho
método se basa en el análisis de la cromaticidad de la imagen, para realizar este análisis
es necesario convertir la imagen (que normalmente está en RGB) al modelo de color HSV
y analizar por separado cada uno de los canales [Grana, 2001]. El canal V se utiliza como
filtro para determinar los píxeles candidatos como sombras. Para determinar un cambio
en la cromaticidad se calcula la diferencia entre las tonalidades (H) y las saturaciones (S)
de la imagen del fondo y la imagen de frente.
(4.1)
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
36
El proceso de decisión que se sigue para detectar si un determinado píxel se
encuentra en una región sombreada es el siguiente:
Donde:
It(x, y) = Píxel localizado en (x,y) en la imagen t-ésima (Imagen de Frente).
Bt(x, y) = Píxel localizado en (x,y) en la imagen t-ésima (Imagen de Fondo).
= Píxel localizado en (x,y) en la imagen t-ésima (Imagen de Frente) en los
canales H, S y V respectivamente.
= Píxel localizado en (x,y) en la imagen t-ésima (Imagen de Fondo) en los
canales H, S y V respectivamente.
𝜶, 𝜷, 𝝉S y 𝝉 = Son los umbrales de decisión utilizados.
Esta fórmula se basa simplemente en la determinación de umbrales que definen a las
sombras, diferenciándolas de los píxeles que efectivamente corresponden al objeto a
segmentar. La implementación de este algoritmo contempla dos etapas. En primer lugar,
es necesario realizar una conversión de color (imagen de frente e imagen del modelo de
fondo) del espacio RGB al espacio de color HSV. En segundo lugar, se realiza el proceso
de decisión comparando el fondo y la imagen de frente según los valores del píxel en los
tres canales: H (tonalidad), S (saturación) y V (brillo). La implementación de este proceso
de decisión se muestra en la figura 4.2.
Figura 4.2. Implementación del proceso de decisión para la supresión de sombras.
𝜷
|
| 𝝉
|
| 𝝉
(4.2)
Capítulo IV. Marco Teórico
37
La primera condición evalúa la diferencia absoluta entre la imagen de frente y la
imagen de fondo en el canal H (tonalidad), basándose en que la sombra proyectada sobre
un píxel no modifica su información de color o cromaticidad. La segunda condición evalúa
la diferencia en el canal S (saturación) entre la imagen de frente y la imagen de fondo,
siendo normalmente negativa para aquellos píxeles sombreados. La última condición
evalúa la luminancia del píxel (canal V brillo), que debe ser menor para aquellos píxeles
que se encuentren en regiones sombreadas.
4.4 Modelos de color y conversión de RGB a HSV El propósito de los modelos de color (también llamados espacios de color o sistemas de
color) es el de facilitar la especificación de los colores utilizando algún estándar.
Un modelo de color es una especificación de un sistema de coordenadas de tres
dimensiones y un sub-espacio dentro de dicho sistema donde cada color se representa
por un punto.
4.4.1 Modelo de color RGB
Este modelo está basado en la síntesis aditiva de las intensidades de luz relativas al rojo,
al verde y al azul para conseguir los distintos colores incluyendo el negro y el blanco. El
nombre del modelo RGB viene de las iniciales, en inglés, de esos tres colores: Red,
Green y Blue. La representación gráfica del modelo RGB se realiza mediante un cubo
unitario con los ejes R, G y B (ver figura 4.3). El origen (0, 0, 0) representa el negro y las
coordenadas (1, 1, 1) el blanco. Los vértices del cubo en cada eje R, G y B, de
coordenadas (1, 0, 0), (0, 1, 0) y (0, 0, 1) representan los colores primarios rojo, verde y
azul. Los restantes tres vértices (1, 0, 1), (0, 1, 1) y (1, 1, 0) al magenta, cian y amarillo
respectivamente, colores secundarios y respectivamente complementarios del verde, rojo
y azul. La diagonal del cubo representa la gama de grises desde el negro al blanco. En
esta diagonal cada punto o color se caracteriza por tener la misma cantidad de cada color
primario [Gonzales, 1996].
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
38
4.4.2 Modelo de color HSV El espacio HSV [Smith, 1978], representa uno de los espacios de coordenadas más
clásicos e intuitivos existentes en la literatura. Su interpretación geométrica viene
determinada por un cono de base quasi-hexagonal (figura 4.4). Con esta representación
del espacio de color, cada color trabaja con 3 componentes básicas: matiz, saturación y
brillo. El matiz (H), hace referencia al valor de cromaticidad o clase de color. La saturación
(S), se refiere a las longitudes de onda que suman a la frecuencia del color. Contra menos
saturado este un color más cantidad de blanco y contra más saturado este un color
menos cantidad de blanco. En definitiva, la saturación representa la pureza e intensidad
de un color. Así, la falta de saturación viene dada por la generatriz en la representación
del cono HSV. Esa falta de saturación representa la gama de grises desde el blanco hasta
el negro. La luminancia (V), se corresponde con la aparición subjetiva de claridad y
oscuridad.
Figura 4.3. Modelo de color RGB en el espacio 3D [Gonzales, 1996].
Figura 4.4. Representación del color HSV.
Capítulo IV. Marco Teórico
39
4.4.3 Conversión de RGB a HSV
Cuando se quiere representar una imagen en color con un espacio de color HSV, es
importante determinar cómo influyen las componentes de color de una cámara de video
RGB sobre el espacio HSV [Gil, 2004]. Así, el sistema HSV viene definido por:
{
(
)
(
)
(
)
4.5 Operaciones morfológicas
La erosión y la dilatación son las dos operaciones morfológicas básicas, la morfología se
refiere al estudio de las formas y de la estructura.
La morfología matemática emplea la teoría de conjuntos para representar las
formas de los objetos en una imagen. De este modo, las operaciones morfológicas se
pueden describir simplemente añadiendo o eliminando píxeles de una imagen binaria.
Desde el punto de vista de visión por computadora se denomina dilatación al
crecimiento de una región después de aplicar alguna máscara. La erosión es el proceso
de aplicar algún tipo de máscara a una imagen con el fin de eliminar información que se
encuentre aislada de posibles regiones. Para poder definir la dilatación y la erosión es
necesario recordar algunas operaciones básicas.
4.5.1 Erosión La operación morfológica de erosión es también denominada como reducción y tiene
como finalidad la simplificación de las estructura de los objetos. La erosión combina dos
conjuntos utilizando la sustracción de vectores, (ecuación 4) [Pajares, 2008].
(4.3)
(4.4)
(4.5)
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
40
XӨB = }
Esta expresión dice que cada punto d del conjunto X, que para este enfoque será
la imagen, es probado. El resultado de la erosión está dado por los puntos d para los
cuales todos los posibles d + b están en X [Pajares, 2008].
X = {(1,0), (1,1), (1,2), (0,3), (1,3), (2,3), (3,3), (1,4)}, B = {(0,0), (1,0)} XӨB = {(0,3), (1,3), (2,3)}
0 1 0 0 0 0 0 0 1 1 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 1 1 0 0 0 0
a) b) c)
4.5.2 Dilatación La transformación morfológica de la dilatación también es denominada de relleno o
crecimiento. Esta trasformada combina dos conjuntos utilizando la adición de vectores
como lo indica la ecuación 5 [Pajares, 2008].
X⨁B =
La dilatación X⨁B es el conjunto de puntos de todas las posibles adiciones
vectoriales de pares de elementos, uno de cada conjunto X y B.
X = {(1,0), (1,1), (1,2), (2,2), (0,3), (0,4)} B = {(0,0), (1,0)} X ⨁ B = {(0,1), (1,1), (1,2), (2,2), (0,3), (0,4), (2,0), (2,1), (2,2), (3,2), (1,3), (1,4)}
1 0 0 0 1 1 0 0 1 0 0 0 1 1 0 0 0 1 1 0 0 1 1 1 0 1 0 0 0 1 1 0 0 1 0 0 1 1 0 1 1 0
a) b) c)
Figura 4.5. Para el ejemplo, el conjunto X se representa en el inciso (a), el conjunto B se representa en el inciso (b) y XӨB se representa en el inciso (c).
Figura 4.6. Para el ejemplo, el conjunto X se representa en el inciso (a), el
conjunto B se representa en el inciso (b) y X⨁B se representa en el inciso (c).
(4.6)
(4.7)
Capítulo IV. Marco Teórico
41
4.5.3 Apertura La operación de apertura puede definirse como una composición de las funciones erosión
y dilatación, si X⨁B representa a la operación de dilatación con el conjunto X y B, y XӨB
representan a la operación de erosión de los conjuntos X y B, entonces la apertura X○B
es:
X○B = (XӨB) ⨁B
4.6 Filtro de tamaño El filtro de tamaño se refiere a un método el cual determina umbrales de tamaño que
represente a un objeto de interés en base a su área. En este trabajo de tesis, dicho
método es empleado para obtener 2 umbrales de tamaño que permiten clasificar a los
objetos en movimiento como personas y no personas. Por lo tanto, es necesario realizar
un análisis previo para obtener dichas reglas de tamaño. Este método propicia ciertas
ventajas, como son, eliminar o ignorar regiones demasiado pequeñas que pueden ser
originadas por cambios de iluminación o sombras, y eliminar regiones en movimiento
demasiado grandes como aquellas pertenecientes a coches o conjunto de personas. Sin
embargo, debido a que la única información que se considera es el tamaño, existe la
desventaja de clasificar erróneamente a objetos móviles como personas cuando
realmente correspondan a otro tipo de objetos, pero que cumplen con las reglas de
tamaño propias de una persona.
En la figura 4.7 se muestran dos resultados de segmentación y detección de
objetos en movimiento. Las figuras 4.7a y 4.7b representan la detección de movimiento en
bruto, es decir es el resultado de la detección de todos los objetos de primer plano sin
realizar la validación de personas. En las figuras 4.7c y 4.7d se muestran los resultados
de detección de objetos en movimiento aplicando un filtro de tamaño para validar dichos
objetos como personas y no personas, por lo que, para este caso los objetos
segmentados corresponden sólo a aquellos que fueron validados como personas en base
a su tamaño.
En dicho ejemplo se puede observar la clasificación de objetos en movimiento de
acuerdo a su tamaño, en este se eliminan o ignoran las regiones en movimiento que sean
muy grandes o pequeñas, conservando únicamente aquellas que su tamaño
correspondan al tamaño de una persona.
(4.8)
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
42
4.6.1 Función discreta como filtro de tamaño En la sección 3.1.3 se habló de la problemática que existe al usar un filtro de tamaño para
a las validar personas. Esta problemática radica en la variación del tamaño de una
persona dependiendo de su lejanía o cercanía a la cámara (factor de perspectiva), a
mayor distancia menor tamaño y viceversa, a menor distancia mayor tamaño. Para dar
solución a este problema se empleó una función discreta que determina el tamaño de una
persona de acuerdo a su posición, dicha función se describe como sigue:
Donde:
FTam = Valor del tamaño que representa una persona con respecto a su ubicación
actual.
YAct = Coordenada Y de la ubicación actual de la región.
Yini = Primer coordenada Y en que se puede posicionar una persona (coordenada Y del
escenario más lejana a la cámara).
Figura 4.7. a) Segmentación de movimiento en bruto. b) Detección de objetos en movimiento en bruto. c) Segmentación de personas usando un filtro de tamaño. d) Detección de personas empleando un filtro de tamaño.
(4.9)
Capítulo IV. Marco Teórico
43
Increpixs = Cantidad de píxeles que puede incrementar una persona por su
desplazamiento en la coordenada Y.
Cantpixs = Cantidad de píxeles que representa a una persona en la Y más lejana a la
cámara.
Con la aplicación de dicha función para calcular un umbral de tamaño se obtiene como
resultado un conjunto de reglas de tamaño, que se traducen en condiciones que deben
superar aquellas regiones en movimiento para poder ser etiquetadas como personas. Por
lo que en este trabajo de tesis, se propuso utiliza esta función para determinar los
umbrales de tamaño para los diferentes escenarios de las bases de videos con las que se
realizó la etapa de pruebas.
En la sección 5.5 se presenta el procedimiento para la obtención de los umbrales de
tamaño para la validación de personas en un escenario donde la cámara presenta el
factor de perspectiva.
4.7 Código de cadena
Los códigos de cadena se usan para representar una frontera como un conjunto de
segmentos de longitud y dirección específicas [Pajares, 2002].
Para la definición del código de cadena, se tiene en cuenta la localización de un
píxel (i, j) y sus ocho vecinos en las direcciones cuantizadas de 45°. A cada una de dichas
direcciones se les asigna un valor numérico y así a O, SO, S, SE, E, NE, N y NO les
corresponden 4, 5, 6, 7, 0, 1, 2 y 3 respectivamente, es lo que se conoce como código de
cadena de 8-direccional. Si en lugar se considerar los 8-vecinos se consideran sólo 4-
vecinos O, S, E, N tendremos un código 4-direccional, con códigos de cadena numéricos
2, 3,0 y 1 respectivamente.
Figura 4.8. a) Código de cadena 4-direccional. b) Código de cadena 8-direccional. c) Localización de borde en un segmento.
3 2 1
4 0
5 6 7
1
2 0
3
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
44
4.8 Modelo de alambre
El modelo de alambre permite representar objetos por medio de líneas rectas unidas al
centro de la figura, dicha representación permite realizar un análisis simple de acciones
que se efectúan. Por lo que esta tarea depende de la extracción de puntos de interés.
4.9 Relocalización de regiones en movimiento La técnica de relocalización se utilizó para llevar a cabo el seguimiento de objetos en
movimiento, este es un método simple que requiere de un bajo costo computacional. Su
funcionamiento se describe a continuación;
Posteriormente a la segmentación y detección de objetos de interés, se extrae un
punto que represente al objeto (el centroide por ejemplo), este punto será tomado como
referencia para realizar la búsqueda de la persona y por ende el seguimiento. Además, se
debe especificar un radio en el que una persona pueda ser relocalizada en los cuadros
subsecuentes.
Suponiendo que en el cuadro n se detectara una persona, se extrae su centroide y
se almacenan las coordenadas del mismo, posteriormente en el cuadro n+1 se realiza
nuevamente la detección de personas y se calcula la distancia D entre los centroides
(véase ecuación 7), si dicha distancia es igual o menor al valor del radio de búsqueda
(previamente especificado) se dice que la persona del cuadro n se ha relocalizado en el
cuadro n+1 y ha tenido un desplazamiento D (ver figura 3.7).
√
Figura 4.9. Secuencia de imágenes que representan el modelo de alambre de una persona en movimiento.
(4.10)
Capítulo IV. Marco Teórico
45
Dónde:
D = La distancia entre dos puntos
x1 = Coordenada x del punto 1
y1 = Coordenada y del punto 1
x2 = Coordenada x del punto 2
y2 = Coordenada y del punto 2
4.10 Momentos invariantes de Hu En física, el momento de la fuerza, es una cantidad que representa la magnitud resultante
del producto del valor de una fuerza por su distancia a un punto de referencia. Así, en
matemáticas se podría definir un momento como la magnitud que representa una
característica del objeto de estudio. Aplicado a una imagen, describen el contenido de una
imagen o su distribución en lo que concierne a sus ejes [Cortés, 2009].
Hu [Hu, 1962] describió un conjunto de 7 momentos invariantes a la rotación, la
escala y la traslación (ver imagen 4.10). Estos momentos son aplicados a imágenes
binarias para caracterizar sus formas. Al ser invariantes a la escala, este método se aplicó
para la caracterización de los movimientos agacharse y acostarse. Los 7 momentos de Hu
se calculan con las siguientes ecuaciones.
El significado de cada momento de Hu, definidos según la ecuación anterior, se
muestra en la tabla 4.2:
Tabla 4.2. Tabla definición de los momentos de Hu [Hu, 1962].
Definición de los Momentos de Hu
Suma de varianza horizontal y vertical, indica cuánto más distribuido está el objeto
El valor de covarianza de los ejes vertical y horizontal, cuando el valor de la varianza de los ejes vertical y horizontal es similar.
Valor que acentúa la inclinación según esté más inclinado a la derecha o a la izquierda.
Valor que acentúa la inclinación según esté más inclinado arriba o abajo.
Valores invariantes al tamaño, la rotación y la traslación.
Momento que es invariante a la perspectiva.
(4.11)
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
46
4.11 Comentarios
Los métodos utilizados en la detección, seguimiento y caracterización fueron
analizados en base al estudio del arte realizado con anterioridad y seleccionados de
acuerdo a sus características específicas para dar solución a cada uno de los objetivos
propuestos.
Figura 4.10. Imagen binaria en diferentes condiciones. a) Imagen original. b) Imagen escalada. c) Imagen rotada (45°). e) Imagen con perspectiva.
47
Capítulo V Análisis, Diseño e Implementación del Sistema
Este capítulo trata del análisis, diseño e implementación del sistema. Se hace una
descripción concreta y esquematizada de cada una de las etapas que componen al
sistema desarrollado; además, de la implementación y desarrollo del sistema, haciendo
mención de las herramientas utilizadas tales como el lenguaje de programación y el
entorno de desarrollo. También contiene la describen las bases de videos utilizadas.
5.1 Base de videos
Se trabajó con 5 bancos de videos de personas, 4 de estas fueron descargadas de
internet, la quinta fue resultado de una adquisición propia en el estacionamiento de
CENIDET. A continuación se describen de manera general cada una de ellas:
5.1.1 Conjunto de videos KTH
La base de videos de reconocimientos de acciones humanas KTH [3] del Instituto de
Tecnología Royal (KTH Royal institute of technology), contiene seis tipos diferentes de
acciones humanas: Caminar, Trotar, Correr, Boxeo, Levantar manos y Palmas realizadas
por 25 sujetos en cuatro diferentes escenarios: Aire libre, Aire libre con variaciones de
escala, Aire libre con diferentes tipos de ropa y escenario de Interiores (véase figura 5.1)
Dicha base de videos tiene 2391 secuencias con una resolución de 160x120
píxeles, con velocidad de frecuencia a 25 cuadros por segundo. Fue utilizada en [Fathi,
2008] y [Toscano, 2011].
Fuente: http://www.nada.kth.se/cvap/actions/
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
48
5.1.2 Conjunto de videos Weizmann
La base de videos de Weizmann [4] contiene 93 secuencias de vídeo en baja resolución,
corresponden a 10 acciones naturales: Agacharse, saltar hacia adelante en dos piernas,
saltar hacia adelante en una sola pierna, saltar en un mismo lugar en dos piernas, correr,
saltar, caminar, galopando hacia los lados, ondear una mano y ondear ambas manos
(véase figura 5.2). Todos los videos fueron capturados desde un punto de vista fijo, esta
base de videos fue utilizada en [Rani, 2010] y [Niebles, 2007] [Gorelick, 2007]. La
resolución es de 180x144 píxeles, con velocidad de frecuencia a 25 cuadros por
segundo.
Fuente:
http://www.wisdom.weizmann.ac.il/~vision/VideoAnalysis/Demos/SpaceTimeActions/DB
Figura 5.1. Escenario de la base de videos KTH.
Figura 5.2. Escenario de la base de videos Weizmann.
Capitulo V. Análisis, diseño e implementación del sistema
49
5.1.3 Conjunto de videos CAVIAR
La base de videos CAVIAR [5], está dividida en dos conjuntos diferentes de videos. El
primer conjunto de videos fue filmado en un espacio de los laboratorios INRIA en
Grenoble, Francia, y el segundo conjunto de videos fue filmado en un pasillo de un centro
comercial en Lisboa, mismo que se muestra en la figura 5.3. La resolución de los videos
es de 384x288 pixeles a 25 cuadros por segundo en formato comprimido MPEG2. El
tamaño de los archivos es en su mayoría de 6 y 12 MB. Esta base fue utilizada en
[Toscano, 2011].
Fuente: http://homepages.inf.ed.ac.uk/rbf/CAVIARDATA1/
5.1.4 Conjunto de videos ViSOR
ViSOR (Video Surveillance Online Repository) [6], es repositorio en línea de
videovigilancia diseñado con el objetivo de establecer una plataforma abierta para
recoger, anotar, recuperar y compartir videos de vigilancia, así como la evaluación del
desempeño de los sistemas de vigilancia automática. Contiene una gran cantidad de
videos provenientes de diferentes autores, la resolución de videos es variada así como la
velocidad de frecuencia. Esta base fue utilizada en [Vezzani, 2010].
Fuente: http://www.openvisor.org
Figura 5.3. Escenario de la base de videos Caviar.
Figura 5.4. Escenario de la base de videos Visor.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
50
5.1.5 Base de videos CENIDET
Éste es un conjunto de videos grabados en el estacionamiento de CENIDET (véase figura
5.5). Corresponde a 2 días de grabación en el que incluyen personas y coches en
diferentes horarios, no se controló ningún factor, es un ambiente real. La resolución es de
320 x 240 con velocidad de 15 fotogramas por segundo. Los movimientos que se
presentan son: correr, levantar manos, merodear, agacharse y acostarse.
5.2 Análisis del sistema
El análisis del sistema parte de la descripción de la propuesta de solución contenida en el
capítulo 3. Por lo tanto, el diseño se divide en tres módulos, los cuales están divididos en
13 sub-etapas (véase la figura 5.6). El primer módulo se divide en 10 fases, que van
desde el modelado de fondo hasta la localización de extremidades y seguimiento de
personas; el módulo 2 se compone por la fase de cálculo de propiedades geométricas y
de forma. Por último, el módulo 3 está compuesto por dos fases, las cuales son:
Obtención de la base de reglas geométricas y de forma y, la caracterización de
movimientos de personas.
5.3 Diseño del sistema
En el diseño del sistema se define el flujo e interacción entre las fases del desarrollo del
sistema, este se compone de 13 etapas necesarias para la caracterización visual de
movimientos sospechosos de personas.
Figura 5.5. Escenario de la base de videos CENIDET.
Capitulo V. Análisis, diseño e implementación del sistema
51
2
5.4 Descripción de las fases del diseño
Entrada de video
Esta fase corresponde a la entrada de video para su posterior procesamiento. Durante la
tarea de pruebas se utilizaron 5 diferentes bancos de videos de personas en formato avi3.
3 AVI por sus siglas en inglés de Audio Video Interleave, es un formato contenedor de audio y
video.
Módulo 1
Módulo 3
Módulo 2
2
Figura 5.6 Arquitectura del diseño del sistema.
Base de reglas geométricas y de forma
12
10 9 8
7
6 5
3 4 1
Video Eliminación de
sombras Modelo de
fondo
Actualización de fondo
Detección de objetos de primer
plano
Operaciones morfológicas
Etiquetado de componentes
Extracción del borde
Localización de Extremidades
Seguimiento
13
Caracterización de movimientos
Cálculo de propiedades geométricas y de forma
11
Filtro de tamaño
Mensaje de alerta
,
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
52
1.- Modelado de fondo
El modelo de fondo como ya se ha mencionado, se realiza con la moda de píxeles,
procesando los primeros 50 cuadros de videos (aproximadamente 2.5 segundos en
videos con velocidad de 15 fotogramas por segundo). Este procedimiento se realiza con el
modelo de color RGB, esto como requisito para la etapa de supresión de sombras. Los
pasos son los siguientes:
1. Para cada píxel de las imágenes del modelado de fondo se extrae el valor de cada
uno de sus 3 canales (RGB).
2. Se crean tres listas (una para cada plano) en donde se almacenan y contabilizan
los valores de cada plano de color.
3. Por último, por cada píxel se toman los 3 valores de RGB con mayor frecuencia de
ocurrencia, mismos valores que tomará el píxel en la imagen de fondo.
4. El resultado es una sola imagen en modelo de color RGB.
2.- Actualización de fondo
Esta fase tiene como objetivo actualizar constantemente el modelo inicial, por lo que entra
en ejecución después de los primeros 50 cuadros. El procedimiento es el mismo de la
etapa anterior, después de cada 50 cuadros se calcula la distribución de los valores RGB
por cada píxel en la imagen de fondo. En la figura 5.7 se presenta el esquema para el
modelado y actualización de fondo.
Figura 5.7. Esquema del modelado y actualización de fondo.
Cuadro n
Moda
Incremento de ocurrencia RGB
Modelo de Fondo
Cuadro%50=0
A
Si No
Capitulo V. Análisis, diseño e implementación del sistema
53
3.- Detección de objetos de primer plano
Para la detección de movimiento se usa la técnica de diferencias de imágenes, es por ello
que esta etapa depende del modelado de fondo para realizar la comparación con las
imágenes de entrada del video. El procedimiento es el siguiente:
1. Primero se establece un umbral con el cual se determina si un píxel corresponde a
movimiento o por el contrario pertenezca a fondo. Este umbral se debe ajustar
para cada escenario (el sistema permite realizar dicho ajuste), ya que este método
es muy sensible a cambios de iluminación.
2. Posteriormente se realiza la conversión del espacio de color RGB a escala de
grises, esto para las imágenes de entrada (imagen de frente) y la imagen de
fondo.
3. Una vez hecha la conversión se tendrá un sólo valor que representa a cada píxel
de ambas imágenes.
4. Se calcula la diferencia punto a punto entre los píxeles de las imágenes de fondo y
las imágenes de frente. Si el resultado de la operación está por arriba del umbral
establecido se dice que ese píxel corresponde a movimiento.
5. El resultado es una imagen binaria, donde la región en movimiento se representa
generalmente con el color blanco.
En la figura 5.8 se muestra el esquema utilizado para la detección de movimiento.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
54
4.- Eliminación de sombras
Hasta este punto se tiene la detección de movimiento; sin embargo, en la mayoría de los
casos también son segmentadas las sombras como movimiento debido a su diferencia
con la imagen de fondo. Este factor puede introducir ruido en la etapa posterior, de
clasificación de objetos como personas y no personas, por lo que se implementó el
algoritmo DNM para identificar los píxeles pertenecen a sombra e ignorarlos en la post-
segmentación. Los pasos para realizar esta tarea son los siguientes:
Figura 5.8. Esquema de diseño para la detección de objetos de primer plano.
RGB RGB
A
Cuadro>50
Imagen actual Imagen de fondo
Escala de grises Escala de grises
Diferencia
< Umbral
Fondo
Detección de
movimiento
Si
Si No B
Diferencia de imágenes
Capitulo V. Análisis, diseño e implementación del sistema
55
1. Se realiza la conversión de RGB a HSV sólo de los píxeles de la imagen de fondo
y las imágenes de frente que correspondan con los píxeles (punto a punto)
segmentados en la etapa anterior.
2. Realizada dicha conversión, se emplea el método el DNM (descrito en la sección
4.3) para identificar los píxeles que pertenecen a sombra.
3. Dicho método consta de la evaluación de los tres canales del espacio HSV, para
ambas imágenes (fondo y frente), para esto se emplean diferentes umbrales. Los
umbrales aquí utilizados dependen de la iluminación de cada escenario, por lo que
es necesario ajustarlos (el sistema permite realizar modificaciones en estos
valores).
El desarrollo de las etapas de modelado y actualización de fondo, detección de
objetos de primer plano y la supresión de sombras se representan en la figura 5.9.
Figura 5.9. Flujo desde la entrada de video hasta la post-segmentación.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
56
5.- Operaciones morfológicas
Al resultado de la post-segmentación realizada se le aplica la operación morfológica de la
apertura, la cual se componen de la erosión y la dilatación. Esto con el objetivo de reducir
ruido y expandir la forma de los objetos detectados respectivamente. Las máscaras
utilizadas como operadores morfológicos para la erosión y dilatación son las siguientes:
Erosión. La máscara utilizada como operador morfológica de erosión se muestra en la Ecuación 9.
[ ]
[
]
[ ]
Dilatación. La máscara que fue empleada como transformador morfológico de la dilatación se muestra en la ecuación 10.
[ ]
[
]
[ ]
6. Etiquetado de componentes A las regiones en movimiento finales, resultado de la post-segmentación se aplica el
algoritmo iterativo para el etiquetado de componentes conexas, para asignar un
identificador a cada región, además se obtienen sus datos geométricos (ubicación, área,
alto y ancho), útiles para un posterior análisis. En la figura 5.10 se puede observar el
resultado de esta tarea.
Figura 5.10. Etiquetado de componentes con datos geométricos.
(5.1)
(5.2)
Capitulo V. Análisis, diseño e implementación del sistema
57
Las fases de supresión de sombras y las operaciones morfológicas tienen el
objetivo de eliminar el ruido existente en la detección de movimiento, posteriormente con
el etiquetado de componentes se localizan las regiones en movimiento finales. En la figura
5.11 se presenta el esquema de dichas fases.
7.- Filtro de personas
La etapa de filtro de personas tiene como objetivo principal determinar cuáles de las
regiones en movimiento detectadas corresponden a una persona. Para realizar esta tarea
se utiliza una función discreta que considera 2 propiedades importantes, el área de la
región y el factor de perspectiva de la cámara. Con esto se obtienen reglas de tamaño
que describen de mejor manera a una persona, excluyendo a las regiones en movimiento
que sean demasiado grandes o demasiado pequeñas.
Es importante destacar que la función para determinar si el tamaño de una región
corresponde o no a una persona, depende del análisis de cada escenario, ya que las
Figura 5.11. Esquema de la detección y localización de objetos en movimiento.
Imagen Actual Imagen de fondo
Modelo HSV Modelo HSV
Eiminación de sombras
Apertura
Etiquetado de componentes
RGB RGB
Detección de
movimiento
B
C
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
58
características de perspectiva de la cámara son diferentes. Por lo tanto, previo a la
validación de personas se obtienen dos funciones que describen con mayor precisión si
una región en movimiento es una persona en base a su tamaño. El procedimiento para
obtener dichas funciones se realiza manualmente una sola vez por cada escenario
considerando los puntos siguientes:
1. Se localizan las personas en movimiento (véase figura 5.10) en la secuencia de
video.
2. Se realiza un análisis del escenario, para detectar las zonas en que una persona
puede desplazarse.
3. Se localiza la coordenada Y más lejana (considerada Y inicial) a la cámara en que
una persona puede estar posicionada.
4. Se obtiene una aproximación de un mínimo y un máximo del área, cuando una
persona se encuentre en la coordenada Y más lejana.
5. Se genera un registro de las personas localizadas a lo largo del escenario,
obteniendo sus datos particulares, el área y la coordenada Y del píxel más abajo.
6. Se analiza la variación (incremento) del área de la persona de acuerdo a su
acercamiento a la cámara.
7. Se obtiene una estimación de la cantidad de píxeles en que se incrementa el área
de la persona por cada punto en la coordenada Y que se desplace (acercamiento
a la cámara).
8. Con el registro de las personas y sus datos se generan dos reglas que mejor se
ajusten en base al análisis y registro llevado a cabo de manera manual.
Una vez que se tienen las reglas de tamaño denominadas filtro de personas, durante
la etapa de validación de personas, se realiza lo siguiente:
1. Posterior al etiquetado de componentes se localizan todas las regiones en
movimiento, se extrae su coordenada Y del píxel más abajo de cada región
2. Dicha coordenada se utiliza como información dentro de las reglas de tamaño para
obtener dos umbrales que determinan un área mínima y un área máxima que debe
tener una región para ser clasificada como persona.
3. Posteriormente se extrae el área de todas las regiones en movimiento, y se hace
una comparación, con las reglas de tamaño. Es decir se determina si el área es
mayor o igual al primer umbral, también si el área es menor o igual al segundo
umbral.
4. Si el área de una determinada región en movimiento cumple con los dos umbrales,
dicha región se clasifica como persona. En caso contrario la clasificación es como
no persona.
Capitulo V. Análisis, diseño e implementación del sistema
59
En la figura 5.12 se presenta el esquema para la validación de personas.
8.- Extracción de borde
El siguiente paso es obtener el borde de todas las regiones que superaron la validación
de tamaño, es decir en esta etapa se obtiene la silueta de las personas detectadas.
Durante este procedimiento se contabilizan los píxeles que conforman el borde, además
de realizar las sumatorias de sus coordenadas XY, con el objetivo de utilizar estos datos
para calcular el centroide o también conocido como centro de masas de la región (véase
la figura 5.13). Los pasos que se siguen son los siguientes:
1. Se realiza un barrido a la imagen binaria resultado de la etapa anterior, durante
este proceso se localiza el primer píxel de cada una de las personas.
2. El primer píxel se toma como punto inicial para realizar la búsqueda del resto de
los píxeles que son parte del borde.
3. La búsqueda se realiza en sentido de las manecillas del reloj, evaluando que cada
píxel en efecto corresponda al borde.
4. La búsqueda termina cuando se llega al píxel de inicio.
Figura 5.12. Esquema de la validación de personas
Etiquetado de componentes
C
Y del píxel más abajo
Área
Reglas de
tamaño
Umbrales de tamaño
Área>=Umbral 1
y Área<=Umbral 2
Objeto persona
Si D
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
60
5. Para localizar el primer punto de interés (centroide) se calcula el promedio para
cada una de las coordenadas utilizando la ecuación 3.1.
9.- Localización de extremidades
Después de la localización del centroide y el borde de las personas detectadas, esta
información es tomada como referencia para la búsqueda de las extremidades del cuerpo
(cabeza, pies y manos). Este proceso utiliza en una serie de reglas geométricas propias
para cada una de las extremidades.
a) Localización de la cabeza
Para localizar el punto correspondiente de la cabeza, se toma como criterio
que sea uno de los píxeles más alto del borde de la persona, que no esté más allá de
1/10 (horizontalmente) de la altura total de la personas en cada lado con respecto al
centroide. Este último criterio es considerado para los casos en que la persona
presente una inclinación y por lo tanto el punto más alto no estaría en dirección
(verticalmente) del centroide.
b) Localización de las manos
Para encontrar los puntos de las manos se considera lo siguiente; se toma
como punto de partida el punto de la cabeza, a partir de cual se realiza la búsqueda
de los píxeles más a la izquierda y más a la derecha, teniendo siempre en cuenta que
estos deben estar por arriba del centroide.
Figura 5.13. Ejemplos detección de borde y localización del centroide
Capitulo V. Análisis, diseño e implementación del sistema
61
c) Localización de los pies
Para el caso de los pies se consideran los casos en que una persona pueda
usar ropa larga que esté por debajo de la cadera, tal como un abrigo, también para los
casos en que un pie esté más arriba que el otro (comúnmente en la acción correr).
Entonces los criterios de búsqueda son los siguientes: Se localiza el píxel más abajo
del borde, y en base al punto del centroide se determina si este píxel está a la derecha
o izquierda. Por ejemplo si el píxel más abajo está del lado derecho del centroide, este
se ocupa como punto inicial para buscar el píe derecho, dicha búsqueda es de abajo
hacia arriba, de izquierda a derecha, la búsqueda se limita a una vigésima quinta
(1/25) parte de la altura total de la región, con la intensión de localizar el píxel más
alejado a la derecha. Siguiendo el mismo ejemplo, para localizar el punto del pie
izquierdo se toma como punto de partida el píxel más abajo con dirección
(verticalmente) al centroide, la búsqueda se realiza de abajo hacia arriba, de derecha
a izquierda limitándose a estar por debajo de un sexto (1/6) de la altura total,
buscando aquel el píxel más alejado a la izquierda (véase figura 5.14).
En la figura 5.15 se presenta el esquema para la extracción del borde y localización de partes del cuerpo.
Figura 5.14. Parámetros de búsqueda de extremidades.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
62
10.- Seguimiento
La siguiente tarea es el seguimiento de las personas, para esto se utiliza la técnica de
relocalización de regiones en movimiento, se considera una tolerancia mínima en la que
una persona puede no ser detectada, sin perder su registro de seguimiento para una
posible relocalización. Este proceso de seguimiento se describe en los siguientes pasos:
1. Como primer paso se genera una lista de las personas que aparecen en escena
en el cuadro n, junto con las coordenadas de sus respectivos centroides.
2. Posteriormente en el cuadro n+1 se genera una nueva lista de las personas que
aparecen en escena junto con sus respectivos centroides.
3. Una vez que se tienen ambas listas de personas del cuadro n y cuadro n+1 se
calcula la distancia D que hay entre los centroides (distancia entre 2 puntos), con
esto se conoce el desplazamiento que hubo de un cuadro a otro.
4. Si la distancia entre dos centroides es menor a la altura total de la persona (en el
cuadro n) se dice que se ha relocalizado la misma persona del cuadro n, ahora en
el cuadro n+1, con una distancia desplazamiento D.
Figura 5.15. Esquema de la extracción del borde y localización de partes del cuerpo
Localización de las manos
Localización de los pies
Extracción del borde
Objeto persona
Cálculo del centroide
Localización de la cabeza
E
D
F
Capitulo V. Análisis, diseño e implementación del sistema
63
5. Durante el seguimiento de una persona se genera un registro que contiene la
contabilización de los cuadros en que ha sido relocalizada, y su distancia D de
desplazamiento.
6. Si durante el seguimiento de una persona esta deja de ser detectada se
contabilizan los cuadros en que desaparece.
7. Si la cantidad de cuadros de ausencia es menor a 10 y además la distancia entre
los centroides es inferior a la altura total, el seguimiento prosigue.
8. Si la cantidad de cuadros de ausencia de una persona es mayor a 10, su registro
inicial de seguimiento se elimina. Si esta vuelve a ser detectada se considera que
entró en escena una nueva persona.
En la figura 5.16 se presenta el esquema para la fase de seguimiento de personas.
Figura 5.16. Esquema del seguimiento de personas.
E
Seguimiento=0
Si No
Centroide n+1 (X’, Y’)
Distancia entre
(X’, Y’) y (X, Y)
Distancia
<=
Altura_Ini
Si No
Cen n = Cen n+1
Incremento de Seguimiento
Incremento Ausencia
Ausencia>10
Centroide n
(X, Y)
Altura_Ini
Seguimiento =0
Altura_Ini = 0 Si
G
I
J K
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
64
11.- Cálculo de propiedades geométricas y de forma
El objetivo de esta etapa es calcular las propiedades geométricas y de forma de las
personas detectadas, para su posterior análisis en la etapa de caracterización. Debido a
la diferencia entre los cinco movimientos propuestos, el procedimiento para su
caracterización es distinto para cada uno de ellos, y por consecuencia también la
información para la caracterización es diferente.
En la tabla 5.1 se enlistan las propiedades que se calculan de acuerdo al
movimiento a caracterizar, por lo que cabe señalar lo siguiente:
Mano 1: Extremidad superior derecha de la región en movimiento.
Mano 2: Extremidad superior izquierda de la región en movimiento.
Tabla 5.1. Propiedades geométricas y de forma necesarias para la caracterización.
Movimiento Propiedades necesarias
Correr 1) Distancia entre centroides en cuadros consecutivos.
Levantar una o
ambas manos
2) Ubicación de las manos, para determinar si están por abajo o arriba de
la cabeza.
3) Distancias entre Cabeza-Mano 1, y Cabeza-Mano 2.
4) Ángulo con respecto a la horizontal formado entre Cabeza-Mano 1, y
Cabeza-Mano 2.
Merodear 5) Contabilización de los cuadros consecutivos en el seguimiento de una
persona.
Agacharse,
acostarse
6) Análisis la evolución de la altura de la persona durante el seguimiento.
7) Primer momento invariante de Hu [Hu, 1962].
En la figura 5.17 se esquematiza la fase de cálculo de propiedades geométricas y de forma para las personas detectadas en escena.
Figura 5.17. Esquema del cálculo de propiedades geométricas y de forma
H
Localización de extremidades
F
Cálculo de propiedades geométricas y de forma
Capitulo V. Análisis, diseño e implementación del sistema
65
12.- Base de reglas geométricas y de forma Esta etapa tiene como objetivo la especificación de reglas para la caracterización de
movimientos. Esta base de reglas consta de valores y condiciones preestablecidas que
deben cumplir las propiedades geométricas y de forma de una persona para poder decir
que se está realizando un movimiento en particular. Por lo tanto, la última fase de
reconocimiento de movimientos está constantemente en comunicación con la presente
fase para llevar a cabo la validación de los datos de entrada.
A continuación se describen las reglas y valores preestablecidos con relación al
movimiento a caracterizar.
a) Correr Para la caracterización de este movimiento se debe analizar la distancia de los centroides
de una persona en cuadros consecutivos, para obtener un distancia promedio que
represente la acción caminar, por lo tanto, si durante el seguimiento de una persona la
distancia de su desplazamiento es mayor a la distancia promedio, se dice que la persona
está corriendo. Sin embargo, debido al método empleado, este resulta ineficaz en videos
en que presenten el factor de perspectiva ya que la distancia entre los centroides de una
misma persona en cuadros consecutivos es muy variable y poco precisa para dicha
caracterización.
En la tabla 5.2 se presenta la distancia entre centroides que describen las
acciones caminar y correr para algunas bases de videos.
Tabla 5.2. Distancias para la acción caminar y correr para las BDs KTH y Weizmann
Base de videos Distancia entre centroides
para caminar
Distancia entre centroide para
correr
KTH Distancia <= 9 píxeles Distancia >= 10 píxeles
Weizmann Distancia <= 2 píxeles Distancia >= 3 píxeles
b) Levantar una o ambas manos Para la caracterización del movimiento levantar manos se tiene lo siguiente:
i. Si una mano está por debajo de la cabeza entonces la distancia entre la cabeza y
mano debe ser mayor o igual un tercio (1/3) de la altura total de la persona y el
ángulo formado entre estos dos puntos debe ser menor o igual a 20°.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
66
ii. Si una mano está por arriba de la cabeza, sólo se analiza la distancia entre la
cabeza y mano misma, que debe ser mayor o igual un tercio (1/3) de la altura total
de la persona.
c) Merodear Es conveniente mencionar que el movimiento de merodeo para este trabajo de tesis se
define como la presencia de una persona en la escena por más de n segundos (este valor
es diferentes para cada escenario). Por lo tanto, la caracterización del merodeo depende
totalmente de la etapa de seguimiento y del análisis del escenario.
Durante el seguimiento de una persona se lleva el registro de la cantidad de
cuadros consecutivos en que dicha persona ha sido detectada, si esta cantidad supera el
equivalente a n segundos (previamente establecidos) se dice que la persona está
merodeando.
d) Agacharse Para la caracterización de los movimientos agacharse y acostarse, se calculó el primer
momento invariante de Hu [Hu, 62] a un conjunto de imágenes binarias, que representan
dichos movimiento. Por lo tanto las reglas para determinar si una persona está agachada
son las siguientes:
i. Durante el seguimiento de una persona se analiza la variación de su altura
inicial.
ii. Si la distancia es menor o igual a dos tercios de la altura inicial entonces se
calcula el primer momento invariante Hu.
iii. Si el primer momento invariante de Hu es mayor a 0.180 y menor a 0.230 se
dice que la persona está agachada.
Acostarse
i. Durante el seguimiento de una persona se analiza la variación de su altura inicial.
ii. Si la distancia es menor o igual a un medio de la altura inicial entonces se calcula
el primer momento invariante Hu.
iii. Si el primer momento invariante de Hu es mayor a 0.500 y menor a 0.800 se dice que la persona está agachada.
Capitulo V. Análisis, diseño e implementación del sistema
67
13.- Caracterización de movimientos
Esta fase es la encargada de realizar la validación y comprobación de las propiedades
geométricas y de forma calculada en una persona con aquellas reglas y umbrales
preestablecidos en la fase anterior. Si, durante el seguimiento de una persona sus
propiedades cumplen con las reglas de alguno de los cinco movimientos, el sistema lanza
un mensaje en el que dice que movimiento se ha detectado.
A continuación se muestran los esquemas propuestos para realizar la
caracterización de cada uno de los movimientos propuestos (véase las figuras de 5.18 a
5.22).
1.- Caracterización del movimiento correr
2.- Caracterización del movimiento levantar una o ambas manos
Si
H
Distancia (Mano, Cabeza) >=
Altura /3
Mensaje Mano (s) levantada
Mano Y
<= Cabeza Y
Si
Ángulo (Cabeza, Mano) <= 20°
Si
No
Si
G
Distancia (Cen_n , Cen n+1) >
Distancia Caminar
Mensaje correr
Figura 5.18. Esquema de la caracterización del movimiento correr.
Figura 5.19. Esquema de la caracterización del movimiento levantar manos.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
68
3.- Caracterización del movimiento merodear
4.- Caracterización del movimiento agacharse
Mensaje Merodeo
Si Seguimiento
>=
Umbral_Tiempo
I
Si
Altura <=
2/3 (Altura_Ini)
J
Cálculo de Primer momento de Hu
Si Momento>=0.18
y Momento<=0.23
Mensaje Agachado
Figura 5.20. Esquema de la caracterización del movimiento merodear.
Figura 5.21. Esquema de la caracterización del movimiento agacharse.
Capitulo V. Análisis, diseño e implementación del sistema
69
5.- Caracterización del movimiento acostarse
Acoplando los esquemas de todas las fases del diseño del sistema se puede
visualizar el flujo e interacción de los subprocesos del sistema. En la figura 5.23 se
presenta el esquema general del diseño.
Si
Altura <=
1/2 (Altura_Ini)
K
Cálculo de Primer momento de Hu
Si Momento>=0.5
y Momento<=0.8
Mensaje Acostado
Figura 5.22. Esquema de la caracterización del movimiento acostarse.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
70
Figura 5.23. Esquema general del diseño del sistema.
Mensaje Mano (s) levantada
Si
Cuadro n
Moda de píxeles
Incremento de
ocurrencia RGB
Si Cuadro%50=0
Imagen de fondo
Escala de grises Escala de grises
Diferencia <
Umbral
Fondo
Si
Si No
Cuadro>50
Modelo HSV Supresión de sombras
Apertura
Etiquetado de componentes
RGB
RGB
Detección de
movimiento
Y del píxel más abajo Área
Reglas de
tamaño
Si
Modelo HSV
Área>=Umbral 1 y
Área<=Umbral 2
Diferencia de imágenes
Extracción
del borde Objeto
persona
Localización de las manos
Localización de los pies
Localización de la cabeza
Seguimiento=0 Si No
Centroide n
(X, Y)
Altura_Ini
Centroide n+1
(X’, Y’)
Distancia entre
(X’, Y’) y (X, Y)
Cen n = Cen n+1
Ausencia ++
Ausencia>10 Seguimiento =0 Altura_Ini = 0
Distancia <=
Altura_Ini
Si No
Si
Si Distancia (Cen_n , Cen n+1)
> Distancia Caminar
Mensaje correr
Mensaje Merode
o
Si Seguimiento
>=
Umbral_Tiempo
Altura <= 2/3
(Altura_Ini)
Cálculo de Primer momento de Hu
Mensaje Agachado
Momento>=0.18 y
Momento<=0.23
Altura <= 1/2
(Altura_Ini)
Cálculo de Primer momento de Hu
Momento>=0.5 y
Momento<=0.8
Si
Si
Si
Mensaje Acostado
Si
Cálculo del centroide
Si Dist (Mano, Cabeza)
>= Altura /3
No Mano Y <=
Cabeza Y
Ángulo
(Cabeza, Mano)
<=
20°
Si
No
Incremento Seguimiento
Umbrales de
tamaño
Inicio
Capitulo V. Análisis, diseño e implementación del sistema
71
5.5 Cálculo de reglas de tamaño
El procedimiento descrito en la fase de filtro de personas para la generación de reglas
de tamaño se ejemplifica en este apartado.
Tomando en cuenta la descripción de la función de tamaño en la sección 4.6.1, se
obtienen las reglas de tamaño en un ejemplo real. Para esto se realiza un análisis en el
conjunto de videos Caviar, en el escenario que corresponde a un pasillo de un centro
comercial.
Primero se realiza un análisis manual en el que se detectan las personas dentro
del escenario, se observan las diferentes zonas donde pueden ubicarse. De este análisis,
se obtiene un registro de las personas en movimiento junto con su coordenada Y del píxel
más abajo y su área en el mismo instante de tiempo, este registro se puede observar en
la tabla 5.3; además, en la gráfica de la figura 5.25 se observa la distribución y relación
entre la coordenada Y del píxel más abajo y el área de las personas detectadas.
Tabla 5.3. Registro de personas con su respectivos datos; coordenada Y del píxel más abajo y área
Coord. Y Área Coord. Y Área Coord. Y Área Coord. Y Área
46 483 91 1192 125 1685 209 2949
48 548 92 1127 135 1874 220 3680
49 551 93 1118 139 1650 228 3344
51 563 109 1200 162 2396 235 3550
52 598 110 1447 175 2069 263 4391
55 594 113 1282 179 2635 270 4709
58 612 117 1468 194 2600 281 4635
79 802 122 1624 205 3225 282 4985
Figura 5.24. Análisis manual del tamaño de personas en la BD de videos Caviar.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
72
En la figura 5.25 se puede observar el crecimiento del área de una persona en
movimiento de acuerdo a la variabilidad de su ubicación. Es evidente que entre más cerca
esté de la cámara el área tiende a crecer, por lo tanto, de este análisis es posible generar
una ecuación que represente esta relación.
Es importante mencionar que, para realizar esta tarea no es necesario conocer el
tiempo ni el número de cuadro en que son detectadas las personas, puesto que la
relación de interés es entre la ubicación dentro del escenario y el área que tiene la
persona en esa misma coordenada.
Figura 5.25. Comportamiento del área con respecto a su coordenada Y (BD Caviar).
A partir del análisis del registro y observación del comportamiento de los datos en
la gráfica de la figura 5.25 se proponen dos reglas de tamaño. Con estas reglas se
obtiene una estimación del tamaño que debe tener una persona tomando en cuenta su
ubicación. La primera regla permite discriminar aquellos objetos que sean demasiado
pequeños, tales como pequeños cambios de iluminación o pequeñas zonas de sombra;
mientras que la segunda regla discrimina los objetos en movimiento que sean demasiado
grandes.
En las tablas 5.4 y 5.5 se describen los valores utilizados para generación de las
reglas de tamaño para la base de videos Caviar en el escenario de un pasillo.
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
5500
0 30 60 90 120 150 180 210 240 270 300
Áre
a
Coordenada Y
Capitulo V. Análisis, diseño e implementación del sistema
73
Tabla 5.4. Primera regla de tamaño para la BD Caviar
Primera regla de tamaño
Constantes Valor (estimado)
Y inicial (Y_ini) 48
Área en Y inicial (Cant_Pixs) 250
Incremento de píxeles por cada punto en Y (Incre_Pixs) 15
Variables Valor (real)
Y actual (Y_Act) ___
Área en Y actual (F_Tam) ___
Primer regla de tamaño
Área >= ( (Y Act - 48) *15) + 250
Tabla 5.5. Segunda regla de tamaño para la BD Caviar
Segunda regla de tamaño
Constantes Valor (estimado)
Y inicial (Y_ini) 48
Área en Y inicial (Cant_Pixs) 900
Incremento de píxeles por cada punto en Y (Incre_Pixs) 17
Variables Valor (real)
Y actual (Y_Act) ___
Área en Y actual (F_Tam) ___
Segunda regla de tamaño
Área <= ( (Y Act - 48) *17) + 900
En conclusión las funciones generadas quedan como sigue;
Regla 1: Área >= ( (Y Act - 48) *15) + 250
Regla 2: Área <= ( (Y Act - 48) *17) + 900
Empleando estas dos reglas de tamaño en el mismo escenario, se puede observar
que el registro manual queda de manera inmersa en ambas reglas, por lo tanto estas
reglas quedan ya establecidas para todos los videos con las mismas características.
En la figura 5.26, la línea negra representa la relación de datos de la tabla 5.3,
resultado del análisis manual del área y posición de las personas. El área mínima está
representada con la línea roja y la línea azul representa el área máxima que debe tener
una región en movimiento, considerando su coordenada Y del píxel más abajo para ser
considerado como persona.
(5.3)
(5.4)
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
74
Figura 5.26. Representación de las reglas de tamaño para la BD Caviar
De este modo se dice que el filtro de personas corresponde a las 2 reglas de
tamaño antes descritas. Durante esta etapa se analizan las regiones en movimiento en
base a su tamaño, considerando ya los umbrales resultantes de ambas reglas de tamaño.
5.6 Implementación del sistema
Para la implementación del sistema se utilizó el lenguaje de programación C++, en el
entorno de C++ Builder 6.0. En este apartado se presenta la interfaz gráfica del sistema,
ventanas y componentes.
5.6.1 interfaz gráfica
La interfaz gráfica del sistema está dividida en 6 secciones los cuales se describen a
continuación (véase figura 5.27).
Seccion1: Barra de menús
Seccion2: Barra de botones
Seccion3: Información del video
Seccion4: Controles de umbrales
Seccion5: Barras de activadores
Seccion6: Visualización de procesos
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
5500
0 30 60 90 120 150 180 210 240 270 300
Áre
a (F
_ Ta
m)
Coordenada Y (Y_Act)
Representación de las reglas de tamaño para la BD Caviar
Regla 1
Regla 2
Dispersión originalBD Caviar
Capitulo V. Análisis, diseño e implementación del sistema
75
1.- Barra de menús
Esta barra se compone de tres menús: Principal, Video y Ver. En el menú Principal se
encuentras las opciones para abrir video, abrir imagen de fondo, opción reproducir video,
detener video, y cerrar la aplicación. En el menú Video, están contenidas las opciones
para determinar si el video tendrá un modelado de fondo o se abrirá una imagen que se
ocupe de ello, esto para los casos en que los videos son muy cortos y no hay espacio
para realizar el modelado inicial. El menú ver, tiene todas las opciones para activar la
visualización de los procesos de modelado de fondo, resta de imágenes, supresión de
sombra, erosión y dilatación, filtro de tamaño y seguimiento. Además las opciones para
visualizar el borde de la persona, sus extremidades, el esqueleto y/o el recuadro (blob).
2.- Barra de botones
En la barra de botones, se encuentras las mismas opciones que en el menú Principal,
esto como un acceso rápido a dichas submenús.
3.- Información del video
Esta sección tiene los datos del video, tales como las dimensiones (alto y ancho) y el
nombre. Además se presenta el número del cuadro que está siendo procesado.
4.- Controles de umbrales
En esta parte están los controles para ajustar los valores requeridos en algunos procesos:
el umbral de la resta de imágenes, umbral de supresión de sombra y un control para el
tiempo de procesamiento.
Figura 5.27. Ventana principal del sistema
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
76
5.- Barras de activadores
Estas barras están compuestas por las mismas opciones contenidas en el menú ver.
6.- Visualización de procesos
Esta es la sección principal, aquí están contenidas las ventanas donde se muestran los
resultados en general, está compuesta por dos pestañas, en la primera se muestran los
resultados de procesamiento digital de imágenes y en la segunda la ventana de la
caracterización de movimientos.
5.7 Comentarios
En este capítulo se describió a detalle el diseño del sistema, se esquematizó el flujo de
cada fase del diseño, obteniendo así un esquema general mismo que muestra el flujo e
interacción de todas y cada una de las fases.
En lo que respecta a la detección y seguimiento se consiguió un sistema robusto,
ya que se consideran diferentes factores mismos a los que se les da solución. Por
ejemplo, el módulo de supresión de sombras, el método para la validación de personas
invariante a perspectiva, en cuanto al seguimiento se maneja una tolerancia mínima en
que una persona puede no ser detectada ya sea por una mala segmentación o traslape,
en lo respectivo a la detección de partes del cuerpo se consideran factores tales como
ropa holgada, inclinación de la espalda, etc.
En la parte de la validación de personas se utiliza un “filtro de tamaño” resultado
de la aplicación de una función discreta, con la que se obtienen dos reglas para describir
cuando una región en movimiento es una persona considerando su área y ubicación. Este
método no fue detectado en el estudio del estado del arte, por lo que se considera una
aportación importante.
En cuanto a la caracterización de movimiento se resume lo siguiente: para
caracterizar el correr de una persona se analiza la distancia de desplazamiento de un
cuadro otro, si la distancia es mayor a la distancia que representa el movimiento caminar
se dice que está corriendo, para levantar manos primero se localizan si están por arriba o
debajo de la cabeza y en base a esto se calcula la distancia y/o ángulo entre cabeza y
manos; el merodeo se caracteriza por medio del seguimiento, para ello se mide el tiempo
en que una persona está presente en escena; para agacharse y acostarse se analiza la
variación de la altura de la persona, si existe un decremento considerable para cada
movimiento se confirma calculando el primer momento de Hu, comparando este valor con
los valores propios de cada uno de estos movimientos.
77
Capítulo VI Pruebas y resultados
En este capítulo se describen las pruebas que se realizaron con sus respectivos
resultados. Es importante mencionar que debido a que el objetivo principal es la
caracterización de 5 movimientos de personas se emplearon diferentes bancos de videos,
estas bases ya han sido descritas en el capítulo anterior, (KTH, Weizmann, Caviar,
ViSION y CENIDET). Por lo tanto, ya que son escenarios diferentes, se deben ajustar los
umbrales necesarios para llevar a cabo los procesos de resta de imágenes, supresión de
sombra y filtro de tamaño, además de los parámetros para la caracterización de los
movimiento correr y merodear.
6.1 Ambiente de pruebas
Las pruebas fueron realizadas con el hardware, software y bases de videos siguientes;
Hardware Laptop
Procesador Intel (R) Dual-Core CPU T4200 2.00 GHz 2.00 GHz
RAM 3.00 GB
Sistema operativo de 32 bits, Windows 7
Software Borland C++ Builder (TM) Versión 6.0 (Build 10.158)
Bases de videos: Son 5 las bases de videos utilizadas para el desarrollo de pruebas,
misma que ya se han descrito en el capítulo 5. En la tabla 6.1 se presenta la información
genérica de cada base de videos.
Tabla 6.1. Bases de videos usadas en la etapa de pruebas
Base de videos Movimientos Resolución y velocidad
KTH Caminar, trotar, correr, boxeo, levantar manos y palmas
160 x120 a 25 cuadros por segundo
Weizmann
Agacharse, saltar hacia adelante en una sola pierna, saltar hacia adelante en dos piernas, saltar en un mismo lugar en dos piernas, correr, saltar, caminar, galopando hacia los lados, ondear una mano y ondear ambas manos
180x144 a 25 cuadros por segundo
Caviar Caminar y correr 384x288 a 25 cuadros por segundo
ViSION Caminar y correr 384x288 a 10 cuadros por segundo
CENIDET Caminar, levantar manos, merodeo, agacharse y acostarse
320x240 a 15 cuadros por segundo
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
78
6.2 Plan de pruebas
Para la realización de las pruebas se consideraron los bancos de videos antes
mencionadas, utilizando únicamente aquellos videos que pertenecen a los movimientos
de interés de este trabajo de tesis.
Debido a que cada escenario presenta diferentes condiciones de iluminación. Se
ajustan los umbrales para los procesos de resta de imágenes, supresión de sombra
además de la especificación de las reglas o filtro de tamaño. De este modo en la tabla 6.2
se describen los umbrales para cada base de videos.
Tabla 6.2. Especificación de umbrales y reglas de tamaño.
Base de videos
Movimientos de interés
Umbral resta de
imágenes
Umbrales supresión de
sombras Reglas de tamaño
KTH a) Correr b) Levantar manos
40 0, 10, 0, 9 Área>=( (Y Act - 40) *13)+100 Área<=( (Y Act - 40) *28)+450
Weizmann
a) Levantar manos b) Correr c) Agacharse d) Brincar levantando manos
60 3, 10, 0, 9 Área>=900 Área<=1600
Caviar a) Merodear 40 3, 10, 0, 9
Área>=( (Y Act - 48) *15)+250
Área<=( (Y Act - 48) *18)+900
ViSION a) Merodear 40 2, 10, 0, 9
Área>=( (Y Ac -100) *5)+300
Área<=( (Y Act -100) *5)+900
CENIDET a) Levantar manos b) Merodear Acostarse
40 2, 10, 0, 9 Área>=( (Y Act - 50) *5)+50
Área<=( (Y Act - 50) *5)+300
Dentro de las consideraciones con respecto a las bases de videos utilizadas, es
necesario mencionar que para las bases de videos KTH y Weizmann, fue necesario crear
una imagen que represente el fondo debido a que en KTH las personas aparecen desde
el inicio provocando que durante la construcción del modelo inicial estas formen parte del
mismo. En cuando a la segunda base de videos Weizmann los videos son relativamente
cortos van desde 2 a 5 segundos tiempo insuficiente para crear el modelo de fondo. Por lo
tanto, para estas dos situaciones se construyó una imagen única que represente el
modelo de fondo (véase figura 6.1a y 6.1b), dentro del sistema es necesario cargar la
imagen correspondiente e indicar que se deben omitir los procesos de modelado y
actualización de fondo.
Capítulo VI. Pruebas y resultados
79
Otras especificaciones necesarias pertenecen a la caracterización de los
movimientos de correr y merodear se muestran en la tabla 6.3, esto como resultado de un
previo análisis.
Tabla 6.3. Especificaciones para los movimientos correr y merodear.
Especificaciones
Base de videos KTH Weizmann Caviar ViSION CENIDET
Distancia entre
centroides para
caminar
<=9 píxeles <= 2 píxeles ------ ------ ------
Distancia entre
centroide para
correr
>=10 píxeles >= 3 píxeles ------ ------ ------
Tiempo
considerado
merodeo
----- ----- 500 cuadros
(20 seg.)
250 cuadros
(25 seg.)
500
cuadros (33
seg.)
Para los movimientos de levantar una o ambas manos, agacharse y acostarse no
tienen ninguna otra especificación más que las mencionadas en el capítulo 5, ya que
estos movimientos dependen en su totalidad de las propiedades geométricas y de forma
del cuerpo de la persona en seguimiento.
Después de establecer umbrales y parámetros para cada una de las base de
videos empleadas, se presenta el programa de pruebas. Cabe señalar que dichas
pruebas corresponde a las fases del diseño propuesto, acoplándolas de acuerdo su
Figura 6.1. a) Imagen de fondo para KTH, b) Imagen de fondo para Weizmann.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
80
objetivo en común resultando 4 módulos de pruebas, las cuales se desglosan de la
siguiente manera.
Módulo de prueba 1 “Modelado y actualización de Fondo”
Fase 1. Creación del modelo de fondo
Fase 2. Actualización del modelo de fondo
Módulo de prueba 2 “Detección de objetos de primer plano y validación de objetos
como persona”
Fase 3. Diferencia de imágenes
Fase 4. Supresión de sombras
Fase 5. Erosión y dilatación
Fase 6. Localización de objetos
Fase 7. Validación de personas en base a su tamaño
Módulo de prueba 3 “Extracción del borde, partes del cuerpo y seguimiento de
personas”
Fase 8. Extracción del borde
Fase 9. Localización de partes del cuerpo
Fase 10. Relocalización de personas
Módulo de prueba 4 “Caracterización de movimientos”
Fase 13. Caracterización de movimientos de personas
Fase 13.1 Correr
Fase 13.2 Levantar una o ambas manos
Fase 13.3 Merodear
Fase 13.4 Agacharse
Fase 13.5 Acostarse
6.3 Realización de pruebas Para pruebas de detección y seguimiento de personas se tomó un video de cada base de
videos, mostrando los resultados de un sólo cuadro al azar en la tabla 6.4 se presenta el
nombre del video, el número de cuadro y la base de videos a la que pertenece. Es
importante recalcar que de las bases de videos usados en los experimentos sólo en tres
de estas se realizó las tareas de modelado y actualización de fondo (Caviar, ViSION Y
CENIDET), para las dos restantes (Weizmann y KTH) se creó una imagen que
Capítulo VI. Pruebas y resultados
81
representará el modelo de fondo (ver figura 6.1). Lo anterior por motivos descritos en la
sección 6.2.
Tabla 6.4. Descripción de los videos utilizados en los experimentos (Nombre del video y número de cuadro).
Banco de videos Nombre del video Número de cuadro
KTH ving_d1_uncomp.avi 83
Weizmann daria_jack.avi 39
Caviar OneStopEnter2cor.avi 531
ViSION Camera1_070605.avi 1000
CENIDET Cenidet_1.avi 550
6.3.1 Prueba 1. “Modelado y actualización de Fondo” Fase 1. Creación del modelo de fondo El modelo de fondo inicial se crea utilizando la moda de píxeles procesando los primeros
50 cuadros de videos. Este procedimiento se realiza con el modelo de color RGB. En la
figura 6.2 se muestra los resultados de esta fase para tres de los bancos de videos
utilizados, Caviar, ViSION y CENIDET.
Banco de videos Imagen de fondo original Modelo de fondo inicial
Caviar
ViSION
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
82
Banco de videos Imagen de fondo original Modelo de fondo inicial
CENIDET
Figura 6.2. Resultados del modelado de fondo inicial
Resultados: Los resultados son favorables ya que con la técnica de la moda se obtiene
una imagen limpia y sin la presencia de estelas originadas por el movimiento de los
objetos; además, si durante la construcción del modelo inicial se encuentran objetos en
semi-movimiento formarán parte del fondo pero con la actualización este problema se
soluciona rápidamente, ya que se maneja un tiempo de aproximadamente 3 segundos
para la actualización general del fondo.
Observaciones: En los ejemplos de modelado del banco de videos ViSION y CENIDET
(fila 3 y 4 de la figura 6.2) se pueden observar partes de objetos en movimiento
consideradas modelo de fondo, esto debido a que durante el proceso de modelado
estuvieron presentes.
Fase 2. Actualización del modelo de fondo
Con el paso del tiempo la escena inicial de fondo tiende a variar por diversos factores, por
tal motivo se actualiza constantemente. La actualización entra en ejecución después de
los primeros 50 cuadros, el procedimiento es el mismo utilizado en la etapa de modelado
inicial, cada 50 cuadros se calcula la distribución de los valores RGB por cada píxel en la
imagen de fondo utilizando la moda de píxeles.
Capítulo VI. Pruebas y resultados
83
Escenario Imagen de fondo inicial Actualización del fondo
Caviar
ViSION
CENIDET
Figura 6.3. Resultados de la actualización del modelo de fondo.
Resultados: Con el procedimiento utilizado para la actualización del fondo se
obtienen ciertas ventajas, con el transcurso de la imagen que representa el fondo va
mejorando ya que se va adaptando a los cambios de cada píxel; además, el tiempo de
actualización general es relativamente corto va de 3 a 3.5 segundos. Otra ventaja es que
el modelo se va a adaptando a grandes cambios como aquellos originados por introducir o
extraer objetos del escenario, ya que los objetos nuevos gradualmente van formando
parte de la fondo.
Observaciones: en las imágenes de la figura 6.3 se muestran los resultados de la
primera actualización de la imagen de fondo inicial de tres escenarios diferentes. En la
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
84
primera columna se encuentran los modelos de fondo remarcando en azul las zonas en
movimiento que fueron tomadas como fondo durante el proceso de creación, después de
la primera actualización estos objetos desaparecieron ya que dejaron estar presentes o se
movieron de lugar.
6.3.2 Prueba 2. “Detección de objetos en movimiento y validación de objetos como persona” Fase 3. Diferencia de imágenes Posterior a la creación de un modelo de fondo y su constante actualización, este se toma
como referencia para hacer la detección de objetos en movimiento, para esto se usa la
técnica de diferencias de imágenes. Primero se realiza la conversión del espacio de color
RGB a escala de grises, esto para las imágenes de frente y la imagen de fondo. Los
resultados de esta fase se presentan en la figura 6.4.
Escenario Imagen de fondo
(Escala de Grises)
Imagen de frente
(Escala de Grises) Imagen diferencia
KTH
Weizmann
Capítulo VI. Pruebas y resultados
85
Escenario Imagen de fondo
(Escala de Grises)
Imagen de frente
(Escala de Grises) Imagen diferencia
Caviar
ViSION
CENIDET
Figura 6.4. Resultados de la diferencia de imágenes.
Resultados: Al utilizar la técnica de diferencia de imágenes se detectan como movimiento
todos los píxeles cuya resta entre las imágenes de fondo y frente estén por arriba de un
umbral, por lo tanto los resultados dependen directamente del valor del umbral
establecido. Debido a que las condiciones de iluminación son variables en los resultados
pueden existir pequeñas zonas en movimiento. Aún así, los resultados obtenidos son
considerados buenos, ya que esta segmentación se somete a otros procesos para
quedarse únicamente con los objetos de interés.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
86
Fase 4. Eliminación de sombras
Al resultado de la detección de movimiento, se identifican y eliminar aquellos píxeles que
pudieran pertenecer a sombra. Para esto se implementó el algoritmo denominado DNM
(Deterministic Non-Model based), el cual sse basa en la aplicación de umbrales sobre la
reducción de intensidad y cromaticidad para evaluar si un determinado píxel se encuentra
en una región sombreada o no. Como ya se mencionó en la sección 3.1.3 este método
utiliza el modelo de color HSV, por lo tanto el primero paso es realizar la conversión entre
espacios de color -de RGB a HSV sólo de los píxeles de la imagen de fondo y de las
imágenes de frente que correspondan con los píxeles (punto a punto) segmentados en la
etapa anterior. Por último se evalúan con las condiciones y umbrales del algoritmo DNM.
En la figura 6.5 se muestran los resultados de la conversión de ambas imágenes
(frente y fondo) al modelo de color HSV, y los resultados de la detección de píxeles como
sombra en base a la aplicación del enfoque DNM.
Escenario Imagen de fondo (HSV) Imagen de frente (HSV) Post-Segmentación
KTH
Weizmann
Capítulo VI. Pruebas y resultados
87
Escenario Imagen de fondo (HSV) Imagen de frente (HSV) Post-Segmentación
Caviar
ViSION
CENIDET
Figura 6.5. Resultados de la detección de píxeles pertenecientes a sombra
Resultados: al aplicar la etapa de eliminación de sombras se consigue eliminar ruido
ocasionado por el fenómeno sombra, se comprobó la funcionalidad del algoritmo en
escenario donde se presenta gran cantidad de sombras.
Observaciones: Las imágenes mostradas en la columna 2 y 3 pertenecen a la
conversión de RGB a HSV de aquellos píxeles de la imagen de fondo y la imagen de
frente que corresponde con los píxeles detectados como movimiento en la etapa de
detección de objetos de primer plano. En la cuarta columna se puede observar en rojo los
píxeles detectados como sombra, mismos que son eliminados en la segmentación final.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
88
Fase 5. Operaciones morfológicas
El resultado de la detección de objetos de primer plano seguido la detección y eliminación
de sombras, es posible que contenga información basura o ruido, que pudo haberse
filtrado en la fase de detección de movimiento, para eliminar esta información se realiza la
operación de la apertura.
Fase 6. Localización de objetos
Posterior a la eliminación de ruido con la aplicación de operaciones morfológicas se
procede a identificar los objetos en movimiento resultantes finales, por lo que se aplica el
algoritmo iterativo de etiquetado de componentes conexas asignándoles un identificador;
además, durante este proceso se obtiene la cantidad final de objetos de primer plano, con
sus respectivas propiedades geométricas tales como su ubicación y área.
Fase 7. Validación de personas en base a su tamaño
El resultado de las dos fases anteriores son los objetos en movimiento, a los cuales se les
aplica el filtro de tamaño, analizando su área y la coordenada Y del píxel más abajo con
las reglas de tamaño con el principal objetivo de realizar la clasificación como persona o
no persona. Los resultados de estas fases se presentan en la figura 6.6.
Escenario Segmentación final Imagen con apertura Objetos clasificados
como personas
KTH
Capítulo VI. Pruebas y resultados
89
Escenario Segmentación final Imagen con apertura Objetos clasificados
como personas
Weizmann
Caviar
ViSION
CENIDET
Figura 6.6. Resultados de la aplicación de la apertura y de la validación de personas
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
90
Resultados: Los resultados obtenidos en estas fases son satisfactorios, con la aplicación
de las operaciones morfológicas ayuda a mejorar la segmentación final. Gracias a la
erosión se consigue eliminar pequeñas zonas de movimiento aisladas y con la dilatación
se expanden las regiones con la ventaja de rellenar agujeros en los objetos de interés. En
cuanto, a la localización de los objetos se obtiene un agrupamiento entre los píxeles de
una misma región, esto ayuda a determinar el número de regiones existentes; además, de
saber sus propiedades tales como el área, el alto y el ancho para un análisis individual.
Por otro lado, la fase más importante en el diseño del sistema, es la parte de
validación de objetos como personas o no personas debido a que son principal objeto de
interés, el método basado en reglas de tamaño genera buenos resultados, entre las
ventajas obtenidas son que permite identificar e ignorar objetos pequeños y grandes que
no concuerden con el tamaño de una persona; además, este método presenta la
propiedad de ser invariante a perspectiva de la cámara.
Observaciones: En la columna 2 se presentan los resultados de la post-segmentación,
es decir los objetos de primer plano con la eliminación de las sombras detectadas. En la
columna 3 están los resultados de la aplicación de la apertura, donde se puede apreciar
que se realizó el llenado de agujeros, pero además aquellas pequeñas zonas en
movimiento con la dilatación tienden a crecer, es por ello que se en dicha columna se
pueden visualizar pequeñas zonas en movimiento. Por último en la columna 4 se
encuentran únicamente las regiones en movimiento que superaron el filtro de tamaño, por
lo tanto el resultado es la segmentación de las personas en movimiento. Para cada
persona se asigna un color diferente además de una etiqueta que lo enumera dentro de la
escena.
6.3.3 Prueba 3 “Extracción del borde, partes del cuerpo y seguimiento de personas” Las siguientes pruebas corresponden a la parte de extracción de partes del cuerpo y del
seguimiento de las personas detectadas.
Fase 8. Extracción del borde Una vez que se tienen los objetos clasificados como personas, se procede a obtener la
silueta, ya que esta se usa como base para una posterior búsqueda de las partes del
cuerpo. Durante este procedimiento se contabilizan los píxeles que conforman el borde,
además de realizar las sumatorias de sus coordenadas X y Y, esto con el objetivo de
calcular el centroide.
Capítulo VI. Pruebas y resultados
91
Fase 9. Localización de partes del cuerpo Localizado el centroide y el borde de las personas en escena, estos son tomados como
referencia para la búsqueda de las extremidades del cuerpo (cabeza, pies y manos). Este
proceso consiste en una serie de reglas geométricas propias para cada una de las
extremidades.
Fase 10. Prueba 5. Seguimiento de personas El seguimiento consiste en hacer la detección de personas en un determinado cuadro
almacenando su centroide, posteriormente en el cuadro consecutivo se realiza una nueva
detección de personas con su centroide, se calcula la distancia entre dichos centroides y
si la distancia es menor o igual a la altura total de la persona se crea una relación entre
ambas personas de diferentes cuadros. En la figura 6.7 se presentan los resultados de las
fases 8, 9 y 10.
En la columna dos se encuentran las personas detectadas, a cada persona nueva
que entra en escena se le asigna un color diferente además de una etiqueta que indica el
número de persona que le corresponde dentro de escena. En la tercera columna se
presentan los resultados de la extracción del borde y partes del cuerpo, para esto se
señala lo siguiente; el punto rojo representa el centroide, el punto azul a la cabeza, el
amarillo a la mano 1, el punto verde representa la mano 2, el punto guinda representa al
pie 1 y el punto negro al pie 2. También se muestran dos etiquetas, la primera que está en
la parte superior derecha indica el número de persona en escena y la segunda que está
en la parte inferior derecha indica la cantidad de cuadros en los que la persona ha sido
relocalizada. Por último en la columna cuatro, se muestra mediante líneas la trayectoria
del seguimiento de las personas, cabe señalar que dichas líneas están representadas por
los puntos de los centroides y de igual manera se conserva el mismo color asignado a la
persona en su entrada al escenario.
Escenario Personas detectadas Extracción del borde y
partes del cuerpo Seguimiento
KTH
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
92
Escenario Personas detectadas Extracción del borde y
partes del cuerpo Seguimiento
Weizmann
Caviar
ViSION
CENIDET
Figura 6.7. Resultados de la extracción del borde, partes del cuerpo y seguimiento.
Capítulo VI. Pruebas y resultados
93
Resultados: El resultado de estas tres fases es bueno para todos los casos ya que sólo
depende de la detección y validación de personas. La detección del borde no implica gran
complejidad; además, que es un proceso muy rápido. Posterior a esto se hace la
localización de las extremidades, proceso en el cual los resultados son satisfactorios en
todos los casos ya que se consideran diferentes aspectos. En cuanto al seguimiento el
método empleado es robusto cumpliendo su objetivo aún cuando hay traslapes u
oclusiones por pequeños instantes de tiempo. El gran interés de realizar un buen
seguimiento es porque su resultado depende la caracterización del movimiento merodeo.
6.3.4 Prueba 4 “Caracterización de movimientos”
Para las pruebas de caracterización de los movimientos propuestos se utilizaron
videos al azar de las 5 bases de videos.
Es importante remarcar que las primeras bases de videos KTH y Weizmann son
videos muy cortos por lo que para estos casos se tomaron varios videos de prueba
sin considerar el movimiento merodeo por obvias razones. Presentan ambiente
controlado con movimiento en la cámara.
En cuando a la acción correr se hizo la caracterización únicamente en las bases
KTH y Weizmann ya que estas contienen videos de personas con la acción
caminar y fue posible obtener una distancia entre centroides que describieran la
acción caminar y por ende el movimiento correr. Presentan ambiente controlado, la
captura es en aproximadamente a la altura de la persona.
En las bases de videos Caviar, ViSION y CENIDET se establecieron tiempos para
ser considerado merodeo, esto como resultado de un análisis a los escenarios. No
se controla ningún factor.
En la base Caviar se utilizaron los 2 videos más largos para hacer la
caracterización de merodeo.
Para la base de videos ViSION se utilizaron dos videos de 5 minutos de duración
en el que participan más de 10 personas al mismo tiempo, se caracteriza el
movimiento merodeo.
Por último, en cuanto a la base de videos de adquisición propia CENIDET se
usaron 3 videos con duración de 5 minutos cada uno, aquí participan más de dos
personas al mismo tiempo, además de vehículos. En estos video se encuentran
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
94
los movimientos levantar manos, merodeo, agacharse y acostarse. Dado a que fue
una adquisición personal no se controla ningún factor.
En la tabla 6.5 se resumen los movimientos que se caracterizan en las diferentes
bases de videos; además, la cantidad de videos tomados para cada base de videos.
Tabla 6.5. Resumen de las pruebas realizadas en la fase de caracterización de movimientos.
Movimientos
Base de Videos KTH Weizmann Caviar ViSION CENIDET Total
Correr 20 videos 10 videos ----- -----
3 videos
30
Levantar manos 20 videos 30 videos ----- ----- 50
Merodeo ----- ----- 2 videos 2 videos 4
Agacharse ----- 10 videos ----- ----- 10
Acostarse ----- ----- ----- ----- 3
Total 40 50 2 2 3 97
A continuación se muestran los resultados de la caracterización en imágenes,
relacionando una imagen original del video con la caracterización. El orden es el
siguiente, correr, levantar manos, merodear, agacharse y acostarse. Al final se describe
los resultados de las pruebas.
Caracterización del movimiento Correr En la figura 6.8 se presentan los resultados de las pruebas de la caracterización del
movimiento correr para las bases de videos KTH y Weizmann.
Base de videos
Nombre del video
No. de cuadro
Imagen original Caracterización (Correr)
KTH person01_running_d1_uncomp.avi
219
Capítulo VI. Pruebas y resultados
95
Base de videos
Nombre del video
No. de cuadro
Imagen original Caracterización (Correr)
KTH person01_running_d3_uncomp.avi
8
KTH person03_running_d2_uncomp.avi
73
Weizmann moshe_run.avi
23
Weizmann ido_run.avi 22
Weizmann lena_run1.avi
15
Figura 6.8. Ejemplos de la caracterización del movimiento correr
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
96
Caracterización del movimiento levantar una o ambas manos En la figura 6.9 se presentan algunos ejemplos de la caracterización del movimiento
levantar manos para las diferentes bases de videos.
Base de videos
Nombre del video
No. de cuadro
Imagen original Caracterización
(Levantar manos)
KTH
person07_handwaving_d1_uncomp.avi
767
KTH
person25_handwaving_d3_uncomp.avi
96
Weizmann shahar_jack.avi
71
Weizmann ira_wave1.avi
90
Capítulo VI. Pruebas y resultados
97
Base de videos
Nombre del video
No. de cuadro
Imagen original Caracterización
(Levantar manos)
CENIDET Cenidet_1.avi
686
CENIDET Cenidet_3.avi
1161
Figura 6.9. Ejemplos de la caracterización del movimiento levantar manos
Nota: En los dos últimos resultados (cenidet_1.avi y cenidet_3.avi) se hizo un
acercamiento para apreciar mejor la caracterización.
Caracterización del movimiento Merodear En la en la figura 6.10 se presentan algunos ejemplos de la caracterización del
movimiento merodear.
Base de videos
Nombre del video
No. de cuadro
Imagen original Caracterización
(Merodear)
Caviar OneStopEnter2cor.avi
732
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
98
Base de videos
Nombre del video
No. de cuadro
Imagen original Caracterización
(Merodear)
CENIDET Cenidet_1.avi
860
CENIDET Cenidet_1.avi
1145
CENIDET Camera1_070605.avi
572
ViSION Camera1_070605.avi
2104
----- Estacionamiento1.avi
678
Figura 6.10. Ejemplos de la caracterización del movimiento merodear.
Capítulo VI. Pruebas y resultados
99
Nota: Como ya se había hecho mención, el movimiento merodeo depende del escenario,
para poder decidir un tiempo promedio en que una persona puede estar presente en
escena, es por eso que en los resultados de la caracterización del merodeo varía la
cantidad de cuadros en el seguimiento de cada persona. Es importante mencionar que
también se realizaron pruebas con videos capturados a gran altura, como es en el caso
de la última fila de la figura 6.9; para este escenario también se obtuvieron las reglas de
tamaño correspondientes. Debido a la poca definición de las personas sólo es posible
realizar la caracterización del movimiento merodear.
Caracterización del movimiento Agacharse En la figura 6.11 se presentan algunos ejemplos de la caracterización del movimiento
agacharse.
Base de videos
Nombre del video
No. de cuadro
Imagen original Caracterización
(Agacharse)
Weizmann daria_bend.avi 40
Weizmann moshe_bend.avi
29
CENIDET Cenidet_1.avi 3162
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
100
Base de videos
Nombre del video
No. de cuadro
Imagen original Caracterización
(Agacharse)
CENIDET Cenidet_2.avi 1276
Figura 6.11. Ejemplos de la caracterización del movimiento agacharse.
Nota: Los resultados de la caracterización de la tercera y cuarta fila fueron ampliados con
la intensión de hacer una mejor observación.
Caracterización del movimiento Acostarse En la figura 6.12 se presentan algunos ejemplos de la caracterización del movimiento
acostarse.
Base de videos
Nombre del video
No. de cuadro
Imagen original Caracterización (Correr)
CENIDET Cenidet_2.avi
1281
Adquisición 2
AcostarseA.avi
426
Figura 6.12. Ejemplos de la caracterización del movimiento acostarse.
Capítulo VI. Pruebas y resultados
101
Nota: Para la caracterización del movimiento acostarse fue necesario realizar otras
adquisiciones más, en la segunda fila de la tabla anterior se presenta la imagen de un
video de una adquisición personal sobre una calle, en estos videos sólo participa una sola
persona a la vez y la única acción que se realiza es el acostarse. La resolución es de
320x240, con velocidad de 15 cuadros por segundo. Las grabaciones son de máximo un
minuto.
6.4 Conclusiones y resultados
6.4.1 Conclusiones En cuanto a las conclusiones de las pruebas realizadas destacan los siguientes puntos;
Se analizaron videos de 5 bases de videos de escenarios diferentes.
Las Bases KTH y Weizmann contienen videos de personas realizando diferentes
acciones, son videos de poca duración en baja resolución. Además el fondo es
estático.
En las bases de videos ViSION, Caviar y CENIDET no se controla ningún factor, y
el cuadro de visualización de la cámara es extenso por lo que se aplicó un filtro de
tamaño obteniendo buenos resultados en la clasificación de personas.
La base de videos CENIDET corresponde a un estacionamiento, en el cual
participan coches y personas.
Se obtuvieron muy buenos resultados en la detección y seguimiento de personas
para las cinco bases de videos.
En la parte de la caracterización los movimientos mejor detectados fueron el
correr, levantar manos y agacharse.
Para el movimiento de merodeo se necesita de un análisis previo para determinar
el valor de tiempo que determine cuando se puede considerar merodeo.
Para el movimiento correr sólo fue posible caracterizarlo en aquellas bases de
videos que contemplan la acción caminar, mismo que se toma como comparación.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
102
6.4.2 Comentarios De manera general los resultados obtenidos en los diferentes módulos de pruebas son
considerados buenos.
En las fases de modelado y actualización de fondo en la mayoría de las
situaciones se consigue una imagen de fondo limpia, y en los casos en que se presenta
ruido este se elimina rápidamente mediante la actualización.
En cuanto a la detección de objetos de primer plano, en todas las situaciones se
detectó el movimiento correctamente, para lo cual cabe señalar que se determinó un
umbral para cada base de videos.
Los resultados de la fase de validación de objetos como persona son
satisfactorios; sin embargo existen casos de mala clasificación debido principalmente por
la incapacidad de identificar personas cuando existe oclusión o traslape, ya que esto
afecta el tamaño real de la persona ocasionando que se ignoren. Sin embargo, en las
bases de videos utilizadas pocas son las situaciones de traslape y oclusión.
Por otro lado, en la extracción del borde no se presenta problema alguno ya que
este depende de la validación de personas para proceder a obtener su silueta, los
resultados de la extracción de las extremidades del cuerpo son buenos, ya que en el
método utilizado se utilizan diferentes parámetros de búsqueda sin embargo, estos no
siempre son correctos.
En cuando al seguimiento de personas esta tarea en sus resultados también
presenta casos erróneos, esta fase se ve afectada principalmente por el traslape y
oclusión entre personas ya que esto ocasiona genera confusión a la hora en que dichas
personas se separan.
Finalmente, los resultados del módulo de pruebas correspondiente a la
caracterización de movimiento de personas se muestran en la tabla 6.6.
Capítulo VI. Pruebas y resultados
103
Tabla 6.6. Porcentajes total en la caracterización de movimientos.
Movimiento Base de videos Total de video Caracterizaciones
% % total Correctas Malas
Correr KTH 20 16 4 80%
90% Weizmann 10 10 10 100%
Levantar
manos
KTH 20 17 6 85%
76% Weizmann 30 26 7 87%
CENIDET 9 5 4 56%
Merodeo
Caviar 4 3 1 75%
75% ViSION 11 7 4 64%
CENIDET 7 6 1 86%
Agacharse Weizmann 10 10 0 100%
71% CENIDET 7 3 4 43%
Acostarse CENIDET 5 3 2 60%
65% Adquisición 2 10 7 3 70%
Porcentaje general en la caracterización de los 5 movimientos 75%
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
104
105
Capítulo VII Conclusiones y trabajos futuros
En este capítulo se presentan las conclusiones finales, así como las aportaciones y
trabajos futuros.
7.1 Conclusiones finales
Este trabajo es enfocado al contexto de la videovigilancia, consiste principalmente en el
tratamiento digital de imágenes y caracterización de movimientos de personas. Por lo
tanto para alcanzar el objetivo principal fue necesario realizar un análisis y estudio del
estado del arte de trabajos relacionados, además de la implementación de diferentes
técnicas y algoritmos pertenecientes al área de Visión por Computadora.
El objetivo principal consistió en el desarrollo de un sistema de visión artificial
capaz de hacer la detección y seguimiento de personas para después realizar la
caracterización de cinco movimientos, los cuales son el correr, levantar una o ambas
manos, merodear, agacharse y acostarse.
En el diseño se propuso una metodología compuesto por tres módulos, cada
módulo tiene un objetivo y en conjunto dan como resultado el objetivo principal de éste
trabajo de tesis.
En el primer módulo, se realiza la lectura de video y se procesa obteniendo la
detección de movimiento, la eliminación de ruido con un algoritmo de supresión de
sombras y con la aplicación de operaciones morfológicas, posteriormente se
validan los objetos en movimiento como personas utilizando un algoritmo basado
en reglas de tamaño que da solución a la variabilidad del tamaño de la persona de
acuerdo a su distancia con la cámara. Después de la clasificación de personas, se
extrae información de las partes del cuerpo (cabeza, manos y pies), por último se
realiza el seguimiento de las personas detectadas.
En el segundo módulo se realizan cálculos para obtener las propiedades
geométricas y de forma de la persona para ser usadas en la etapa de
caracterización de movimientos, estas propiedades consisten en distancias y
ángulos entre extremidades del cuerpo, distancia de desplazamiento de personas
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
106
en cuadros consecutivos, además de descriptores de forma, tales como los
momentos invariantes de Hu.
En el tercer y último módulo, se realiza la caracterización de los movimientos
propuestos, esta tarea se realiza haciendo comparaciones con los propiedades
calculadas con los modelos que describen a cada movimiento. Además, en esta
etapa el sistema manda una señal de alerta para los casos en que se realice la
caracterización de alguno de los movimientos propuestos.
Las pruebas se realizaron con bases de videos en diferentes condiciones de
iluminación; bases de videos de laboratorio con ambiente controlado y, bases de videos
resultado de una adquisición propia sin control alguno. En el caso de bases de videos de
laboratorio se logró hacer una buena detección de personas y por ende una buena
caracterización. En cuanto a las bases de videos sin control alguno, presentan la
característica que las grabaciones fueron a una altura superior a la altura de las personas
en escena permitiendo que las estas puedan desplazarse por una gran zona y seguir
dentro del campo visual de la cámara. Para ambos casos el sistema se desempeña bien,
ya que los resultados de los experimentos muestran una buena detección, seguimiento de
personas y caracterización de movimientos. En las pruebas se utilizaron cerca de 100
videos de las diferentes bases en los que se presentan los cinco movimientos,
consiguiendo un porcentaje total del 75% de caracterizaciones correctas.
7.2 Aportaciones
Las aportaciones que se obtuvieron en la realización de este proyecto de investigación
son las siguientes:
1. Validación de personas
El algoritmo empleado para la validación de personas se considera una aportación
importante, ya que el problema de perspectiva de la cámara es poco tratado en el estado
del arte. Por lo general, reportan pruebas con bases de videos en los que la cámara está
a una altura promedio de personas. En el presente trabajo de tesis se consideró trabajar
principalmente con bases de videos en donde la cámara es colocada a una altura superior
a la de las personas en escena, originando que el tamaño de las personas sea muy
variado. Por lo tanto, se propuso utilizar una función discreta que incluye la relación entre
ubicación y tamaño de la persona, con esto se consiguen dos reglas de tamaño que
determinan y validan a un objeto en movimiento en base al análisis de su tamaño.
Capítulo VII. Conclusiones y trabajos futuros
107
2. Caracterización de los movimientos merodear y acostarse
Se abordó la caracterización de dos movimientos poco tratados en el estado del arte.
Dentro del estudio y análisis de trabajos relacionados no se encontró alguno que trate de
la caracterización de los movimientos merodeo y acostarse.
3. Metodología de caracterización original
La metodología empleada para realizar la caracterización se considera original ya que
en este proceso se realiza el análisis de diferentes métricas, se lleva a cabo el cálculo de
propiedades geométricas y posteriormente el análisis y descripción de forma.
4. Tiempo de respuesta cercano al tiempo real
Los algoritmos empleados en el diseño e implementación del sistema son ligeros y
requieren de poco costo computacional, gracias a esto el tiempo de procesamiento de
secuencias de imágenes es cercano al tiempo real. Se registró un procesamiento
promedio de entre 19 y 20 cuadros por segundo en videos con resolución de 320x240.
7.3 Trabajos futuros
Los trabajos futuros para dar continuidad a este trabajo son:
1. Desarrollar un sistema que incluya algoritmos todavía más rápidos para alcanzar
el procesamiento de video en tiempo real.
2. Implementación de algoritmos de seguimiento que solucionen el problema de
traslapes y oclusiones.
3. Implementación de algoritmos que permita extender el número de movimientos a
caracterizar.
4. Mejoramiento de los métodos de validación de personas, en lo que se puedan
incluir la validación de coches u otros objetos de interés.
5. Creación de una base de videos donde participen más de una persona a la vez
realizando diferentes movimientos en diferentes condiciones de iluminación y
diferentes escenarios.
Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos
108
6. Implementación de algoritmos más robustos para dar un mayor porcentaje en la
caracterización correcta de movimientos.
Capítulo VII. Conclusiones y trabajos futuros
109
110
Referencias bibliográficas
[Ai2, 2011]
Ai2, 2011. “Sistemas de Vigilancia Inteligente basados en Visión por
Computador”. Instituto de Automática e informática industrial vi jornada
sobre tecnologías gráficas y visión por computador. Ciudad Politécnica de
la Innovación Universitat Politècnica de València.
[Albusac, 2007]
Javier Alonso Albusac Jiménez. “Aprendizaje de reglas difusas para la
clasificación de comportamientos en un sistema de video-vigilancia
cognitiva”. ESTYLF 2008, Congreso Español sobre Tecnologías y Lógica
Fuzzy, Mieres, España, pp.17-19, septiembre 2008.
[Albusac, 2009]
Javier Alonso Albusac Jiménez. “Modelo para el Análisis de la Normalidad
de Eventos y Conductas en Entornos Monitorizados: Aplicación a la Vídeo
Vigilancia”, Tesis Doctoral. Universidad de Castilla-La Mancha (UCLM)
España, 2009.
[Breitenstein, 2009]
Breitenstein M., Reichlin F., Leibe B., Koller-Meir E. and Van Gool L.,
“Robust tracking-by-detection using a detector confidence particle filter”,
Computer Vision, IEEE 12th International Conference on, pp. 1515 - 1522,
Octubre, Japon, 2009, ISBN: 978-1-4244-4420-5.
[Cabrejas, 2010]
Héctor Cabrejas Fernández. “Detección y eliminación de sombras y
reflejos en entornos de video–seguridad sobre plataforma de análisis
distribuido”. Proyecto Fin de Carrera, Proyecto fin de carrera,
Universidad Autónoma de Madrid, Escuela politécnica superior. Julio
2010
[Carrasco, 2010]
Ignacio Carrasco, 2010. “La Videovigilancia y la seguridad privada. ¿Y
ahora qué?”. Seguritecnia, revista década independiente de seguridad.
Editorial Borrmart, C./ Don Ramón de la Cruz, 68 Madrid.
[Colmenarejo, 2011]
Alfonso Colmenarejo Rubio. “Segmentación de secuencias de vídeo
basada en el modelado del fondo mediante capas”. Proyecto fin de
carrera, Universidad Autónoma de Madrid, Escuela politécnica superior.
Julio 2011
[Cortés, 2009]
Miguel Cortés Marlia. “Reconocimiento de caras frontales mediante la
extracción de puntos característicos”. Proyecto fin de carrera,
Universidad Autónoma de Madrid, Escuela politécnica superior. Marzo
2009.
[Chang, 1999]
I.-Cheng Chang, Chung-Lin Huang. “The model-based human body
motion analysis system”. Computer Vision and Image Understanding
Volume 73, Issue 1, 1 January 1999
[Cucchiara, 2001]
Andrea Prati, Ivana Mikic´, Rita Cucchiara, Mohan M. Trivedi.
"Comparative Evaluation of Moving Shadow Detection Algorithms". IEEE
CVPR workshop on Empirical Evaluation Methods in Computer Vision,
Kauai, 2001.
Referencias bibliográficas
111
[Dávila, 2009]
Dávila García M. L. “Caracterización Automática de una Muestra de
Acciones en Video”, Tesis de maestría, Dpto. de Ciencias
Computacionales, Centro Nacional de Investigación y Desarrollo
Tecnológico, Cuernavaca, Morelos, México, Diciembre 2009.
[De León, 2012]
Gabriela de León Hernández. “Agrupamiento de Trayectorias para la
Generación de un Modelo de Actividad Adaptativo”, Tesis de maestría,
Dpto. de Ciencias Computacionales, Centro Nacional de Investigación y
Desarrollo Tecnológico, Cuernavaca, Morelos, México, Diciembre 2012.
[Fathi, 2008] Fathi & Mori. “Action recognition by learning mid-level motion features.
Computer Vision and Pattern Recognition”. CVPR 2008
[Fujiyoshi, 2004] H. Fujiyoshi, A. Lipton, & T. Kanade, “Real-Time Human Motion Analysis by Image Skeletonization” IEICE Trans. Inf. & Syst., vol.E87-D, No.1, pp.113–120, 2004.
[Gil, 2004]
P. Gil, F. Torres, F. G. Ortiz. "Detección de objetos por segmentación
multinivel combinada de espacios de color". XXV Jornadas de
Automática. Ciudad Real, del 8 al 10 de Septiembre de 2004.
[González, 1996] R. C. González, R.E. Woods, “Tratamiento digital de imágenes”, Addison-
Wesley, EUA, 1996.
[Gorelick, 2007]
L. Gorelick, M. Blank, E. Shechtman, M. Irani, and R. Basri. “Actions as
spacetime shapes”. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 29 (12):22472253, 2007.
[Grana, 2001]
Cucchiara, R., Grana, C., Piccardi, M., and Prati, A. “Detecting objects,
shadows and ghosts in video streams by exploiting color and motion
information”. In Proceedings of the IEEE Int'l Conference on Image
Analysis and Processing, to appear, 2001.
[Herodotou, 1998]
N. Herodotou, K.N. Plataniotis, and A.N. Venetsanopoulos “A color
segmentation scheme for object-based video coding”. In Proceedings of
the IEEE Symposium on Advances in Digital Filtering and Signal
Processing, 1998, pp. 25–29
[Hu, 1962]
M.K.Hu. “Visual pattern recognition by moment invariants, computer
methods in image analysis”. IRE Transactions on Information Theory, 8,
1962.
[Mateu, 2009]
Óscar Mateu García. “Análisis y detección de objetos de primer plano en
secuencias de video” Proyecto fin de carrera, Universidad Politécnica de
Catalunya. Junio 2009.
[Mora, 2009]
David Mora, Andrés Páez y Julián Quiroga Sepúlveda. “Detección de
Objetos Móviles en una Escena Utilizando Flujo Óptico”. XIV Simposio de
tratamiento de señales, imágenes y visión artificial – STSIVA 2009.
Referencias bibliográfica
112
[Niebles, 2007]
Juan Carlos Niebles & Li Fei-Fei. “A Hierarchical Model of Shape and
Appearance for Human Action Classification” Computer Vision and
Pattern Recognition, 2007. CVPR '07. IEEE Conference on.
[Niebles, 2007]
Juan Carlos Niebles. Hongcheng Wang. Li Fei-Fei. “Unsupervised
learning of human action categories using spatial-temporal words”.
Received: 16 March 2007 / Accepted: 26 December 2007 © Springer
Science+Business Media, LLC 2008.
[Pajares, 2002]
Pajares Matinsanz G. & De la Cruz García J., “Visión por computador”, 1ª edición, Editorial Alfaomega Ra-ma, Madrid, España, 2002.
[Pajares, 2008] Pajares Matinsanz G. & De la Cruz García J., “Visión por computador: imágenes digitales y aplicaciones”. 2nd edn, Alfaomega Grupo Editor, México, 2008, ISBN: 978-970-15-1356-9.
[Patri, 2001]
Andrea Prati, Ivana Mikic’, Costantino Grana and Mohan M. Trivedi. “Shadow detection algorithms for traffic flow analysis: a comparative study”. In Proceedings of IEEE Int’l Conference on Intelligent Transportation Systems, pages 340–345, Aug. 2001.
[Piccardi, 2001]
Rita Cucchiara, Costantino Grana, Massimo Piccardi, Andrea Prati and Stefano Sirotti. "Improving Shadow Suppression in Moving Object Detection with HSV Color Information". In Proceedings of IEEE Int’l Conference on Intelligent Transportation Systems, pages 334–339, Aug. 2001
[Rani, 2010]
Asha Rani, Sanjeev Kumar, Christian Micheloni, Gian Luca Foresti, 2010.
“Human Action Recognition using a Hybrid NTLD Classifier”. Department
of Mathematics and Computer Science, University of Udine Viale Delle
Scienze 206, Udine 33100, Italy
[Realpe, 2009]
Miguel A. Realpe, Boris X. Vintimilla, Dennis G. Romero, Paolo
Remagnino. “Análisis de comportamiento humano-Metodología para
localización y seguimiento de personas en secuencias de video”. In:
Octava Conferencia Iberoamericana en Sistemas, Cibernética e
Informática (CISCI); 10 July - 13 July 2009, Orlando, U.S.A.
[Saldaña, 2007]
Saldaña García J.A., 2007. “Caracterización de imágenes en movimiento:
correr y caminar”. Tesis de maestría, Dpto. de Ciencias Computacionales,
Centro Nacional de Investigación y Desarrollo Tecnológico, Cuernavaca,
Morelos.
[Smith, 1978] Smith A. R. "Color gamut transformation pairs". Computer Graphics, Vol.
12, No. 3, pp 12-19
[Stauder, 1990]
Jürgen Stauder, Roland Mech, and Jörn Ostermann. “Detection of moving
cast shadows for object segmentation”. IEEE Transactions on Multimedia,
1(1):65–76, Mar. 1999.
[Tilley, 1993]
Nick Tilley, 1993. “Understanding car parks, crime and CCTV: Evaluation lessons from safer cities”. Police research group. Crime prevention unit series paper no. 42. London: home office police department.
Referencias bibliográficas
113
[Toscano, 2011]
Jasiel Hassan Toscano Martínez. “Seguimiento y Caracterización del
Comportamiento de Varios Objetos en Movimiento”. Tesis de maestría,
Dpto. de Ciencias Computacionales, Centro Nacional de Investigación y
Desarrollo Tecnológico, México, 2011
[Valera, 2005]
M. Valera and SA Velastin. “Intelligent distributed surveillance systems: a
review”. Vision, Image and Signal Processing, IEE Proceedings-,
152(2):192–204, 2005.
[Vezzani, 2010] R. Vezzani, R. Cucchiara. "Video Surveillance Online Repository (ViSOR): an integrated framework" in Multimedia Tools and Applications, vol. 50, n. 2, Kluwer Academic Press, pp. 359-380, 2010.
[Wang, 2004]
W. Wang and S. Maybank. “A survey on visual surveillance of object
motion and behaviors”. IEEE Transactions on Systems, Man and
Cybernetics, 34(3):334–352, 2004.
Referencias en línea [1] http://www.cs.waikato.ac.nz/ml/weka/. Fecha de revisión: Septiembre 2010.
[2] http://www.wpgsystem.com/index.php?pageid=200. Fecha de revisión: Marzo 2011.
[3] http://www.nada.kth. Fecha de revisión: Febrero 2011.
[4] http://www.wisdom.weizmann.ac.il. Fecha de revisión: Marzo 2011.
[5] http://homepages.inf.ed.ac.uk. Fecha de revisión: Junio 2012.
[6] http://www.openvisor.org. Fecha de revisión: Septiembre 2012.