centro nacional de investigación y desarrollo …...digital de imágenes, es decir, las tareas de...

nológico

Centro Nacional de Investigación y Desarrollo Tecnológico

Subdirección Académica

Cuernavaca, Morelos, México. Marzo de 2013.

Subsecretaría de Educación Superior

Dirección General de Educación Superior Tecnológica

Coordinación Sectorial Académica

Dirección de Estudios de Posgrado e Investigación

Departamento de Ciencias Computacionales

TESIS DE MAESTRÍA EN CIENCIAS

Caracterización Visual de Movimientos “Sospechosos” de

Personas en Estacionamientos

presentada por

Ing. Rafael Alcantar Juárez

como requisito para la obtención del grado de Maestro en Ciencias en Ciencias de la Computación

Director de tesis Dr. José Ruiz Ascencio

Codirector de tesis

Dr. Gerardo Reyes Salgado

Dedicatorias

Dedico esta tesis con cariño, respeto y mucha admiración a mi mamá María Juárez

Gálvez y mi papá Jaime Alcantar Rivera, por su incondicional amor, por estar siempre al

tanto de mis necesidades, por su confianza y por caminar siempre a mi lado.

También la dedico a mis hermanos: Fernando, Jorge, Marco Antonio, Gustavo,

Rufina, Griselda y Jaime Enrique. A mis cuñados: Elizabeth, Lorena, Hilario, Héctor y

Nayeli. Y a mi novia Gabriela.

A quienes jamás encontraré la forma de agradecer el cariño, comprensión y apoyo

brindados en las derrotas y logros obtenidos haciendo de éste, un triunfo más suyo que

mío, por la forma en que lo hemos compartido y sólo espero que comprendan que mis

ideales, esfuerzos y logros han sido también suyos e inspirados en ustedes.

Con cariño y respeto: Rafael

Agradecimientos

Agradezco a dios, que me ha permitido y ayudado a alcanzar una meta más en mi vida.

Al Consejo Nacional de Ciencia y Tecnología (CONACYT) por su importante ayuda

económica otorgada durante mis estudios de maestría.

Al Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET) por

haberme dado la oportunidad de realizar la maestría, principalmente gracias al personal

del departamento de Ciencias Computacionales por todas sus atenciones y por brindarme

un espacio de trabajo cómodo y agradable.

Al personal de los diferentes departamentos, por facilitarme llevar a cabo mi

documentación, por darme un buen servicio bibliotecario, por mantener siempre limpia la

escuela, por abrir las puertas de la institución siempre a tiempo, por esto y muchas otras

cosas, gracias.

Al grupo de Reconocimiento Facial & Visión Artificial (FRAV) de la Universidad Rey

Juan Carlos en Móstoles Madrid España: el Dr. Enrique Cabello, a la Dra. Cristina Conde,

al Dr. Isaac Martín de Diego y al M. en C. Óscar Sánchez, por la gran oportunidad de

realizar una estancia, por compartir sus conocimientos, valiosas aportaciones, tiempo,

atención y amistad.

Al Dr. Gerardo Reyes Salgado, al Dr. Manuel Mejía Lavalle y al Dr. José Ruiz

Ascencio, ambos directores de tesis, por guiarme en el desarrollo de este trabajo, por

regalarme parte de su valioso tiempo y por compartir sus conocimientos y experiencia.

A mi comité de revisión: la M. en C. Andrea Magadán Salazar, al Dr. Raúl Pinto

Elías y al Dr. Enrique Cabello Pardos, por sus importantes observaciones y sugerencias,

por su tiempo en escucharme, pero sobre todo gracias por sus consejos y por su

accesibilidad como profesores investigadores y amigos.

A una gran mujer y amiga Yazmín Toledano Campos, gracias por ayudarme en

emprender este gran sueño.

A mis amigos y compañeros estudiantes de CENIDET, por regalarme su

convivencia y por dejarme aprender de ellos: Gabriela D’ León Hernández, Paola, Leticia,

Abel Vázquez, Carlos, Cruz L. Gómez, Celestino Estrada, Jorge A. Fuentes Pacheco,

Samuel, Juan Carlos, G. Emmanuel, Jaime, Armando, Christian, César Geovany, Jorge

Ochoa, César Octavio, Said, Juan Diego, Rodrigo, Luis y José.

“Da el primer paso con fe, no te

preocupes si no puedes ver la escalera,

sólo da el primer paso”

(Martin Luther King, 1929-1968)

“Si crees que puedes o no puedes, igual

tienes la razón”

(Henry Ford 1863-1947)

“La imaginación lo es todo, es una

visión preliminar de lo que sucederá en

tu vida”

Albert Einstein (1879-1955)

Resumen

El uso generalizado de cámaras en el contexto de videovigilancia es una práctica ya muy

extendida en nuestra sociedad, esta actividad generalmente persigue garantizar la

seguridad de los bienes y las personas. Los estacionamientos son un ejemplo de lugares

donde se emplean estos sistemas como herramienta para la disminución y prevención de

robos y daños vehiculares. Sin embargo, la videovigilancia tradicional es todavía reactiva

(no prevé amenazas).

Por lo anterior, se requiere el uso de nuevas tecnologías que utilicen algoritmos

que permitan hacer una detección temprana y automática de movimientos de personas

considerados sospechosos, tales como los Sistemas de videovigilancia Inteligentes (SVI).

En esta tesis se desarrolló un SVI, capaz de hacer la detección y seguimiento de

personas, y en segundo lugar hacer la caracterización de cinco movimientos

sospechosos: correr, levantar una o ambas manos, merodear, agacharse y acostarse.

Este sistema se compone de tres módulos, el primer módulo consta del procesamiento

digital de imágenes, es decir, las tareas de generar y actualizar el modelo de fondo, la

segmentación de objetos en movimiento, la supresión de sombras, la validación de

objetos como personas utilizando un filtro de tamaño, la localización de partes del cuerpo

y la tarea de seguimiento. En el segundo módulo se lleva a cabo el cálculo de

propiedades geométricas y descriptores de forma útiles para la caracterización de los

movimientos propuestos; finalmente, el tercer módulo se encarga de la gestión de la

caracterización, determina y alerta de la ocurrencia de un evento sospechoso.

Las pruebas se realizaron con dos tipos de conjuntos de videos; con bancos de

videos disponibles en internet citadas en el estado del arte, cuya principal característica

es que son grabados en escenarios poco complejos. Y con un conjunto de videos de un

estacionamiento adquiridos personalmente, en un ambiente natural sin control alguno.

Abstract

The widespread use of cameras in the context of video surveillance is a practice already

very extended in our company; this activity generally chases to guarantee the safety of the

goods and the persons. The Parking lots are an example of where these systems are used

as a tool for reducing and preventing theft and vehicle damage. Nevertheless, the

traditional video surveillance is still reactivates (it doesn’t foresee threats).

Therefore, currently requires the use of new technologies that use algorithms for

making the early detection and automatic movements of people considered suspicious,

such as Intelligent Video Surveillance Systems (SVI).

The principal aim of this work of thesis was to develop Intelligent Video

Surveillance Systems, capable of doing the detection and persons' follow-up, and secondly

to do the characterization of five suspicious movements; to run, to raise one or both hands,

to maraud, to stoop and to go to bed. The above mentioned system consists of three

complementary modules, the first module there is the part of digital treatment of images,

that is to say, the tasks of generating and updating the model of bottom, the segmentation

of movement, the filter of size to determine when an object in movement is a person and

the task of realizing the follow-up. The second module, he takes charge of the extraction of

points of interest, of the calculation of distances and angles between the same ones,

besides the analysis of the geometric properties of the located persons, the third module is

the manager of the management of the characterization, determines and alert of the

occurrence of a suspicious event.

The tests were conducted with two types of bases videos, with bases available on

the Internet, whose main characteristic is that they are recorded in some complex scenarios. And with a set of videos from a parking lot personally acquired in a natural environment without control.

Contendido

ix

Contenido Resumen ........................................................................................................................................... vi

Abstract ............................................................................................................................................ vii

Contenido .......................................................................................................................................... ix

Índice de figuras .............................................................................................................................. xii

Índice de tablas............................................................................................................................... xiv

Capítulo I ............................................................................................................................................ 1

Introducción ....................................................................................................................................... 1

1.1 Antecedentes del proyecto ....................................................................................... 2

1.2 Descripción del problema y objetivo de la tesis ........................................................ 3

1.3 Metodología de solución ........................................................................................... 5

1.4. Organización de la tesis .......................................................................................... 6

Capítulo II ........................................................................................................................................... 7

Estado del Arte .................................................................................................................................. 7

2.1 Arquitectura de un Sistema de Videovigilancia Inteligente ........................................ 7

2.2 Arquitectura de un Sistema de Visión Artificial ......................................................... 9

2.3 Recopilación y estudio del estado del arte .............................................................. 11

2.3.1 Detección y Seguimiento de Objetos ............................................................................... 11

2.3.2 Caracterización de movimientos de personas ................................................................. 13

2.4 Comentarios ........................................................................................................... 16

Capítulo III ........................................................................................................................................ 17

Análisis del Problema y Propuesta de Solución .......................................................................... 17

3.1 Propuesta de solución ............................................................................................ 17

3.1.1 Modelado y actualización de fondo ................................................................................. 19

3.1.2 Detección de objetos de primer plano ............................................................................. 20

3.1.3 Eliminación de sombras ................................................................................................... 20

3.1.4 Operaciones morfológicas ................................................................................................ 23

3.1.5 Validación de personas .................................................................................................... 23

3.1.6 Extracción de puntos de interés ....................................................................................... 24

3.1.7 Seguimiento de personas ................................................................................................. 26

3.1.8 Cálculo de descriptores geométricos y de forma ............................................................. 27

3.1.9 Caracterización de movimientos ...................................................................................... 28

3.2 Comentarios ........................................................................................................... 31

Capítulo IV ........................................................................................................................................ 33

Marco Teórico .................................................................................................................................. 33

4.1 Moda de píxeles ..................................................................................................... 34

Contendido

x

4.2 Diferencia de imágenes .......................................................................................... 35

4.3 Método de eliminación de sombras, enfoque DNM ................................................ 35

4.4 Modelos de color y conversión de RGB a HSV....................................................... 37

4.4.1 Modelo de color RGB ....................................................................................................... 37

4.4.2 Modelo de color HSV ........................................................................................................ 38

4.4.3 Conversión de RGB a HSV ................................................................................................. 39

4.5 Operaciones morfológicas ...................................................................................... 39

4.5.1 Erosión .............................................................................................................................. 39

4.5.2 Dilatación.......................................................................................................................... 40

4.5.3 Apertura ........................................................................................................................... 41

4.6 Filtro de tamaño ..................................................................................................... 41

4.6.1 Función discreta como filtro de tamaño .......................................................................... 42

4.7 Código de cadena .................................................................................................. 43

4.8 Modelo de alambre ................................................................................................. 44

4.9 Relocalización de regiones en movimiento ............................................................. 44

4.10 Momentos invariantes de Hu ................................................................................ 45

4.11 Comentarios ......................................................................................................... 46

Capítulo V ......................................................................................................................................... 47

Análisis, Diseño e Implementación del Sistema .......................................................................... 47

5.1 Base de videos ....................................................................................................... 47

5.1.1 Conjunto de videos KTH ................................................................................................... 47

5.1.2 Conjunto de videos Weizmann ........................................................................................ 48

5.1.3 Conjunto de videos CAVIAR ............................................................................................. 49

5.1.4 Conjunto de videos ViSOR ................................................................................................ 49

5.1.5 Base de videos CENIDET ................................................................................................... 50

5.2 Análisis del sistema ................................................................................................ 50

5.3 Diseño del sistema ................................................................................................. 50

5.4 Descripción de las fases del diseño ........................................................................ 51

5.5 Cálculo de reglas de tamaño .................................................................................. 71

5.6 Implementación del sistema ................................................................................... 74

5.6.1 interfaz gráfica .................................................................................................................. 74

5.7 Comentarios ........................................................................................................... 76

Capítulo VI ........................................................................................................................................ 77

Pruebas y resultados ...................................................................................................................... 77

6.1 Ambiente de pruebas ............................................................................................. 77

6.2 Plan de pruebas ..................................................................................................... 78

Contendido

xi

6.3 Realización de pruebas .......................................................................................... 80

6.3.1 Prueba 1. “Modelado y actualización de Fondo” ............................................................ 81

6.3.2 Prueba 2. “Detección de objetos en movimiento y validación de objetos como persona” ................................................................................................................................................... 84

6.3.3 Prueba 3 “Extracción del borde, partes del cuerpo y seguimiento de personas” ........... 90

6.3.4 Prueba 4 “Caracterización de movimientos” ................................................................... 93

6.4 Conclusiones y resultados .................................................................................... 101

6.4.1 Conclusiones................................................................................................................... 101

6.4.2 Comentarios ................................................................................................................... 102

Capítulo VII ..................................................................................................................................... 105

Conclusiones y trabajos futuros ................................................................................................. 105

7.1 Conclusiones finales ............................................................................................ 105

7.2 Aportaciones ........................................................................................................ 106

7.3 Trabajos futuros ................................................................................................... 107

Referencias bibliográficas ............................................................................................................ 110

Referencias en línea .................................................................................................. 113

Contendido

xii

Índice de figuras

Capítulo III Análisis del Problema y Propuesta de Solución

Figura 3.1. Secuencia de etapas de la propuesta de solución. .................................................................... 17 Figura 3.2. Arquitectura del Sistema. ......................................................................................................... 18 Figura 3.3. a) Imagen de entrada. b) Modelo de fondo. c) Actualización de fondo. .................................... 20 Figura 3.4. Clasificación de los algoritmos de detección de sombras basada en el proceso de decisión. En

primer lugar los enfoques se clasifican por medio de su enfoque estadístico o no estadístico. La sub-clasificación consta del tipo paramétrico o basados en modelos. Finalmente, cada enfoque puede ser identificado por las características espectrales, espaciales y temporales que presenten [Cucchiara, 2001]. ................................................................................................................................................ 21

Figura 3.5. Resultados de la primer etapa de segmentación (Imágenes de la Izquierda) y de la eliminación de sombras etapa de post-segmentación con el enfoque DNM (Imágenes de la Derecha). ................ 22

Figura 3.6. Ejemplo de los efectos de perspectiva y cobertura de visualización de una cámara. ................. 24 Figura 3.7. Ejemplos de extracción de puntos de interés. ........................................................................... 26 Figura 3.8. Radio de búsqueda para la persona en el cuadro N+1. ............................................................. 27 Figura 3.9. a) Análisis de distancia entre centroides (caminar y correr). b) Cálculo de distancia y ángulo

entre Cabeza y Mano 2. c) Ejemplo de contabilización de cuadros en el seguimiento de personas. d) Análisis de la variación de la altura de una persona al agacharse. .................................................... 31

Figura 4.1. Modelado de fondo con la moda en el espacio de color RGB. ................................................... 34 Figura 4.2. Implementación del proceso de decisión para la supresión de sombras. .................................. 36 Figura 4.3. Modelo de color RGB en el espacio 3D [Gonzales, 1996]. .......................................................... 38 Figura 4.4. Representación del color HSV. .................................................................................................. 38 Figura 4.5. Para el ejemplo, el conjunto X se representa en el inciso (a), el conjunto B se representa en el

inciso (b) y XӨB se representa en el inciso (c). .................................................................................... 40 Figura 4.6. Para el ejemplo, el conjunto X se representa en el inciso (a), el conjunto B se representa en el

inciso (b) y X⨁B se representa en el inciso (c). ................................................................................... 40 Figura 4.7. a) Segmentación de movimiento en bruto. b) Detección de objetos en movimiento en bruto. c)

Segmentación de personas usando un filtro de tamaño. d) Detección de personas empleando un filtro de tamaño. ........................................................................................................................................ 42

Figura 4.8. a) Código de cadena 4-direccional. b) Código de cadena 8-direccional. c) Localización de borde en un segmento. ................................................................................................................................ 43

Figura 4.9. Secuencia de imágenes que representan el modelo de alambre de una persona en movimiento. .......................................................................................................................................................... 44

Figura 4.10. Imagen binaria en diferentes condiciones. a) Imagen original. b) Imagen escalada. c) Imagen rotada (45°). e) Imagen con perspectiva. ........................................................................................... 46

Figura 5.1. Escenario de la base de videos KTH. ......................................................................................... 48 Figura 5.2. Escenario de la base de videos Weizmann. .............................................................................. 48 Figura 5.3. Escenario de la base de videos Caviar. ...................................................................................... 49 Figura 5.4. Escenario de la base de videos Visor. ........................................................................................ 49 Figura 5.5. Escenario de la base de videos CENIDET. .................................................................................. 50 Figura 5.6 Arquitectura del diseño del sistema. .......................................................................................... 51 Figura 5.7. Esquema del modelado y actualización de fondo. .................................................................... 52 Figura 5.8. Esquema de diseño para la detección de objetos de primer plano. ........................................... 54 Figura 5.9. Flujo desde la entrada de video hasta la post-segmentación. ................................................... 55 Figura 5.10. Etiquetado de componentes con datos geométricos. .............................................................. 56 Figura 5.11. Esquema de la detección y localización de objetos en movimiento. ........................................ 57 Figura 5.12. Esquema de la validación de personas .................................................................................... 59 Figura 5.13. Ejemplos detección de borde y localización del centroide ....................................................... 60 Figura 5.14. Parámetros de búsqueda de extremidades. ............................................................................ 61 Figura 5.15. Esquema de la extracción del borde y localización de partes del cuerpo ................................. 62

Contendido

xiii

Figura 5.16. Esquema del seguimiento de personas. .................................................................................. 63 Figura 5.17. Esquema del cálculo de propiedades geométricas y de forma ................................................ 64 Figura 5.18. Esquema de la caracterización del movimiento correr. ........................................................... 67 Figura 5.19. Esquema de la caracterización del movimiento levantar manos. ............................................ 67 Figura 5.20. Esquema de la caracterización del movimiento merodear. ..................................................... 68 Figura 5.21. Esquema de la caracterización del movimiento agacharse. .................................................... 68 Figura 5.22. Esquema de la caracterización del movimiento acostarse. ..................................................... 69 Figura 5.23. Esquema general del diseño del sistema. ................................................................................ 70 Figura 5.24. Análisis manual del tamaño de personas en la BD de videos Caviar. ...................................... 71 Figura 5.25. Comportamiento del área con respecto a su coordenada Y (BD Caviar). ................................ 72 Figura 5.26. Representación de las reglas de tamaño para la BD Caviar .................................................... 74 Figura 5.27. Ventana principal del sistema................................................................................................. 75 Figura 6.1. a) Imagen de fondo para KTH, b) Imagen de fondo para Weizmann. ........................................ 79 Figura 6.2. Resultados del modelado de fondo inicial ................................................................................. 82 Figura 6.3. Resultados de la actualización del modelo de fondo. ................................................................ 83 Figura 6.4. Resultados de la diferencia de imágenes. ................................................................................. 85 Figura 6.5. Resultados de la detección de píxeles pertenecientes a sombra ............................................... 87 Figura 6.6. Resultados de la aplicación de la apertura y de la validación de personas ............................... 89 Figura 6.7. Resultados de la extracción del borde, partes del cuerpo y seguimiento. ................................. 92 Figura 6.8. Ejemplos de la caracterización del movimiento correr .............................................................. 95 Figura 6.9. Ejemplos de la caracterización del movimiento levantar manos ............................................... 97 Figura 6.10. Ejemplos de la caracterización del movimiento merodear. ..................................................... 98 Figura 6.11. Ejemplos de la caracterización del movimiento agacharse. .................................................. 100 Figura 6.12. Ejemplos de la caracterización del movimiento acostarse. ................................................... 100

Contendido

xiv

Índice de tablas

Capítulo IV Marco Teórico Tabla 4.1 Técnicas empleadas en las fases de la metodología de solución 33 Tabla 4.2. Tabla definición de los momentos de Hu [Hu, 1962]. 45 Tabla 5.1. Propiedades geométricas y de forma necesarias para la caracterización. 64 Tabla 5.2. Distancias para la acción caminar y correr para las BDs KTH y Weizmann 65 Tabla 5.3. Registro de personas con su respectivos datos; coordenada Y del píxel más abajo y área 71 Tabla 5.4. Primera regla de tamaño para la BD Caviar 73 Tabla 5.5. Segunda regla de tamaño para la BD Caviar 73 Tabla 6.1. Bases de videos usadas en la etapa de pruebas 77 Tabla 6.2. Especificación de umbrales y reglas de tamaño. 78 Tabla 6.3. Especificaciones para los movimientos correr y merodear. 79 Tabla 6.4. Descripción de los videos utilizados en los experimentos (Nombre del video y número de

cuadro). 81 Tabla 6.5. Resumen de las pruebas realizadas en la fase de caracterización de movimientos. 94 Tabla 6.6. Porcentajes total en la caracterización de movimientos. 103

1

Capítulo I Introducción

La videovigilancia se puede definir como todo aquel sistema instalado en un espacio

público o privado, para la vigilancia y prevención de personas y bienes contra intrusión,

agresión, robo o hurto [Carrasco, 2010].

El aumento en el uso de la videovigilancia tradicional se refleja en

estacionamientos donde se emplean estos sistemas, como herramienta para la

disminución de robos y daños a los vehículos, dotando así de una mayor seguridad a

dichos establecimientos [Tilley, 1993].

Sin embargo, el principal problema de los sistemas tradicionales de videovigilancia

es la incapacidad para interpretar por sí mismos los eventos que se producen y los

comportamientos llevados a cabo por los individuos que realizan acciones en el entorno.

Estos sistemas dependen de la atención continua de personal humano, que debe estar

concentrado en una elevada cantidad de monitores, analizando permanentemente las

situaciones que se observan en cada uno de ellos [Albusac, 2009]. Esta práctica, resulta

ineficaz: transcurridos los primeros 20 minutos de observación continua, la atención

comienza a dispersarse ignorando hasta el 95% de actividad en la escena monitoreada

[Albusac, 2007]. Por tales motivos surgen los Sistemas de Vigilancia Inteligentes (SVI),

diseñados para interpretar lo que sucede en un entorno monitoreado a partir de la

información procedente de las cámaras. Su principal objetivo es el diseño de sistemas

que desempeñen una actividad similar a la que llevan a cabo los vigilantes humanos en

tareas de vigilancia [Albusac, 2009].

El concepto videovigilancia inteligente, implica el uso de sistemas informáticos

para el análisis de los escenarios y la detección automática de eventos, objetos y

personas así como la observación de comportamientos. Este tipo de sistemas utilizan

técnicas pertenecientes al área de la Inteligencia Artificial y al de Visión por Computadora

[Ai2, 2011]. Las técnicas y métodos pertenecientes al área de Visión por Computadora

permiten a cualquier sistema artificial captar un entorno real de una forma similar a como

lo hacen los vigilantes humanos mediante el sentido de la vista. Por otro lado, las técnicas

pertenecientes al área de la Inteligencia Artificial permiten representar y adquirir el

conocimiento necesario para identificar los eventos que se producen en el entorno

vigilado, todo ello para una posterior activación de alarmas si fuera necesario [Albusac,

2009].

Caracterización Visual de Movimientos “Sospechosos” de Personas en Estacionamientos

2

Tomando en cuenta lo citado en párrafos anteriores, en los estacionamientos

existe la necesidad de adoptar tecnologías que utilicen algoritmos que permitan hacer una

detección anticipada y automática de movimientos de personas caracterizados

sospechosos que pudieran dar lugar a un daño o robo vehicular.

Por lo tanto, en este trabajo de tesis se desarrolló e implementó un sistema de

Visión Artificial que lleva a cabo la detección y seguimiento de personas en entornos

vigilados, capaz de realizar la caracterización de cinco movimientos sospechosos los

cuales son: correr, levantar una o ambas manos, merodear, agacharse y acostarse.

1.1 Antecedentes del proyecto

A continuación, se presenta una breve descripción de los trabajos de investigación

desarrollados en el Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET)

sobre la caracterización visual de movimientos de personas.

La tesis “Seguimiento y Caracterización del Comportamiento de Varios Objetos en

Movimiento” [Toscano, 2011] consiste en el desarrollo de un sistema de Visión Artificial

que realiza la detección, seguimiento y caracterización del comportamiento de varios

objetos en movimiento en ambientes poco controlados, este trabajo hace uso de

algoritmos implementados en el entorno para el análisis del conocimiento de la

Universidad de Waikato (Weka) [1]. Los movimientos aquí propuestos son: caminar correr

y levantar manos.

En la tesis “Caracterización automática de una muestra de acciones en video”

[Dávila, 2009] se desarrolló un sistema de visión artificial capaz de detectar, seguir,

caracterizar y cuantificar de manera automática los movimientos presentados por distintas

partes del cuerpo humano (cabeza, manos y brazos) en movimiento al realizar las

acciones de visualizar, aproximarse y tocar una zona específica con el fin de obtener una

descripción numérica de las características más importantes de estas acciones.

Finalmente, en la tesis “Caracterización de imágenes en movimiento: Correr y

caminar” [Saldaña, 2007], se diseñó un sistema, apoyado en el uso de técnicas de Visión

Artificial, que realiza la caracterización automática de dos acciones: correr y caminar,

considerando una vista lateral del sujeto. Para lo cual se lleva a cabo un procesamiento y

análisis de una secuencia de imágenes en dos dimensiones, aquí se creó una base de

videos que contiene la información para caracterizar dichas acciones y esto le permitió

lograr patrones de posición de las partes del cuerpo al realizarlos.

Capítulo I. Introducción

3

Estos trabajos presentan interesantes metodologías para realizar la detección y

seguimiento de personas y para la caracterización de movimientos; sin embargo, son

enfocados principalmente a escenarios donde los únicos objetos en movimiento real son

personas, además la adquisición de imágenes es a una altura no mayor a la altura

promedio de una persona, teniendo como ventaja la poca variación del tamaño de las

personas.

El presente trabajo de tesis a diferencia de los anteriores, es enfocado a

escenarios en donde los objetos en movimiento pueden ser coches y personas

principalmente; además, debido a que está enfocado al contexto de videovigilancia las

secuencias de imágenes se adquirieron desde una altura superior a la de los objetos en

movimiento, por lo que la cámara tiene gran un campo visual en el cual las personas

pueden estar cerca o lejos de la ubicación de la misma. Por tal motivo, se utilizó un

algoritmo basado en reglas que permite clasificar a los objetos de primer plano como

personas o no personas en base a su tamaño, considerando la perspectiva de la cámara.

Otra diferencia es que se abordan tres movimientos poco tratados en el estado del arte:

merodeo, agacharse y acostarse.

1.2 Descripción del problema y objetivo de la tesis

En el área de la videovigilancia, los sistemas de visión están formados por un conjunto de

cámaras de video que envían la señal a un centro de control, donde los vigilantes

humanos son los responsables de analizar la información visual, es decir observar el

comportamiento de las personas que participan en la escena y detectar eventos

inseguros. El problema de este proceso es, que los videos son largos y, en su mayor

parte aburridos, ocasionando que el vigilante desatienda a los monitores.

Por estos motivos, surge la necesidad de desarrollar sistemas de videovigilancia

inteligentes capaces de realizar automáticamente la detección y seguimiento de personas

para poder extraer información espacio-temporal para caracterizar movimientos

sospechosos. Sin embargo, existen diferentes factores que intervienen para lograr esta

tarea, tales como: la iluminación, ruido, oclusiones de partes del cuerpo, traslapes entre

objetos, segmentación poco precisa de objetos de interés e incluso el mismo movimiento.

Además, normalmente en la realidad no sólo se presenta un sólo objeto en movimiento

sino varios, para estos tipos de casos la complejidad del problema aumenta [Toscano,

2011]. Tal es el caso de los estacionamientos, donde participan tanto vehículos como

personas, por lo que es necesario el uso de algoritmos de clasificación de objetos que

consideren además la perspectiva de la cámara.


4

Por tal motivo, el objetivo principal de esta tesis es desarrollar un sistema de Visión

Artificial que realice dos tareas principales, la primera: hacer la detección y seguimiento

de personas y la segunda, tener la capacidad de caracterizar cinco movimientos

sospechosos (correr, levantar una o ambas manos, merodear1, agacharse y acostarse) en

secuencias de imágenes pertenecientes a un estacionamiento externo.

En las especificaciones iniciales se planteó trabajar con videos en los que

participara una sola persona, pero fue posible realizar el seguimiento a múltiples

personas; es decir, se realiza el seguimiento a todos aquellos objetos que fueron

validados como personas. Por lo tanto, también es posible realizar la caracterización de

movimientos de más de una persona a la vez. Sin embargo, debido a que el seguimiento

se realiza asociando dos personas en cuadros consecutivos tomando en cuenta

únicamente la distancia de desplazamiento, en los casos en que exista traslape o cruce

de personas durante sus trayectorias, el resultado del seguimiento puede que sea errado,

ya que no se hace la detección de puntos destacados para realizar la diferenciación entre

objetos.

Debido a que la caracterización del movimiento merodear depende directamente

de la fase de seguimiento, dicha caracterización está supeditada a no confundir la

persona durante una oclusión2 o cruce.

En cuanto al movimiento correr, sólo es posible realizar la caracterización en

bancos de videos donde se presentan los movimientos caminar y correr, ya que se

determina la distancia de desplazamiento promedio que represente a la acción caminar, si

dicha distancia se supera, la caracterización correspondería al movimiento correr. Por lo

tanto, también influye el factor perspectiva, es decir, este método resulta ineficaz en

videos en donde el tamaño de las personas tenga una variación considerable. Por tales

motivos, las pruebas de la caracterización del movimiento correr se realizó en bancos de

videos donde los escenario son poco complejos y con ambiente controlado, las

grabaciones fueron a una altura no mayor a la altura promedio de una persona, evitando

con esto que la cámara tenga perspectiva.

Los principales beneficios ofrecidos con el desarrollo de esta tesis son:

1 Vagar por las inmediaciones de un algún lugar.

2 Una oclusión se produce cuando un objeto no es visible total o parcialmente debido a que otro

objeto se interpone entre éste y la trayectoria de la cámara.

Capítulo I. Introducción

5

1. Se realiza la caracterización de tres movimientos poco tratados en el estado del

arte: merodear, agacharse y acostarse.

2. Se implementó un algoritmo de clasificación de objetos como personas invariante

a perspectiva de la cámara basado en reglas de tamaño.

3. Se realiza la segmentación, seguimiento y localización de las partes del cuerpo de

interés, bajo distintas condiciones de iluminación.

4. Se lleva a cabo el seguimiento de todos los objetos validados como personas

presentes en la escena.

5. La obtención de un conjunto de reglas aplicadas a las propiedades geométricas y

de forma para la caracterización de los movimientos propuestos.

1.3 Metodología de solución

La metodología propuesta para la solución del problema involucra las siguientes

actividades:

1. Estudio del estado del estado del arte. Analizar los trabajos relacionados con:

a) Detección de objetos.

b) Seguimiento de personas.

c) Caracterización de movimientos de personas.

2. Adquirir bases de videos públicas. Descargar bases de videos disponibles en

internet para desarrollar un sistema de visión que pueda ser comparable con

trabajos relacionados en el estado del arte.

3. Crear una base de videos propia. Tener un banco de videos específicamente de

un estacionamiento externo que contengan los movimientos de interés.

4. Estudiar y seleccionar técnicas de procesamiento digital de imágenes.

5. Diseñar una solución. Crear un diagrama de flujo para procesar los videos y

obtener los resultados esperados.

6. Implementar la solución. Codificar la solución en algún lenguaje de programación.


6

7. Desarrollar un plan de pruebas. Someter el prototipo a pruebas para validar los

procedimientos propuestos y corroborar el cumplimiento de los objetivos de esta

tesis.

8. Analizar los resultados de las pruebas. Obtener conclusiones a partir de la

solución propuesta y del desempeño de la implementación.

1.4. Organización de la tesis

Este documento de tesis se compone de 7 capítulos, además de las referencias. Éstos se

organizan de la siguiente forma.

En el capítulo 2 se presenta una revisión de trabajos relacionados con las tareas

de detección, seguimiento y caracterización de movimientos de personas.

En el capítulo 3 se analiza y diseña la metodología que da origen a la solución del

problema.

En el capítulo 4 se describen los métodos y técnicas utilizadas para llevar a cabo

la detección, seguimiento y la caracterización de movimientos de personas.

En el capítulo 5 se describe el análisis, diseño e implementación del sistema.

En el capítulo 6 se presentan las pruebas realizadas al sistema desarrollado con la

finalidad de conocer el rendimiento y efectividad del mismo.

En el capítulo 7 se exponen los comentarios finales, aportaciones y trabajos

futuros.

7

Capítulo II Estado del Arte

En este capítulo se presenta un estudio y análisis de trabajos relacionados, donde se

describen los conceptos, enfoques y la arquitectura de un sistema de visión artificial y de

sistemas de videovigilancia inteligente. Además se observó y analizó la forma en que

abordan y dan solución a las tareas de detección, seguimiento y caracterización de

movimientos de personas, las metodologías y técnicas que emplearon así como de los

resultados obtenidos.

2.1 Arquitectura de un Sistema de Videovigilancia Inteligente

Normalmente, los Sistemas de Videovigilancia Inteligente disponen de una

arquitectura multicapa. Cada capa de la arquitectura desempeña una función bien definida

y genera una serie de resultados que sirven como flujo de entrada para las capas

superiores. En [Valera, 2005] y [Wang, 2004] se realizan dos propuestas interesantes

sobre las etapas o fases de las que debería constar un SVI. En [Albusac, 2009] se

presenta un esquema que unifica las fases propuestas por los diferentes autores (ver

Figura 2.1), además, ofrece una descripción detallada de las etapas que aquí participan.

Figura 2.1. Posible secuencia de etapas que podrían formar parte de la arquitectura de un sistema de vigilancia inteligente [Albusac, 2009].

Modelado

del entorno

Detección de objetos

(segmentación)

Clasificación de

objetos

Seguimiento de los

objetos

Interpretación de comportamientos

y eventos

Fusión de información de

múltiples

sensores

Toma de

decisiones

Gestión de

crisis

Recuperación de contenido

multimedia

1 2 3 4 5


8

1. Modelado del entorno: La primera fase, o fase de modelización [Wang, 2004],

consiste en definir los elementos o actores que pueden participar en el entorno, así

como sus propiedades y las principales relaciones que existen entre éstos y el

entorno.

2. Detección de objetos: En esta etapa se pretende obtener los objetos o regiones

que se encuentren en movimiento, esto como resultado de la sustracción de fondo.

La forma en la que los objetos móviles son detectados puede variar en gran

medida en función del tipo de sensores instalados.

3. Clasificación de objetos: Normalmente, los sistemas de seguridad se centran en

el estudio de los comportamientos de personas y vehículos, que suelen ser los

elementos con capacidad de movimiento. La clasificación de objetos en un entorno

vigilado es considerada como un problema clásico de reconocimiento de patrones,

en donde se estudia la pertenencia de un objeto a una clase a partir de un

conjunto de características, que son proporcionadas en gran parte por los

sensores de vídeo y audio.

4. Seguimiento de objetos: El siguiente paso a la identificación y clasificación de un

objeto, es el seguimiento del mismo hasta que este deja de ser percibido por la red

de sensores instalada en el entorno vigilado. Este proceso determina la posición

en la que se encuentra un objeto en cada instante de tiempo, también es conocido

como tracking. Este proceso es un requisito fundamental para la siguiente capa, ya

que sin la evolución temporal de los objetos, ésta sería incapaz de interpretar

comportamientos complejos. Es decir, sin la evolución temporal de los objetos tan

sólo es posible obtener conclusiones referentes a eventos simples que se

producen en instantes concretos de tiempo [Albusac, 2009].

5. Interpretación de comportamientos y eventos: A partir de la información

obtenida en las etapas anteriores, el sistema de vigilancia debe intentar reconocer

los comportamientos y eventos que suceden en el entorno observado. El

comportamiento de un objeto viene dado por una simple acción o evento que se

produce en un instante concreto, o bien por una secuencia de acciones simples a

lo largo del tiempo. Si el comportamiento es complejo se representa mediante una

secuencia de acciones, las cuales siguen un orden determinado y cumplen una

serie de restricciones temporales. Por tanto, para que un sistema artificial pueda

reconocer comportamientos complejos, es necesario que éste identifique las

acciones simples cuando suceden y estudiar las relaciones temporales que existen

entre ellas. La principal problemática de esta etapa es la fuerte dependencia que

Capítulo II. Estado del Arte

9

existe con las etapas anteriores. Una clasificación errónea de un objeto o una

reproducción equivocada de su trayectoria derivaría, casi con toda seguridad, en

una interpretación inapropiada de su conducta.

6. Fusión de información de múltiples sensores: Opcionalmente, la capa de

razonamiento e interpretación de comportamientos puede incluir la posibilidad de

fusionar la información que proviene de múltiples sensores. Esta fusión puede

proporcionar grandes beneficios como por ejemplo la eliminación de ruidos y

distorsiones, tratamiento del problema de la oclusión.

7. Toma de decisiones y gestión de crisis: La toma de decisiones en una situación

de crisis es un aspecto muy delicado que puede afectar a la integridad de las

personas que habitan en el entorno observado. Por esta razón y debido a que las

propuestas en esta etapa no han alcanzado un nivel de madurez suficiente, la

amplia mayoría de instituciones que disponen de un sistema de seguridad

prefieren que las decisiones las tome un experto humano en colaboración con el

sistema.

8. Recuperación de contenido multimedia: En esta última etapa se podría

encuadrar una actividad demandada frecuentemente, tanto por el personal de

seguridad de la institución donde está implantado el sistema, como por las fuerzas

de seguridad del estado: recuperación de datos multimedia para reproducir los

sucesos pasados, los cuales han servido como prueba válida en multitud de

juicios.

El análisis de la arquitectura de un Sistema de Videovigilancia Inteligente, resultó

ser de gran ayuda, ya que se consideró como referencia para establecer el flujo de

actividades que se siguieron en el desarrollo del presente trabajo de tesis.

2.2 Arquitectura de un Sistema de Visión Artificial

En la implementación de un sistema para la caracterización visual de imágenes en

movimiento es necesario realizar una serie de etapas en las cuales se destacan la

segmentación, el seguimiento de las partes del cuerpo y su caracterización. Estas

actividades pertenecen a la arquitectura de un Sistema de Visión Artificial (SVA), que

consiste en extraer información de movimiento de interés en la escena, empleando

técnicas de Procesamiento Digital de Imágenes (PDI). La figura 2.3 muestra un diagrama

de bloques de un SVA y la descripción correspondiente en cada etapa de acuerdo con

[González, 1996].


10

El procesamiento digital de imágenes comprende un amplio rango de hardware,

software y recursos teóricos; según [González, 1996] un sistema de visión artificial cuenta

con seis módulos los cuales van desde la adquisición de la imagen(es) hasta la

interpretación de un resultado, mismas que se describen a continuación

a) Adquisición de la imagen: Conjunto de operaciones que se efectúan para

transformar la información luminosa de una escena en una señal digital. Para ello

se necesita un sensor de imágenes y la posibilidad de digitalizar la señal producida

por el sensor. Este proceso permite almacenar una escena (imagen) en memoria o

disco de forma digitalizada.

b) Preprocesamiento. La función básica del preprocesamiento es la de mejorar la

imagen de forma que se aumenten las posibilidades de éxito en los procesos

posteriores. Este proceso trata típicamente las técnicas de optimizar el contraste,

eliminar el ruido y aislar regiones cuya textura indica la probabilidad de información

alfanumérica.

c) Segmentación. De manera general, la segmentación consiste en dividir una

imagen en sus partes constituyentes u objetos, con cierto sentido. En general, la

segmentación autónoma es una de las labores más difíciles del tratamiento digital

de imágenes. Por una parte, un procedimiento de segmentación demasiado tosco

dilata la solución satisfactoria de un problema de procesamiento de imágenes. Por

otra parte, un algoritmo de segmentación débil casi siempre garantiza que tarde o

temprano habrá un fallo.

Resultado

Escenas 3D Adquisición de Imágenes

Preprocesado

Segmentación Representación y Descripción

Reconocimiento

e

Interpretación

Base de

Conocimiento

Figura 2.2. Etapas fundamentales del procesamiento digital de imágenes [González, 1996].


11

A la salida del proceso de segmentación habitualmente se tienen los datos

de píxel en bruto, que constituyen ya sea el contorno de una región o bien todos

los puntos de una región determinada. En cada caso es necesario convertir los

datos a una forma adecuada para el procesamiento por computadora. La primera

decisión que hay que tomar es, si los datos se han de representar como un

contorno o como una región completa.

d) Representación y Descripción. También denominada selección de rasgos,

consiste en extraer rasgos con alguna información cuantitativa de interés o que

sean fundamentales para diferenciar una clase de objetos de otra.

e) Reconocimiento e Interpretación. El reconocimiento es el proceso que asigna

una etiqueta a un objeto basándose en la información proporcionada por sus

descriptores. La interpretación implica asignar significado a un conjunto de objetos

reconocidos.

f) Base del conocimiento. Contiene información del dominio del problema. Este

conocimiento puede ser simple o complejo. Ayuda a guiar la operación de cada

etapa y contribuye a que éstas puedan retroalimentarse e interactuar entre sí.

Como bien ya se mencionó, en un SVI intervienen principalmente las áreas de Visión

por Computadora e Inteligencia Artificial, dichas áreas ofrecen técnicas que en conjunto

dan el resultado objeto de un SVI. De lo anterior, la importancia del análisis de la

arquitectura de un Sistema de Videovigilancia Inteligente y la de un Sistema de Visión

Artificial.

2.3 Recopilación y estudio del estado del arte

En esta sección se hace referencia y descripción algunos trabajos relacionados con las

tareas de detección, seguimiento y caracterización de movimientos de personas.

2.3.1 Detección y Seguimiento de Objetos

Análisis de comportamiento humano: Metodología para localización y

seguimiento de personas en secuencias de video [Realpe, 2009]

Este artículo presenta una técnica para la detección y seguimiento de personas en

movimiento a partir de secuencias de video. La detección de objetos en movimiento es

obtenida usando algoritmos de diferencia temporal y sustracción de fondo. El proceso de


12

detección de personas es el siguiente; cada nueva imagen del video es analizada para

clasificar los píxeles que representan al fondo o a un objeto en movimiento. Para

determinar los objetos en movimiento se realiza la diferencia absoluta entre la imagen de

fondo y la nueva imagen del video. Las regiones resultantes son consideradas como

objetos en movimiento y finalmente, representadas por medio de siluetas. Un proceso de

filtrado a través de operadores morfológicos es aplicado a los objetos detectados a modo

de eliminar el ruido y generar únicamente siluetas de movimiento representando a

personas.

Para el proceso de seguimiento se extraen dos grupos de puntos de interés desde

las siluetas obtenidas, el primero se define como los puntos extremos del cuerpo humano

(cabeza y extremidades) junto con el centroide, y el segundo grupo son los puntos

óptimos para realizar el seguimiento. Posteriormente un algoritmo de seguimiento basado

en características es aplicado. Al final del procedimiento se obtiene un listado que

representa el desplazamiento de ambos grupos de puntos a través del tiempo, el cual

puede servir para realizar la interpretación de acciones o actividades humanas.

Detección de objetos móviles en una escena utilizando flujo óptico [Mora,

2009]

En este artículo se presenta un algoritmo que permite detectar objetos móviles a partir de

la estimación del flujo óptico e información a priori del tipo de objeto. La estimación del

flujo óptico es realizada utilizando una implementación piramidal del algoritmo de Lucas y

Kanade sobre un conjunto de puntos específicos. Los puntos que presentan movimiento

son detectados y agrupados de acuerdo a la distancia, velocidad e información a priori.

El algoritmo aquí propuesto parte de las siguientes presunciones: un número

mínimo de puntos de interés son ubicados sobre el objeto en movimiento, el contraste

entre el objeto y el fondo permite percibir su desplazamiento, el desplazamiento entre

puntos pertenecientes a un mismo objeto es similar y se cuenta con información a priori

del objeto a detectar. Dado que la estimación del flujo óptico permite determinar la nueva

localización de los puntos de interés, los puntos pertenecientes a un objeto rígido en

movimiento, deben presentar valores similares de velocidad (magnitud y dirección del

vector de flujo óptico). Así mismo la distancia euclidiana de puntos pertenecientes a un

mismo objeto debe ser pequeña y la distribución de los puntos debe satisfacer las

condiciones geométricas definidas a priori.


13

Robust tracking by-detection using a detector confidence particle filter

[Breitenstein, 2009]

En este artículo el objetivo consiste en realizar automáticamente la detección y

seguimiento de un número variable de personas en escenas complejas. Se hace uso del

método secuencial de Monte Carlo mejor conocido como filtro de partículas, el cual ofrece

un marco de trabajo para la representación de la incertidumbre del seguimiento de

manera Marcoviana por considerar únicamente marcos pasados.

El enfoque propuesto inicializa y separa una partícula del filtro por cada persona

detectada con alta confianza. Para resolver la asociación de la información de las

detecciones finales fiables y el seguimiento en cada cuadro, el enfoque evalúa una

función de puntuación integrando un clasificador entrenado, la distancia del seguimiento

meta y una función probabilística que representa el tamaño del destino, dirección del

movimiento y la velocidad. Si una detección final es clasificada como fiable en base a la

función, esta es usada principalmente para guiar la partícula de la asociación del

seguimiento. De lo contrario, la continua confianza del detector de la clase y los

clasificadores de instancias específicas son usados. Finalmente el algoritmo calcula la

función de observación de verosimilidad por cada partícula del filtro usando la asociación

de las detecciones, la salida intermedia del detector, y la evaluación del clasificador por

cada localización de la partícula.

2.3.2 Caracterización de movimientos de personas

Human Action Recognition using a Hybrid NTLD Classifier [Rani, 2010]

En este trabajo se propone un clasificador híbrido para el reconocimiento de acciones

humanas, en diferentes contextos. Dicho clasificador es denominado NTLD, por sus siglas

en inglés (Neural Tree with Linear Discriminant nodes NTLD), árbol neuronal con nodos

de discriminación lineal, cuyos nodos pueden ser perceptrones simples o clasificadores de

discriminación lineal recursiva (RFLD), para el reconocimiento de diferentes acciones

humanas.

Como primer paso se obtiene la silueta de las personas en cada cuadro del video

a través de un método de sustracción de fondo, una vez que se obtiene la silueta se

calcula el esqueleto del objeto en movimiento. La idea de utilizar el esqueleto de siluetas

es: que cualquier acción puede ser considerada como una función de cambio en la forma

y la posición del objeto en imágenes consecutivas. Por lo tanto, de este proceso se


14

obtiene un vector función que describe una acción, mismo que se utiliza como entrada

para el clasificador propuesto.

En la fase de clasificación, un patrón o vector función comienza a recorrer el árbol

desde el nodo raíz moviéndose a través del árbol en forma top-down (de arriba hacia

abajo), adoptando el camino sugerido por la clasificación dada. Cuando un nodo hoja se

alcanza, el patrón se clasifica en base a la etiqueta de este nodo.

Aprendizaje de reglas difusas para la clasificación de comportamientos en

un sistema de videovigilancia cognitiva [Albusac, 2007]

En este artículo el autor presenta el diseño de un componente para el análisis de

normalidad basado en lógica difusa denominado como componente de normalidad difuso,

cuyo objetivo principal es la generación de reglas difusas que permitan clasificar los

eventos de una escena; a partir de las relaciones espaciales que existen entre los objetos

móviles y las zonas. Clasifica los eventos simples a partir de un conjunto de reglas difusas

generadas por un algoritmo de aprendizaje inductivo. El motor de inferencia, a partir de

las reglas obtenidas, tiene capacidad para determinar qué clases de objetos pueden

invadir ciertas zonas y en qué grado.

Su procedimiento consiste en integrar dicho componente en un sistema de

vigilancia cognitivo basado en técnicas de softcomputing, con una arquitectura dividida en

tres niveles. En el primer nivel, se encuentran los sensores encargados de capturar el

entorno y los algoritmos de visión que realizan la segmentación y el seguimiento de los

objetos. En el segundo nivel se analizan los eventos que se producen en una escena y se

determina si estos son normales o anormales.

The model-based human body motion analysis system [Chang, 1999]

En este trabajo, se propone un método basado en modelos para analizar el movimiento

humano. Este sistema consta de tres fases: la fase de pre-procesamiento, la fase de

construcción de modelos, y la de análisis de movimiento. Las principales contribuciones

son: (1) desarrollo de un método basado en esqueleto para analizar el movimiento

humano, (2) Se describe el tipo de movimiento mediante el uso de un modelo oculto de

Markov (HMM) y los patrones de postura.


15

Para realizar el seguimiento de los parámetros de movimiento, se centran en la

estimación de movimiento de las articulaciones de los segmentos corporales entre

fotogramas consecutivos. Para el reconocimiento de la actividad humana, consideran dos

métodos: el enfoque de correspondencia de plantilla y el enfoque de espacio de estado.

La desventaja de hacer coincidir la plantilla es su sensibilidad a la variación de la duración

del movimiento. Para evitar este problema, el enfoque de espacio de estado se define

cada postura estática como un estado. Estos estados están conectados por ciertas

probabilidades, cualquier secuencia de movimiento se traduce en una secuencia de

estados. Después de analizar el movimiento en secuencia de imágenes, se pude convertir

a una secuencia de modelo de estado, que puede ser descrita por un camino trazado en

el gráfico de la postura, llamada transición de postura.

Unsupervised learning of human action categories using spatial-temporal

words [Niebles, 2007]

Se propone un modelo para aprender y reconocer las acciones humanas en video,

usando la representación de los puntos de interés espacial-temporal y un enfoque de

aprendizaje no supervisado. El aprendizaje no supervisado se logra mediante la obtención

de parámetros de acción en la secuencia de vídeo no segmentado y sin etiqueta, que

contienen un número conocido de las clases de la acción humana.

Las aportaciones son: 1) un enfoque de aprendizaje no supervisado de las

acciones humanas usando una bolsa de palabras. 2) El método puede localizar y

clasificar múltiples acciones simples y complejas, de manera simultánea, en una misma

secuencias de imágenes. Esto incluye, los casos en que varias personas están realizando

acciones distintas al mismo tiempo, y también situaciones en las que una sola persona

está llevando a cabo distintas acciones a través del tiempo.

Action recognition by learning mid-level motion features [Fathi, 2008]

En este trabajo se presenta un enfoque para el reconocimiento de la acción basada en las

características de movimiento de nivel medio. La detección de movimiento lo hacen

usando flujo óptico. Para el reconocimiento se centran en las regiones locales de la

secuencia de imágenes obtenidas usando una variante del AdaBoost. Dichas

características se ajustan para discriminar entre diferentes clases de acciones, y son

eficientes para calcular en tiempo de ejecución. Las acciones que se reconocen son

caminar, correr y palmar.


16

Uno de los enfoques empleados se basa en las características que describen la

figura humana en su totalidad y además otras características denominadas locales, tales

como manos, pies o codos. Dichas características tienen la ventaja de ser robustas en el

desorden y tolerantes a la deformación global debido a las diferentes formas del cuerpo y

puntos de vista. El método empleado para el reconocimiento de la acción utiliza una

"figura centrada", obtenida mediante la ejecución de un sistema de detección/seguimiento.

2.4 Comentarios

Con el paso del tiempo el uso de sistemas de videovigilancia crece exponencialmente,

debido a la demanda y la aparición de soluciones cada vez más sofisticadas. Sin

embargo, la Videovigilancia Inteligente es un tema de estudio abierto, ya que la

identificación de comportamientos normales/anormales por computadora no es una tarea

sencilla, es un proceso de análisis de alto nivel, que requiere de interpretar y reconocer

acciones o actividades de los seres humanos, a través de la observación de una

secuencia de video [De León, 2012].

En el estudio y análisis del estado del arte destacan los siguientes puntos:

Las diferentes propuestas para la mejora de los sistemas de seguridad provienen

tanto del ámbito académico como del comercial, aportando nuevas técnicas y

soluciones para conseguir mejores resultados en la detección, seguimiento y

caracterización automática de movimientos de personas y objetos en movimientos.

En la mayoría de los trabajos relacionados siguen una metodología similar. Sin

embargo, no se puede hablar aún de una metodología madura, esto debido a que

intervienen diversos problemas para poder conseguir resultados favorables para

una gran gama de movimientos y en diferentes escenarios.

En cuanto a la caracterización de movimientos de personas, los trabajos

relacionados se centran en una cantidad acotada de movimientos. Además, estos

comúnmente trabajan con bases de videos de laboratorios en escenarios poco

complejos.

Los escenarios en que se trabajan existe el control del ambiente para erradicar

factores (como el fenómeno sombra) que afectan la segmentación y generan una

mala clasificación de objetos en movimiento.

17

Capítulo III Análisis del Problema y Propuesta de Solución

En este capítulo se analiza y diseña la propuesta de solución al problema planteado en el

presente trabajo de investigación.

3.1 Propuesta de solución De acuerdo al estudio del estado del arte en el capítulo 2, un Sistema Videovigilancia

Inteligente está compuesto por una serie de fases que siguen un orden de procesamiento

[Albusac, 2009], cada una de ellas genera un resultado que sirve como entrada para la

siguiente fase. Por lo tanto, la propuesta de solución en este trabajo de tesis, consta de

tres módulos principales (véase la figura 3.1), que a su vez se integran de sub-etapas.

Primer Módulo: Corresponde a la capa de bajo nivel. Las sub-etapas que lo

integran son: 1) Modelado y actualización de fondo, 2) Detección de objetos en

movimiento, 3) Filtro de tamaño, 4) Extracción de puntos de interés y 5) Seguimiento de

personas.

Figura 3.1. Secuencia de etapas de la propuesta de solución.

Módulo 1

Módulo 3

Módulo 2

Detección Seguimiento

Personas

Videos

Extracción de Puntos de Interés

Caracterización de Movimientos

Sospechosos de Personas

Descriptores de movimiento


18

Segundo Módulo: El primer módulo da como resultado la detección y seguimiento

de objetos en movimiento que se han identificado como personas; además, de la

localización de sus puntos de interés. Dicho resultado es la entrada para el módulo 2, que

se encarga de calcular medidas de relación (ubicación, distancias y ángulos) entre los

mismos; además, del análisis de su forma. Dicho nivel se compone por los algoritmos de:

1) Análisis y cálculo de propiedades geométricas y 2) Cálculo de descriptores de forma.

Tercer Módulo: En el último módulo se analizan y comparan los resultados

obtenidos en el módulo 2 con los valores y parámetros previamente especificados que

modelan cada uno de los movimientos a caracterizar (Correr, Levantar una o ambas

Manos, Merodear, Agacharse y Acostarse). Este módulo se compone de la sub-etapa de:

1) Caracterización de movimientos de personas.

Unificando los esquemas de cada uno de los módulos de la propuesta de solución,

la arquitectura general se representa como se muestra en la figura 3.2.

A continuación se realiza la descripción más detallada de cada una de las etapas.

Figura 3.2. Arquitectura del Sistema.

Módulo 1

Modelado y Actualización

de la escena

Detección de objetos de

primer plano

Filtro de

Personas

Seguimiento de Personas

Extracción de

Puntos de Interés

Módulo 2

Módulo 3 Caracterización de Movimientos

de Personas Resultado

Análisis y cálculo de

propiedades geométricas

Cálculo de descriptores de forma

Videos

Capítulo III. Análisis del Problema y Propuesta de Solución

19

3.1.1 Modelado y actualización de fondo Crear el modelo de fondo es una de las tareas más importante dentro de la fase de

segmentación por sustracción de fondo, ya que la segmentación se realiza mediante

comparaciones contra este modelo. En este trabajo se crea el modelo de fondo que

considera la evolución de la escena durante todo el video.

Modelado de Fondo

El modelo se crea utilizando el espacio de color RGB, en el cual están

representadas originalmente las imágenes del video. Como primer paso se toman los

primeros 50 cuadros del video (generalmente libre de objetos móviles), con el fin de poder

estimar la distribución estadística del fondo a partir de los valores observados. Por lo

tanto, a lo largo de este periodo no es posible detectar objetos.

La técnica utilizada es la moda de píxeles, por lo tanto se obtienen los tres valores

de RGB de todos los píxeles que componen la imagen, por último se eligen aquellos

valores que tengan mayor frecuencia de ocurrencia, de esta forma dichos valores

representarán a su respectivo píxel dentro de la imagen del modelo de fondo.

Actualización del Modelo de Fondo

Con el paso del tiempo, la escena inicial de fondo puede variar, ya sea por cambios de

iluminación o por objetos que han entrado o salido en dicha escena. Por tal motivo, se

lleva a cabo la actualización constante del modelo de fondo.

El método que se empleó en esta tarea es similar al método para realizar el

modelo inicial de fondo, es decir se hace uso de la técnica de la moda de píxeles. El

proceso para la actualización es el siguiente; después de haber construido el modelo de

fondo, éste se actualiza tomando el valor de cada píxel con mayor frecuencia de

ocurrencia en periodos de 50 cuadros. De esta forma se consigue una imagen de fondo

sin ruido de movimiento (estelas), con la propiedad de introducir gradualmente objetos

nuevos en la escena después de cierto tiempo de inmovilidad.

En la figura 3.3 se muestran 3 imágenes que representan el proceso de

actualización del modelo de fondo en el escenario perteneciente a un estacionamiento. En

la figura 3.3a pertenece a un cuadro de entrada de la secuencia de video, mismo que

emplea para el método de moda de píxeles. En la figura 3.3b se muestra el resultado del

modelo de fondo, donde se aprecia una imagen con poco ruido o estela originada por el

movimiento, este modelo se actualiza después de 50 cuadros; por lo que en la figura 3.3c


20

corresponde a la actualización del modelo de fondo, en este se puede observar que con el

paso del tiempo un coche va formando parte del fondo después de permanecer inmóvil.

3.1.2 Detección de objetos de primer plano En procesamiento digital de imágenes se entiende por detección de primer plano o de

foreground al conjunto de técnicas que tienen por objetivo detectar objetos en movimiento

que aparecen en la secuencia de video sobre la que se trabaja [Mateu, 2009].

Posterior a la creación del modelo de fondo y teniendo en cuenta su constante

actualización, este se toma como referencia para hacer la detección de objetos de primer

plano en la secuencia de video. Por lo tanto este módulo entra después de la etapa de

modelado de fondo.

En primer lugar las imágenes de entrada y la imagen que representa al modelo de

fondo son convertidas a modo escala de grises, posteriormente se realiza una diferencia

absoluta de imágenes. Esta consta de realizar la diferencia de valores de cada uno de los

píxeles de la imagen de frente (imagen actual) con sus respectivos píxeles de la imagen

de fondo (modelo de fondo). El resultado de este proceso es una imagen binaria, en la

que aparecen únicamente las regiones que se han detectado en movimiento.

3.1.3 Eliminación de sombras

Concretamente, el efecto de las sombras puede provocar, en determinadas situaciones, la

fusión de varios objetos independientes, distorsión de la forma del objeto detectado o

incluso la no detección de objetos debido a la proyección de una sombra sobre dichos

objetos [Cabrejas, 2010].

Figura 3.3. a) Imagen de entrada. b) Modelo de fondo. c) Actualización de fondo.


21

Las dificultades que presenta una correcta detección de sombras radican en que

tanto las sombras como los objetos que las proyectan comparten dos importantes

características: ambas modifican la escena y seguirán el mismo comportamiento. No

obstante, existen diversos métodos para reducir los efectos negativos que provocan las

sombras en movimiento durante la etapa de detección de objetos.

Por lo tanto, en este trabajo de tesis se realizó un estudio de los diferentes

algoritmos de detección de sombras, mediante del cual se eligió un algoritmo para

identificar y eliminar aquellos píxeles que pudieran pertenecer a sombra y que fueron

detectados como movimiento en la fase anterior.

La mayoría de los algoritmos de detección y eliminación de sombras en

movimiento desarrollados en la literatura se caracterizan por basarse en el modelo de

sombras descrito en [Stauder, 1990] y [Prati, 2001]. En [Cucchiara, 2001] se propone una

clasificación de algoritmos, tal y como se muestra en la figura 3.4, basándose en los

procesos de decisión desarrollados, y destacando las diferentes características que se

plantean para el análisis de la secuencia.

Figura 3.4. Clasificación de los algoritmos de detección de sombras basada en el proceso de decisión. En

primer lugar los enfoques se clasifican por medio de su enfoque estadístico o no estadístico. La sub-clasificación consta del tipo paramétrico o basados en modelos. Finalmente, cada enfoque puede ser identificado por las características espectrales, espaciales y temporales que presenten [Cucchiara, 2001].

Espectrales

Escala de

grises Espacio de

color

Espaciales

Local Región

Temporales

Estático Dinámico

No basados

en el modelo

Estadísticos Deterministas

Paramétricos No

Paramétricos Basados en el

modelo

Algoritmos de

detección de sombras


22

Del estudio de los algoritmos de detección y eliminación de sombras se eligió el

enfoque Determinístico no basado en el modelo (DNM) por sus siglas en inglés

(Deterministic Non-Model based). Dicho enfoque se basa en la aplicación de umbrales

sobre la reducción de intensidad y cromaticidad para evaluar si un determinado píxel se

encuentra en una región sombreada o no. En [Piccardi, 2001] se propone la aplicación de

este enfoque en el espacio de color HSV (Hue, Saturation, Value), el motivo por el cual se

inclinan por este espacio de color radica en que el comportamiento de dicho espacio

corresponde estrechamente con la percepción humana del color, y ofrece una mayor

precisión en la detección de sombras [Herodotou, 1998].

La etapa de detección y eliminación de sombras se realiza a los resultados de

la etapa de detección de objetos de primer plano, ya que sólo dichas zonas serán

consideradas. En la figura 3.5 se muestra un ejemplo de la pre-segmentación (diferencia

de imágenes), y el resultado de eliminación de sombras etapa de post-segmentación

utilizando el enfoque DNM.

Figura 3.5. Resultados de la primer etapa de segmentación (Imágenes de la Izquierda) y de la

eliminación de sombras etapa de post-segmentación con el enfoque DNM (Imágenes de la Derecha).


23

3.1.4 Operaciones morfológicas

Posteriormente, al resultado de la post-segmentación se le aplica la operación

morfológica denominada apertura, la cual puede definirse como una composición de las

funciones erosión y dilatación. Dicha operación es aplicada con la finalidad de reducir el

posible ruido que se presente y mejorar la forma de los objetos. Finalmente se realiza la

localización de los objetos de primer plano con la aplicación de la técnica de etiquetado de

componentes conexas, etiquetando y agrupando los píxeles que se encuentran conexos,

con esto se obtienen la ubicación y el área de los objetos en movimiento.

3.1.5 Validación de personas Después de haber obtenido la ubicación de todos los objetos de primer plano se procede

a ejecutar el algoritmo de la validación de personas, que consiste en analizar todos los

objetos en movimiento detectados en la fase anterior para determinar si es una persona o

no.

En esta fase para cada uno de los objetos en movimiento detectados, se compara

su área (tamaño) con dos umbrales (reglas de tamaño) para validar si es o no una

persona. El valor de dichos umbrales depende de la ubicación del objeto; si el área de un

determinado objeto cumple con ambos umbrales el objeto se clasifica como persona, si el

área no cumple con al menos uno de los umbrales, el objeto se define como no persona.

Sin embargo, en este procedimiento existe una problemática la cual se describe a

continuación.

Problemática en la validación de personas

En la validación de objetos de primer como personas en base a su tamaño,

interviene la relación entre la posición del objeto y la posición de la cámara; por lo tanto,

se debe considerar la distancia que existe entre el objeto y la cámara; es decir, se debe

considerar el factor perspectiva. Es importante considerar este factor, ya que el tamaño

del objeto de interés va a depender directamente de la distancia antes mencionada, a

mayor distancia menor tamaño (área), y viceversa, si el objeto está cerca de la cámara, su

tamaño será mayor.

El cambio de escala de los objetos en movimiento se origina debido a la altura con

la que son colocados los dispositivos de captura, la cual normalmente es una altura

superior a la altura promedio de una persona, permitiendo que la cámara tenga una

extensa cobertura de visualización. Por tal motivo, el desplazamiento de un objeto móvil

puede ser amplio y aún así permanecer dentro del campo de visión de la cámara,


24

originando la variación de las propiedades geométricas (área) de dicho objeto en

movimiento (véase la figura 3.6).

Por tales motivos, en este trabajo de tesis se utilizó un método denominado filtro

de tamaño, que atiende la relación entre el tamaño de la persona y su ubicación con

respecto a la cámara. Con este método se obtienen dos reglas que permiten validar un

objeto en movimiento como persona en base a su tamaño, considerando los aspectos

antes mencionados. Por lo tanto, se consigue detectar y por ende ignorar, regiones en

movimiento que sean demasiado pequeñas o grandes, cuyo tamaño no se ajuste al de

una persona.

El procedimiento del filtro de tamaño se describe en la sección 4.6, además, se

presenta un ejemplo del mismo en la sección 5.4, en el que se calculan las reglas de

tamaño para un escenario de la base de videos Caviar [5].

De esta forma se realiza la validación de objetos en movimiento como personas,

para los cuales se procede a realizar la localización de partes del cuerpo (puntos de

interés).

3.1.6 Extracción de puntos de interés Posterior a la validación de objetos en movimiento como personas, se procede a realizar

la extracción de puntos de interés, la cual consiste en localizar las extremidades del

cuerpo (cabeza, manos y pies) y centroide. Dichos puntos son la parte fundamental para

realizar la caracterización de los movimientos de caminar, correr, y levantar manos.

Para esta tarea se realizó un procedimiento similar al método usado en [Toscano,

2011]. El primer punto que se localiza es el centroide del cuerpo de la persona, para esto

Figura 3.6. Ejemplo de los efectos de perspectiva y cobertura de visualización de una cámara.


25

se necesita obtener la silueta de la persona en movimiento, que no es más que el borde

de la región que representa al objeto de interés, por lo que se utilizó la técnica de código

de cadena descrita en la sección 4.7. Posteriormente a la localización del borde la

persona se promedia los valores de las coordenadas de todos y cada uno de los píxeles

que pertenecen a la silueta de persona, tal como se muestra en la ecuación 3.1.

∑

∑

Donde:

(xc, yc) = Coordenada del centroide

Nb = Número de píxeles en la silueta

(xi, yi) = Coordenada de cada píxel de la silueta

El segundo punto a localizar es la cabeza, el cual se localiza tomando como

criterio que sea uno de los píxeles más alto del borde de la persona, que no esté más allá

de 1/10 (horizontalmente) de la altura total de la personas en cada lado con respecto al

centroide. Para la localización de las manos se toma como punto de partida el punto de la

cabeza, a partir de éste se realiza la búsqueda de los píxeles del borde que estén más a

la izquierda y más a la derecha, esta búsqueda se realiza hasta el centroide de la

persona. Los puntos resultantes representan a la mano 1 (mano derecha) y mano 2

(mano izquierda). En cuanto a la localización de los pies se toma como referencia el píxel

más bajo del borde, y en base al punto del centroide se determina si este píxel está a la

derecha o izquierda, a partir de esta información se localiza el primer pie (dependiendo

del lado que esté el píxel) realizando su búsqueda de abajo hacia arriba recorriendo la

silueta de la persona, posterior a la localización del primer pie este se ocupa para

encontrar el segundo pie de manera similar. En la búsqueda para cada uno de los pies

tiene un parámetro de parada, el cual depende de qué lado esté el píxel más abajo.

Las reglas utilizadas para la localización de la cabeza, pies y manos fueron el

resultado de un análisis de las dimensiones del cuerpo humano mencionado en [Toscano,

2011]. Otras de las reglas específicas empleadas se obtuvieron de la observación y

análisis del comportamiento de dichas extremidades durante la primera etapa de pruebas.

En la sección 5.4 se hace una descripción más detallada acerca de la localización de las

extremidades del cuerpo de la persona.

Para la representación gráfica de los puntos de interés se usa el modelo de

alambre, con el cual se unen las extremidades por medio de líneas rectas unidas al centro

(centroide) del cuerpo de la persona (véase la figura 3.7).


26

En la figura 3.7 se muestran resultados de la localización de partes del cuerpo de

la persona (extracción de puntos de interés). El centroide de la persona se representa con

un círculo de color rojo, la cabeza está representada por un círculo de color azul, para la

mano 1 (mano derecha) se representa con un círculo de color amarillo, la mano 2 (lado

izquierdo) está representada por un círculo de color azul, el pie 1 (pie derecho) se

representa con un círculo rosa y finalmente el pide 2 (pie del lado izquierdo) se representa

con un círculo de color negro.

3.1.7 Seguimiento de personas

Esta fase tiene como objetivo realizar el seguimiento de las personas detectadas. El

propósito del seguimiento radica en relacionar temporalmente la información obtenida en

el análisis de cada imagen y así caracterizar el movimiento del objeto en cuestión. Dicha

etapa está interrelacionada con la etapa de detección del movimiento durante todo el

proceso.

La técnica que se utilizó es la relocalización de regiones en movimiento, dicha

técnica depende de la tarea de extracción de puntos de interés, ya que se ocupa el punto

del centroide para realizar la relocalización de una persona en cuadros siguientes, en

segundo término se ocupa un radio de búsqueda, el cual consiste en una medida que se

obtuvo de un análisis en pruebas realizadas. Se concluyó que una persona difícilmente se

puede desplazar distancias mayores a su propia altura de un cuadro a otro, por lo que el

radio de búsqueda es equivalente a la altura de la persona.

De manera general el procedimiento es el siguiente; como primer paso se obtienen

y almacenan las coordenadas (x, y) del centroide de cada una de las personas detectadas

en el cuadro n y cuadro n+1. Finalmente, se calcula la distancia D entre los centroides de

los diferentes cuadros (distancia entre dos puntos). Si, dicha distancia es menor o igual a

Figura 3.7. Ejemplos de extracción de puntos de interés.


27

la altura de la persona (en el cuadro n) se dice que se ha relocalizado la misma persona

del cuadro n, ahora en el cuadro n+1 con una distancia desplazamiento D.

Problemática

La técnica de relocalización de regiones funciona correctamente siempre y cuando la

aparición de la persona sea constante en todos los cuadros. Sin embargo, esto no

siempre es posible, y un factor es la segmentación que no siempre es tan precisa.

Por tanto, para dar solución a este problema, durante el seguimiento se considera

una tolerancia de 10 cuadros en que una persona puede no ser detectada, respetando

que dicha persona esté dentro del radio de búsqueda para su relocalización. En la figura

3.8 se ejemplifica visualmente el procese de seguimiento.

3.1.8 Cálculo de descriptores geométricos y de forma Para la caracterización de los 5 movimientos de personas propuestos en este trabajo, se

calcula una serie de descriptores de movimiento y forma que aportan la información

necesaria para llevar a cabo dicha actividad.

Debido a la diferencia entre los movimientos a caracterizar, los descriptores son

diferentes para cada movimiento. En general los descriptores que se calculan son:

distancia, ángulo, ubicación y desplazamiento entre puntos de interés, además, para los

movimientos agacharse y acostarse, a la región completa se calcula el primer momento

invariante de Hu [Hu, 1962], como descriptor de forma.

Figura 3.8. Radio de búsqueda para la persona en el cuadro N+1.


28

A continuación se enlistan los 5 movimientos con sus respectivos descriptores

para su caracterización.

Correr:

Distancia entre centroides de una misma persona en cuadros consecutivos.

Levantar una o ambas manos:

Ubicación de las manos, para determinar si están por abajo o arriba de la cabeza.

Cálculo de las distancias entre Cabeza-Mano 1, y Cabeza-Mano 2.

Cálculo del Ángulo formado entre Cabeza-Mano 1, y Cabeza-Mano 2.

Merodear:

Contabilización de los cuadros del seguimiento de una persona.

Agacharse y acostarse:

Análisis de la evolución de la altura de la persona durante su seguimiento.

Utilizando el primer momento invariante de Hu [Hu, 1962].

3.1.9 Caracterización de movimientos El objetivo de este módulo es llevar a cabo la caracterización de los cinco movimientos

propuestos en el presente trabajo, correr, levantar una o ambas manos, merodear,

agacharse y acostarse. El proceso para realizar dicha tarea consta de la comparación y

evaluación de los descriptores de la fase anterior con respecto al modelo de cada acción.

A continuación se describe el proceso de caracterización para cada movimiento:

Correr La caracterización de este movimiento se realiza analizando la distancia entre centroides

de una misma persona en cuadros consecutivos. Por lo tanto, es necesario calcular la

distancia promedio entre centroides que represente la acción caminar, si durante el

seguimiento de una persona dicha distancia es mayor a la distancia promedio del

movimiento caminar, se dice que la persona está corriendo.

Es importante mencionar que, el criterio anterior surge del análisis de la notable

diferencia de las distancias entre centroides en cuadros consecutivos para los

movimientos caminar y correr (véase la figura 3.9a).


29

Debido al método empleado para la caracterización del movimiento correr, dicha

caracterización sólo se realizó en bases de videos que contienen los movimientos de

caminar y correr. Además, en dichos videos de prueba no presentan el factor de

perspectiva, ya que para estos casos la variabilidad del tamaño de las personas así como

su distancia de desplazamiento no permite realizar la caracterización de este movimiento.

Por lo tanto, para este movimiento en particular los bancos de videos utilizados en la

etapa de pruebas del sistema fueron aquellos descargados de internet, los cuales

presentan la característica de ser grabados a una distancia no mayor a la altura promedio

de una persona.

Levantar una o ambas manos En la caracterización de este movimiento es necesario especificar lo siguiente:

Mano 1: Extremidad superior izquierda de la región en movimiento.

Mano 2: Extremidad superior derecha de la región en movimiento.

A continuación se describe el proceso que permite determinar si una persona tiene a)

mano 1 levantada, b) mano 2 levantada o c) ambas manos levantadas.

Como primer paso, se determina si las manos están por arriba o debajo de la cabeza,

para ello se analiza la coordenada Y de las manos y de la cabeza. Posteriormente se

analizan los siguientes casos:

Caso 1: Si, una (ambas) mano(s) está(n) por debajo de la cabeza se calcula la

distancia entre el punto que representa a dicha mano y el punto de la cabeza, además, se

calcula el ángulo formado por la recta que une a estos dos puntos con respecto a la

horizontal. Si, la distancia es mayor o igual a un tercio (1/3) de la altura de la persona y el

ángulo formado es menor o igual a 20°, entonces se dice que la persona está levantando

manos (véase la figura 3.9b).

Caso 2: Para el caso que una (ambas) mano(s) esté(n) por arriba de la cabeza se

calcula únicamente la distancia que hay entre el punto representante de dicha mano y el

punto representante de la cabeza. Si, la distancia es mayor o igual a un tercio (1/3) de la

altura de la persona, se dice que la persona está levantando manos (véase la figura 3.9

b).


30

Merodear

Es conveniente mencionar que el movimiento de merodeo para este trabajo de tesis se

define como la presencia de una persona en la escena por más de n segundos (este valor

depende del escenario). Por lo tanto, la caracterización del merodeo depende totalmente

de la etapa de seguimiento.

El método empleado es como sigue: durante el seguimiento de una persona se lleva el

registro de la cantidad de cuadros consecutivos en que dicha persona ha sido detectada,

si esta cantidad supera el equivalente a n segundos (previamente establecidos) se dice

que la persona está merodeando (véase la figura 3.9c).

Agacharse y acostarse Como primer paso para la caracterización de los movimientos agacharse y acostarse, se

calculó el primer momento invariante de Hu [Hu, 62] a un conjunto de imágenes binarias,

que representan las acciones agacharse y acostarse. De este proceso se obtuvieron los

siguientes valores:

Movimiento agacharse

Primero Momento de Hu Mayor a 0.180 y menor a 0.230

Movimiento acostarse

Primero Momento de Hu Mayor a 0.500 y menor a 0.800

Por lo tanto, el procedimiento es el siguiente:

Para el movimiento Agacharse se analiza la evolución de la altura de la persona, si

durante el seguimiento su altura es menor o igual a dos tercios (2/3) de la altura inicial, se

procede a calcular el primer momento invariante de Hu. Posteriormente se compara el

valor obtenido, para determinar si éste está dentro del rango de valores que van de 0.180

a 0.230, si es así se determina la persona como agachada (véase la figura 3.9 d).

La caracterización del movimiento acostarse sigue la misma dinámica que se usa para

caracterizar cuando una persona se agachada. Se analiza la evolución de la altura de la

persona, si durante el seguimiento su altura inicial disminuye a la mitad (1/2), se procede

a calcular el primer momento invariante de Hu. Si el valor calculado está dentro del rango

de valores que van de 0.500 a 0.800 se determina la persona como acostada.


31

3.2 Comentarios En las etapas de detección y seguimiento de personas, interviene una gran gama de

factores, por lo que se consideran temas de estudio abiertos donde se sigue realizando

investigación para mejorar los resultados que hasta el momento se han conseguido. De

igual forma, en el presente trabajo de tesis se identificaron algunos problemas a los

cuales se intentó dar solución y mejorar la parte de segmentación y seguimiento de las

personas.

Para el problema de aparición de sombras, se implementó un método

determinístico no basado en el modelo por sus siglas en inglés DNM (Deterministic-Non

Based model) [Cucchiara, 2001], este emplea el espacio de color HSV para identificar los

píxeles candidatos a sombra e ignorarlos en la segmentación final. Cabe mencionar que,

debido a las diferentes condiciones de iluminación en los diferentes escenarios

considerados, los umbrales para la detección de sombras son diferentes.

Figura 3.9. a) Análisis de distancia entre centroides (caminar y correr). b) Cálculo de distancia y ángulo entre Cabeza y Mano 2. c) Ejemplo de contabilización de cuadros en el seguimiento de personas. d) Análisis de la variación de la altura de una persona al agacharse.


32

En cuanto a la validación de objetos como personas y no personas, debido a que

se emplea un filtro de tamaño, este se ve afectado por la distancia que hay entre la

ubicación de la persona y la ubicación de la cámara. Por lo tanto, se implementó un

algoritmo basado en una función discreta, el cual consta de una ecuación que considera

la ubicación de las regiones en movimiento, el área y la variación (incremento o

decremento) del área de acuerdo a su desplazamiento con respecto a la cámara

(acercamiento o alejamiento). De esta forma el resultado son 2 ecuaciones denominadas

filtro de tamaño, con las que se obtienen 2 umbrales que se emplean para discriminar

objetos que sean demasiado grandes o demasiado pequeños respectivamente. Para

realizar esta se requiere de un análisis manual de los diferentes escenarios de prueba

para obtener aquellas ecuaciones que clasifiquen a las regiones en movimiento como

personas o no personas en base a su área.

En lo respectivo al seguimiento, se emplea la técnica de relocalización de regiones

en movimiento, misma que depende directamente de los resultados de la etapa de

segmentación, si una persona es mal segmentada esta no aparecerá en los cuadros

siguientes, provocando un fallo en su relocalización. Como solución a este problema, se

considera una tolerancia de 10 cuadros en los que la persona puede no ser detectada.

33

Capítulo IV

Marco Teórico

Este capítulo trata del marco teórico, en donde se presenta una descripción de los

algoritmos y técnicas utilizadas en las etapas de la propuesta de solución. En la tabla 4.1

se listan las fases de la metodología con sus respectivas técnicas utilizadas,

posteriormente se realiza una descripción más detallada de cada una de ellas.

Tabla 4.1 Técnicas empleadas en las fases de la metodología de solución

No. Fases de la metodología de solución Técnicas utilizadas

1 Modelado y Actualización de la escena Moda de píxeles.

2 Detección de objetos de primer plano

Resta de imágenes.

Método DNM.

Espacios de color y

conversiones.

Operaciones morfológicas.

3 Validación de Personas Filtro de tamaño.

4 Extracción de Puntos de Interés Código de cadena.

Modelo de alambre.

5 Seguimiento de Personas Relocalización de regiones

en movimiento.

6 Caracterización de Movimientos de

Personas

Momentos invariantes de

Hu.


34

4.1 Moda de píxeles Entre las técnicas más simples para el mejoramiento de las imágenes se encuentran los

procesos punto a punto, los cuales se basan sólo en la intensidad de los píxeles

[González, 1996]. La moda es un procedimiento punto a punto utilizado en el presente

trabajo.

La moda es el valor con una mayor frecuencia de ocurrencia en una distribución de

datos, en este caso la moda de un píxel para el modelo de fondo, es el valor que ese

mismo píxel toma con mayor número de repeticiones dentro de las n imágenes de

muestra. Dicho lo anterior, se asume que para todas las imágenes de muestra cada píxel

se encuentra siempre en la misma posición, variando únicamente las intensidades. Esto

significa que los objetos de la escena y la cámara permanecen en reposo durante el

proceso la creación del modelo de fondo [Pajares, 2008]. Esta técnica presenta mayor

robustez en el modelado de fondo pero tiene la desventaja de requerir un mayor coste

computacional.

En la figura 4.1 se esquematiza la construcción del modelo de fondo con la moda

en los tres planos del RGB.

Figura 4.1. Modelado de fondo con la moda en el espacio de color RGB.

Capítulo IV. Marco Teórico

35

4.2 Diferencia de imágenes Existen diferentes métodos para hacer la detección de primer plano, uno de los más

simples es hacer una resta de imágenes o sustracción de fondo, en dicha operación los

píxeles que produzcan un resultado mayor a un umbral establecido, se clasifican como

píxeles en movimiento. Una imagen de diferencias D se obtiene para cada localización (x,

y) calculando la diferencia [Pajares, 2008]:

{

Donde:

D(x, y) = Diferencia de Imagen

I Act(x, y) = Imagen actual

I Back(x, y) = Imagen de fondo

Umbral = Umbral de movimiento

4.3 Método de eliminación de sombras, enfoque DNM

Una de las etapas fundamentales en la segmentación de objetos es el post-

procesamiento. Esto es en general necesario para la eliminación de ruido y otros

elementos inherentes a la escena, al modelo de segmentación fondo/frente utilizado y/o a

la cámara. Dentro de este post-procesamiento un aspecto interesante es la detección y

eliminación de las sombras producidas por los objetos.

El método aquí utilizado es con enfoque Determinístico no basado en el modelo

(DNM) [Cabrejas, 2010] por siglas en inglés (Deterministic Non-Model Based) sse basa en

la aplicación de umbrales sobre la reducción de intensidad y cromaticidad para evaluar si

un determinado píxel se encuentra en una región sombreada o no. Debido a que dicho

método se basa en el análisis de la cromaticidad de la imagen, para realizar este análisis

es necesario convertir la imagen (que normalmente está en RGB) al modelo de color HSV

y analizar por separado cada uno de los canales [Grana, 2001]. El canal V se utiliza como

filtro para determinar los píxeles candidatos como sombras. Para determinar un cambio

en la cromaticidad se calcula la diferencia entre las tonalidades (H) y las saturaciones (S)

de la imagen del fondo y la imagen de frente.

(4.1)


36

El proceso de decisión que se sigue para detectar si un determinado píxel se

encuentra en una región sombreada es el siguiente:

Donde:

It(x, y) = Píxel localizado en (x,y) en la imagen t-ésima (Imagen de Frente).

Bt(x, y) = Píxel localizado en (x,y) en la imagen t-ésima (Imagen de Fondo).

= Píxel localizado en (x,y) en la imagen t-ésima (Imagen de Frente) en los

canales H, S y V respectivamente.

= Píxel localizado en (x,y) en la imagen t-ésima (Imagen de Fondo) en los

canales H, S y V respectivamente.

𝜶, 𝜷, 𝝉S y 𝝉 = Son los umbrales de decisión utilizados.

Esta fórmula se basa simplemente en la determinación de umbrales que definen a las

sombras, diferenciándolas de los píxeles que efectivamente corresponden al objeto a

segmentar. La implementación de este algoritmo contempla dos etapas. En primer lugar,

es necesario realizar una conversión de color (imagen de frente e imagen del modelo de

fondo) del espacio RGB al espacio de color HSV. En segundo lugar, se realiza el proceso

de decisión comparando el fondo y la imagen de frente según los valores del píxel en los

tres canales: H (tonalidad), S (saturación) y V (brillo). La implementación de este proceso

de decisión se muestra en la figura 4.2.

Figura 4.2. Implementación del proceso de decisión para la supresión de sombras.

𝜷

|

| 𝝉

|

| 𝝉

(4.2)


37

La primera condición evalúa la diferencia absoluta entre la imagen de frente y la

imagen de fondo en el canal H (tonalidad), basándose en que la sombra proyectada sobre

un píxel no modifica su información de color o cromaticidad. La segunda condición evalúa

la diferencia en el canal S (saturación) entre la imagen de frente y la imagen de fondo,

siendo normalmente negativa para aquellos píxeles sombreados. La última condición

evalúa la luminancia del píxel (canal V brillo), que debe ser menor para aquellos píxeles

que se encuentren en regiones sombreadas.

4.4 Modelos de color y conversión de RGB a HSV El propósito de los modelos de color (también llamados espacios de color o sistemas de

color) es el de facilitar la especificación de los colores utilizando algún estándar.

Un modelo de color es una especificación de un sistema de coordenadas de tres

dimensiones y un sub-espacio dentro de dicho sistema donde cada color se representa

por un punto.

4.4.1 Modelo de color RGB

Este modelo está basado en la síntesis aditiva de las intensidades de luz relativas al rojo,

al verde y al azul para conseguir los distintos colores incluyendo el negro y el blanco. El

nombre del modelo RGB viene de las iniciales, en inglés, de esos tres colores: Red,

Green y Blue. La representación gráfica del modelo RGB se realiza mediante un cubo

unitario con los ejes R, G y B (ver figura 4.3). El origen (0, 0, 0) representa el negro y las

coordenadas (1, 1, 1) el blanco. Los vértices del cubo en cada eje R, G y B, de

coordenadas (1, 0, 0), (0, 1, 0) y (0, 0, 1) representan los colores primarios rojo, verde y

azul. Los restantes tres vértices (1, 0, 1), (0, 1, 1) y (1, 1, 0) al magenta, cian y amarillo

respectivamente, colores secundarios y respectivamente complementarios del verde, rojo

y azul. La diagonal del cubo representa la gama de grises desde el negro al blanco. En

esta diagonal cada punto o color se caracteriza por tener la misma cantidad de cada color

primario [Gonzales, 1996].


38

4.4.2 Modelo de color HSV El espacio HSV [Smith, 1978], representa uno de los espacios de coordenadas más

clásicos e intuitivos existentes en la literatura. Su interpretación geométrica viene

determinada por un cono de base quasi-hexagonal (figura 4.4). Con esta representación

del espacio de color, cada color trabaja con 3 componentes básicas: matiz, saturación y

brillo. El matiz (H), hace referencia al valor de cromaticidad o clase de color. La saturación

(S), se refiere a las longitudes de onda que suman a la frecuencia del color. Contra menos

saturado este un color más cantidad de blanco y contra más saturado este un color

menos cantidad de blanco. En definitiva, la saturación representa la pureza e intensidad

de un color. Así, la falta de saturación viene dada por la generatriz en la representación

del cono HSV. Esa falta de saturación representa la gama de grises desde el blanco hasta

el negro. La luminancia (V), se corresponde con la aparición subjetiva de claridad y

oscuridad.

Figura 4.3. Modelo de color RGB en el espacio 3D [Gonzales, 1996].

Figura 4.4. Representación del color HSV.


39

4.4.3 Conversión de RGB a HSV

Cuando se quiere representar una imagen en color con un espacio de color HSV, es

importante determinar cómo influyen las componentes de color de una cámara de video

RGB sobre el espacio HSV [Gil, 2004]. Así, el sistema HSV viene definido por:

{

(

)

(

)

(

)

4.5 Operaciones morfológicas

La erosión y la dilatación son las dos operaciones morfológicas básicas, la morfología se

refiere al estudio de las formas y de la estructura.

La morfología matemática emplea la teoría de conjuntos para representar las

formas de los objetos en una imagen. De este modo, las operaciones morfológicas se

pueden describir simplemente añadiendo o eliminando píxeles de una imagen binaria.

Desde el punto de vista de visión por computadora se denomina dilatación al

crecimiento de una región después de aplicar alguna máscara. La erosión es el proceso

de aplicar algún tipo de máscara a una imagen con el fin de eliminar información que se

encuentre aislada de posibles regiones. Para poder definir la dilatación y la erosión es

necesario recordar algunas operaciones básicas.

4.5.1 Erosión La operación morfológica de erosión es también denominada como reducción y tiene

como finalidad la simplificación de las estructura de los objetos. La erosión combina dos

conjuntos utilizando la sustracción de vectores, (ecuación 4) [Pajares, 2008].

(4.3)

(4.4)

(4.5)


40

XӨB = }

Esta expresión dice que cada punto d del conjunto X, que para este enfoque será

la imagen, es probado. El resultado de la erosión está dado por los puntos d para los

cuales todos los posibles d + b están en X [Pajares, 2008].

X = {(1,0), (1,1), (1,2), (0,3), (1,3), (2,3), (3,3), (1,4)}, B = {(0,0), (1,0)} XӨB = {(0,3), (1,3), (2,3)}

0 1 0 0 0 0 0 0 1 1 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 1 1 0 0 0 0

a) b) c)

4.5.2 Dilatación La transformación morfológica de la dilatación también es denominada de relleno o

crecimiento. Esta trasformada combina dos conjuntos utilizando la adición de vectores

como lo indica la ecuación 5 [Pajares, 2008].

X⨁B =

La dilatación X⨁B es el conjunto de puntos de todas las posibles adiciones

vectoriales de pares de elementos, uno de cada conjunto X y B.

X = {(1,0), (1,1), (1,2), (2,2), (0,3), (0,4)} B = {(0,0), (1,0)} X ⨁ B = {(0,1), (1,1), (1,2), (2,2), (0,3), (0,4), (2,0), (2,1), (2,2), (3,2), (1,3), (1,4)}

1 0 0 0 1 1 0 0 1 0 0 0 1 1 0 0 0 1 1 0 0 1 1 1 0 1 0 0 0 1 1 0 0 1 0 0 1 1 0 1 1 0

a) b) c)

Figura 4.5. Para el ejemplo, el conjunto X se representa en el inciso (a), el conjunto B se representa en el inciso (b) y XӨB se representa en el inciso (c).

Figura 4.6. Para el ejemplo, el conjunto X se representa en el inciso (a), el

conjunto B se representa en el inciso (b) y X⨁B se representa en el inciso (c).

(4.6)

(4.7)


41

4.5.3 Apertura La operación de apertura puede definirse como una composición de las funciones erosión

y dilatación, si X⨁B representa a la operación de dilatación con el conjunto X y B, y XӨB

representan a la operación de erosión de los conjuntos X y B, entonces la apertura X○B

es:

X○B = (XӨB) ⨁B

4.6 Filtro de tamaño El filtro de tamaño se refiere a un método el cual determina umbrales de tamaño que

represente a un objeto de interés en base a su área. En este trabajo de tesis, dicho

método es empleado para obtener 2 umbrales de tamaño que permiten clasificar a los

objetos en movimiento como personas y no personas. Por lo tanto, es necesario realizar

un análisis previo para obtener dichas reglas de tamaño. Este método propicia ciertas

ventajas, como son, eliminar o ignorar regiones demasiado pequeñas que pueden ser

originadas por cambios de iluminación o sombras, y eliminar regiones en movimiento

demasiado grandes como aquellas pertenecientes a coches o conjunto de personas. Sin

embargo, debido a que la única información que se considera es el tamaño, existe la

desventaja de clasificar erróneamente a objetos móviles como personas cuando

realmente correspondan a otro tipo de objetos, pero que cumplen con las reglas de

tamaño propias de una persona.

En la figura 4.7 se muestran dos resultados de segmentación y detección de

objetos en movimiento. Las figuras 4.7a y 4.7b representan la detección de movimiento en

bruto, es decir es el resultado de la detección de todos los objetos de primer plano sin

realizar la validación de personas. En las figuras 4.7c y 4.7d se muestran los resultados

de detección de objetos en movimiento aplicando un filtro de tamaño para validar dichos

objetos como personas y no personas, por lo que, para este caso los objetos

segmentados corresponden sólo a aquellos que fueron validados como personas en base

a su tamaño.

En dicho ejemplo se puede observar la clasificación de objetos en movimiento de

acuerdo a su tamaño, en este se eliminan o ignoran las regiones en movimiento que sean

muy grandes o pequeñas, conservando únicamente aquellas que su tamaño

correspondan al tamaño de una persona.

(4.8)


42

4.6.1 Función discreta como filtro de tamaño En la sección 3.1.3 se habló de la problemática que existe al usar un filtro de tamaño para

a las validar personas. Esta problemática radica en la variación del tamaño de una

persona dependiendo de su lejanía o cercanía a la cámara (factor de perspectiva), a

mayor distancia menor tamaño y viceversa, a menor distancia mayor tamaño. Para dar

solución a este problema se empleó una función discreta que determina el tamaño de una

persona de acuerdo a su posición, dicha función se describe como sigue:

Donde:

FTam = Valor del tamaño que representa una persona con respecto a su ubicación

actual.

YAct = Coordenada Y de la ubicación actual de la región.

Yini = Primer coordenada Y en que se puede posicionar una persona (coordenada Y del

escenario más lejana a la cámara).

Figura 4.7. a) Segmentación de movimiento en bruto. b) Detección de objetos en movimiento en bruto. c) Segmentación de personas usando un filtro de tamaño. d) Detección de personas empleando un filtro de tamaño.

(4.9)


43

Increpixs = Cantidad de píxeles que puede incrementar una persona por su

desplazamiento en la coordenada Y.

Cantpixs = Cantidad de píxeles que representa a una persona en la Y más lejana a la

cámara.

Con la aplicación de dicha función para calcular un umbral de tamaño se obtiene como

resultado un conjunto de reglas de tamaño, que se traducen en condiciones que deben

superar aquellas regiones en movimiento para poder ser etiquetadas como personas. Por

lo que en este trabajo de tesis, se propuso utiliza esta función para determinar los

umbrales de tamaño para los diferentes escenarios de las bases de videos con las que se

realizó la etapa de pruebas.

En la sección 5.5 se presenta el procedimiento para la obtención de los umbrales de

tamaño para la validación de personas en un escenario donde la cámara presenta el

factor de perspectiva.

4.7 Código de cadena

Los códigos de cadena se usan para representar una frontera como un conjunto de

segmentos de longitud y dirección específicas [Pajares, 2002].

Para la definición del código de cadena, se tiene en cuenta la localización de un

píxel (i, j) y sus ocho vecinos en las direcciones cuantizadas de 45°. A cada una de dichas

direcciones se les asigna un valor numérico y así a O, SO, S, SE, E, NE, N y NO les

corresponden 4, 5, 6, 7, 0, 1, 2 y 3 respectivamente, es lo que se conoce como código de

cadena de 8-direccional. Si en lugar se considerar los 8-vecinos se consideran sólo 4-

vecinos O, S, E, N tendremos un código 4-direccional, con códigos de cadena numéricos

2, 3,0 y 1 respectivamente.

Figura 4.8. a) Código de cadena 4-direccional. b) Código de cadena 8-direccional. c) Localización de borde en un segmento.

3 2 1

4 0

5 6 7

1

2 0

3


44

4.8 Modelo de alambre

El modelo de alambre permite representar objetos por medio de líneas rectas unidas al

centro de la figura, dicha representación permite realizar un análisis simple de acciones

que se efectúan. Por lo que esta tarea depende de la extracción de puntos de interés.

4.9 Relocalización de regiones en movimiento La técnica de relocalización se utilizó para llevar a cabo el seguimiento de objetos en

movimiento, este es un método simple que requiere de un bajo costo computacional. Su

funcionamiento se describe a continuación;

Posteriormente a la segmentación y detección de objetos de interés, se extrae un

punto que represente al objeto (el centroide por ejemplo), este punto será tomado como

referencia para realizar la búsqueda de la persona y por ende el seguimiento. Además, se

debe especificar un radio en el que una persona pueda ser relocalizada en los cuadros

subsecuentes.

Suponiendo que en el cuadro n se detectara una persona, se extrae su centroide y

se almacenan las coordenadas del mismo, posteriormente en el cuadro n+1 se realiza

nuevamente la detección de personas y se calcula la distancia D entre los centroides

(véase ecuación 7), si dicha distancia es igual o menor al valor del radio de búsqueda

(previamente especificado) se dice que la persona del cuadro n se ha relocalizado en el

cuadro n+1 y ha tenido un desplazamiento D (ver figura 3.7).

√

Figura 4.9. Secuencia de imágenes que representan el modelo de alambre de una persona en movimiento.

(4.10)


45

Dónde:

D = La distancia entre dos puntos

x1 = Coordenada x del punto 1

y1 = Coordenada y del punto 1

x2 = Coordenada x del punto 2

y2 = Coordenada y del punto 2

4.10 Momentos invariantes de Hu En física, el momento de la fuerza, es una cantidad que representa la magnitud resultante

del producto del valor de una fuerza por su distancia a un punto de referencia. Así, en

matemáticas se podría definir un momento como la magnitud que representa una

característica del objeto de estudio. Aplicado a una imagen, describen el contenido de una

imagen o su distribución en lo que concierne a sus ejes [Cortés, 2009].

Hu [Hu, 1962] describió un conjunto de 7 momentos invariantes a la rotación, la

escala y la traslación (ver imagen 4.10). Estos momentos son aplicados a imágenes

binarias para caracterizar sus formas. Al ser invariantes a la escala, este método se aplicó

para la caracterización de los movimientos agacharse y acostarse. Los 7 momentos de Hu

se calculan con las siguientes ecuaciones.

El significado de cada momento de Hu, definidos según la ecuación anterior, se

muestra en la tabla 4.2:

Tabla 4.2. Tabla definición de los momentos de Hu [Hu, 1962].

Definición de los Momentos de Hu

Suma de varianza horizontal y vertical, indica cuánto más distribuido está el objeto

El valor de covarianza de los ejes vertical y horizontal, cuando el valor de la varianza de los ejes vertical y horizontal es similar.

Valor que acentúa la inclinación según esté más inclinado a la derecha o a la izquierda.

Valor que acentúa la inclinación según esté más inclinado arriba o abajo.

Valores invariantes al tamaño, la rotación y la traslación.

Momento que es invariante a la perspectiva.

(4.11)


46

4.11 Comentarios

Los métodos utilizados en la detección, seguimiento y caracterización fueron

analizados en base al estudio del arte realizado con anterioridad y seleccionados de

acuerdo a sus características específicas para dar solución a cada uno de los objetivos

propuestos.

Figura 4.10. Imagen binaria en diferentes condiciones. a) Imagen original. b) Imagen escalada. c) Imagen rotada (45°). e) Imagen con perspectiva.

47

Capítulo V Análisis, Diseño e Implementación del Sistema

Este capítulo trata del análisis, diseño e implementación del sistema. Se hace una

descripción concreta y esquematizada de cada una de las etapas que componen al

sistema desarrollado; además, de la implementación y desarrollo del sistema, haciendo

mención de las herramientas utilizadas tales como el lenguaje de programación y el

entorno de desarrollo. También contiene la describen las bases de videos utilizadas.

5.1 Base de videos

Se trabajó con 5 bancos de videos de personas, 4 de estas fueron descargadas de

internet, la quinta fue resultado de una adquisición propia en el estacionamiento de

CENIDET. A continuación se describen de manera general cada una de ellas:

5.1.1 Conjunto de videos KTH

La base de videos de reconocimientos de acciones humanas KTH [3] del Instituto de

Tecnología Royal (KTH Royal institute of technology), contiene seis tipos diferentes de

acciones humanas: Caminar, Trotar, Correr, Boxeo, Levantar manos y Palmas realizadas

por 25 sujetos en cuatro diferentes escenarios: Aire libre, Aire libre con variaciones de

escala, Aire libre con diferentes tipos de ropa y escenario de Interiores (véase figura 5.1)

Dicha base de videos tiene 2391 secuencias con una resolución de 160x120

píxeles, con velocidad de frecuencia a 25 cuadros por segundo. Fue utilizada en [Fathi,

2008] y [Toscano, 2011].

Fuente: http://www.nada.kth.se/cvap/actions/


48

5.1.2 Conjunto de videos Weizmann

La base de videos de Weizmann [4] contiene 93 secuencias de vídeo en baja resolución,

corresponden a 10 acciones naturales: Agacharse, saltar hacia adelante en dos piernas,

saltar hacia adelante en una sola pierna, saltar en un mismo lugar en dos piernas, correr,

saltar, caminar, galopando hacia los lados, ondear una mano y ondear ambas manos

(véase figura 5.2). Todos los videos fueron capturados desde un punto de vista fijo, esta

base de videos fue utilizada en [Rani, 2010] y [Niebles, 2007] [Gorelick, 2007]. La

resolución es de 180x144 píxeles, con velocidad de frecuencia a 25 cuadros por

segundo.

Fuente:

http://www.wisdom.weizmann.ac.il/~vision/VideoAnalysis/Demos/SpaceTimeActions/DB

Figura 5.1. Escenario de la base de videos KTH.

Figura 5.2. Escenario de la base de videos Weizmann.

Capitulo V. Análisis, diseño e implementación del sistema

49

5.1.3 Conjunto de videos CAVIAR

La base de videos CAVIAR [5], está dividida en dos conjuntos diferentes de videos. El

primer conjunto de videos fue filmado en un espacio de los laboratorios INRIA en

Grenoble, Francia, y el segundo conjunto de videos fue filmado en un pasillo de un centro

comercial en Lisboa, mismo que se muestra en la figura 5.3. La resolución de los videos

es de 384x288 pixeles a 25 cuadros por segundo en formato comprimido MPEG2. El

tamaño de los archivos es en su mayoría de 6 y 12 MB. Esta base fue utilizada en

[Toscano, 2011].

Fuente: http://homepages.inf.ed.ac.uk/rbf/CAVIARDATA1/

5.1.4 Conjunto de videos ViSOR

ViSOR (Video Surveillance Online Repository) [6], es repositorio en línea de

videovigilancia diseñado con el objetivo de establecer una plataforma abierta para

recoger, anotar, recuperar y compartir videos de vigilancia, así como la evaluación del

desempeño de los sistemas de vigilancia automática. Contiene una gran cantidad de

videos provenientes de diferentes autores, la resolución de videos es variada así como la

velocidad de frecuencia. Esta base fue utilizada en [Vezzani, 2010].

Fuente: http://www.openvisor.org

Figura 5.3. Escenario de la base de videos Caviar.

Figura 5.4. Escenario de la base de videos Visor.


50

5.1.5 Base de videos CENIDET

Éste es un conjunto de videos grabados en el estacionamiento de CENIDET (véase figura

5.5). Corresponde a 2 días de grabación en el que incluyen personas y coches en

diferentes horarios, no se controló ningún factor, es un ambiente real. La resolución es de

320 x 240 con velocidad de 15 fotogramas por segundo. Los movimientos que se

presentan son: correr, levantar manos, merodear, agacharse y acostarse.

5.2 Análisis del sistema

El análisis del sistema parte de la descripción de la propuesta de solución contenida en el

capítulo 3. Por lo tanto, el diseño se divide en tres módulos, los cuales están divididos en

13 sub-etapas (véase la figura 5.6). El primer módulo se divide en 10 fases, que van

desde el modelado de fondo hasta la localización de extremidades y seguimiento de

personas; el módulo 2 se compone por la fase de cálculo de propiedades geométricas y

de forma. Por último, el módulo 3 está compuesto por dos fases, las cuales son:

Obtención de la base de reglas geométricas y de forma y, la caracterización de

movimientos de personas.

5.3 Diseño del sistema

En el diseño del sistema se define el flujo e interacción entre las fases del desarrollo del

sistema, este se compone de 13 etapas necesarias para la caracterización visual de

movimientos sospechosos de personas.

Figura 5.5. Escenario de la base de videos CENIDET.


51

2

5.4 Descripción de las fases del diseño

Entrada de video

Esta fase corresponde a la entrada de video para su posterior procesamiento. Durante la

tarea de pruebas se utilizaron 5 diferentes bancos de videos de personas en formato avi3.

3 AVI por sus siglas en inglés de Audio Video Interleave, es un formato contenedor de audio y

video.

Módulo 1

Módulo 3

Módulo 2

2

Figura 5.6 Arquitectura del diseño del sistema.

Base de reglas geométricas y de forma

12

10 9 8

7

6 5

3 4 1

Video Eliminación de

sombras Modelo de

fondo

Actualización de fondo

Detección de objetos de primer

plano

Operaciones morfológicas

Etiquetado de componentes

Extracción del borde

Localización de Extremidades

Seguimiento

13

Caracterización de movimientos

Cálculo de propiedades geométricas y de forma

11

Filtro de tamaño

Mensaje de alerta

,


52

1.- Modelado de fondo

El modelo de fondo como ya se ha mencionado, se realiza con la moda de píxeles,

procesando los primeros 50 cuadros de videos (aproximadamente 2.5 segundos en

videos con velocidad de 15 fotogramas por segundo). Este procedimiento se realiza con el

modelo de color RGB, esto como requisito para la etapa de supresión de sombras. Los

pasos son los siguientes:

1. Para cada píxel de las imágenes del modelado de fondo se extrae el valor de cada

uno de sus 3 canales (RGB).

2. Se crean tres listas (una para cada plano) en donde se almacenan y contabilizan

los valores de cada plano de color.

3. Por último, por cada píxel se toman los 3 valores de RGB con mayor frecuencia de

ocurrencia, mismos valores que tomará el píxel en la imagen de fondo.

4. El resultado es una sola imagen en modelo de color RGB.

2.- Actualización de fondo

Esta fase tiene como objetivo actualizar constantemente el modelo inicial, por lo que entra

en ejecución después de los primeros 50 cuadros. El procedimiento es el mismo de la

etapa anterior, después de cada 50 cuadros se calcula la distribución de los valores RGB

por cada píxel en la imagen de fondo. En la figura 5.7 se presenta el esquema para el

modelado y actualización de fondo.

Figura 5.7. Esquema del modelado y actualización de fondo.

Cuadro n

Moda

Incremento de ocurrencia RGB

Modelo de Fondo

Cuadro%50=0

A

Si No


53

3.- Detección de objetos de primer plano

Para la detección de movimiento se usa la técnica de diferencias de imágenes, es por ello

que esta etapa depende del modelado de fondo para realizar la comparación con las

imágenes de entrada del video. El procedimiento es el siguiente:

1. Primero se establece un umbral con el cual se determina si un píxel corresponde a

movimiento o por el contrario pertenezca a fondo. Este umbral se debe ajustar

para cada escenario (el sistema permite realizar dicho ajuste), ya que este método

es muy sensible a cambios de iluminación.

2. Posteriormente se realiza la conversión del espacio de color RGB a escala de

grises, esto para las imágenes de entrada (imagen de frente) y la imagen de

fondo.

3. Una vez hecha la conversión se tendrá un sólo valor que representa a cada píxel

de ambas imágenes.

4. Se calcula la diferencia punto a punto entre los píxeles de las imágenes de fondo y

las imágenes de frente. Si el resultado de la operación está por arriba del umbral

establecido se dice que ese píxel corresponde a movimiento.

5. El resultado es una imagen binaria, donde la región en movimiento se representa

generalmente con el color blanco.

En la figura 5.8 se muestra el esquema utilizado para la detección de movimiento.


54

4.- Eliminación de sombras

Hasta este punto se tiene la detección de movimiento; sin embargo, en la mayoría de los

casos también son segmentadas las sombras como movimiento debido a su diferencia

con la imagen de fondo. Este factor puede introducir ruido en la etapa posterior, de

clasificación de objetos como personas y no personas, por lo que se implementó el

algoritmo DNM para identificar los píxeles pertenecen a sombra e ignorarlos en la post-

segmentación. Los pasos para realizar esta tarea son los siguientes:

Figura 5.8. Esquema de diseño para la detección de objetos de primer plano.

RGB RGB

A

Cuadro>50

Imagen actual Imagen de fondo

Escala de grises Escala de grises

Diferencia

< Umbral

Fondo

Detección de

movimiento

Si

Si No B

Diferencia de imágenes


55

1. Se realiza la conversión de RGB a HSV sólo de los píxeles de la imagen de fondo

y las imágenes de frente que correspondan con los píxeles (punto a punto)

segmentados en la etapa anterior.

2. Realizada dicha conversión, se emplea el método el DNM (descrito en la sección

4.3) para identificar los píxeles que pertenecen a sombra.

3. Dicho método consta de la evaluación de los tres canales del espacio HSV, para

ambas imágenes (fondo y frente), para esto se emplean diferentes umbrales. Los

umbrales aquí utilizados dependen de la iluminación de cada escenario, por lo que

es necesario ajustarlos (el sistema permite realizar modificaciones en estos

valores).

El desarrollo de las etapas de modelado y actualización de fondo, detección de

objetos de primer plano y la supresión de sombras se representan en la figura 5.9.

Figura 5.9. Flujo desde la entrada de video hasta la post-segmentación.


56

5.- Operaciones morfológicas

Al resultado de la post-segmentación realizada se le aplica la operación morfológica de la

apertura, la cual se componen de la erosión y la dilatación. Esto con el objetivo de reducir

ruido y expandir la forma de los objetos detectados respectivamente. Las máscaras

utilizadas como operadores morfológicos para la erosión y dilatación son las siguientes:

Erosión. La máscara utilizada como operador morfológica de erosión se muestra en la Ecuación 9.

[ ]

[

]

[ ]

Dilatación. La máscara que fue empleada como transformador morfológico de la dilatación se muestra en la ecuación 10.

[ ]

[

]

[ ]

6. Etiquetado de componentes A las regiones en movimiento finales, resultado de la post-segmentación se aplica el

algoritmo iterativo para el etiquetado de componentes conexas, para asignar un

identificador a cada región, además se obtienen sus datos geométricos (ubicación, área,

alto y ancho), útiles para un posterior análisis. En la figura 5.10 se puede observar el

resultado de esta tarea.

Figura 5.10. Etiquetado de componentes con datos geométricos.

(5.1)

(5.2)


57

Las fases de supresión de sombras y las operaciones morfológicas tienen el

objetivo de eliminar el ruido existente en la detección de movimiento, posteriormente con

el etiquetado de componentes se localizan las regiones en movimiento finales. En la figura

5.11 se presenta el esquema de dichas fases.

7.- Filtro de personas

La etapa de filtro de personas tiene como objetivo principal determinar cuáles de las

regiones en movimiento detectadas corresponden a una persona. Para realizar esta tarea

se utiliza una función discreta que considera 2 propiedades importantes, el área de la

región y el factor de perspectiva de la cámara. Con esto se obtienen reglas de tamaño

que describen de mejor manera a una persona, excluyendo a las regiones en movimiento

que sean demasiado grandes o demasiado pequeñas.

Es importante destacar que la función para determinar si el tamaño de una región

corresponde o no a una persona, depende del análisis de cada escenario, ya que las

Figura 5.11. Esquema de la detección y localización de objetos en movimiento.

Imagen Actual Imagen de fondo

Modelo HSV Modelo HSV

Eiminación de sombras

Apertura


RGB RGB

Detección de

movimiento

B

C


58

características de perspectiva de la cámara son diferentes. Por lo tanto, previo a la

validación de personas se obtienen dos funciones que describen con mayor precisión si

una región en movimiento es una persona en base a su tamaño. El procedimiento para

obtener dichas funciones se realiza manualmente una sola vez por cada escenario

considerando los puntos siguientes:

1. Se localizan las personas en movimiento (véase figura 5.10) en la secuencia de

video.

2. Se realiza un análisis del escenario, para detectar las zonas en que una persona

puede desplazarse.

3. Se localiza la coordenada Y más lejana (considerada Y inicial) a la cámara en que

una persona puede estar posicionada.

4. Se obtiene una aproximación de un mínimo y un máximo del área, cuando una

persona se encuentre en la coordenada Y más lejana.

5. Se genera un registro de las personas localizadas a lo largo del escenario,

obteniendo sus datos particulares, el área y la coordenada Y del píxel más abajo.

6. Se analiza la variación (incremento) del área de la persona de acuerdo a su

acercamiento a la cámara.

7. Se obtiene una estimación de la cantidad de píxeles en que se incrementa el área

de la persona por cada punto en la coordenada Y que se desplace (acercamiento

a la cámara).

8. Con el registro de las personas y sus datos se generan dos reglas que mejor se

ajusten en base al análisis y registro llevado a cabo de manera manual.

Una vez que se tienen las reglas de tamaño denominadas filtro de personas, durante

la etapa de validación de personas, se realiza lo siguiente:

1. Posterior al etiquetado de componentes se localizan todas las regiones en

movimiento, se extrae su coordenada Y del píxel más abajo de cada región

2. Dicha coordenada se utiliza como información dentro de las reglas de tamaño para

obtener dos umbrales que determinan un área mínima y un área máxima que debe

tener una región para ser clasificada como persona.

3. Posteriormente se extrae el área de todas las regiones en movimiento, y se hace

una comparación, con las reglas de tamaño. Es decir se determina si el área es

mayor o igual al primer umbral, también si el área es menor o igual al segundo

umbral.

4. Si el área de una determinada región en movimiento cumple con los dos umbrales,

dicha región se clasifica como persona. En caso contrario la clasificación es como

no persona.


59

En la figura 5.12 se presenta el esquema para la validación de personas.

8.- Extracción de borde

El siguiente paso es obtener el borde de todas las regiones que superaron la validación

de tamaño, es decir en esta etapa se obtiene la silueta de las personas detectadas.

Durante este procedimiento se contabilizan los píxeles que conforman el borde, además

de realizar las sumatorias de sus coordenadas XY, con el objetivo de utilizar estos datos

para calcular el centroide o también conocido como centro de masas de la región (véase

la figura 5.13). Los pasos que se siguen son los siguientes:

1. Se realiza un barrido a la imagen binaria resultado de la etapa anterior, durante

este proceso se localiza el primer píxel de cada una de las personas.

2. El primer píxel se toma como punto inicial para realizar la búsqueda del resto de

los píxeles que son parte del borde.

3. La búsqueda se realiza en sentido de las manecillas del reloj, evaluando que cada

píxel en efecto corresponda al borde.

4. La búsqueda termina cuando se llega al píxel de inicio.

Figura 5.12. Esquema de la validación de personas


C

Y del píxel más abajo

Área

Reglas de

tamaño

Umbrales de tamaño

Área>=Umbral 1

y Área<=Umbral 2

Objeto persona

Si D


60

5. Para localizar el primer punto de interés (centroide) se calcula el promedio para

cada una de las coordenadas utilizando la ecuación 3.1.

9.- Localización de extremidades

Después de la localización del centroide y el borde de las personas detectadas, esta

información es tomada como referencia para la búsqueda de las extremidades del cuerpo

(cabeza, pies y manos). Este proceso utiliza en una serie de reglas geométricas propias

para cada una de las extremidades.

a) Localización de la cabeza

Para localizar el punto correspondiente de la cabeza, se toma como criterio

que sea uno de los píxeles más alto del borde de la persona, que no esté más allá de

1/10 (horizontalmente) de la altura total de la personas en cada lado con respecto al

centroide. Este último criterio es considerado para los casos en que la persona

presente una inclinación y por lo tanto el punto más alto no estaría en dirección

(verticalmente) del centroide.

b) Localización de las manos

Para encontrar los puntos de las manos se considera lo siguiente; se toma

como punto de partida el punto de la cabeza, a partir de cual se realiza la búsqueda

de los píxeles más a la izquierda y más a la derecha, teniendo siempre en cuenta que

estos deben estar por arriba del centroide.

Figura 5.13. Ejemplos detección de borde y localización del centroide


61

c) Localización de los pies

Para el caso de los pies se consideran los casos en que una persona pueda

usar ropa larga que esté por debajo de la cadera, tal como un abrigo, también para los

casos en que un pie esté más arriba que el otro (comúnmente en la acción correr).

Entonces los criterios de búsqueda son los siguientes: Se localiza el píxel más abajo

del borde, y en base al punto del centroide se determina si este píxel está a la derecha

o izquierda. Por ejemplo si el píxel más abajo está del lado derecho del centroide, este

se ocupa como punto inicial para buscar el píe derecho, dicha búsqueda es de abajo

hacia arriba, de izquierda a derecha, la búsqueda se limita a una vigésima quinta

(1/25) parte de la altura total de la región, con la intensión de localizar el píxel más

alejado a la derecha. Siguiendo el mismo ejemplo, para localizar el punto del pie

izquierdo se toma como punto de partida el píxel más abajo con dirección

(verticalmente) al centroide, la búsqueda se realiza de abajo hacia arriba, de derecha

a izquierda limitándose a estar por debajo de un sexto (1/6) de la altura total,

buscando aquel el píxel más alejado a la izquierda (véase figura 5.14).

En la figura 5.15 se presenta el esquema para la extracción del borde y localización de partes del cuerpo.

Figura 5.14. Parámetros de búsqueda de extremidades.


62

10.- Seguimiento

La siguiente tarea es el seguimiento de las personas, para esto se utiliza la técnica de

relocalización de regiones en movimiento, se considera una tolerancia mínima en la que

una persona puede no ser detectada, sin perder su registro de seguimiento para una

posible relocalización. Este proceso de seguimiento se describe en los siguientes pasos:

1. Como primer paso se genera una lista de las personas que aparecen en escena

en el cuadro n, junto con las coordenadas de sus respectivos centroides.

2. Posteriormente en el cuadro n+1 se genera una nueva lista de las personas que

aparecen en escena junto con sus respectivos centroides.

3. Una vez que se tienen ambas listas de personas del cuadro n y cuadro n+1 se

calcula la distancia D que hay entre los centroides (distancia entre 2 puntos), con

esto se conoce el desplazamiento que hubo de un cuadro a otro.

4. Si la distancia entre dos centroides es menor a la altura total de la persona (en el

cuadro n) se dice que se ha relocalizado la misma persona del cuadro n, ahora en

el cuadro n+1, con una distancia desplazamiento D.

Figura 5.15. Esquema de la extracción del borde y localización de partes del cuerpo

Localización de las manos

Localización de los pies

Extracción del borde

Objeto persona

Cálculo del centroide

Localización de la cabeza

E

D

F


63

5. Durante el seguimiento de una persona se genera un registro que contiene la

contabilización de los cuadros en que ha sido relocalizada, y su distancia D de

desplazamiento.

6. Si durante el seguimiento de una persona esta deja de ser detectada se

contabilizan los cuadros en que desaparece.

7. Si la cantidad de cuadros de ausencia es menor a 10 y además la distancia entre

los centroides es inferior a la altura total, el seguimiento prosigue.

8. Si la cantidad de cuadros de ausencia de una persona es mayor a 10, su registro

inicial de seguimiento se elimina. Si esta vuelve a ser detectada se considera que

entró en escena una nueva persona.

En la figura 5.16 se presenta el esquema para la fase de seguimiento de personas.

Figura 5.16. Esquema del seguimiento de personas.

E

Seguimiento=0

Si No

Centroide n+1 (X’, Y’)

Distancia entre

(X’, Y’) y (X, Y)

Distancia

<=

Altura_Ini

Si No

Cen n = Cen n+1

Incremento de Seguimiento

Incremento Ausencia

Ausencia>10

Centroide n

(X, Y)

Altura_Ini

Seguimiento =0

Altura_Ini = 0 Si

G

I

J K


64

11.- Cálculo de propiedades geométricas y de forma

El objetivo de esta etapa es calcular las propiedades geométricas y de forma de las

personas detectadas, para su posterior análisis en la etapa de caracterización. Debido a

la diferencia entre los cinco movimientos propuestos, el procedimiento para su

caracterización es distinto para cada uno de ellos, y por consecuencia también la

información para la caracterización es diferente.

En la tabla 5.1 se enlistan las propiedades que se calculan de acuerdo al

movimiento a caracterizar, por lo que cabe señalar lo siguiente:

Mano 1: Extremidad superior derecha de la región en movimiento.

Mano 2: Extremidad superior izquierda de la región en movimiento.

Tabla 5.1. Propiedades geométricas y de forma necesarias para la caracterización.

Movimiento Propiedades necesarias

Correr 1) Distancia entre centroides en cuadros consecutivos.

Levantar una o

ambas manos

2) Ubicación de las manos, para determinar si están por abajo o arriba de

la cabeza.

3) Distancias entre Cabeza-Mano 1, y Cabeza-Mano 2.

4) Ángulo con respecto a la horizontal formado entre Cabeza-Mano 1, y

Cabeza-Mano 2.

Merodear 5) Contabilización de los cuadros consecutivos en el seguimiento de una

persona.

Agacharse,

acostarse

6) Análisis la evolución de la altura de la persona durante el seguimiento.

7) Primer momento invariante de Hu [Hu, 1962].

En la figura 5.17 se esquematiza la fase de cálculo de propiedades geométricas y de forma para las personas detectadas en escena.

Figura 5.17. Esquema del cálculo de propiedades geométricas y de forma

H

Localización de extremidades

F

Cálculo de propiedades geométricas y de forma


65

12.- Base de reglas geométricas y de forma Esta etapa tiene como objetivo la especificación de reglas para la caracterización de

movimientos. Esta base de reglas consta de valores y condiciones preestablecidas que

deben cumplir las propiedades geométricas y de forma de una persona para poder decir

que se está realizando un movimiento en particular. Por lo tanto, la última fase de

reconocimiento de movimientos está constantemente en comunicación con la presente

fase para llevar a cabo la validación de los datos de entrada.

A continuación se describen las reglas y valores preestablecidos con relación al

movimiento a caracterizar.

a) Correr Para la caracterización de este movimiento se debe analizar la distancia de los centroides

de una persona en cuadros consecutivos, para obtener un distancia promedio que

represente la acción caminar, por lo tanto, si durante el seguimiento de una persona la

distancia de su desplazamiento es mayor a la distancia promedio, se dice que la persona

está corriendo. Sin embargo, debido al método empleado, este resulta ineficaz en videos

en que presenten el factor de perspectiva ya que la distancia entre los centroides de una

misma persona en cuadros consecutivos es muy variable y poco precisa para dicha

caracterización.

En la tabla 5.2 se presenta la distancia entre centroides que describen las

acciones caminar y correr para algunas bases de videos.

Tabla 5.2. Distancias para la acción caminar y correr para las BDs KTH y Weizmann

Base de videos Distancia entre centroides

para caminar

Distancia entre centroide para

correr

KTH Distancia <= 9 píxeles Distancia >= 10 píxeles

Weizmann Distancia <= 2 píxeles Distancia >= 3 píxeles

b) Levantar una o ambas manos Para la caracterización del movimiento levantar manos se tiene lo siguiente:

i. Si una mano está por debajo de la cabeza entonces la distancia entre la cabeza y

mano debe ser mayor o igual un tercio (1/3) de la altura total de la persona y el

ángulo formado entre estos dos puntos debe ser menor o igual a 20°.


66

ii. Si una mano está por arriba de la cabeza, sólo se analiza la distancia entre la

cabeza y mano misma, que debe ser mayor o igual un tercio (1/3) de la altura total

de la persona.

c) Merodear Es conveniente mencionar que el movimiento de merodeo para este trabajo de tesis se

define como la presencia de una persona en la escena por más de n segundos (este valor

es diferentes para cada escenario). Por lo tanto, la caracterización del merodeo depende

totalmente de la etapa de seguimiento y del análisis del escenario.

Durante el seguimiento de una persona se lleva el registro de la cantidad de

cuadros consecutivos en que dicha persona ha sido detectada, si esta cantidad supera el

equivalente a n segundos (previamente establecidos) se dice que la persona está

merodeando.

d) Agacharse Para la caracterización de los movimientos agacharse y acostarse, se calculó el primer

momento invariante de Hu [Hu, 62] a un conjunto de imágenes binarias, que representan

dichos movimiento. Por lo tanto las reglas para determinar si una persona está agachada

son las siguientes:

i. Durante el seguimiento de una persona se analiza la variación de su altura

inicial.

ii. Si la distancia es menor o igual a dos tercios de la altura inicial entonces se

calcula el primer momento invariante Hu.

iii. Si el primer momento invariante de Hu es mayor a 0.180 y menor a 0.230 se

dice que la persona está agachada.

Acostarse

i. Durante el seguimiento de una persona se analiza la variación de su altura inicial.

ii. Si la distancia es menor o igual a un medio de la altura inicial entonces se calcula

el primer momento invariante Hu.

iii. Si el primer momento invariante de Hu es mayor a 0.500 y menor a 0.800 se dice que la persona está agachada.


67

13.- Caracterización de movimientos

Esta fase es la encargada de realizar la validación y comprobación de las propiedades

geométricas y de forma calculada en una persona con aquellas reglas y umbrales

preestablecidos en la fase anterior. Si, durante el seguimiento de una persona sus

propiedades cumplen con las reglas de alguno de los cinco movimientos, el sistema lanza

un mensaje en el que dice que movimiento se ha detectado.

A continuación se muestran los esquemas propuestos para realizar la

caracterización de cada uno de los movimientos propuestos (véase las figuras de 5.18 a

5.22).

1.- Caracterización del movimiento correr

2.- Caracterización del movimiento levantar una o ambas manos

Si

H

Distancia (Mano, Cabeza) >=

Altura /3

Mensaje Mano (s) levantada

Mano Y

<= Cabeza Y

Si

Ángulo (Cabeza, Mano) <= 20°

Si

No

Si

G

Distancia (Cen_n , Cen n+1) >

Distancia Caminar

Mensaje correr

Figura 5.18. Esquema de la caracterización del movimiento correr.

Figura 5.19. Esquema de la caracterización del movimiento levantar manos.


68

3.- Caracterización del movimiento merodear

4.- Caracterización del movimiento agacharse

Mensaje Merodeo

Si Seguimiento

>=

Umbral_Tiempo

I

Si

Altura <=

2/3 (Altura_Ini)

J

Cálculo de Primer momento de Hu

Si Momento>=0.18

y Momento<=0.23

Mensaje Agachado

Figura 5.20. Esquema de la caracterización del movimiento merodear.

Figura 5.21. Esquema de la caracterización del movimiento agacharse.


69

5.- Caracterización del movimiento acostarse

Acoplando los esquemas de todas las fases del diseño del sistema se puede

visualizar el flujo e interacción de los subprocesos del sistema. En la figura 5.23 se

presenta el esquema general del diseño.

Si

Altura <=

1/2 (Altura_Ini)

K


Si Momento>=0.5

y Momento<=0.8

Mensaje Acostado

Figura 5.22. Esquema de la caracterización del movimiento acostarse.


70

Figura 5.23. Esquema general del diseño del sistema.

Mensaje Mano (s) levantada

Si

Cuadro n

Moda de píxeles

Incremento de

ocurrencia RGB

Si Cuadro%50=0

Imagen de fondo

Escala de grises Escala de grises

Diferencia <

Umbral

Fondo

Si

Si No

Cuadro>50

Modelo HSV Supresión de sombras

Apertura


RGB

RGB

Detección de

movimiento

Y del píxel más abajo Área

Reglas de

tamaño

Si

Modelo HSV

Área>=Umbral 1 y

Área<=Umbral 2

Diferencia de imágenes

Extracción

del borde Objeto

persona

Localización de las manos

Localización de los pies

Localización de la cabeza

Seguimiento=0 Si No

Centroide n

(X, Y)

Altura_Ini

Centroide n+1

(X’, Y’)

Distancia entre

(X’, Y’) y (X, Y)

Cen n = Cen n+1

Ausencia ++

Ausencia>10 Seguimiento =0 Altura_Ini = 0

Distancia <=

Altura_Ini

Si No

Si

Si Distancia (Cen_n , Cen n+1)

> Distancia Caminar

Mensaje correr

Mensaje Merode

o

Si Seguimiento

>=

Umbral_Tiempo

Altura <= 2/3

(Altura_Ini)


Mensaje Agachado

Momento>=0.18 y

Momento<=0.23

Altura <= 1/2

(Altura_Ini)


Momento>=0.5 y

Momento<=0.8

Si

Si

Si

Mensaje Acostado

Si

Cálculo del centroide

Si Dist (Mano, Cabeza)

>= Altura /3

No Mano Y <=

Cabeza Y

Ángulo

(Cabeza, Mano)

<=

20°

Si

No

Incremento Seguimiento

Umbrales de

tamaño

Inicio


71

5.5 Cálculo de reglas de tamaño

El procedimiento descrito en la fase de filtro de personas para la generación de reglas

de tamaño se ejemplifica en este apartado.

Tomando en cuenta la descripción de la función de tamaño en la sección 4.6.1, se

obtienen las reglas de tamaño en un ejemplo real. Para esto se realiza un análisis en el

conjunto de videos Caviar, en el escenario que corresponde a un pasillo de un centro

comercial.

Primero se realiza un análisis manual en el que se detectan las personas dentro

del escenario, se observan las diferentes zonas donde pueden ubicarse. De este análisis,

se obtiene un registro de las personas en movimiento junto con su coordenada Y del píxel

más abajo y su área en el mismo instante de tiempo, este registro se puede observar en

la tabla 5.3; además, en la gráfica de la figura 5.25 se observa la distribución y relación

entre la coordenada Y del píxel más abajo y el área de las personas detectadas.

Tabla 5.3. Registro de personas con su respectivos datos; coordenada Y del píxel más abajo y área

Coord. Y Área Coord. Y Área Coord. Y Área Coord. Y Área

46 483 91 1192 125 1685 209 2949

48 548 92 1127 135 1874 220 3680

49 551 93 1118 139 1650 228 3344

51 563 109 1200 162 2396 235 3550

52 598 110 1447 175 2069 263 4391

55 594 113 1282 179 2635 270 4709

58 612 117 1468 194 2600 281 4635

79 802 122 1624 205 3225 282 4985

Figura 5.24. Análisis manual del tamaño de personas en la BD de videos Caviar.


72

En la figura 5.25 se puede observar el crecimiento del área de una persona en

movimiento de acuerdo a la variabilidad de su ubicación. Es evidente que entre más cerca

esté de la cámara el área tiende a crecer, por lo tanto, de este análisis es posible generar

una ecuación que represente esta relación.

Es importante mencionar que, para realizar esta tarea no es necesario conocer el

tiempo ni el número de cuadro en que son detectadas las personas, puesto que la

relación de interés es entre la ubicación dentro del escenario y el área que tiene la

persona en esa misma coordenada.

Figura 5.25. Comportamiento del área con respecto a su coordenada Y (BD Caviar).

A partir del análisis del registro y observación del comportamiento de los datos en

la gráfica de la figura 5.25 se proponen dos reglas de tamaño. Con estas reglas se

obtiene una estimación del tamaño que debe tener una persona tomando en cuenta su

ubicación. La primera regla permite discriminar aquellos objetos que sean demasiado

pequeños, tales como pequeños cambios de iluminación o pequeñas zonas de sombra;

mientras que la segunda regla discrimina los objetos en movimiento que sean demasiado

grandes.

En las tablas 5.4 y 5.5 se describen los valores utilizados para generación de las

reglas de tamaño para la base de videos Caviar en el escenario de un pasillo.

0

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

5500

0 30 60 90 120 150 180 210 240 270 300

Áre

a

Coordenada Y


73

Tabla 5.4. Primera regla de tamaño para la BD Caviar

Primera regla de tamaño

Constantes Valor (estimado)

Y inicial (Y_ini) 48

Área en Y inicial (Cant_Pixs) 250

Incremento de píxeles por cada punto en Y (Incre_Pixs) 15

Variables Valor (real)

Y actual (Y_Act) ___

Área en Y actual (F_Tam) ___

Primer regla de tamaño

Área >= ( (Y Act - 48) *15) + 250

Tabla 5.5. Segunda regla de tamaño para la BD Caviar

Segunda regla de tamaño

Constantes Valor (estimado)

Y inicial (Y_ini) 48

Área en Y inicial (Cant_Pixs) 900

Incremento de píxeles por cada punto en Y (Incre_Pixs) 17

Variables Valor (real)

Y actual (Y_Act) ___

Área en Y actual (F_Tam) ___

Segunda regla de tamaño

Área <= ( (Y Act - 48) *17) + 900

En conclusión las funciones generadas quedan como sigue;

Regla 1: Área >= ( (Y Act - 48) *15) + 250

Regla 2: Área <= ( (Y Act - 48) *17) + 900

Empleando estas dos reglas de tamaño en el mismo escenario, se puede observar

que el registro manual queda de manera inmersa en ambas reglas, por lo tanto estas

reglas quedan ya establecidas para todos los videos con las mismas características.

En la figura 5.26, la línea negra representa la relación de datos de la tabla 5.3,

resultado del análisis manual del área y posición de las personas. El área mínima está

representada con la línea roja y la línea azul representa el área máxima que debe tener

una región en movimiento, considerando su coordenada Y del píxel más abajo para ser

considerado como persona.

(5.3)

(5.4)


74

Figura 5.26. Representación de las reglas de tamaño para la BD Caviar

De este modo se dice que el filtro de personas corresponde a las 2 reglas de

tamaño antes descritas. Durante esta etapa se analizan las regiones en movimiento en

base a su tamaño, considerando ya los umbrales resultantes de ambas reglas de tamaño.

5.6 Implementación del sistema

Para la implementación del sistema se utilizó el lenguaje de programación C++, en el

entorno de C++ Builder 6.0. En este apartado se presenta la interfaz gráfica del sistema,

ventanas y componentes.

5.6.1 interfaz gráfica

La interfaz gráfica del sistema está dividida en 6 secciones los cuales se describen a

continuación (véase figura 5.27).

Seccion1: Barra de menús

Seccion2: Barra de botones

Seccion3: Información del video

Seccion4: Controles de umbrales

Seccion5: Barras de activadores

Seccion6: Visualización de procesos

0

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

5500

0 30 60 90 120 150 180 210 240 270 300

Áre

a (F

_ Ta

m)

Coordenada Y (Y_Act)

Representación de las reglas de tamaño para la BD Caviar

Regla 1

Regla 2

Dispersión originalBD Caviar


75

1.- Barra de menús

Esta barra se compone de tres menús: Principal, Video y Ver. En el menú Principal se

encuentras las opciones para abrir video, abrir imagen de fondo, opción reproducir video,

detener video, y cerrar la aplicación. En el menú Video, están contenidas las opciones

para determinar si el video tendrá un modelado de fondo o se abrirá una imagen que se

ocupe de ello, esto para los casos en que los videos son muy cortos y no hay espacio

para realizar el modelado inicial. El menú ver, tiene todas las opciones para activar la

visualización de los procesos de modelado de fondo, resta de imágenes, supresión de

sombra, erosión y dilatación, filtro de tamaño y seguimiento. Además las opciones para

visualizar el borde de la persona, sus extremidades, el esqueleto y/o el recuadro (blob).

2.- Barra de botones

En la barra de botones, se encuentras las mismas opciones que en el menú Principal,

esto como un acceso rápido a dichas submenús.

3.- Información del video

Esta sección tiene los datos del video, tales como las dimensiones (alto y ancho) y el

nombre. Además se presenta el número del cuadro que está siendo procesado.

4.- Controles de umbrales

En esta parte están los controles para ajustar los valores requeridos en algunos procesos:

el umbral de la resta de imágenes, umbral de supresión de sombra y un control para el

tiempo de procesamiento.

Figura 5.27. Ventana principal del sistema


76

5.- Barras de activadores

Estas barras están compuestas por las mismas opciones contenidas en el menú ver.

6.- Visualización de procesos

Esta es la sección principal, aquí están contenidas las ventanas donde se muestran los

resultados en general, está compuesta por dos pestañas, en la primera se muestran los

resultados de procesamiento digital de imágenes y en la segunda la ventana de la

caracterización de movimientos.

5.7 Comentarios

En este capítulo se describió a detalle el diseño del sistema, se esquematizó el flujo de

cada fase del diseño, obteniendo así un esquema general mismo que muestra el flujo e

interacción de todas y cada una de las fases.

En lo que respecta a la detección y seguimiento se consiguió un sistema robusto,

ya que se consideran diferentes factores mismos a los que se les da solución. Por

ejemplo, el módulo de supresión de sombras, el método para la validación de personas

invariante a perspectiva, en cuanto al seguimiento se maneja una tolerancia mínima en

que una persona puede no ser detectada ya sea por una mala segmentación o traslape,

en lo respectivo a la detección de partes del cuerpo se consideran factores tales como

ropa holgada, inclinación de la espalda, etc.

En la parte de la validación de personas se utiliza un “filtro de tamaño” resultado

de la aplicación de una función discreta, con la que se obtienen dos reglas para describir

cuando una región en movimiento es una persona considerando su área y ubicación. Este

método no fue detectado en el estudio del estado del arte, por lo que se considera una

aportación importante.

En cuanto a la caracterización de movimiento se resume lo siguiente: para

caracterizar el correr de una persona se analiza la distancia de desplazamiento de un

cuadro otro, si la distancia es mayor a la distancia que representa el movimiento caminar

se dice que está corriendo, para levantar manos primero se localizan si están por arriba o

debajo de la cabeza y en base a esto se calcula la distancia y/o ángulo entre cabeza y

manos; el merodeo se caracteriza por medio del seguimiento, para ello se mide el tiempo

en que una persona está presente en escena; para agacharse y acostarse se analiza la

variación de la altura de la persona, si existe un decremento considerable para cada

movimiento se confirma calculando el primer momento de Hu, comparando este valor con

los valores propios de cada uno de estos movimientos.

77

Capítulo VI Pruebas y resultados

En este capítulo se describen las pruebas que se realizaron con sus respectivos

resultados. Es importante mencionar que debido a que el objetivo principal es la

caracterización de 5 movimientos de personas se emplearon diferentes bancos de videos,

estas bases ya han sido descritas en el capítulo anterior, (KTH, Weizmann, Caviar,

ViSION y CENIDET). Por lo tanto, ya que son escenarios diferentes, se deben ajustar los

umbrales necesarios para llevar a cabo los procesos de resta de imágenes, supresión de

sombra y filtro de tamaño, además de los parámetros para la caracterización de los

movimiento correr y merodear.

6.1 Ambiente de pruebas

Las pruebas fueron realizadas con el hardware, software y bases de videos siguientes;

Hardware Laptop

Procesador Intel (R) Dual-Core CPU T4200 2.00 GHz 2.00 GHz

RAM 3.00 GB

Sistema operativo de 32 bits, Windows 7

Software Borland C++ Builder (TM) Versión 6.0 (Build 10.158)

Bases de videos: Son 5 las bases de videos utilizadas para el desarrollo de pruebas,

misma que ya se han descrito en el capítulo 5. En la tabla 6.1 se presenta la información

genérica de cada base de videos.

Tabla 6.1. Bases de videos usadas en la etapa de pruebas

Base de videos Movimientos Resolución y velocidad

KTH Caminar, trotar, correr, boxeo, levantar manos y palmas

160 x120 a 25 cuadros por segundo

Weizmann

Agacharse, saltar hacia adelante en una sola pierna, saltar hacia adelante en dos piernas, saltar en un mismo lugar en dos piernas, correr, saltar, caminar, galopando hacia los lados, ondear una mano y ondear ambas manos

180x144 a 25 cuadros por segundo

Caviar Caminar y correr 384x288 a 25 cuadros por segundo

ViSION Caminar y correr 384x288 a 10 cuadros por segundo

CENIDET Caminar, levantar manos, merodeo, agacharse y acostarse

320x240 a 15 cuadros por segundo


78

6.2 Plan de pruebas

Para la realización de las pruebas se consideraron los bancos de videos antes

mencionadas, utilizando únicamente aquellos videos que pertenecen a los movimientos

de interés de este trabajo de tesis.

Debido a que cada escenario presenta diferentes condiciones de iluminación. Se

ajustan los umbrales para los procesos de resta de imágenes, supresión de sombra

además de la especificación de las reglas o filtro de tamaño. De este modo en la tabla 6.2

se describen los umbrales para cada base de videos.

Tabla 6.2. Especificación de umbrales y reglas de tamaño.

Base de videos

Movimientos de interés

Umbral resta de

imágenes

Umbrales supresión de

sombras Reglas de tamaño

KTH a) Correr b) Levantar manos

40 0, 10, 0, 9 Área>=( (Y Act - 40) *13)+100 Área<=( (Y Act - 40) *28)+450

Weizmann

a) Levantar manos b) Correr c) Agacharse d) Brincar levantando manos

60 3, 10, 0, 9 Área>=900 Área<=1600

Caviar a) Merodear 40 3, 10, 0, 9

Área>=( (Y Act - 48) *15)+250

Área<=( (Y Act - 48) *18)+900

ViSION a) Merodear 40 2, 10, 0, 9

Área>=( (Y Ac -100) *5)+300

Área<=( (Y Act -100) *5)+900

CENIDET a) Levantar manos b) Merodear Acostarse

40 2, 10, 0, 9 Área>=( (Y Act - 50) *5)+50

Área<=( (Y Act - 50) *5)+300

Dentro de las consideraciones con respecto a las bases de videos utilizadas, es

necesario mencionar que para las bases de videos KTH y Weizmann, fue necesario crear

una imagen que represente el fondo debido a que en KTH las personas aparecen desde

el inicio provocando que durante la construcción del modelo inicial estas formen parte del

mismo. En cuando a la segunda base de videos Weizmann los videos son relativamente

cortos van desde 2 a 5 segundos tiempo insuficiente para crear el modelo de fondo. Por lo

tanto, para estas dos situaciones se construyó una imagen única que represente el

modelo de fondo (véase figura 6.1a y 6.1b), dentro del sistema es necesario cargar la

imagen correspondiente e indicar que se deben omitir los procesos de modelado y

actualización de fondo.

Capítulo VI. Pruebas y resultados

79

Otras especificaciones necesarias pertenecen a la caracterización de los

movimientos de correr y merodear se muestran en la tabla 6.3, esto como resultado de un

previo análisis.

Tabla 6.3. Especificaciones para los movimientos correr y merodear.

Especificaciones

Base de videos KTH Weizmann Caviar ViSION CENIDET

Distancia entre

centroides para

caminar

<=9 píxeles <= 2 píxeles ------ ------ ------

Distancia entre

centroide para

correr

>=10 píxeles >= 3 píxeles ------ ------ ------

Tiempo

considerado

merodeo

----- ----- 500 cuadros

(20 seg.)

250 cuadros

(25 seg.)

500

cuadros (33

seg.)

Para los movimientos de levantar una o ambas manos, agacharse y acostarse no

tienen ninguna otra especificación más que las mencionadas en el capítulo 5, ya que

estos movimientos dependen en su totalidad de las propiedades geométricas y de forma

del cuerpo de la persona en seguimiento.

Después de establecer umbrales y parámetros para cada una de las base de

videos empleadas, se presenta el programa de pruebas. Cabe señalar que dichas

pruebas corresponde a las fases del diseño propuesto, acoplándolas de acuerdo su

Figura 6.1. a) Imagen de fondo para KTH, b) Imagen de fondo para Weizmann.


80

objetivo en común resultando 4 módulos de pruebas, las cuales se desglosan de la

siguiente manera.

Módulo de prueba 1 “Modelado y actualización de Fondo”

Fase 1. Creación del modelo de fondo

Fase 2. Actualización del modelo de fondo

Módulo de prueba 2 “Detección de objetos de primer plano y validación de objetos

como persona”

Fase 3. Diferencia de imágenes

Fase 4. Supresión de sombras

Fase 5. Erosión y dilatación

Fase 6. Localización de objetos

Fase 7. Validación de personas en base a su tamaño

Módulo de prueba 3 “Extracción del borde, partes del cuerpo y seguimiento de

personas”

Fase 8. Extracción del borde

Fase 9. Localización de partes del cuerpo

Fase 10. Relocalización de personas

Módulo de prueba 4 “Caracterización de movimientos”

Fase 13. Caracterización de movimientos de personas

Fase 13.1 Correr

Fase 13.2 Levantar una o ambas manos

Fase 13.3 Merodear

Fase 13.4 Agacharse

Fase 13.5 Acostarse

6.3 Realización de pruebas Para pruebas de detección y seguimiento de personas se tomó un video de cada base de

videos, mostrando los resultados de un sólo cuadro al azar en la tabla 6.4 se presenta el

nombre del video, el número de cuadro y la base de videos a la que pertenece. Es

importante recalcar que de las bases de videos usados en los experimentos sólo en tres

de estas se realizó las tareas de modelado y actualización de fondo (Caviar, ViSION Y

CENIDET), para las dos restantes (Weizmann y KTH) se creó una imagen que


81

representará el modelo de fondo (ver figura 6.1). Lo anterior por motivos descritos en la

sección 6.2.

Tabla 6.4. Descripción de los videos utilizados en los experimentos (Nombre del video y número de cuadro).

Banco de videos Nombre del video Número de cuadro

KTH ving_d1_uncomp.avi 83

Weizmann daria_jack.avi 39

Caviar OneStopEnter2cor.avi 531

ViSION Camera1_070605.avi 1000

CENIDET Cenidet_1.avi 550

6.3.1 Prueba 1. “Modelado y actualización de Fondo” Fase 1. Creación del modelo de fondo El modelo de fondo inicial se crea utilizando la moda de píxeles procesando los primeros

50 cuadros de videos. Este procedimiento se realiza con el modelo de color RGB. En la

figura 6.2 se muestra los resultados de esta fase para tres de los bancos de videos

utilizados, Caviar, ViSION y CENIDET.

Banco de videos Imagen de fondo original Modelo de fondo inicial

Caviar

ViSION


82

Banco de videos Imagen de fondo original Modelo de fondo inicial

CENIDET

Figura 6.2. Resultados del modelado de fondo inicial

Resultados: Los resultados son favorables ya que con la técnica de la moda se obtiene

una imagen limpia y sin la presencia de estelas originadas por el movimiento de los

objetos; además, si durante la construcción del modelo inicial se encuentran objetos en

semi-movimiento formarán parte del fondo pero con la actualización este problema se

soluciona rápidamente, ya que se maneja un tiempo de aproximadamente 3 segundos

para la actualización general del fondo.

Observaciones: En los ejemplos de modelado del banco de videos ViSION y CENIDET

(fila 3 y 4 de la figura 6.2) se pueden observar partes de objetos en movimiento

consideradas modelo de fondo, esto debido a que durante el proceso de modelado

estuvieron presentes.

Fase 2. Actualización del modelo de fondo

Con el paso del tiempo la escena inicial de fondo tiende a variar por diversos factores, por

tal motivo se actualiza constantemente. La actualización entra en ejecución después de

los primeros 50 cuadros, el procedimiento es el mismo utilizado en la etapa de modelado

inicial, cada 50 cuadros se calcula la distribución de los valores RGB por cada píxel en la

imagen de fondo utilizando la moda de píxeles.


83

Escenario Imagen de fondo inicial Actualización del fondo

Caviar

ViSION

CENIDET

Figura 6.3. Resultados de la actualización del modelo de fondo.

Resultados: Con el procedimiento utilizado para la actualización del fondo se

obtienen ciertas ventajas, con el transcurso de la imagen que representa el fondo va

mejorando ya que se va adaptando a los cambios de cada píxel; además, el tiempo de

actualización general es relativamente corto va de 3 a 3.5 segundos. Otra ventaja es que

el modelo se va a adaptando a grandes cambios como aquellos originados por introducir o

extraer objetos del escenario, ya que los objetos nuevos gradualmente van formando

parte de la fondo.

Observaciones: en las imágenes de la figura 6.3 se muestran los resultados de la

primera actualización de la imagen de fondo inicial de tres escenarios diferentes. En la


84

primera columna se encuentran los modelos de fondo remarcando en azul las zonas en

movimiento que fueron tomadas como fondo durante el proceso de creación, después de

la primera actualización estos objetos desaparecieron ya que dejaron estar presentes o se

movieron de lugar.

6.3.2 Prueba 2. “Detección de objetos en movimiento y validación de objetos como persona” Fase 3. Diferencia de imágenes Posterior a la creación de un modelo de fondo y su constante actualización, este se toma

como referencia para hacer la detección de objetos en movimiento, para esto se usa la

técnica de diferencias de imágenes. Primero se realiza la conversión del espacio de color

RGB a escala de grises, esto para las imágenes de frente y la imagen de fondo. Los

resultados de esta fase se presentan en la figura 6.4.

Escenario Imagen de fondo

(Escala de Grises)

Imagen de frente

(Escala de Grises) Imagen diferencia

KTH

Weizmann


85

Escenario Imagen de fondo

(Escala de Grises)

Imagen de frente

(Escala de Grises) Imagen diferencia

Caviar

ViSION

CENIDET

Figura 6.4. Resultados de la diferencia de imágenes.

Resultados: Al utilizar la técnica de diferencia de imágenes se detectan como movimiento

todos los píxeles cuya resta entre las imágenes de fondo y frente estén por arriba de un

umbral, por lo tanto los resultados dependen directamente del valor del umbral

establecido. Debido a que las condiciones de iluminación son variables en los resultados

pueden existir pequeñas zonas en movimiento. Aún así, los resultados obtenidos son

considerados buenos, ya que esta segmentación se somete a otros procesos para

quedarse únicamente con los objetos de interés.


86

Fase 4. Eliminación de sombras

Al resultado de la detección de movimiento, se identifican y eliminar aquellos píxeles que

pudieran pertenecer a sombra. Para esto se implementó el algoritmo denominado DNM

(Deterministic Non-Model based), el cual sse basa en la aplicación de umbrales sobre la

reducción de intensidad y cromaticidad para evaluar si un determinado píxel se encuentra

en una región sombreada o no. Como ya se mencionó en la sección 3.1.3 este método

utiliza el modelo de color HSV, por lo tanto el primero paso es realizar la conversión entre

espacios de color -de RGB a HSV sólo de los píxeles de la imagen de fondo y de las

imágenes de frente que correspondan con los píxeles (punto a punto) segmentados en la

etapa anterior. Por último se evalúan con las condiciones y umbrales del algoritmo DNM.

En la figura 6.5 se muestran los resultados de la conversión de ambas imágenes

(frente y fondo) al modelo de color HSV, y los resultados de la detección de píxeles como

sombra en base a la aplicación del enfoque DNM.

Escenario Imagen de fondo (HSV) Imagen de frente (HSV) Post-Segmentación

KTH

Weizmann


87

Escenario Imagen de fondo (HSV) Imagen de frente (HSV) Post-Segmentación

Caviar

ViSION

CENIDET

Figura 6.5. Resultados de la detección de píxeles pertenecientes a sombra

Resultados: al aplicar la etapa de eliminación de sombras se consigue eliminar ruido

ocasionado por el fenómeno sombra, se comprobó la funcionalidad del algoritmo en

escenario donde se presenta gran cantidad de sombras.

Observaciones: Las imágenes mostradas en la columna 2 y 3 pertenecen a la

conversión de RGB a HSV de aquellos píxeles de la imagen de fondo y la imagen de

frente que corresponde con los píxeles detectados como movimiento en la etapa de

detección de objetos de primer plano. En la cuarta columna se puede observar en rojo los

píxeles detectados como sombra, mismos que son eliminados en la segmentación final.


88

Fase 5. Operaciones morfológicas

El resultado de la detección de objetos de primer plano seguido la detección y eliminación

de sombras, es posible que contenga información basura o ruido, que pudo haberse

filtrado en la fase de detección de movimiento, para eliminar esta información se realiza la

operación de la apertura.

Fase 6. Localización de objetos

Posterior a la eliminación de ruido con la aplicación de operaciones morfológicas se

procede a identificar los objetos en movimiento resultantes finales, por lo que se aplica el

algoritmo iterativo de etiquetado de componentes conexas asignándoles un identificador;

además, durante este proceso se obtiene la cantidad final de objetos de primer plano, con

sus respectivas propiedades geométricas tales como su ubicación y área.

Fase 7. Validación de personas en base a su tamaño

El resultado de las dos fases anteriores son los objetos en movimiento, a los cuales se les

aplica el filtro de tamaño, analizando su área y la coordenada Y del píxel más abajo con

las reglas de tamaño con el principal objetivo de realizar la clasificación como persona o

no persona. Los resultados de estas fases se presentan en la figura 6.6.

Escenario Segmentación final Imagen con apertura Objetos clasificados

como personas

KTH


89

Escenario Segmentación final Imagen con apertura Objetos clasificados

como personas

Weizmann

Caviar

ViSION

CENIDET

Figura 6.6. Resultados de la aplicación de la apertura y de la validación de personas


90

Resultados: Los resultados obtenidos en estas fases son satisfactorios, con la aplicación

de las operaciones morfológicas ayuda a mejorar la segmentación final. Gracias a la

erosión se consigue eliminar pequeñas zonas de movimiento aisladas y con la dilatación

se expanden las regiones con la ventaja de rellenar agujeros en los objetos de interés. En

cuanto, a la localización de los objetos se obtiene un agrupamiento entre los píxeles de

una misma región, esto ayuda a determinar el número de regiones existentes; además, de

saber sus propiedades tales como el área, el alto y el ancho para un análisis individual.

Por otro lado, la fase más importante en el diseño del sistema, es la parte de

validación de objetos como personas o no personas debido a que son principal objeto de

interés, el método basado en reglas de tamaño genera buenos resultados, entre las

ventajas obtenidas son que permite identificar e ignorar objetos pequeños y grandes que

no concuerden con el tamaño de una persona; además, este método presenta la

propiedad de ser invariante a perspectiva de la cámara.

Observaciones: En la columna 2 se presentan los resultados de la post-segmentación,

es decir los objetos de primer plano con la eliminación de las sombras detectadas. En la

columna 3 están los resultados de la aplicación de la apertura, donde se puede apreciar

que se realizó el llenado de agujeros, pero además aquellas pequeñas zonas en

movimiento con la dilatación tienden a crecer, es por ello que se en dicha columna se

pueden visualizar pequeñas zonas en movimiento. Por último en la columna 4 se

encuentran únicamente las regiones en movimiento que superaron el filtro de tamaño, por

lo tanto el resultado es la segmentación de las personas en movimiento. Para cada

persona se asigna un color diferente además de una etiqueta que lo enumera dentro de la

escena.

6.3.3 Prueba 3 “Extracción del borde, partes del cuerpo y seguimiento de personas” Las siguientes pruebas corresponden a la parte de extracción de partes del cuerpo y del

seguimiento de las personas detectadas.

Fase 8. Extracción del borde Una vez que se tienen los objetos clasificados como personas, se procede a obtener la

silueta, ya que esta se usa como base para una posterior búsqueda de las partes del

cuerpo. Durante este procedimiento se contabilizan los píxeles que conforman el borde,

además de realizar las sumatorias de sus coordenadas X y Y, esto con el objetivo de

calcular el centroide.


91

Fase 9. Localización de partes del cuerpo Localizado el centroide y el borde de las personas en escena, estos son tomados como

referencia para la búsqueda de las extremidades del cuerpo (cabeza, pies y manos). Este

proceso consiste en una serie de reglas geométricas propias para cada una de las

extremidades.

Fase 10. Prueba 5. Seguimiento de personas El seguimiento consiste en hacer la detección de personas en un determinado cuadro

almacenando su centroide, posteriormente en el cuadro consecutivo se realiza una nueva

detección de personas con su centroide, se calcula la distancia entre dichos centroides y

si la distancia es menor o igual a la altura total de la persona se crea una relación entre

ambas personas de diferentes cuadros. En la figura 6.7 se presentan los resultados de las

fases 8, 9 y 10.

En la columna dos se encuentran las personas detectadas, a cada persona nueva

que entra en escena se le asigna un color diferente además de una etiqueta que indica el

número de persona que le corresponde dentro de escena. En la tercera columna se

presentan los resultados de la extracción del borde y partes del cuerpo, para esto se

señala lo siguiente; el punto rojo representa el centroide, el punto azul a la cabeza, el

amarillo a la mano 1, el punto verde representa la mano 2, el punto guinda representa al

pie 1 y el punto negro al pie 2. También se muestran dos etiquetas, la primera que está en

la parte superior derecha indica el número de persona en escena y la segunda que está

en la parte inferior derecha indica la cantidad de cuadros en los que la persona ha sido

relocalizada. Por último en la columna cuatro, se muestra mediante líneas la trayectoria

del seguimiento de las personas, cabe señalar que dichas líneas están representadas por

los puntos de los centroides y de igual manera se conserva el mismo color asignado a la

persona en su entrada al escenario.

Escenario Personas detectadas Extracción del borde y

partes del cuerpo Seguimiento

KTH


92

Escenario Personas detectadas Extracción del borde y

partes del cuerpo Seguimiento

Weizmann

Caviar

ViSION

CENIDET

Figura 6.7. Resultados de la extracción del borde, partes del cuerpo y seguimiento.


93

Resultados: El resultado de estas tres fases es bueno para todos los casos ya que sólo

depende de la detección y validación de personas. La detección del borde no implica gran

complejidad; además, que es un proceso muy rápido. Posterior a esto se hace la

localización de las extremidades, proceso en el cual los resultados son satisfactorios en

todos los casos ya que se consideran diferentes aspectos. En cuanto al seguimiento el

método empleado es robusto cumpliendo su objetivo aún cuando hay traslapes u

oclusiones por pequeños instantes de tiempo. El gran interés de realizar un buen

seguimiento es porque su resultado depende la caracterización del movimiento merodeo.

6.3.4 Prueba 4 “Caracterización de movimientos”

Para las pruebas de caracterización de los movimientos propuestos se utilizaron

videos al azar de las 5 bases de videos.

Es importante remarcar que las primeras bases de videos KTH y Weizmann son

videos muy cortos por lo que para estos casos se tomaron varios videos de prueba

sin considerar el movimiento merodeo por obvias razones. Presentan ambiente

controlado con movimiento en la cámara.

En cuando a la acción correr se hizo la caracterización únicamente en las bases

KTH y Weizmann ya que estas contienen videos de personas con la acción

caminar y fue posible obtener una distancia entre centroides que describieran la

acción caminar y por ende el movimiento correr. Presentan ambiente controlado, la

captura es en aproximadamente a la altura de la persona.

En las bases de videos Caviar, ViSION y CENIDET se establecieron tiempos para

ser considerado merodeo, esto como resultado de un análisis a los escenarios. No

se controla ningún factor.

En la base Caviar se utilizaron los 2 videos más largos para hacer la

caracterización de merodeo.

Para la base de videos ViSION se utilizaron dos videos de 5 minutos de duración

en el que participan más de 10 personas al mismo tiempo, se caracteriza el

movimiento merodeo.

Por último, en cuanto a la base de videos de adquisición propia CENIDET se

usaron 3 videos con duración de 5 minutos cada uno, aquí participan más de dos

personas al mismo tiempo, además de vehículos. En estos video se encuentran


94

los movimientos levantar manos, merodeo, agacharse y acostarse. Dado a que fue

una adquisición personal no se controla ningún factor.

En la tabla 6.5 se resumen los movimientos que se caracterizan en las diferentes

bases de videos; además, la cantidad de videos tomados para cada base de videos.

Tabla 6.5. Resumen de las pruebas realizadas en la fase de caracterización de movimientos.

Movimientos

Base de Videos KTH Weizmann Caviar ViSION CENIDET Total

Correr 20 videos 10 videos ----- -----

3 videos

30

Levantar manos 20 videos 30 videos ----- ----- 50

Merodeo ----- ----- 2 videos 2 videos 4

Agacharse ----- 10 videos ----- ----- 10

Acostarse ----- ----- ----- ----- 3

Total 40 50 2 2 3 97

A continuación se muestran los resultados de la caracterización en imágenes,

relacionando una imagen original del video con la caracterización. El orden es el

siguiente, correr, levantar manos, merodear, agacharse y acostarse. Al final se describe

los resultados de las pruebas.

Caracterización del movimiento Correr En la figura 6.8 se presentan los resultados de las pruebas de la caracterización del

movimiento correr para las bases de videos KTH y Weizmann.

Base de videos

Nombre del video

No. de cuadro

Imagen original Caracterización (Correr)

KTH person01_running_d1_uncomp.avi

219


95

Base de videos

Nombre del video

No. de cuadro



8


73

Weizmann moshe_run.avi

23

Weizmann ido_run.avi 22

Weizmann lena_run1.avi

15

Figura 6.8. Ejemplos de la caracterización del movimiento correr


96

Caracterización del movimiento levantar una o ambas manos En la figura 6.9 se presentan algunos ejemplos de la caracterización del movimiento

levantar manos para las diferentes bases de videos.

Base de videos

Nombre del video

No. de cuadro

Imagen original Caracterización

(Levantar manos)

KTH

person07_handwaving_d1_uncomp.avi

767

KTH

person25_handwaving_d3_uncomp.avi

96

Weizmann shahar_jack.avi

71

Weizmann ira_wave1.avi

90


97

Base de videos

Nombre del video

No. de cuadro


(Levantar manos)

CENIDET Cenidet_1.avi

686


1161

Figura 6.9. Ejemplos de la caracterización del movimiento levantar manos

Nota: En los dos últimos resultados (cenidet_1.avi y cenidet_3.avi) se hizo un

acercamiento para apreciar mejor la caracterización.

Caracterización del movimiento Merodear En la en la figura 6.10 se presentan algunos ejemplos de la caracterización del

movimiento merodear.

Base de videos

Nombre del video

No. de cuadro


(Merodear)

Caviar OneStopEnter2cor.avi

732


98

Base de videos

Nombre del video

No. de cuadro


(Merodear)


860


1145

CENIDET Camera1_070605.avi

572

ViSION Camera1_070605.avi

2104

----- Estacionamiento1.avi

678

Figura 6.10. Ejemplos de la caracterización del movimiento merodear.


99

Nota: Como ya se había hecho mención, el movimiento merodeo depende del escenario,

para poder decidir un tiempo promedio en que una persona puede estar presente en

escena, es por eso que en los resultados de la caracterización del merodeo varía la

cantidad de cuadros en el seguimiento de cada persona. Es importante mencionar que

también se realizaron pruebas con videos capturados a gran altura, como es en el caso

de la última fila de la figura 6.9; para este escenario también se obtuvieron las reglas de

tamaño correspondientes. Debido a la poca definición de las personas sólo es posible

realizar la caracterización del movimiento merodear.

Caracterización del movimiento Agacharse En la figura 6.11 se presentan algunos ejemplos de la caracterización del movimiento

agacharse.

Base de videos

Nombre del video

No. de cuadro


(Agacharse)

Weizmann daria_bend.avi 40

Weizmann moshe_bend.avi

29



100

Base de videos

Nombre del video

No. de cuadro


(Agacharse)


Figura 6.11. Ejemplos de la caracterización del movimiento agacharse.

Nota: Los resultados de la caracterización de la tercera y cuarta fila fueron ampliados con

la intensión de hacer una mejor observación.

Caracterización del movimiento Acostarse En la figura 6.12 se presentan algunos ejemplos de la caracterización del movimiento

acostarse.

Base de videos

Nombre del video

No. de cuadro



1281

Adquisición 2

AcostarseA.avi

426

Figura 6.12. Ejemplos de la caracterización del movimiento acostarse.


101

Nota: Para la caracterización del movimiento acostarse fue necesario realizar otras

adquisiciones más, en la segunda fila de la tabla anterior se presenta la imagen de un

video de una adquisición personal sobre una calle, en estos videos sólo participa una sola

persona a la vez y la única acción que se realiza es el acostarse. La resolución es de

320x240, con velocidad de 15 cuadros por segundo. Las grabaciones son de máximo un

minuto.

6.4 Conclusiones y resultados

6.4.1 Conclusiones En cuanto a las conclusiones de las pruebas realizadas destacan los siguientes puntos;

Se analizaron videos de 5 bases de videos de escenarios diferentes.

Las Bases KTH y Weizmann contienen videos de personas realizando diferentes

acciones, son videos de poca duración en baja resolución. Además el fondo es

estático.

En las bases de videos ViSION, Caviar y CENIDET no se controla ningún factor, y

el cuadro de visualización de la cámara es extenso por lo que se aplicó un filtro de

tamaño obteniendo buenos resultados en la clasificación de personas.

La base de videos CENIDET corresponde a un estacionamiento, en el cual

participan coches y personas.

Se obtuvieron muy buenos resultados en la detección y seguimiento de personas

para las cinco bases de videos.

En la parte de la caracterización los movimientos mejor detectados fueron el

correr, levantar manos y agacharse.

Para el movimiento de merodeo se necesita de un análisis previo para determinar

el valor de tiempo que determine cuando se puede considerar merodeo.

Para el movimiento correr sólo fue posible caracterizarlo en aquellas bases de

videos que contemplan la acción caminar, mismo que se toma como comparación.


102

6.4.2 Comentarios De manera general los resultados obtenidos en los diferentes módulos de pruebas son

considerados buenos.

En las fases de modelado y actualización de fondo en la mayoría de las

situaciones se consigue una imagen de fondo limpia, y en los casos en que se presenta

ruido este se elimina rápidamente mediante la actualización.

En cuanto a la detección de objetos de primer plano, en todas las situaciones se

detectó el movimiento correctamente, para lo cual cabe señalar que se determinó un

umbral para cada base de videos.

Los resultados de la fase de validación de objetos como persona son

satisfactorios; sin embargo existen casos de mala clasificación debido principalmente por

la incapacidad de identificar personas cuando existe oclusión o traslape, ya que esto

afecta el tamaño real de la persona ocasionando que se ignoren. Sin embargo, en las

bases de videos utilizadas pocas son las situaciones de traslape y oclusión.

Por otro lado, en la extracción del borde no se presenta problema alguno ya que

este depende de la validación de personas para proceder a obtener su silueta, los

resultados de la extracción de las extremidades del cuerpo son buenos, ya que en el

método utilizado se utilizan diferentes parámetros de búsqueda sin embargo, estos no

siempre son correctos.

En cuando al seguimiento de personas esta tarea en sus resultados también

presenta casos erróneos, esta fase se ve afectada principalmente por el traslape y

oclusión entre personas ya que esto ocasiona genera confusión a la hora en que dichas

personas se separan.

Finalmente, los resultados del módulo de pruebas correspondiente a la

caracterización de movimiento de personas se muestran en la tabla 6.6.


103

Tabla 6.6. Porcentajes total en la caracterización de movimientos.

Movimiento Base de videos Total de video Caracterizaciones

% % total Correctas Malas

Correr KTH 20 16 4 80%

90% Weizmann 10 10 10 100%

Levantar

manos

KTH 20 17 6 85%

76% Weizmann 30 26 7 87%

CENIDET 9 5 4 56%

Merodeo

Caviar 4 3 1 75%

75% ViSION 11 7 4 64%

CENIDET 7 6 1 86%

Agacharse Weizmann 10 10 0 100%

71% CENIDET 7 3 4 43%

Acostarse CENIDET 5 3 2 60%

65% Adquisición 2 10 7 3 70%

Porcentaje general en la caracterización de los 5 movimientos 75%


104

105

Capítulo VII Conclusiones y trabajos futuros

En este capítulo se presentan las conclusiones finales, así como las aportaciones y

trabajos futuros.

7.1 Conclusiones finales

Este trabajo es enfocado al contexto de la videovigilancia, consiste principalmente en el

tratamiento digital de imágenes y caracterización de movimientos de personas. Por lo

tanto para alcanzar el objetivo principal fue necesario realizar un análisis y estudio del

estado del arte de trabajos relacionados, además de la implementación de diferentes

técnicas y algoritmos pertenecientes al área de Visión por Computadora.

El objetivo principal consistió en el desarrollo de un sistema de visión artificial

capaz de hacer la detección y seguimiento de personas para después realizar la

caracterización de cinco movimientos, los cuales son el correr, levantar una o ambas

manos, merodear, agacharse y acostarse.

En el diseño se propuso una metodología compuesto por tres módulos, cada

módulo tiene un objetivo y en conjunto dan como resultado el objetivo principal de éste

trabajo de tesis.

En el primer módulo, se realiza la lectura de video y se procesa obteniendo la

detección de movimiento, la eliminación de ruido con un algoritmo de supresión de

sombras y con la aplicación de operaciones morfológicas, posteriormente se

validan los objetos en movimiento como personas utilizando un algoritmo basado

en reglas de tamaño que da solución a la variabilidad del tamaño de la persona de

acuerdo a su distancia con la cámara. Después de la clasificación de personas, se

extrae información de las partes del cuerpo (cabeza, manos y pies), por último se

realiza el seguimiento de las personas detectadas.

En el segundo módulo se realizan cálculos para obtener las propiedades

geométricas y de forma de la persona para ser usadas en la etapa de

caracterización de movimientos, estas propiedades consisten en distancias y

ángulos entre extremidades del cuerpo, distancia de desplazamiento de personas


106

en cuadros consecutivos, además de descriptores de forma, tales como los

momentos invariantes de Hu.

En el tercer y último módulo, se realiza la caracterización de los movimientos

propuestos, esta tarea se realiza haciendo comparaciones con los propiedades

calculadas con los modelos que describen a cada movimiento. Además, en esta

etapa el sistema manda una señal de alerta para los casos en que se realice la

caracterización de alguno de los movimientos propuestos.

Las pruebas se realizaron con bases de videos en diferentes condiciones de

iluminación; bases de videos de laboratorio con ambiente controlado y, bases de videos

resultado de una adquisición propia sin control alguno. En el caso de bases de videos de

laboratorio se logró hacer una buena detección de personas y por ende una buena

caracterización. En cuanto a las bases de videos sin control alguno, presentan la

característica que las grabaciones fueron a una altura superior a la altura de las personas

en escena permitiendo que las estas puedan desplazarse por una gran zona y seguir

dentro del campo visual de la cámara. Para ambos casos el sistema se desempeña bien,

ya que los resultados de los experimentos muestran una buena detección, seguimiento de

personas y caracterización de movimientos. En las pruebas se utilizaron cerca de 100

videos de las diferentes bases en los que se presentan los cinco movimientos,

consiguiendo un porcentaje total del 75% de caracterizaciones correctas.

7.2 Aportaciones

Las aportaciones que se obtuvieron en la realización de este proyecto de investigación

son las siguientes:

1. Validación de personas

El algoritmo empleado para la validación de personas se considera una aportación

importante, ya que el problema de perspectiva de la cámara es poco tratado en el estado

del arte. Por lo general, reportan pruebas con bases de videos en los que la cámara está

a una altura promedio de personas. En el presente trabajo de tesis se consideró trabajar

principalmente con bases de videos en donde la cámara es colocada a una altura superior

a la de las personas en escena, originando que el tamaño de las personas sea muy

variado. Por lo tanto, se propuso utilizar una función discreta que incluye la relación entre

ubicación y tamaño de la persona, con esto se consiguen dos reglas de tamaño que

determinan y validan a un objeto en movimiento en base al análisis de su tamaño.

Capítulo VII. Conclusiones y trabajos futuros

107

2. Caracterización de los movimientos merodear y acostarse

Se abordó la caracterización de dos movimientos poco tratados en el estado del arte.

Dentro del estudio y análisis de trabajos relacionados no se encontró alguno que trate de

la caracterización de los movimientos merodeo y acostarse.

3. Metodología de caracterización original

La metodología empleada para realizar la caracterización se considera original ya que

en este proceso se realiza el análisis de diferentes métricas, se lleva a cabo el cálculo de

propiedades geométricas y posteriormente el análisis y descripción de forma.

4. Tiempo de respuesta cercano al tiempo real

Los algoritmos empleados en el diseño e implementación del sistema son ligeros y

requieren de poco costo computacional, gracias a esto el tiempo de procesamiento de

secuencias de imágenes es cercano al tiempo real. Se registró un procesamiento

promedio de entre 19 y 20 cuadros por segundo en videos con resolución de 320x240.

7.3 Trabajos futuros

Los trabajos futuros para dar continuidad a este trabajo son:

1. Desarrollar un sistema que incluya algoritmos todavía más rápidos para alcanzar

el procesamiento de video en tiempo real.

2. Implementación de algoritmos de seguimiento que solucionen el problema de

traslapes y oclusiones.

3. Implementación de algoritmos que permita extender el número de movimientos a

caracterizar.

4. Mejoramiento de los métodos de validación de personas, en lo que se puedan

incluir la validación de coches u otros objetos de interés.

5. Creación de una base de videos donde participen más de una persona a la vez

realizando diferentes movimientos en diferentes condiciones de iluminación y

diferentes escenarios.


108

6. Implementación de algoritmos más robustos para dar un mayor porcentaje en la

caracterización correcta de movimientos.

Capítulo VII. Conclusiones y trabajos futuros

109

110

Referencias bibliográficas

[Ai2, 2011]

Ai2, 2011. “Sistemas de Vigilancia Inteligente basados en Visión por

Computador”. Instituto de Automática e informática industrial vi jornada

sobre tecnologías gráficas y visión por computador. Ciudad Politécnica de

la Innovación Universitat Politècnica de València.

[Albusac, 2007]

Javier Alonso Albusac Jiménez. “Aprendizaje de reglas difusas para la

clasificación de comportamientos en un sistema de video-vigilancia

cognitiva”. ESTYLF 2008, Congreso Español sobre Tecnologías y Lógica

Fuzzy, Mieres, España, pp.17-19, septiembre 2008.

[Albusac, 2009]

Javier Alonso Albusac Jiménez. “Modelo para el Análisis de la Normalidad

de Eventos y Conductas en Entornos Monitorizados: Aplicación a la Vídeo

Vigilancia”, Tesis Doctoral. Universidad de Castilla-La Mancha (UCLM)

España, 2009.

[Breitenstein, 2009]

Breitenstein M., Reichlin F., Leibe B., Koller-Meir E. and Van Gool L.,

“Robust tracking-by-detection using a detector confidence particle filter”,

Computer Vision, IEEE 12th International Conference on, pp. 1515 - 1522,

Octubre, Japon, 2009, ISBN: 978-1-4244-4420-5.

[Cabrejas, 2010]

Héctor Cabrejas Fernández. “Detección y eliminación de sombras y

reflejos en entornos de video–seguridad sobre plataforma de análisis

distribuido”. Proyecto Fin de Carrera, Proyecto fin de carrera,

Universidad Autónoma de Madrid, Escuela politécnica superior. Julio

2010

[Carrasco, 2010]

Ignacio Carrasco, 2010. “La Videovigilancia y la seguridad privada. ¿Y

ahora qué?”. Seguritecnia, revista década independiente de seguridad.

Editorial Borrmart, C./ Don Ramón de la Cruz, 68 Madrid.

[Colmenarejo, 2011]

Alfonso Colmenarejo Rubio. “Segmentación de secuencias de vídeo

basada en el modelado del fondo mediante capas”. Proyecto fin de

carrera, Universidad Autónoma de Madrid, Escuela politécnica superior.

Julio 2011

[Cortés, 2009]

Miguel Cortés Marlia. “Reconocimiento de caras frontales mediante la

extracción de puntos característicos”. Proyecto fin de carrera,

Universidad Autónoma de Madrid, Escuela politécnica superior. Marzo

2009.

[Chang, 1999]

I.-Cheng Chang, Chung-Lin Huang. “The model-based human body

motion analysis system”. Computer Vision and Image Understanding

Volume 73, Issue 1, 1 January 1999

[Cucchiara, 2001]

Andrea Prati, Ivana Mikic´, Rita Cucchiara, Mohan M. Trivedi.

"Comparative Evaluation of Moving Shadow Detection Algorithms". IEEE

CVPR workshop on Empirical Evaluation Methods in Computer Vision,

Kauai, 2001.


111

[Dávila, 2009]

Dávila García M. L. “Caracterización Automática de una Muestra de

Acciones en Video”, Tesis de maestría, Dpto. de Ciencias

Computacionales, Centro Nacional de Investigación y Desarrollo

Tecnológico, Cuernavaca, Morelos, México, Diciembre 2009.

[De León, 2012]

Gabriela de León Hernández. “Agrupamiento de Trayectorias para la

Generación de un Modelo de Actividad Adaptativo”, Tesis de maestría,

Dpto. de Ciencias Computacionales, Centro Nacional de Investigación y

Desarrollo Tecnológico, Cuernavaca, Morelos, México, Diciembre 2012.

[Fathi, 2008] Fathi & Mori. “Action recognition by learning mid-level motion features.

Computer Vision and Pattern Recognition”. CVPR 2008

[Fujiyoshi, 2004] H. Fujiyoshi, A. Lipton, & T. Kanade, “Real-Time Human Motion Analysis by Image Skeletonization” IEICE Trans. Inf. & Syst., vol.E87-D, No.1, pp.113–120, 2004.

[Gil, 2004]

P. Gil, F. Torres, F. G. Ortiz. "Detección de objetos por segmentación

multinivel combinada de espacios de color". XXV Jornadas de

Automática. Ciudad Real, del 8 al 10 de Septiembre de 2004.

[González, 1996] R. C. González, R.E. Woods, “Tratamiento digital de imágenes”, Addison-

Wesley, EUA, 1996.

[Gorelick, 2007]

L. Gorelick, M. Blank, E. Shechtman, M. Irani, and R. Basri. “Actions as

spacetime shapes”. IEEE Transactions on Pattern Analysis and Machine

Intelligence, 29 (12):22472253, 2007.

[Grana, 2001]

Cucchiara, R., Grana, C., Piccardi, M., and Prati, A. “Detecting objects,

shadows and ghosts in video streams by exploiting color and motion

information”. In Proceedings of the IEEE Int'l Conference on Image

Analysis and Processing, to appear, 2001.

[Herodotou, 1998]

N. Herodotou, K.N. Plataniotis, and A.N. Venetsanopoulos “A color

segmentation scheme for object-based video coding”. In Proceedings of

the IEEE Symposium on Advances in Digital Filtering and Signal

Processing, 1998, pp. 25–29

[Hu, 1962]

M.K.Hu. “Visual pattern recognition by moment invariants, computer

methods in image analysis”. IRE Transactions on Information Theory, 8,

1962.

[Mateu, 2009]

Óscar Mateu García. “Análisis y detección de objetos de primer plano en

secuencias de video” Proyecto fin de carrera, Universidad Politécnica de

Catalunya. Junio 2009.

[Mora, 2009]

David Mora, Andrés Páez y Julián Quiroga Sepúlveda. “Detección de

Objetos Móviles en una Escena Utilizando Flujo Óptico”. XIV Simposio de

tratamiento de señales, imágenes y visión artificial – STSIVA 2009.

Referencias bibliográfica

112

[Niebles, 2007]

Juan Carlos Niebles & Li Fei-Fei. “A Hierarchical Model of Shape and

Appearance for Human Action Classification” Computer Vision and

Pattern Recognition, 2007. CVPR '07. IEEE Conference on.

[Niebles, 2007]

Juan Carlos Niebles. Hongcheng Wang. Li Fei-Fei. “Unsupervised

learning of human action categories using spatial-temporal words”.

Received: 16 March 2007 / Accepted: 26 December 2007 © Springer

Science+Business Media, LLC 2008.

[Pajares, 2002]

Pajares Matinsanz G. & De la Cruz García J., “Visión por computador”, 1ª edición, Editorial Alfaomega Ra-ma, Madrid, España, 2002.

[Pajares, 2008] Pajares Matinsanz G. & De la Cruz García J., “Visión por computador: imágenes digitales y aplicaciones”. 2nd edn, Alfaomega Grupo Editor, México, 2008, ISBN: 978-970-15-1356-9.

[Patri, 2001]

Andrea Prati, Ivana Mikic’, Costantino Grana and Mohan M. Trivedi. “Shadow detection algorithms for traffic flow analysis: a comparative study”. In Proceedings of IEEE Int’l Conference on Intelligent Transportation Systems, pages 340–345, Aug. 2001.

[Piccardi, 2001]

Rita Cucchiara, Costantino Grana, Massimo Piccardi, Andrea Prati and Stefano Sirotti. "Improving Shadow Suppression in Moving Object Detection with HSV Color Information". In Proceedings of IEEE Int’l Conference on Intelligent Transportation Systems, pages 334–339, Aug. 2001

[Rani, 2010]

Asha Rani, Sanjeev Kumar, Christian Micheloni, Gian Luca Foresti, 2010.

“Human Action Recognition using a Hybrid NTLD Classifier”. Department

of Mathematics and Computer Science, University of Udine Viale Delle

Scienze 206, Udine 33100, Italy

[Realpe, 2009]

Miguel A. Realpe, Boris X. Vintimilla, Dennis G. Romero, Paolo

Remagnino. “Análisis de comportamiento humano-Metodología para

localización y seguimiento de personas en secuencias de video”. In:

Octava Conferencia Iberoamericana en Sistemas, Cibernética e

Informática (CISCI); 10 July - 13 July 2009, Orlando, U.S.A.

[Saldaña, 2007]

Saldaña García J.A., 2007. “Caracterización de imágenes en movimiento:

correr y caminar”. Tesis de maestría, Dpto. de Ciencias Computacionales,

Centro Nacional de Investigación y Desarrollo Tecnológico, Cuernavaca,

Morelos.

[Smith, 1978] Smith A. R. "Color gamut transformation pairs". Computer Graphics, Vol.

12, No. 3, pp 12-19

[Stauder, 1990]

Jürgen Stauder, Roland Mech, and Jörn Ostermann. “Detection of moving

cast shadows for object segmentation”. IEEE Transactions on Multimedia,

1(1):65–76, Mar. 1999.

[Tilley, 1993]

Nick Tilley, 1993. “Understanding car parks, crime and CCTV: Evaluation lessons from safer cities”. Police research group. Crime prevention unit series paper no. 42. London: home office police department.


113

[Toscano, 2011]

Jasiel Hassan Toscano Martínez. “Seguimiento y Caracterización del

Comportamiento de Varios Objetos en Movimiento”. Tesis de maestría,

Dpto. de Ciencias Computacionales, Centro Nacional de Investigación y

Desarrollo Tecnológico, México, 2011

[Valera, 2005]

M. Valera and SA Velastin. “Intelligent distributed surveillance systems: a

review”. Vision, Image and Signal Processing, IEE Proceedings-,

152(2):192–204, 2005.

[Vezzani, 2010] R. Vezzani, R. Cucchiara. "Video Surveillance Online Repository (ViSOR): an integrated framework" in Multimedia Tools and Applications, vol. 50, n. 2, Kluwer Academic Press, pp. 359-380, 2010.

[Wang, 2004]

W. Wang and S. Maybank. “A survey on visual surveillance of object

motion and behaviors”. IEEE Transactions on Systems, Man and

Cybernetics, 34(3):334–352, 2004.

Referencias en línea [1] http://www.cs.waikato.ac.nz/ml/weka/. Fecha de revisión: Septiembre 2010.

[2] http://www.wpgsystem.com/index.php?pageid=200. Fecha de revisión: Marzo 2011.

[3] http://www.nada.kth. Fecha de revisión: Febrero 2011.

[4] http://www.wisdom.weizmann.ac.il. Fecha de revisión: Marzo 2011.

[5] http://homepages.inf.ed.ac.uk. Fecha de revisión: Junio 2012.

[6] http://www.openvisor.org. Fecha de revisión: Septiembre 2012.

centro nacional de investigación y desarrollo …...digital de imágenes, es decir, las tareas de...

Documents