navegacion local de un robot m ovil con · pdf filerenciarlas de los obst aculos est aticos y...

Actas de las XXXV Jornadas de Automática, 3-5 de septiembre de 2014, ValenciaISBN-13: 978-84-697-0589-6 © 2014 Comité Español de Automática de la IFAC (CEA-IFAC)

NAVEGACION LOCAL DE UN ROBOT MOVIL CONCOSTES SOCIALES APRENDIDOS POR DEMOSTRACION

Noe Perez-Higueras, Rafael Ramon-Vigo, Luis MerinoUniversidad Pablo de Olavide, Crta. Utrera km1, E-41013, Sevilla, Espana, [email protected], [email protected], [email protected]

Fernando CaballeroUniversidad de Sevilla, Camino de los Descubrimientos s/n, E-41092, Sevilla, Espana, [email protected]

Resumen

La navegacion de robots en entornos con humanoses un area de investigacion que plantea serios re-tos. El sistema de navegacion propuesto extiendelos esquemas de navegacion incorporando habilida-des sociales. Para ello, se propone el uso de tecni-cas de aprendizaje automatico para derivar fun-ciones de coste social observando a peatones cami-nando entre ellos. El objetivo es incorporar talesfunciones de coste a nivel de planificacion local,proveyendo controles de bajo nivel directamente alrobot. El artıculo presenta un analisis de los resul-tados de navegacion en diversos escenarios reales,analizando y comparando esta estrategia con otrosalgoritmos.

Palabras clave: Navegacion Social, Robotica deServicio, Aprendizaje por Demostracion

1. INTRODUCCION

El proyecto europeo FROG1 (Fun Robotic Out-door Guide), subvencionado por el VII ProgramaMarco de la Comision Europea, aspira a desarro-llar un robot guıa para sitios turısticos. Mientrasque los robots guıas han sido desarrollados duran-te mas de una decada [20, 18], este proyecto apor-ta como novedad el desarrollo de comportamientossociales integrando reacciones sociales, ademas deuna operatividad robusta en escenarios en exterio-res y muy concurridos.

En el proyecto se utilizaran como escenarios el zoode Lisboa y el Real Alcazar en Sevilla (ver Figura1). La actuacion en este tipo de escenarios (el RealAlcazar puede tener hasta 5000 visitantes por dıa,haciendo un total de 1.5 millones de visitantes porano) implica, no solo una navegacion segura y efi-ciente, sino tambien una interaccion social cuandoel robot realiza sus tareas.

La planificacion del movimiento de robots quecomparten el espacio con humanos en entornosdinamicos es un tema de intensa investigacion. Losrobots deben respetar las convenciones sociales,garantizar el confort de las personas que lo rodean,

1http://www.frogrobot.eu

y mantener la legibilidad, de manera que los huma-nos puedan entender las intenciones de los robots[11]. En primer lugar, el robot debe ser capaz dedetectar personas, estimar sus posiciones y dife-renciarlas de los obstaculos estaticos y dinamicos.Para la deteccion y seguimiento de personas hansido utilizados laseres [3, 4], o sistemas de vision.En el proyecto FROG, ademas de laseres, se utili-za un sistema de vision estereo, capaz de proveerlas posiciones y orientaciones de las personas entiempo real [5, 9].

Figura 1: Situacion tıpica del Real Alcazar de Sevi-lla, utilizado como escenario en el proyecto FROG.

Una vez que el robot tiene la informacion de laspersonas de alrededor, el sistema de navegaciondebe considerarlas de manera diferente a otrosobstaculos del entorno para lograr una navegacionsocial. Los planificadores de caminos actuales noresuelven el problema de navegacion social, ya quetratan de minimizar la distancia y el tiempo em-pleado en alcazar el objetivo, lo que no genera, engeneral, un camino social. Algunos autores, hanincluido costes y restricciones relativas a la na-vegacion social en los planificadores para obtenercaminos aceptables socialmente [19, 10], pero es-tos costes son pre-programados, y pueden dirigira un comportamiento social inadecuado.

Por consiguiente, aprender estos costes y modelosa partir de datos, parece una aproximacion masapropiada. En los ultimos anos, se han presen-tado muchas contribuciones en esta direccion: unaprendizaje supervisado es empleado en [21] paraaprender modelos de prediccion de movimiento depersonas; o en [14], se utiliza aprendizaje no super-visado para determinar prototipos de movimiento


sociales, empleados para inferir costes sociales alplanificar rutas.

Otra tecnica potencial, es el aprendizaje por de-mostracion [2]: un experto indica al robot comodeberıa navegar entre los humanos. Una manerade implementarlo es a traves de Inverse Reinfor-cement Learning (IRL) [1], en el cual una funcionde recompensa (o coste) es extraıda del compor-tamiento del experto, y posteriormente utilizadapara obtener una polıtica de comportamiento pa-ra el robot. Mientras que una polıtica directa deestado a accion tambien puede ser aprendida deejemplos, el aprendizaje de una funcion de recom-pensa permite transferir la tarea a otras situacio-nes.

En este trabajo, los costes o recompensas son em-pleados para aprender polıticas de ejecucion loca-les, proveyendo directamente los controles de mo-vimiento al robot. Esto puede ser combinado conotras tecnicas de planificacion a mas alto nivel, ya la vez, aliviar la complejidad asociada al apren-dizaje. Ademas, se ha utilizado un set de datosde personas caminando en espacios publicos paraaprender las funciones de costes. Finalmente, seanaliza y compara este enfoque con otras tecni-cas.

La estructura del artıculo es la siguiente: a conti-nuacion, se describe la plataforma robotica utiliza-da y la arquitectura de navegacion implementada.Despues, en la seccion 3, se muestra el proceso deaprendizaje. En la seccion 4 se muestran los resul-tados de los experimentos realizados, y se finalizacon las conclusiones y trabajo futuro planteado.

2. ARQUITECTURA DELSISTEMA

2.1. ROBOT FROG

La figura 2, muestra una imagen del robot FROG.Consiste en una plataforma de 4 ruedas con guiadodiferencial, adaptada a los escenarios consideradosen el proyecto. La plataforma ha sido desarrolla-da por la empresa portuguesa IDMind. Tiene unaautonomıa de 2 a 4 horas, dependiendo del tipode suelo y el numero de computadores embebidosen ejecucion (hasta un total de 3). El peso del ro-bot es de 80 kg aproximadamente y su velocidadmaxima es de 1.6 km/h (limitada por software a0.8 km/h).

El robot esta equipado con un amplio rango desensores para la localizacion, navegacion y seguri-dad. Entre ellos, los siguientes sensores son consi-derados para la deteccion de personas y la nave-gacion:

Figura 2: Robot con las posiciones y campo de vi-sion de los sensores. Los planos verdes denotan alos laseres frontal y trasero. Plano naranja repre-senta el laser inclinado 45◦. Las areas rojas deno-tan los campos de vision de las camaras estereofrontales y la camara trasera. El area azul repre-senta las zonas de deteccion del sonar.

La odometrıa es calculada mediante la lecturade los encoders de las ruedas y las velocida-des angulares del sensor MTi-G IMU de laempresa Xsens.

Se emplean tres laseres 2D. Dos dispuestoshorizontalmente, situados en el frente y enla parte trasera, y utilizados para la localiza-cion, evitacion de obstaculos y deteccion depersonas. El tercer laser esta situado en elfrente del robot y girado 45o. Se emplea parala deteccion de obstaculos en 3D.

Un par de camaras stereo, empleadas en ladeteccion de personas, estimacion de la posi-cion y percepcion 3D.

Un par de sonares situados en los laterales,que se utilizan para deteccion de obstaculos.

En el robot FROG, se ha intentado disponer lossensores a fin de cubrir todo el area posible alre-dedor del robot. Los laseres frontal y trasero cu-bren un angulo total de 360o alrededor del robot.Ademas, los sonares son utilizados para detectarobstaculos en las zonas laterales que no pueden sercubiertas por los laseres, ademas de obstaculos adiferente altura que los laseres. El laser inclinado,situado justo debajo de la pantalla y girado 45◦

grados en el eje de elevacion, tambien se empleapara detectar obstaculos en un rango cercano yque no son visibles para el laser frontal (pequenosescalones hacia arriba o hacia abajo).

Considerando el aspecto clave de la deteccion depersonas, el principal sensor utilizado es el parde camaras estereo, cuyas imagenes son utilizadaspor el algoritmo de deteccion de personas [5, 9].


Figura 3: Esquema del sistema de navegacion.

Ademas, una segunda fuente de informacion ha si-do anadida para incrementar el area de deteccionde personas. Se trata de un algoritmo de deteccionde personas basado en laser 2D [3]. Este algoritmo,no es tan preciso como el algoritmo de vision pe-ro es lo suficientemente fiable para proveer buenasestimaciones de las personas alrededor del robot.

2.2. ESTRUCTURA DEL SISTEMA DENAVEGACION

El sistema de navegacion implementado en el ro-bot FROG, sigue el esquema clasico de separacionentre un planificador de caminos global y un con-trolador de ejecucion del camino local (ver Fig. 3).El planificador global emplea la posicion global delrobot y modelos globales de obstaculos (mapa),y potencialmente otros modelos, para determinaruna ruta a la meta. El planificador local recibe elcamino global e intenta seguirlo, considerando lainformacion actual proporcionada por los sensoresen el marco del robot. Este controlador, genera loscontroles (velocidad angular y lineal) enviados alrobot.

La actual implementacion del sistema de navega-cion hace una extension de la arquitectura de na-vegacion implementada en el Robot Operating Sys-tem (ROS) [15]. Se ha centrado principalmente enla adaptacion del planificador local, aunque se hanllevado a cabo tambien modificaciones significati-vas para adecuar el planificador global a los re-querimientos del proyecto FROG. El planificadorglobal esta basado en el algoritmo de Dijkstra pararealizar una busqueda en el espacio de trabajo dis-ponible y encontrar el mejor camino. En futurostrabajos, se planea considerar tambien restriccio-nes a este nivel.

Como planificador local se ha considerado una ex-tension del algoritmo Trajectory Rollout [6]. El al-goritmo ha sido reimplementado considerando laeficiencia computacional como mayor restriccion.Este controlador simula las posibles futuras tra-yectorias del robot en un horizonte de tiempo dis-creto. Para asegurar la seguridad y la viabilidadde los movimientos, las restricciones cinematicasdel robot y las aceleraciones deben ser correcta-

mente indicadas. El controlador, despues, escogela mejor trayectoria evaluando diferentes funcio-nes de coste que puntuan los diferentes objetivosdel robot, tales como la distancia al camino global,distancia a la meta local o el coste por obstaculos,entre otros. Esta tecnica ha sido modificada pa-ra anadir unos terminos adicionales considerandocostes sociales, los cuales son aprendidos a par-tir de los datos de interacciones humanas. Basadoen la estimacion de la posicion de las personas, elcontrolador anade los correspondientes costes so-ciales, que modifican los comandos de velocidadenviados a el robot.

3. APRENDIZAJE DE LAFUNCION DE COSTE

La principal hipotesis del presente artıculo es quela mejor manera de obtener comportamientos denavegacion socialmente aceptables es observar co-mo los humanos navegan entre ellos, y emular es-tos comportamientos en el robot; para ello, se em-plea la tecnica de Inverse Reinforcement Learning(IRL) [1] para aprender la funcion de coste social.

IRL asume que el experto del cual queremosaprender puede ser modelado por un Proceso deDecision de Markov (o MDP en sus siglas ingle-sas). Formalmente, se define un MDP discreto co-mo una tupla 〈S,A, T,R,D, γ〉. El espacio de esta-dos es el conjunto finito de posibles estados s ∈ S;el espacio de acciones se define como el conjuntofinito de acciones posibles a ∈ A. En cada paso,se lleva a cabo una accion y una recompensa esobtenida (o inferido un coste). Despues de reali-zar una accion a, la transicion de estado es mo-delada por la funcion de probabilidad condicionalT (s′, a, s) = p(s′|a, s). Entonces, en cada instan-te de tiempo, se observa el nuevo estado. La re-compensa obtenida en cada paso se denota comoR(s, a). A la funcion a = π(s), que devuelve unaaccion para un estado, se le denomina polıtica. Lapolıtica que maximiza la suma de las recompensasesperadas, o valor, obtenida durante D pasos tem-porales E[

∑Dt=0 γR(s, a)], es llamada una polıtica

optima. Para asegurar que la suma es finita cuan-do D → ∞, las recompensas son pesadas por unfactor de descuento γ ∈ [0, 1).

El objetivo de IRL es determinar la funcion derecompensa R(s, a) que el experto esta siguiendopor medio de la observacion del experto actuandoen el mundo real, asumiendo que esta ejecutandouna polıtica de acuerdo al MDP dado. En muchoscasos, se puede asumir que la funcion de recom-pensa depende de un conjunto de caracterısticasθ(s), las cuales son funciones del estado.

La idea de la utilizacion de IRL para la navegacion


de robots fue propuesta por Peter Henry [8], pa-ra estimar funciones de coste para la planificacionglobal de rutas para el robot. Aquı, se presentanmultiples diferencias a la propuesta de Henry, lascuales seran descritas en las siguientes secciones.

3.1. MODELOS

El aspecto mas relevante de este planteamiento esla definicion del modelo del MDP, y, en particular,el espacio de estados y las caracterısticas del esta-do de las cuales depende la funcion de recompensa.Esto consituye la mayor hipotesis considerada eneste trabajo.

Ademas, a fin de aliviar la complejidad del proble-ma, se han utilizado dos modelos. El primero soloconsidera las caracterısticas relativas a los movi-mientos entre pares de personas cuando se cruzan.El segundo esta basado en caracterısticas de masalto nivel, tales como las densidades de personasen diferentes areas delante del robot. En la sec-cion 4, se discutiran los resultados obtenidos conlos modelos.

3.1.1. Modelo 1

En principio, las acciones de una persona (o robot)navegando entre otras dependeran del estado detodas las personas cercanas al robot, ademas deotros factores, como obstaculos y la meta a la quedirigirse. Sin embargo, el considerar a todas laspersonas, implicarıa el tratar con un espacio deestados grande (y de tamano variable a lo largodel tiempo). Aquı, solo se consideran en el modelolos movimientos relativos entre dos personas (unrobot/experto y una persona), parametrizando elestado en el marco local del robot/experto. Estopermite reducir la complejidad del problema.

De esta manera, se ha definido el estado como laposicion relativa y orientacion de la persona res-

pecto al robot, denotada como s =(d θ ϕ

)T(Figura 4). Como la parametrizacion es local, laposicion del robot no es considerada en el esta-do. Por otro lado, los efectos de las acciones enel estado son modeladas utilizando ecuaciones ci-nematicas, las cuales son consideradas determinis-tas. La incertidumbre se ha anadido en la parte delmovimiento de la persona, muestreando diferentesvariaciones de las velocidades lineal y angular dela persona, y determinando su posicion futura. Deesta manera, se ha determinado la funcion de tran-sicion T (s′, a, s). Otra hipotesis que sera analizadaen este artıculo, es si el modelo puede ser extra-polado a los casos con mas personas, aplicando lafuncion de coste aprendida, no solo a la personamas cercana, sino a todas las personas presentesen la escena.

Figura 4: El estado del modelo 1 se define comola posicion relativa de la persona con respecto alrobot.

Figura 5: El estado en el modelo 2 se define conlos valores de densidad (personas/m2) en las 3regiones.

3.1.2. Modelo 2

El segundo modelo MDP propuesto, se basa encaracterısticas de mas alto nivel para definir lafuncion de coste. En particular, se han considera-do las densidades de personas en diferentes areasdelante del robot. En este caso, se ha utilizado elmismo area que en el modelo 1, pero dividida entres regiones independientes, como puede verse enla Figura 5.

Por lo tanto, el estado se codifica como s =(ρ1 ρ2 ρ3

)T. El valor de densidad para cada

region ha sido dividido en 5 intervalos de rango0,25 personas/m2, exceptuando el primer inter-valo que corresponde al valor cero de densidad.De este modo, la funcion de transicion T (s′, a, s),se determina considerando como las densidadesen las regiones son afectadas por el movimientodel robot. Al mismo tiempo, la incertidumbre esanadida en los nuevos valores de densidad, debidoal flujo de entrada y de salida de personas de lasregiones.

El desarrollo de este modelo aspira a complemen-tar el primer modelo de manera simple. La idea esintentar capturar otros comportamientos de na-vegacion en entornos concurridos, que el primermodelo no considera al tener solo en cuenta a lapersona mas cercana. De esta manera, la comple-


Figura 6: Imagen ejemplo del set de datos utilizadoen el aprendizaje [16].

jidad del problema y el coste computacional se vereducido al dividir el proceso de aprendizaje en dosfunciones de recompensa distintas. Posteriormen-te, se pueden usar las dos funciones de recompensaobtenidas con los dos modelos, y anadirlas al sis-tema de navegacion local como dos costes mas ocombinarlas en un solo coste. Los resultados obte-nidos se mostraran en la seccion 4.

3.1.3. Aprendizaje

Para resolver el problema de IRL, se ha conside-rado el algoritmo Gaussian Process IRL (GPIRL)[13]. La principal diferencia con otros algoritmoses que emplea un proceso Gaussiano para aprenderuna funcion de recompensa no lineal sobre el es-pacio de caracterısticas. De este modo, el procesoGaussiano permite extrapolar la funcion aprendi-da a otros espacios de estados dentro del dominiode las caracterısticas consideradas.

Como fuente de ejemplos de navegacion de perso-nas, se ha utilizado el set de datos denominado BI-WI Walking Pedestrian Dataset2 [16]. Este, con-siste en una vista de pajaro de un entorno en ex-teriores urbano, y contiene anotaciones de las po-siciones y velocidades de todas las personas y suscorrespodientes marcas de tiempo (vease la Figura6). Para extraer los ejemplos, se selecciono como¨expertos¨ a un conjunto de personas de entre lospeatones que estan en movimiento en el dataset.Para cada punto de la trayectoria seguida por unexperto, se extrajo:

El estado del modelo 1, si =(d θ ϕ

)Tde

la persona mas cercana dentro de la zona deplanificacion local.

Modelo 2, el estado si =(ρ1 ρ2 ρ3

)T.

La accion realizada por el experto en el mismoinstante de tiempo. En particular, las veloci-

dades lineal y angular ai =(v ω

)T.

2http://www.vision.ee.ethz.ch/datasets/

De este modo, para cada experto, se almacenala trayectoria {si, ai}Ni=1 como un episodio parala fase de aprendizaje. El algoritmo GPIRL utili-za un PDM discreto como modelo. Por lo tanto,los espacio de estados y acciones son discretizadosconsiderando como los expertos y los peatones secomportan en el set de datos.

Finalmente, utilizando los ejemplos extraıdos delset de datos y aplicando el algoritmo de IRL, seobtiene una funcion de recompensa (o de coste)R(s, a), que asocia un valor escalar a cada unode los estados. Una explicacion mas detallada delproceso de aprendizaje puede verse en [17]. Estevalor es utilizado como nuevo coste anadido en elalgoritmo de planificacion local.

4. EXPERIMENTOS

En esta seccion se mostraran los experimentosreales realizados con la plataforma robotica, in-tegrando los subsistemas descritos anteriormente.En estos experimentos, el robot navego de formaautonoma desde un punto inicial a un punto finaldado, encontrando peatones en el camino.

Los experimentos evaluan el sistema planteadocomparandolo con un planificador local clasico [6],y con un planificador basado en costes extraıdosde la clasica teorıa de proxemica [7].

Los resultados son comparados utilizando comometricas la distancia total recorrida hasta la me-ta, medida en metros (DT ), el tiempo total de eje-cucion en segundos (T ), y las distancias mınimay media a los peatones en metros (DP min y DPmed respectivamente). Estas metricas son mostra-das junto con sus desviaciones estandar. Con losvalores del tiempo de ejecucion y la distancia totalrecorrida, se pretende evaluar la efectividad paraalcazar la meta, mientras que con las distanciasa las personas, se puede evaluar como el espaciopersonal es conservado.

4.1. EXPERIMENTOS CONPEATONES ESTATICOS

En este conjunto de experimentos, el robot tuvoque cruzar un area controlada con peatones para-dos de pie, hablando los unos con los otros. Se tra-ta de un escenario estatico en el sentido de que laspersonas no se mueven de su posicion inicial du-rante el experimento. Se realizaron 4 repeticionespara cada uno de los planificadores, manteniendola misma configuracion de las personas.

Se muestran los resultados para los siguientes pla-nificadores locales planteados: navegacion basicasin la componente social [6] (No soc.), planificadorcon una aproximacion proxemica (Prox.), planifi-


cador con el coste social obtenido con el modelo1 (M1), planificador utilizando una generalizaciondel modelo 1, considerando a todos los peatones(M1 T), planificador con el coste social obtenidocon el modelo 2 (M2), y finalmente, un planifica-dor que emplea conjuntamente los costes obteni-dos por los modelos 1 y 2 (M1+M2). El cuadro 1,resume los resultados obtenidos, que son comen-tados a continuacion:

No social. Parece claro que la navegacion sinla componente social, intenta optimizar eltiempo y la distancia recorrida. De forma que,la distancia media a los peatones es la masbaja de todas las aproximaciones.

Coste proxemico. Este planificador mejora li-geramente los resultados de la navegacion ”nosocial”. Sin embargo, como se comenta en[14], la proxemica esta orientada a la inter-accion de personas, y puede no ser adecuadapara la navegacion, realizando maniobras deevasion innecesarias cuando el robot esta muycercano a la persona.

Modelo 1. El planificador con el coste socialobtenido con este modelo, mejora los resul-tados de la proxemica. Conserva una mayordistancia a las personas que en el caso ”nosocial” y anticipa las maniobras de esquivamucho antes que la proxemica. Este compor-tamiento puede ser adecuado en escenarios nomuy concurridos, pero el rendimiento puededecaer con muchas personas alrededor del ro-bot.

Modelo 1 generalizado a todas las personas.De acuerdo a los resultados, el rendimientoes similar al caso anterior. Estos resultadospodrıan variar en experimentos con mas gen-te, pero en cualquier caso, esta generalizacionno consigue capturar los aspectos clave ne-cesarios para una buena navegacion en sitiosconcurridos.

Modelo 2. En este caso, las distancias a lospeatones son menores que en el caso del mo-delo 1 y su generalizacion. Sin embargo, as-pectos como la orientacion o la direccion demovimiento de los peatones, no son tenidosen cuenta, lo que puede llevar a comporta-mientos de evasion indeseados.

Modelo 1 + Modelo 2. La adicion conjuntade los costes obtenidos por los dos modelos,permite realizar maniobras de esquiva no ex-cesivas y con mayor antelacion que el casoproxemico. Ademas, mantiene una menor dis-tancia a las personas que solo el modelo 1, sin

Cuadro 1: Resultados en un escenario estaticoT DT DP med DP min

No soc. 50,65 ± 0,21 21,76 ± 0,29 2,82 ± 0,06 0,82 ± 0,03

Prox. 71,00 ± 1,55 21,09 ± 1,04 3,69 ± 1,69 1,05 ± 0,18

M1 54,28 ± 3,39 20,50 ± 0,22 5,19 ± 1,06 1,29 ± 0,18

M1 T 58,85 ± 0,21 22,68 ± 0,19 5,22 ± 1,69 1,69 ± 0,04

M2 51,05 ± 0,92 24,53 ± 0,01 4,50 ± 0,21 0,87 ± 0,02

M1+M2 53,27 ± 3,17 21,19 ± 1,56 4,00 ± 1,82 1,01 ± 0,29

Cuadro 2: Resultados en un escenario dinamicoT DT DP med DP min

No soc. 59,22 ± 0,06 20,38 ± 0,29 2,31 ± 0,15 0,20 ± 0,09

Prox. 68,44 ± 0,02 20,99 ± 0,68 2,59 ± 0,10 0,38 ± 0,04

M1 69,45 ± 7,01 21,85 ± 1,89 4,46 ± 0,19 0,20 ± 0,17

M1 T 61,20 ± 0,0 20,50 ± 0,0 2,49 ± 0,16 0,60 ± 0,12

M2 65,26 ± 10,08 20,75 ± 0,24 2,56 ± 0,17 0,47 ± 0,16

M1+M2 60,20 ± 1,81 20,36 ± 0,35 2,46 ± 0,10 0,33 ± 0,02

resultar incomodo para ellas. Se puede consi-derar que, de las propuestas analizadas, estees el comportamiento mas apropiado para en-tornos concurridos.

4.2. EXPERIMENTOS CONPEATONES DINAMICOS

Para realizar estos experimentos, se empleo el mis-mo escenario citado anteriormente, pero en estecaso, los peatones estaban en movimiento cruzan-do el area. De nuevo, se realizaron 4 repeticionescon las mismas condiciones para cada uno de losplanificadores propuestos.

La disposicion de los peatones en el experimentofue la siguiente: dos peatones caminan en direc-cion opuesta al robot obligandolo a esquivarlos.Despues, otro peaton cruza en diagonal por de-lante del robot. Finalmente, dos nuevos peatones,adelantan caminando al robot por su izquierda.

Los resultados se muestran en el Cuadro 2. Comopuede observarse, los resultados son muy simila-res a los obtenidos en el caso del escenario estati-co. De nuevo, todas las aproximaciones ”sociales”mejoran al comportamiento ”no social”. Particu-larmente, el modelo 1 parece realizar maniobrasde evitacion un poco exageradas. Por otro lado,el planificador mixto (modelo 1 y 2), parece man-tener una distancia aceptable a los peatones enentornos concurridos y maniobras de esquiva massuaves.


4.3. EXPERIMENTOS ENESCENARIOS OBJETIVO

4.3.1. Zoo de Lisboa

En la revision del segundo ano del proyectoFROG, se realizo una demostracion en el zoo deLisboa, mostrando las capacidades del robot desa-rrolladas hasta el momento. El robot guio a losvisitantes por el zoo mostrando los animales, yaportando datos sobre las especies, su comporta-miento y su habitat natural.

La guıa abarca una ruta de unos 750 metros dedistancia, con diferentes puntos de interes, y unaduracion de unos 45 minutos aproximadamente.Durante la semana de pruebas, la distancia totalrecorrida de forma totalmente autonoma fue demas de 3 km.

Esta demostracion, en la cual aun no se incluyeronlas componentes sociales entre las funcionalidadesde navegacion, probaron la robustez y precision delocalizacion para la navegacion en un escenario enexteriores tan desafiante.

4.3.2. Real Alcazar de Sevilla

Otro conjunto de experimentos fue llevado a caboen el Real Alcazar de Sevilla, donde tendra lugarla evaluacion final del proyecto FROG. En estecaso, los experimentos se realizaron empleando elplanficador local aumentado con los costes socialesprovinientes de los modelos 1 y 2 (Figura 7).

La visita guiada por el robot tiene una distanciade unos 525 metros aproximadamente, incluyendoel camino de vuelta a la posicion inicial. La rutafue realizada, satisfactoriamente, dos veces al dıadurante 8 dıas seguidos, lo que suma un total de8,4 km de navegacion autonoma en un escenariomuy concurrido.

El comportamiento social del robot se mostro ade-cuado en la mayorıa de los casos. La navegacionfue bastante segura para los visitantes y el robotfue capaz de esquivar a los personas con antipacionrealizando giros suaves al detectarlas caminandoen la direccion opuesta.

5. CONCLUSIONES YTRABAJO FUTURO

Este artıculo resume el sistema de navegaciondesarrollado en el marco del proyecto europeoFROG. El sistema implementa una navegacion efi-ciente y segura, de acuerdo a las especificacionesdel proyecto, prestando especial atencion al aspec-to de la interaccion social de la navegacion. Se hapresentado una propuesta que hace uso de la tecni-

Figura 7: Izquierda: gente rodeando al robot en elReal Alcazar. Derecha: deteccion de personas en360◦ alrededor del robot (cilindros verdes).

ca IRL para aprender las funciones de recompen-sa/coste a partir de ejemplos de personas navegan-do entre otras personas. Ademas, se han descritodos modelos simples y el uso de un set de datospublico para extraer los ejemplos de aprendizaje.

Todas las diferentes propuestas han sido compa-radas entre ellas, y con una navegacion basica yuna aproximacion basada en proxemica. Los re-sultados muestran que IRL puede ser usado paratransferir algunos comportamientos de navegacionhumanos en el controlador de navegacion de bajonivel de un robot movil. Este controlador mejoraligeramente el rendimiento del planificador basa-do en proxemica, y es capaz de anticipar suavesmaniobras para evitar a personas que estan cami-nado en direccion opuesta o casi paralela al robot.Sin embargo, las mejoras no son muy significativasy los costes sociales aprendidos no capturan todoel conocimiento clave implıcito en la navegacionsocial en entornos concurridos. Esto puede indicarque el controlador local utilizado no es capaz deencontrar la mejor accion en estos casos.

Como trabajo futuro, se plantea el grabar un setde datos propio, que recoja una variedad mas ricade comportamientos de navegacion entre personasy convenciones sociales. Ademas, se pueden anadirnuevas caracterısticas a los modelos, tal como lasdirecciones de los flujos de personas. Por otro la-do, se considera el implementar un nuevo plani-ficador local, empleando tecnicas como los RRTs[12]. Tambien, se plantea la aplicacion de costessociales a nivel de planificacion global de caminos.Finalmente, se planea realizar una evaluacion cua-litativa de la percepcion de los peatones respectoa los diferentes modos de navegacion descritos enla seccion de experimentos.

Agradecimientos

Este trabajo ha sido parcialmente financiado porel VII Programa Marco de la Comision Europeabajo el acuerdo no. 288235 (FROG) y el proyec-to PAIS-MultiRobot financiado por la Junta deAndalucıa (TIC-7390).


Referencias

[1] Pieter Abbeel and Andrew Y. Ng. Apprenti-ceship learning via inverse reinforcement lear-ning. In Proceedings of the twenty-first in-ternational conference on Machine learning,ICML ’04, pages 1–, New York, NY, USA,2004. ACM.

[2] B.D. Argali, S. Chernova, M. Veloso, andB. Browning. A survey of robot learning fromdemonstrations. Robotics and AutonomousSystems, 57:469–483, 2009.

[3] K. O. Arras, O. Martinez Mozos, and W. Bur-gard. Using boosted features for the detectionof people in 2d range data. In Proc. Interna-tional Conference on Robotics and Automa-tion, ICRA, 2008.

[4] Alexander Carballo, Akihisa Ohya, andShinıchi Yuta. People detection using rangeand intensity data from multi-layered laserrange finders. In Proc. International Con-ference on Intelligent Robots and Systems,IROS, pages 5849–5854, 2010.

[5] M. Enzweiler and D.M. Gavrila. Integratedpedestrian classification and orientation esti-mation. In Proc. of the IEEE Conf. on Com-puter Vision and Pattern Recognition, 2008.

[6] B. Gerkey and K. Konolige. Planning andcontrol in unstructured terrain. In Workshopon Path Planning on Costmaps, Proceedingsof the IEEE International Conference on Ro-botics and Automation, 2008.

[7] Edward T. Hall. The Hidden Dimension. An-chor, October 1990.

[8] Peter Henry, Christian Vollmer, Brian Ferris,and Dieter Fox. Learning to navigate throughcrowded environments. In ICRA’10, pages981–986, 2010.

[9] C. Keller, M. Enzweiler, M. Rohrbach, D.-F.Llorca, C. Schnorr, and D.M. Gavrila. Thebenefits of dense stereo for pedestrian detec-tion. IEEE Trans. on Intelligent Transporta-tion Systems, 12(4):1096–1106, 2011.

[10] R. Kirby, J. J. Forlizzi, and R. Simmons. Af-fective social robots. Robotics and Autono-mous Systems, 58:322–332, 2010.

[11] Thibault Kruse, Amit Kumar Pandey, RachidAlami, and Alexandra Kirsch. Human-awarerobot navigation: A survey. Robot. Auton.Syst., 61(12):1726–1743, December 2013.

[12] S. M. LaValle and J. J. Kuffner. Randomizedkinodynamic planning. International Jour-nal of Robotics Research, 20(5):378–400, May2001.

[13] Sergey Levine, Zoran Popovic, and VladlenKoltun. Nonlinear inverse reinforcement lear-ning with gaussian processes. In Neural Infor-mation Processing Systems Conference, 2011.

[14] M. Luber, L. Spinello, J. Silva, and K.O.Arras. Socially-aware robot navigation: Alearning approach. In IROS, pages 797–803.IEEE, 2012.

[15] Eitan Marder-Eppstein, Eric Berger, TullyFoote, Brian P. Gerkey, and Kurt Konolige.The Office Marathon: Robust Navigation inan Indoor Office Environment. In Internatio-nal Conference on Robotics and Automation,05/2010 2010.

[16] Stefano Pellegrini, Andreas Ess, KonradSchindler, and Luc van Gool. You’ll ne-ver walk alone: Modeling social behavior formulti-target tracking. In International Con-ference on Computer Vision, 2009.

[17] R. Ramon-Vigo, N. Perez-Higueras, F. Caba-llero, and L. Merino. Transferencia de com-portamientos de navegacion humana a un pla-nificador local de robots. In XXXV Jornadasde Automatica, 2014. submitted.

[18] Roland Siegwart, Kai O. Arras, Samir Bouab-dallah, Daniel Burnier, Gilles Froidevaux,Xavier Greppin, Bjorn Jensen, Antoine Lo-rotte, Laetitia Mayor, Mathieu Meisser, Ro-land Philippsen, Ralph Piguet, Guy Ramel,Gregoire Terrien, and Nicola Tomatis. Ro-box at Expo.02: A large-scale installation ofpersonal robots. Robotics and AutonomousSystems, 42(3-4):203–222, March 2003.

[19] Emrah Akin Sisbot, Luis Felipe Marin-Urias,Rachid Alami, and Thierry Simeon. A Hu-man Aware Mobile Robot Motion Planner.IEEE Transactions on Robotics, 23(5):874–883, 2007.

[20] S. Thrun, M. Beetz, M. Bennewitz, W. Bur-gard, A. B. Cremers, F. Dellaert, D. Fox, andC. Hahnel. Probabilistic algorithms and theinteractive museum tour-guide robot miner-va. The International Journal of Robotics Re-search, 19:972–999, October 2000.

[21] Peter Trautman and Andreas Krause. Un-freezing the robot: Navigation in dense, in-teracting crowds. In IROS, pages 797–803.IEEE, 2010.

navegacion local de un robot m ovil con · pdf filerenciarlas de los obst aculos est aticos y...

Documents