deepvoice: tecnolog as de aprendizaje profundo aplicadas ... · aprendizaje profundo incluye las...

DeepVoice: Tecnologıas de Aprendizaje Profundo aplicadas alProcesado de Voz y Audio

Deep Learning Technologies for Speech and Audio Processing

Marta R. Costa-jussà, José A. R. Fonollosa TALP Research Center

Universitat Politècnica de CatalunyaCampus Nord, C/Jordi Girona, 08034 Barcelona

{marta.ruiz,jose.fonollosa}@upc.edu

Resumen: Este proyecto propone el desarrollo de nuevas arquitecturas para el pro-cesado de la voz y el audio mediante metodos de aprendizaje profundo, explorandotambien nuevas aplicaciones y dando continuidad al trabajo inicial del equipo deinvestigadores solicitante y de toda la comunidad internacional. Las lineas de in-vestigacion incluyen: reconocimiento de voz, reconocimiento de eventos acusticos,sıntesis de voz y traduccion automatica.Palabras clave: Tecnologıas del habla, aprendizaje profundo, eeconocimiento delhabla, conversion de texto a voz, redes neuronales profundas

Abstract: This project proposes the development of new deep learning methods forspeech and audio processing, exploring new applications and continuing the initialwork of the research team and the international community. Research lines include:automatic speech recognition, acoustic event detection, speech synthesis and machinetranslation.Keywords: Speech technology, deep learning, speech recognition, text to speech,deep neural networks

1 Participantes del proyecto

El grupo de investigacion que participa en elproyecto es el grupo de Voz del Departamen-to de Teorıa de Senal y Comunicaciones dela Universidad Politecnica de Cataluna. Losinvestigadores principales son los mismos au-tores de este artıculo.

2 Entidad financiadora

El proyecto esta financiado por el Ministeriode Economıa y Competitividad y el FondoEuropeo de Desarrollo Regional y el codigodel proyecto es TEC2015-69266-P. DeepVoicecomenzo el 1 de enero de 2016 y tiene unaduracion de cuatro anos.

3 Contexto y motivacion

Las tecnologıas de aprendizaje profundo ha-cen referencia a los metodos y sistemas deaprendizaje automatico compuestos de variascapas de procesamiento o niveles de abstrac-cion. Esta familia de algoritmos suele caracte-rizarse ademas por tener una estructura sen-cilla de describir y versatil. En concreto, este

aprendizaje profundo suele utilizar alguna va-riante de las redes neuronales artificiales demultiples capas o profundas para aprenderun determinado modelo. En este modeladoes tan importante la arquitectura de la redneuronal como el algoritmo de entrenamien-to o aprendizaje de los parametros de estared.

En los ultimos anos, el modelado median-te redes neuronales ha resurgido con muchafuerza gracias a ese enfasis en el aprendizaje yen el numero de capas. Otros factores impor-tantes han sido la disponibilidad de mayor ca-pacidad de calculo y de grandes bases de da-tos. La grandes bases de datos permiten en-trenar mejor estructuras multicapa con grannumero de parametros y los recursos compu-tacionales permiten realizar este proceso entiempos razonables.

A pesar de que su uso no se ha generali-zado hasta hace unos pocos anos y de la difi-cultad de analizar el comportamiento de losalgoritmos de aprendizaje profundo, su im-pacto ha sido ya espectacular en mucho ambi-

Procesamiento del Lenguaje Natural, Revista nº 59, septiembre de 2017, pp. 117-120 recibido 08-03-2017 revisado 11-05-2017 aceptado 22-05-2017

ISSN 1135-5948 © 2017 Sociedad Española para el Procesamiento del Lenguaje Natural

tos como el procesado de imagen, voz y textotanto a nivel de investigacion como comer-cial. En reconocimiento de voz, por ejemplo,se ha pasado de un avance anual muy len-to basado en sistemas de gran complejidad aestructuras sencillas de aprendizaje profundoque suponen toda una revolucion en cuantoa arquitectura y salto en prestaciones.

Este proyecto propone el desarrollo denuevas arquitecturas para el procesado de lavoz y el audio mediante metodos de apren-dizaje profundo, explorando tambien nuevasaplicaciones.

El proyecto incluye un paquete de traba-jo general dedicado al aprendizaje profundoy otros cuatro paquetes de trabajo dedicadosal reconocimiento del habla y del locutor, de-teccion de eventos acusticos, sıntesis de vozy traduccion de voz. En el primer paquete detrabajo se exploran nuevas arquitecturas y al-goritmos de aprendizaje, teniendo en cuentael coste computacional y la escalabilidad agrandes bases de datos, mientras que los si-guientes exploran su aplicacion en procesadode la voz y del audio. En la siguiente sec-cion mencionamos con algo mas de detalleque aportaciones se haran en cada una de lastareas.

En estas tareas o en la difusion de los re-sultados esta previsto continuar colaborandocon otros grupos de investigacion a nivel na-cional e internacional y con las empresas in-teresadas en la tematica del proyecto y sus re-sultados. En concreto, se incluye en el plan detrabajo la colaboracion con el hospital SantJoan de Deu de Barcelona en la detecciony mejora de las condiciones acusticas de lasunidades de cuidados intensivos de neonatos.Tambien se pone enfasis en la evaluacion delos resultados. Se comenta esta colaboracionen la seccion 5 de este artıculo.

4 Proyecto DeepVoice

El proyecto integra diferentes areas de lastecnologıas del habla y prentende contribuiren cada una de ellas incorporando modelosde aprendizaje profundo. A continuacion des-cribimos brevemente los objetivos de cadauno de los paquetes de trabajo del proyectoque ademas del paquete de arquitecturas deaprendizaje profundo incluye las areas de: re-conocimiento de voz, reconocimiento de even-tos acusticos, sıntesis de voz y traduccion au-tomatica.

4.1 Arquitecturas de aprendizajeprofundo

Las arquitecturas profundas construidas apartir de redes neuronales artificiales tienenuna larga historia, pero su reciente renaci-miento esta relacionado con la disponibili-dad de algoritmos de entrenamiento efica-ces, bases de datos grandes y hardware decomputacion potente (Hinton, Osindero, yTeh, 2006; Bengio, 2009).

El proyecto dedicara recursos a investigarnuevas arquitecturas de aprendizaje profun-do que puedan ser utiles en aplicaciones devoz. Se pretende desarrollar medidas de op-timizacion nuevas para entrenar redes recu-rrentes con datos no segmentados. Asimis-mo, desarrollar nuevos algoritmos de entre-namiento o modificar los ya existentes paraque sean paralelizables.

4.2 Reconocimiento de voz

El impacto del aprendizaje profundo en re-conocimiento de voz ha sido revolucionario yabarcan las tres lıneas de investigavion quevamos a seguir en este proyecto.

En primer lugar, en robustez del sistemade reconocimiento, algunos trabajos recien-tes proponen usar redes neuronales profun-das (Xia y Bao, 2014) para reducir el ruidode la senal, por poner un ejemplo. En esta di-reccion, se contribuira mediante el desarrollode tecnicas basadas en aprendizaje profundoque permitan anadir ruido al sistema sin quela calidad se vea afectada.

En segundo lugar, se pretende desarrollararquitecturas end-to-end de reconocimientode voz, viendo la viabilidad de las mismasen ejemplos anteriores (Hannun et al., 2014).Para ello, se debe hacer un estudio exhaustivode las caracterısticas perceptuales en mode-lado acustico y su modelizacion con modelosneuronales profundos. Asimismo, se pretendeusar redes neuronales recurrentes y entrena-mientos conjuntos para los modelos acusticoy de lenguaje.

Finalmente, en reconocimiento de locutortrabajos anteriores como (Richardson, Rey-nolds, y Dehak, 2015) usan las redes neuro-nales para extraccion automatica de carac-terısticas. En este proyecto se pretende ir masalla y usar la entrada de senal sin modificarpara mejorar el rendimiento de los algoritmosde aprendizaje profundo.

Marta R. Costa-jussà, José A. R. Fonollosa

118

4.3 Reconocimiento de eventosacusticos

El contexto de esta tarea se encuentra en launidad de curas intensivas de neonatos (NI-CU). En este contexto, hay muchos ruidosque se tienen que filtrar para estudiar los pa-trones relevantes. Se pretende grabar y eti-quetar datos recogidos de microfonos instala-dos en las incubadoras de las NICU. La basede datos incluira informacion sobre las varia-bles fisiologicas relevantes y los patrones desueno.

4.4 Sıntesis de voz

El aprendizaje profundo se ha integrado ensıntesis de voz principalmente aplicado a lamodelizacion parametrica (Ling et al., 2015)

La tarea de sıntesis de voz es basicamen-te una tarea de regresion. Con tal de produ-cir voz natural y continua se pueden utilizartecnicas de generacion parametrica. En estaarea, proponemos investigar representacionesde la voz que permitan usar redes neurona-les. Tambien pretendemos proponer y evaluartecnicas de aprendizaje profundo para redu-cir el ruido de la voz generada e incluir ex-presividad en la voz final.

4.5 Traduccion automatica

En este caso, el aprendizaje profundo se hausado para mejorar los sistemas estadısticosya existentes y tambien ha permitido desarro-llar un nuevo paradigma de traduccion usan-do un modelado de secuencia a secuencia. Co-mo en las otras areas, la lista de trabajos esmuy extensa (Costa-jussa et al., 2017).

La traduccion automatica se puede apli-car a la voz o al texto. El objetivo al final deeste proyecto es construir un sistema de tra-duccion de voz a texto, ya sea concatenandotecnicas de reconocimiento de voz y traduc-cion de texto o planteando un sistema directode voz a texto traducido. En el primer caso,se integraran las mejoras del paquete de re-conocimiento de voz y las mejoras que aportaun paradigma de traduccion automatica ba-sado en redes neuronales. En el segundo caso,se disenara una nueva arquitectura neuronalpara afrontar el reto.

5 Impacto del proyecto

Las tecnologıas de voz pueden facilitar el ac-ceso a la informacion (comunicacion hombre-maquina) y la comunicacion humana. Los dis-positivos electronicos se estan convirtiendo

en imprescindibles. El uso de la voz en es-tos dispositivos es cada vez mas esencial ytambien puede abrir una nueva gama de po-sibilidades. Estas tecnologıas tambien puedenaplicarse a multiples campos especıficos, co-mo mejorar la comunicacion y la comprensionde los seres humanos, ayudar a las personasdiscapacitadas y ancianas, mejorar los servi-cios ofrecidos en los medios de comunicacion,etc. El empleo de dispositivos de voz con vo-ces inadecuadas (genero, edad, acento, dia-lecto, tono) o sistemas de reconocimiento devoz que no funcionan en condiciones ruidosaspueden desalentar a los usuarios. El desarro-llo que estamos proponiendo de la tecnologıade voz sera la clave para aplicaciones robus-tas de alta calidad. Asimismo, la traducciones un aspecto importante para reducir las ba-rreras internacionales y lograr el pleno en-tendimiento entre las personas, preservandoal mismo tiempo las sociedades multilingues.Esperamos realizar traducciones de voz entiempo real y de alta calidad con concate-nacion e integracion de reconocimiento pro-fundo de voz y tecnologıas de traduccion au-tomatica. Esto representarıa un progreso cla-ro en los negocios y las relaciones polıticas,ası como en las areas de ocio y educacion.

Nuestra propuesta de investigacion sobredeteccion de eventos acusticos tambien inclu-ye su aplicacion especıfica en unidades de cui-dados intensivos neonatales (NICU). En estecaso, se diferenciaran los factores de ruido mi-croambiental y los signos fisiologicos y ası losclınicos podran proponer mejores protocolosNICU.

6 Pagina web

En la pagina web del proyectohttp://www.tsc.upc.edu/deepvoice/se puede consultar el equipo de investiga-

cion. En la misma pagina tambien se haranpublicos los principales resultados alcanzadoscon el progreso de DeepVoice.

Bibliografıa

Bengio, Y. 2009. Learning deep architectu-res for ai. Found. Trends Mach. Learn.,2(1):1–127, Enero.

Costa-jussa, M. R., A. Allauzen, L. Barrault,K. Cho, y H. Schwenk. 2017. Introduc-tion to the Special Issue on Deep LearningApproaches for Machine Translation. Ac-cepted for publication in Computer Speech

DeepVoice: Tecnologías de Aprendizaje Profundo aplicadas al Procesado de Voz y Audio

119

and Language, Special Issue in Deep lear-ning for Machine Translation.

Hannun, A. Y., C. Case, J. Casper, B. Ca-tanzaro, G. Diamos, E. Elsen, R. Pren-ger, S. Satheesh, S. Sengupta, A. Coates,y A. Y. Ng. 2014. Deep speech: Scalingup end-to-end speech recognition. CoRR,abs/1412.5567.

Hinton, G. E., S. Osindero, y Y. Teh. 2006.A fast learning algorithm for deep beliefnets. Neural Comput., 18(7):1527–1554,Julio.

Ling, Z., S. Kang, H. Zen, A. W. Senior,M. Schuster, X. Qian, H. M. Meng, y

L. Deng. 2015. Deep learning for acousticmodeling in parametric speech generation:A systematic review of existing techniquesand future trends. IEEE Signal Process.Mag., 32(3):35–52.

Richardson, F., D. A. Reynolds, y N. Dehak.2015. A unified deep neural network forspeaker and language recognition. CoRR,abs/1504.00923.

Xia, B. y C. Bao. 2014. Wiener filteringbased speech enhancement with weighteddenoising auto-encoder and noise classifi-

cation. Speech Communication, 60:13–29.

Marta R. Costa-jussà, José A. R. Fonollosa

120

deepvoice: tecnolog as de aprendizaje profundo aplicadas ... · aprendizaje profundo incluye las...

Documents