downmix de seÑales 5.1 a dos canales utilizando …

7
Downmix de señales 5.1 a dos canales, utilizando síntesis binaural en tiempo real – Universidad de San Buenaventura – Medellín, Octubre de 2012. ResumenEste artículo plantea la implementación de un sistema capaz de sintetizar en dos canales señales codificadas para reproducción surround multicanal 5.1, generando una experiencia similar de escucha. Se estudian las diferentes herramientas que utiliza el cerebro para localizar la posición de una fuente sonora en el espacio y se analiza un método para el procesamiento digital de dichas señales en tiempo real. Además, se justifica la implementación de este procesamiento para optimizar la calidad y la portabilidad de la reproducción de señales 5.1, en vista de las nuevas herramientas y recursos que brinda la tecnología en la actualidad. Palabras Claves: Síntesis Binaural, surround, procesamiento digital de señales (DSP). I. INTRODUCCIÓN Quizás suene algo contradictoria la idea de reproducir señales de audio que están codificadas para seis ó más canales – 5.1 - 7.1 - 9.1 –, en tan sólo los dos canales que componen un sistema de auriculares, y que además recree una sensación sonora similar a la que se produce al estar inmerso en el campo acústico generado por un sistema multicanal. Pero al pensar en el hecho de que sólo contamos con dos oídos para capturar toda la información sonora que pasa a nuestro alrededor independiente de la cantidad de fuentes, la idea comienza a tener algo de sentido. Usualmente para reproducir señales 5.1 en un sistema de auriculares, se realiza un down-mix de las seis señales a una señal stereo de dos canales, perdiendo los efectos de espacialidad asociados a mezclas surround. El objetivo de este proyecto es realizar el down-mix a dos señales sin perder la sensación sonora surround. El cerebro humano, a través del sistema auditivo, es capaz de localizar una fuente sonora por medio de pequeñas diferencias de tiempo e intensidad entre los dos oídos. Por ejemplo, si una fuente se encuentra situada a la izquierda de una persona, la onda incidente sobre el oyente llegará primero al oído izquierdo y presentará una diferencia de tiempo con relación al oído derecho; así mismo pasará con la intensidad con la que Alejandro Restrepo, e-mail: [email protected] llega esta onda a los dos oídos, ya que su amplitud será mayor en el izquierdo que en el derecho. Por otra parte, el sistema auditivo utiliza también la forma de la oreja – además de hombros y torso – para filtrar las señales que inciden sobre los oídos, generando diferentes respuestas en frecuencia que dependen de la localización de la fuente sonora. Estos filtrados se conocen como HRTF’s (Head Related Transfer Functions) y son funciones de transferencia en el dominio de la frecuencia de respuestas al impulso medidas sobre una cabeza binaural – HRIR (Head Related Impulse Response). En la primer parte del artículo se estudiarán las herramientas con las que cuenta el sistema auditivo para localizar la procedencia de un frente de onda, para dar paso a la implementación del modelo en C++ en donde se analizará un método computacional de convolución que permite el procesamiento de señales infinitas en tiempo real – overlap save –. II. MOTIVACIÓN, PROBLEMA, HIPÓTESIS Y JUSTIFICACIÓN El entendimiento de nuestro entorno y la manera en cómo los sentidos interactúan con las señales que inciden sobre éstos, fundamentan la motivación principal para realizar esta investigación. La psicoacústica estudia la manera en cómo el cerebro interpreta las señales acústicas que son transducidas a señales eléctricas y permite un entendimiento claro a cerca del papel de nuestro sistema auditivo en la comprensión del mundo. Aprovechando este conocimiento, las nuevas tecnologías han introducido un nuevo concepto dentro de la manera en cómo escuchamos: Audio 3D; el avance en las telecomunicaciones permite crear cada vez más contenidos multimedia que puedan interactuar de una manera más directa con el usuario, abriendo un sinnúmero de posibilidades tanto en el área visual, así como en la de audio. Por otra parte, hemos sido testigos de cómo la tecnología ha permitido una portabilidad cada vez mayor de contenidos multimedia y con la aparición de dispositivos portátiles, se DOWNMIX DE SEÑALES 5.1 A DOS CANALES UTILIZANDO SÍNTESIS BINAURAL EN TIEMPO REAL Alejandro Restrepo López 1 1 Ingeniería de Sonido, Facultad de Ingenierías Universidad de San Buenaventura (Medellín)

Upload: others

Post on 09-Jul-2022

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: DOWNMIX DE SEÑALES 5.1 A DOS CANALES UTILIZANDO …

Downmix de señales 5.1 a dos canales, utilizando síntesis binaural en tiempo real – Universidad de San Buenaventura – Medellín, Octubre de 2012.

Resumen— Este artículo plantea la implementación de un sistema capaz de sintetizar en dos canales señales codificadas para reproducción surround multicanal 5.1, generando una experiencia similar de escucha. Se estudian las diferentes herramientas que utiliza el cerebro para localizar la posición de una fuente sonora en el espacio y se analiza un método para el procesamiento digital de dichas señales en tiempo real. Además, se justifica la implementación de este procesamiento para optimizar la calidad y la portabilidad de la reproducción de señales 5.1, en vista de las nuevas herramientas y recursos que brinda la tecnología en la actualidad. Palabras Claves: Síntesis Binaural, surround, procesamiento digital de señales (DSP).

I. INTRODUCCIÓN

Quizás suene algo contradictoria la idea de reproducir señales de audio que están codificadas para seis ó más canales – 5.1 - 7.1 - 9.1 –, en tan sólo los dos canales que componen un sistema de auriculares, y que además recree una sensación sonora similar a la que se produce al estar inmerso en el campo acústico generado por un sistema multicanal. Pero al pensar en el hecho de que sólo contamos con dos oídos para capturar toda la información sonora que pasa a nuestro alrededor independiente de la cantidad de fuentes, la idea comienza a tener algo de sentido.

Usualmente para reproducir señales 5.1 en un sistema de auriculares, se realiza un down-mix de las seis señales a una señal stereo de dos canales, perdiendo los efectos de espacialidad asociados a mezclas surround. El objetivo de este proyecto es realizar el down-mix a dos señales sin perder la sensación sonora surround.

El cerebro humano, a través del sistema auditivo, es capaz de localizar una fuente sonora por medio de pequeñas diferencias de tiempo e intensidad entre los dos oídos. Por ejemplo, si una fuente se encuentra situada a la izquierda de una persona, la onda incidente sobre el oyente llegará primero al oído izquierdo y presentará una diferencia de tiempo con relación al oído derecho; así mismo pasará con la intensidad con la que

Alejandro Restrepo, e-mail: [email protected]

llega esta onda a los dos oídos, ya que su amplitud será mayor en el izquierdo que en el derecho.

Por otra parte, el sistema auditivo utiliza también la forma de la oreja – además de hombros y torso – para filtrar las señales que inciden sobre los oídos, generando diferentes respuestas en frecuencia que dependen de la localización de la fuente sonora. Estos filtrados se conocen como HRTF’s (Head Related Transfer Functions) y son funciones de transferencia en el dominio de la frecuencia de respuestas al impulso medidas sobre una cabeza binaural – HRIR (Head Related Impulse Response).

En la primer parte del artículo se estudiarán las herramientas con las que cuenta el sistema auditivo para localizar la procedencia de un frente de onda, para dar paso a la implementación del modelo en C++ en donde se analizará un método computacional de convolución que permite el procesamiento de señales infinitas en tiempo real – overlap save –.

II. MOTIVACIÓN, PROBLEMA, HIPÓTESIS Y JUSTIFICACIÓN

El entendimiento de nuestro entorno y la manera en cómo los sentidos interactúan con las señales que inciden sobre éstos, fundamentan la motivación principal para realizar esta investigación. La psicoacústica estudia la manera en cómo el cerebro interpreta las señales acústicas que son transducidas a señales eléctricas y permite un entendimiento claro a cerca del papel de nuestro sistema auditivo en la comprensión del mundo. Aprovechando este conocimiento, las nuevas tecnologías han introducido un nuevo concepto dentro de la manera en cómo escuchamos: Audio 3D; el avance en las telecomunicaciones permite crear cada vez más contenidos multimedia que puedan interactuar de una manera más directa con el usuario, abriendo un sinnúmero de posibilidades tanto en el área visual, así como en la de audio. Por otra parte, hemos sido testigos de cómo la tecnología ha permitido una portabilidad cada vez mayor de contenidos multimedia y con la aparición de dispositivos portátiles, se

DOWNMIX DE SEÑALES 5.1 A DOS CANALES UTILIZANDO SÍNTESIS BINAURAL EN TIEMPO REAL

Alejandro Restrepo López 1

1Ingeniería de Sonido, Facultad de Ingenierías

Universidad de San Buenaventura (Medellín)

Page 2: DOWNMIX DE SEÑALES 5.1 A DOS CANALES UTILIZANDO …

Downmix de señales 5.1 a dos canales, utilizando síntesis binaural en tiempo real – Universidad de San Buenaventura – Medellín, Octubre de 2012.

2

hace cada vez más necesario una mayor cobertura de las nuevas tecnologías de estos contenidos en dispositivos portátiles. El problema entonces aparece cuando se quiere sacar el máximo provecho ante los evidentes avances, ya que no siempre es posible contar con sistemas capaces de reproducir lo que los recursos actuales permiten producir. Para poder escuchar lo que se quiere generar sensorialmente con una mezcla surround, es necesario contar con un sistema multicanal, bien sea en un cinema o mediante un teatro en casa. Estos sistemas no son sencillos de instalar, ya que muchas veces no se cuenta con el espacio acústico adecuado para su instalación, o porque simplemente la reproducción de este audio surround se desea hacer desde un dispositivo portátil, sin ningún espacio específico. Es entonces acá en donde se debe buscar una solución que permita la reproducción de este tipo de señales en cualquier tipo de entorno, sin necesidad de contar con sistemas multicanal y desde la comodidad de cualquier dispositivo multimedia portátil. Esta investigación pretende demostrar entonces que es posible reproducir señales surround 5.1 en un par de audífonos y mediante un procesamiento digital de señales, poder recrear la sensación subjetiva de estar inmerso en un campo acústico generado por un sistema de este tipo. A partir de esta hipótesis, se abre entonces la posibilidad de poder sintetizar cualquier tipo de sonido envolvente en un par de audífonos, lo cual permitirá simular fuentes sonoras en movimiento que emulen no sólo lo que se reproduce desde sistemas multicanal, sino también lo que sucede con cualquier tipo de fuente de audio que se reproduzca alrededor de nuestra cabeza: Audio 3D. Cabe resaltar que el objeto de esta investigación se limita al estudio de emular señales de audio multicanal en un par de audífonos, con 5 posiciones de fuentes puntuales o fijas. El estudio de fuentes en movimiento y sus efectos en la manera en cómo son percibidas, está por fuera de los alcances de este proyecto de investigación.

III. MARCO TEÓRICO 3.1 Audio Surround

Un sistema de audio surround es aquel capaz de generar un campo acústico envolvente alrededor de un auditor inmerso en éste, es decir, son sistemas capaces de posicionar una fuente en cualquier lugar del espacio alrededor de un auditor y, mediante diferentes tipos de reproducción, lograr la sensación psicoacústica de tridimensionalidad. 3.2 Localización Sonora Para localizar una fuente sonora, el sistema auditivo se vale de diversas herramientas fisiológicas que aportan datos

importantes al cerebro para procesar las señales acústicas que inciden sobre los oidos y que permiten localizar un sonido en un plano de coordenadas. Estas herramientas permiten percibir los ángulos azimuth y de elevación a los cuáles se encuentra la fuente sonora. 3.2.1 Percepción binaural

Los parámetros que más peso tienen en la localización de fuentes sonoras en el plano horizontal, están relacionados con las diferencias de tiempo interaural (ITD – interaural time differences) y de intensidad interaural (IID – interaural intensity differences) que se producen entre los dos oidos cuando un frente de onda arriva a la posición del receptor. Estas diferencias son dependientes de la frecuencia y del ángulo de azimuth. [1]

Diferencias de tiempo interaural (ITD)

Las ITD se producen debido a que un frente de onda, cuando proviene de ángulos diferentes a 0° y 180° azimuth, debe recorrer una mayor distancia para llegar a un oído que la que debe recorrer para llegar al otro. Esta diferencia de distancias, implica también una diferencia en el tiempo de llegada del frente de onda a los dos oídos.

En [2] se propone un modelo simplificado para calcular las ITD, que consiste en considerar la cabeza como una esfera perfecta de radio a y el ángulo azimut de la posición de la fuente sonora θ, como se muestra en la figura 1. Para considerar el modelo como un sistema de coordenadas de tres dimensiones, es necesario introducir la variable 𝜑 que representa el ángulo de elevación de la fuente con respecto a la posición del receptor y la velocidad del sonido C. Así pues, la expresión para determinar las ITD viene dada por [3]

𝐼𝑇𝐷 =   !

!  sin 𝜃 + 𝜃 cos 𝜑 (1)

Con esta información, y para frecuencias por debajo de 1.6 kHz (debido a que para frecuencias mayores la longitud de onda es considerablemente menor que el tamaño de la cabeza), el cerebro procesa las diferencias de tiempo y logra referenciar la procedencia del sonido en el plano horizontal.

Figura 1. Modelo gráfico para calcular las ITD, propuesto por

Rayleigh

Page 3: DOWNMIX DE SEÑALES 5.1 A DOS CANALES UTILIZANDO …

Downmix de señales 5.1 a dos canales, utilizando síntesis binaural en tiempo real – Universidad de San Buenaventura – Medellín, Octubre de 2012.

3

Diferencias de intensidad interaural (IID)

Para frentes de onda que inciden sobre un auditor, la cabeza representa una barrera que produce una sombra acústica sobre el lado opuesto al de incidencia de la onda. Esto traduce una diferencia en la intensidad con la que llega el sonido a los oídos, que se evidencia mayor a medida que la frecuencia aumenta. Se entiende entonces, que las diferencias de tiempo e intensidad entre ambos oídos permiten la localización de fuentes sonoras en el plano horizontal, siendo la primera determinante para frecuencias medias y bajas y la segunda para frecuencias altas.

3.2.2 Percepción monoaural

Debido al arreglo geométrico de los oídos, una diferencia particular en tiempo o intensidad no está necesariamente asociada a una sóla posición en particular y para ciertas posiciones las IDT e IID son muy similares. Esto es llamado “cono de confusión” y determina las posiciones para las cuales el sistema auditivo tiene más complicaciones para determinar la procedencia del sonido. [4]

Debido a estas limitaciones que presentan las ITD e IID con respecto a la localización espacial para ciertas posiciones, se plantea la hipótesis de otra herramienta que utliza el sistema auditivo que tiene que ver con el espectro en frecuencia que percibe cada oído y que está directamente relacionada con la forma del pabellón auditivo.

HRTF

Las HRTFs (Head Related Transfer Functions) son funciones de transferencia en el dominio de la frecuencia – transformada de Fourier – de diferentes respuestas al impulso medidas sobre una cabeza binaural (o sobre una cierta cantidad de sujetos), que modela una cabeza humana con un par de micrófonos de medición introducidos dentro del conducto auditivo de cada oído. Según la posición de la cual provenga la onda sonora, las reflexiones y difracciones que se producen por la forma de la cara, el pabellón auditivo, los hombros y el torso, causarán una determinada respuesta en frecuencia que permite al cerebro localizar la fuente.

Estas respuestas en frecuencia están directamente relacionadas con el ángulo azimuth y de elevación al que se encuentra la fuente de sonido con respecto al receptor, lo que implica que en éstas se encuentra la información relacionada a las ITD e IID.

El procedimiento para la medición de las HRTFs es descrito en [5].

IV. MODELO E IMPLEMENTACIÓN

Ecualización de las HRTFs

Con el fin de eliminar los efectos que producen los transductores presentes durante las mediciones de las respuestas al impulso, además de los producidos en el conducto auditivo de la cabeza binaural, se hace necesario un proceso que normalice las respuestas obtenidas para emular de una manera más real el espectro de éstas. Para esto se utiliza un procedimiento denominado ecualización en campo difuso, que simula las condiciones normales de audición en un espacio que no se encuentre en campo libre. Un sonido que se encuentre en campo difuso se caracteriza por llegar al oyente aleatriamente desde todas las direcciones, por lo que la HRTF de referencia para normalizar – que establece la magnitud de la respuesta en campo difuso – se debe hallar mediante un promedio energético entre las magnitudes de cada una de las HRTF medidas, que corresponden a sonidos provenientes desde todos los ángulos. Una vez encontrada, se procede a dividir el espectro complejo de cada HRTF por el espectro complejo de la HRTF de referencia, obteniendo así una respuesta ecualizada que emula la audición en campo difuso. En el desarrollo de este proyecto de investigación se trabajó con una base de datos de HRIR’s perteneciente al IRCAM (Institut de Recherche et Coordination Acoustique/Musique) y ecualizada para campo difuso por la Universidad de San Buenaventura Medellín [6]. Estas respuestas al impulso fueron procesadas en ventanas rectangulares de 512 muestras, lo que más adelante establecerá algunos requerimientos que deberá tener el sistema para poder realizar la síntesis binaural en tiempo real. A continuación se muestran las gráficas de la respuesta al impulso y su transformada en el dominio de la frecuencia, con el respectivo procesamiento, medida a 0° de elevación y 0° azimuth

Figura 2. Respuesta al impuslo medida en el plano horizontal a 0° azimuth

Page 4: DOWNMIX DE SEÑALES 5.1 A DOS CANALES UTILIZANDO …

Downmix de señales 5.1 a dos canales, utilizando síntesis binaural en tiempo real – Universidad de San Buenaventura – Medellín, Octubre de 2012.

4

Figura 3. Respuesta en frecuenca de la respuesta al impulso medida en el

plano horizontal a a 0° azimuth Modelo El modelo para la implementación del sistema de la síntesis binaural tomó como referencia las 5 HRIR’s medidas y ecualizadas en campo difuso de la base de datos del IRCAM, correspondientes a las posiciones estándar de un sistema de reproducción 5.1: L, C, R, Ls, Rs. Para este caso se tomó un ángulo de elevación de 0° y los correspondientes ángulos en el plano horizontal. A continuación se muestra la representación gráfica de un sistema 5.1 con los ángulos correspondientes a cada posición de altavoz.

Figura 3. Configuración de altavoces en un sistema de reproducción 5.1 Además de las respuestas al impulso – stereo – correspondientes a cada posición de altavoz, se obtienen también las 6 señales discretas que componen un archivo de audio 5.1. Una vez identificadas las señales independientes con su respectiva HRIR, se realiza la transformada discreta de fourier para convolucionar las señales y obtener una salida stereo a partir de cada canal independiente del 5.1. Estas salidas se suman en los canales izquierdo y derecho y finalmente se reproduce un único archivo de audio stereo con la información del surround 5.1, como se puede observar en la figura 4. Para poder realizar la convolución de los canales independientes con las correspondientes HRTF’s, se hace

necesaria la utilización de un software de audio host que permita cargar en canales independientes los audios discretizados del 5.1 y que luego realice la suma de los mismos ya procesados en un solo bus stereo. El alcance de este proyecto se limita a realizar la síntesis de cada canal, por eso es necesario trabajar desde un software host.

Figura 4. Modelo simplificado de la síntesis binaural A continuación se presenta el modelo simplificado de la convolución de cada canal discretizado del 5.1:

Figura 5. Modelo simplificado del procesamiento para cada canal

Page 5: DOWNMIX DE SEÑALES 5.1 A DOS CANALES UTILIZANDO …

Downmix de señales 5.1 a dos canales, utilizando síntesis binaural en tiempo real – Universidad de San Buenaventura – Medellín, Octubre de 2012.

5

Implementación El procesamiento de las señales se realizó bajo la librería VST SDK 2.4 de Steinberg en C++. Este framework está diseñado para la implementación de plugins con la capacidad de procesar señales de audio y permite comunicarse directamente con cualquier software host que soporte plugins de tipo vst (Virtual Studio Technology). Como se especificó en el modelo, para realizar la convolución de las señales con las HRIR’s correspondientes es necesario calcular la transformada discreta de Fourier de éstas. Para este fin se utilizó la FFTW (http://www.fftw.org), una librería desarrollada por el MIT (Massachusetts Institute of Technology), diseñada para implementar la transformada discreta de Fourier (DFT). La forma en como se implementa la tranformada permite realizar el procesamiento de una manera eficiente, ya que la librería adapta su algoritmo según el hardware que realiza el proceso para maximizar su desempeño [7]. Convolución Overlap Save La convolución de señales discretas es un proceso matemático mediante el cual se obtiene una salida 𝑦 𝑛 a partir de una señal de entrada 𝑥 𝑛 y la respuesta al impulso de un sistema LTI (Linear Time Invariant) ℎ 𝑛 . Se define por:

𝑦 𝑛 = 𝑥 𝑛 ∗ ℎ 𝑛 = ℎ 𝑘 ∙ 𝑥 𝑛 − 𝑘                                        (2)!

!!!!

Y para dos señales discretas finitas, de longitud 𝑁! y 𝑁!, la convolución se define como:

𝑦 𝑛 = ℎ 𝑘 ∙ 𝑥 𝑛 − 𝑘                                                                                                        (3)!

!!!

Como se mencionó anteriormente, a las señales se les calcula la DFT que pasa del dominio del tiempo al dominio de la frecuencia. Ya en este dominio es posible calcular la convolución en el tiempo mediante la multiplicación directa entre las transformadas 𝑋 𝑧 y 𝐻 𝑧 [8], es decir:

𝑦 𝑛 = 𝐼𝐷𝐹𝑇 𝑌 𝑧 = 𝐼𝐷𝐹𝑇 𝑋 𝑧 ∙ 𝐻 𝑧 (4)

Para poder realizar la multiplicación entre 𝑋 𝑧 y 𝐻 𝑧 es necesario que ambas tengan igual longitud y debido a que la señal de entrada 𝑥 𝑛 puede ser arbitrariamente larga, y las ℎ 𝑛 del MIT son de 512 muestras, se hace necesario implementar un método que realice la convolción de señales infinitas en tiempo real para poder implementar el procesamiento en el framework VST SDK 2.4. El método overlap save permite trabajar con este tipo de señales infinitas, ya que secciona la señal de entrada en bloques 𝑥!(𝑛) y los convoluciona con ℎ 𝑛 , con la ventaja de no producir ningún retardo entre la entrada y la salida, es decir, su procesamiento

es totalmente en tiempo real [9]. El seccionamiento de la señal de entrada se realiza de forma superpuesta, debido a que cada convolución genera una salida 𝑦!(𝑛) de longitud 𝑁!" + 𝑁! + 1. Una vez obtenido el resultado de cada convolución se deben descartar las muestras que fueron convolucionadas de manera superpuesta, para así obtener una cantidad 𝐿 de muestras útiles:

𝐿 = 𝑁!"#$%−(𝑁! − 1)                                                              (5)

En la figura a contiuación se expone de manera gráfica el funcionamiento del método overlap save.

Figura 6. Diagrama de funcionamiento del métdodo de convolución

overlap save En el primer bloque de la señal de entrada no hay superposición, por lo que debe realizarse un zero padding de 𝑁! − 1 muestras que igualmente es descartado en la primer salida 𝑦!(𝑛).

V. RESULTADOS Una vez se obtuvieron los 5 plugins vst que eran requeridos, se procedió a cargarlos en 5 tracks del software Reaper que se utilizó como host y se escogió una población de estudiantes y profesores de ingeniería de sonido para realizar las pruebas. Como se mencionó anteriormente las HRTF’s que se cargaron con los plugins fueron de 512 muestras, así como los bloques de la convolución overlap save, por lo que el buffer de Reaper se configuró para trabajar con las mismas 512 muestras. La primera prueba consistió en reproducir intervalos cortos de ruido rosa para que un receptor con audífonos identificara la

Page 6: DOWNMIX DE SEÑALES 5.1 A DOS CANALES UTILIZANDO …

Downmix de señales 5.1 a dos canales, utilizando síntesis binaural en tiempo real – Universidad de San Buenaventura – Medellín, Octubre de 2012.

6

posición virtual desde la cual estaba siendo emitido el ruido. Fueron un total de 105 reproducciones en las cuales se obtuvieron los siguientes resultados:

CANAL   %  de  aciertos  L   71% C   62% R   95% Ls   86% Rs   86%

Tabla 1. Resultados porcentuales de la prueba de identificación con ruido

rosa Una segunda prueba se llevó a cabo en el Estudio A de la Universidad de San Buenaventura Medellín, el cual cuenta con un sistema de reproducción surround 5.1. En primer lugar se localizó el punto dentro del estudio en donde los ángulos de cada uno de los 5 altavoces correspondía a los ángulos de las HRTF’s utilizadas. Una vez localizado el punto, se reprodujeron dos mezclas 5.1 en el sistema surround para que el oyente experimentara la sensación sonora y luego, se reprodujeron las mismas mezclas utilizando la síntesis binaural en audífonos. Lo anterior fue con el fin de encontrar el grado subjetivo de similaridad entre los dos tipos de reproducciones. Los sujetos en estudio debían especificar si la reproducción en los audífonos la habían percibido bastante similar, similar o poco similar, encontrando que en el 100% de la primer mezcla la sensación fue bastante similar y aproximadamente en un 86% de la segunda mezcla, la percepción había sido similar. Algunos de los sujetos de estudio manifestaron un decremento en la espacialidad de los canales surround, argumentando que en la reproducción multicanal los canales traseros generaron una mayor profundidad.

VI. ANÁLISIS DE ERRORES Y CONCLUSIONES Como se pudo evidenciar en los resultados de la prueba con ruido rosa, no fue posible que los sujetos en estudio acertaran en un 100% la procedencia virtual de la señal de prueba. Algunos de los sujetos manifestaron dificultad para ubicar el canal central y en algunos casos su procedencia virtual parecía indicar que provenía desde arriba y desde adentro de la cabeza. Esta confusión se debe a que el sistema auditivo no puede percibir una ITD significativa, ya que la procedencia de la fuente se encuentra a la misma distancia virtual de ambos oídos, es decir, llega al mismo tiempo a ambos. Para poder diferenciar la procedencia de un frente de onda que incida a 0° o a 180°, es necesario estudiar el efecto de las reflexiones sobre la localización de fuentes sonoras, ya que el sistema auditivo utiliza esta información también para ubicar un sonido en el espacio. El estudio del efecto de las reflexiones en el sistema auditivo está por fuera de los alcances de este proyecto de investigación.

Se puede concluir entonces que para poder recrear una sensación más real, es necesario incluir las reflexiones correspondientes al espacio virtual en donde se esté escuchando. Por otra parte y como se mencionó en el marco teórico, existe un cono de confusión en la localización de fuentes sonoras en el espacio. Esto es debido a que el arreglo geométrico de los oídos no permite relacionar una ITD o IID en particular con una única posición de fuente. Este hecho permite concluir que parte de la diferencia que algunos de los sujetos en estudio percibieron entre los dos tipos de reproducción – multicanal y binaural – se debe a este cono de confusión y una vez más se hace necesario incluir el efecto de las reflexiones dentro del cuarto para poder definir mejor la posición virtual de las fuentes. El objetivo principal de esta investigación fue demostrar que era posible realizar el down-mix de una señal surround 5.1 a una señal de dos canales y que mediante la reproducción en audífonos, se pudiera recrear la misma sensación – o similar – de estar inmerso en un campo acústico generado por un sistema multicanal. Así pues se puede concluir este tipo de síntesis es posible realizarla mediante la convolución de señales independientes con las HRTF’s que corresponden a las posiciones típicas de los altavoces en un sistema 5.1 y que además, es posible realizar la síntesis de señales multicanal más complejas (7.1, 9.1, 22.2, etc) mediante este mismo procedimiento agregando las HRTF’s correspondientes a cada uno de estos sistemas de reproducción. Finalmente cabe resaltar que la utilización de un método de convolución eficiente – overlap save – permitió realizar la convolución de las HRTF’s con la señal “infinita” de entrada en tiempo real, que fue uno de los objetivos claves de esta investigación.

VII. REFERENCIAS [1] Begault, Durand R., “3D Sound for Virtual Reality and Multimedia”, Ames Research Center, NASA, 2000 [2] Rayleigh, Lord, “Theory of the Sound”, 2nd Rev. Edition, Dover Publications, Junio 1976 [3] Minnaar, P., Plogsties, j., Olesen, S. K., Christensen, F., Moller, H., “The Interaural Time Difference in Binaural Synthesis”, AES 108th convention, Paris, 2000 [4] Carlile, Simon, “Virtual Aditory Space Generation and Applications”, RG Landes Company, 1996 [5] Gardner, William, “Measurements of a KEMAR Dummy-Head Microphone”, MIT Media Lab, Mayo 1994 [6] Mora, M., Escamilla, A., “Ecualización de Campo Difuso para Funciones de Transferencia Relativas a la Cabeza

Page 7: DOWNMIX DE SEÑALES 5.1 A DOS CANALES UTILIZANDO …

Downmix de señales 5.1 a dos canales, utilizando síntesis binaural en tiempo real – Universidad de San Buenaventura – Medellín, Octubre de 2012.

7

(HRTF’s)”, Revista Sonac, publicación de La Universidad de Las Américas, Quito, No. 3, pp. 17-26, Mayo 2012. [7] M. Frigo and S. Johnson, “The design and implementation of FFTW3” Proc. IEEE 93 (2), pp. 216–231, 2005 [8] Oppenheim A. V., "Discrete-Time signal procesing", Third Edition, New Jersey, Pearsons, 2009. [9] Gardner, William, “Efficient Convolution without Input-Ouput Delay”, MIT Media Lab, Mayo 1995