el sistema de producción de voz -...

39
Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz 1/39 El Sistema de Producción de Voz Rafael Martínez Olalla Grupo de Informática Aplicada al Procesamiento de Señal e Imagen (GIAPSI) Universidad Politécnica de Madrid, Campus de Montegancedo, s/n, 28660 Boadilla del Monte, Madrid, Spain e-mail: [email protected]

Upload: dinhdat

Post on 16-Feb-2018

219 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz1/39

El Sistema de Producción de Voz

Rafael Martínez OlallaGrupo de Informática Aplicada al Procesamiento de Señal e Imagen (GIAPSI)

Universidad Politécnica de Madrid, Campus de Montegancedo, s/n, 28660 Boadilla del Monte, Madrid, Spain

e-mail: [email protected]

Page 2: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz2/39

Introducción

• Forma de onda y espectro de una señal de voz

E s t o e s u n a s e ñ a l de vo z

Page 3: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz3/39

1 Producción y modelado de habla

1.1 Fundamentos de la ciencia del habla1.1a Comunicación oral1.1b Anatomía y fisiología del sistema de producción de habla1.1c Fonemas y sonidos

1.2 Modelado de la producción de habla.1.3 Teoría acústica de la producción de habla1.4 Modelado en tiempo discreto

Page 4: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz4/39

1.1a Comunicación oral

El habla se emplea para comunicar información de un hablante a un oyenteEl oir es parte integral de la cadena del habla

Hablante OyenteHabla

Page 5: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz5/39

Proceso del habla

IdeaConversióna estructura lingüística

Comandos motores para

producir el habla

Onda de presión

Sistema de producción

de habla

Recepción del sonido

HABLANTE

Procesos cerebrales

Conversión a impulsos

neurológicos

Interpretaciónde los impulsos

OYENTE

Oído externoOído medio e internoCerebro

Page 6: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz6/39

Anatomía y fisiología del sistema de producción de habla

Forma de onda de la señal de voz = Onda de presión acústica.Estructuras que la originan.

Pulmones TráqueaLaringe (órgano de producción de voz)Tracto vocal

Cavidad faríngeaCavidad oralCavidad nasal

Page 7: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz7/39

Anatomía y fisiología del sistema de producción de habla

ArticuladoresCuerdas vocalesVeloLenguaDientesLabiosMandíbula

Page 8: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz8/39

[Furui 1989]

Page 9: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz9/39

Equivalencia Producción de habla -Filtro

La producción de habla se puede asimilar a una operación de filtradoCavidades = Principal filtro acústicoExcitación (cuerdas vocales para sonidos sonoros)Carga a la salida: impedancia de radiación debida a los labios.Articuladores: Cambian las propiedades del sistema.

Page 10: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz10/39

Cavidades del sistema

Tracto vocalHombre adulto: 17 cm.Mujer adulta: 14 cm.niño: 10 cm.

Área del tracto vocal: desde 0 a 20 cm2.Cavidad nasal: Camino auxiliar de transmisión del sonido.(12 cm).Acoplamiento acústico entre cavidad nasal y resto de cavidades: controlado por el velo. (apertura de 0 a 5 cm2).

Page 11: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz11/39

Pulmones

Diafragma

Generador

Filtro acústico

Cavidad faríngea

Cavidad oral (modificada por los

órganos articulatorios)

Cavidad nasal

Cuerdas vocales

Laringe

Tráquea

Velo

Señal acústica de salida

Filtro acústico

Page 12: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz12/39

Laringe

Función: producir una excitación periódica al sistema para los sonidos sonoros.Se compone de:

Cuatro cartílagosUn par de bandas elásticas de músculo y mucosas que van de los cartílagos tiroideos a los artenoides (nuez)

Page 13: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz13/39

Cuerdas Vocales

Page 14: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz14/39

Análisis acústico elemental.

Las características espectrales de la señal de voz son no estacionarias (el sistema físico cambia rápidamente).El habla se puede dividir en segmentos de sonido con propiedades acústicas similares (en periodos cortos). Primera división:

Vocales: No hay restricción al flujo de aire.Consonantes: Las cavidades se ven obstaculizadas por órganos articulatorios.

Los sonidos que preceden o siguen a uno dado afectan a dicho sonido (fenómenos de coarticulación).Las limitaciones físicas en la producción y en el sistema auditivo hacen que la comunicación oral se limite a un ancho de banda de 7-8 KHz.

Page 15: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz15/39

Page 16: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz16/39

Espectro de una señal de voz

Sonidos vocálicos: se observa la presencia de una excitación periódicaSonidos sordos: no existe tal excitación.En los dos casos aparecen regiones enfatizadas (resonancias), y deenfatizadas (antiresonancias).Estas resonancias están causadas por las reflexiones del sonido en las cavidades del tracto vocal. => Cada tracto vocal esta caracterizado por un conjunto de resonancias.Los articuladores determinan las propiedades del filtro del sistema de producción de voz.Resonancias -> formantes (forman el espectro).Teóricamente existen infinitos formantes de un sonido. En la práctica usamos entre tres y cinco.

Page 17: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz17/39

Excitación del sistema de producción de voz

Tipos de excitaciónSonorosNo sonorosMixtosPlosivosFricativosSilencio

Page 18: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz18/39

Sonidos sonoros

Se fuerza el aire a través de la glotis.La tensión de las cuerdas se ajusta para que vibren.La interrupción periódica del aire al salir crea un tren de pulsos que excitan el tracto vocal.

Page 19: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz19/39

Forma de onda y espectro de algunas vocales

[Deller et al. 1993]

Page 20: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz20/39

Vocales del español

Page 21: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz21/39

Triángulo fonético (vocales

japonesas)

[Furui 1989]

Page 22: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz22/39

Valores de los formantes de las vocales inglesas

[Deller et al. 1993]

Page 23: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz23/39

Sonidos no sonoros

Se crea una cierta oposición al aire en algún punto del tracto vocalMixtos: (m, b, z inglesa...)Silencio: antes de una plosión.Plosión: Se cierra totalmente el tracto y se deja salir de repente.Fricación: turbulencia de aire.

Page 24: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz24/39

Algunos conceptos sobre sonidos sonoros

Periodo fundamental: Tiempo entre dos aperturas sucesivas de las cuerdas vocales.Frecuencia fundamental (inverso del periodo): tasa de vibración. (pitch)

Depende del tamaño y tensión de las cuerdas. (guitarras, violines, etc.)A veces el pitch se define como la frecuencia fundamental percibida (en telefonia la señal está limitada a una banda de 300 - 3000 Hz aprox.

Rango de variación del pitch: 50-250 Hz (hombres), 120-500 Hz (mujeres).

Page 25: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz25/39

Valores del pitch

[Furui 1989]

Page 26: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz26/39

Otras posibles excitaciones

Sonidos ejectivos (hopi, apache, cherokee, algunas lenguas caucásicas y africanas)Clics (bantu, zulu, xosa).Implosivos (nativos americanos, lenguas de la India, Paquistán y África).

Page 27: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz27/39

Fonemas y sonidos

Fonema: Unidad ideal de sonido con un conjunto de gestos articulatorios asociados.Debido a acentos, género y efectos coarticulatorios un fonema tiene varias manifestaciones acústicas diferentes. Desde el punto de vista acústico el fonema representa una clase de sonidos. (alófonos)Aproximaciones de la fonética al estudio de los fonemas:

Fonética articulatoriaFonética Acústica. (análisis de la señal)Fonética auditiva. (Análisis de la respuesta perceptual).

Page 28: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz28/39

Consecuencias de la nasalización.

[Deller et al. 1993]

Page 29: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz29/39

Teoría acústica de la producción del habla

1779 Kratzenstein produce artificialmente (con un resonador) y explica las diferencias entre las vocales /e, i, Y, o, Yu/.1791 Von Kempelen construye una máquina que realiza pronunciaciones conectadas.1846 J. Faber construye “Eufonia” (con la posibilidad de variar el pich, habla susurrada, etc).1939 VODER (Sintetizador eléctrico operado mediante 14 teclas que controlaban la estructura de resonancia del tracto vocal).

Page 30: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz30/39

Máquina de Von Kempelen

[Deller et al. 1993]

Page 31: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz31/39

Presentación del Voder

[Deller et al. 1993]

Page 32: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz32/39

El Voder: diagrama de

bloques

[Deller et al. 1993]

Page 33: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz33/39

Propagación del sonido

Necesitamos la caracterización de diversos aspectos:

Naturaleza dependiente del tiempo del tracto vocalAcoplamiento de la cavidad nasalEfecto de las paredes del tracto (blandas)Acoplamiento subglotal (pulmones y tráquea)Pérdidas debidas a fricción y conductividad térmica en las paredes)

Page 34: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz34/39

Modelado del tracto vocal

Relaciones entre presión y velocidad.Terminación cerradaLa respuesta en frecuencia que se obtiene es análoga a la de un resonador láser.

Page 35: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz35/39

Modelado del tracto vocal como un tubo

[Deller et al. 1993]

Page 36: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz36/39

Resonancias en un tubo de 17.5 cm.

[Deller et al. 1993]

Page 37: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz37/39

Modelo de tubo múltiple sin pérdidas

Dentro del tracto vocal existen diferentes seccionesPodemos suponer la existencia de ondas transmitidas y reflejadas en cada secciónLa analogía con una línea de transmisión es inmediata.

Page 38: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz38/39

Tubo múltiple sin pérdidas

[Deller et al. 1993]

Page 39: El Sistema de Producción de Voz - tamarisco.datsi.fi.upm.estamarisco.datsi.fi.upm.es/ASIGNATURAS/TDSV/Modelo_Produccion.pdf · Tratamiento Digital de la Señal de Voz, Curso 2010/2011

Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sistema de Producción de Voz39/39

Modelado en tiempo discreto.

En este caso la analogía es con un filtro digital.La realización del modelo es simple (un filtro digital son un conjunto de sumas, retardos y productos por constantes)La obtención de los polos y los ceros en un filtro digital se corresponde con las resonancias y antiresonancias.Si conseguimos un filtro que simule un sonido, sus polos se corresponderan con los formantes.