modelos de producción de voz · 2002-03-04 · el sintetizador de formantes esquema general basado...

Modelos de producción de voz

Tratamiento digital de la señal de voz 1

Modelos de producción de Modelos de producción de vozvoz

Curso de doctorado 2001/2002Inmaculada Herná[email protected]




Teoría de la producción del habla

El sintetizador de formantes



Teoría de la producción del habla• Sistema sub-glotal: pulmones, bronquios y

tráquea, son la fuente de energía

• Tracto vocal (longitud media 17cm, sección de 0 a 20 cm:

•Glotis (aloja las cuerdas vocales)•Faringe•Cavidad bucal

• Tracto nasal: velo del paladar y nariz• Sonidos nasales: el velo del paladar baja y el

tracto vocal y nasal se acoplan acústicamente (producción de los sonidos nasales).

• Voz: Onda acústica radiada cuando los pulmones expulsan el aire y el flujo resultante es perturbado por alguna constricción en el tracto vocal.




Sonidos sonoros: el flujo del aire procedente de los pulmones es periódicamente interrumpido por la apertura y cierre de las cuerdas vocales. Es un flujo periódico de frecuencia fundamental F0 (frecuencia de pitch).Sonidos sordos: No hay vibración de las cuerdas vocales. El flujo de aire encuentra una constricción en el tracto vocal, tomando granvelocidad y formando turbulencias.Tracto vocal y tracto nasal: Actúan de cavidades resonantes, cuyas frecuencias de resonancia se conocen como Formantes. Los valores de los formantes dependen de la forma y dimensiones del tracto vocal. Por ello, las características espectrales de la voz varían en el tiempo como varía la forma del tracto vocal.



Teoría de la producción del hablaHombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz másgrave.Mujeres y niños: Glotis más pequeña, cuerdas vocales más cortas, vozmás aguda.




Pulso de Rosenberg

g(t)

G(f)

Excitación Cavidad Resonante

Radiación labios



Resonancias orales:





Vocales: Desde la glotis, el aire atraviesa la cavidad bucal sinobstáculos. Las vocales siempre son sonoras. Consonantes: La lengua o los labios ayudados por los dientes y por elpaladar interrumpen total (oclusivas) o parcialmente (fricativas, africadas) el paso del aire.



Modelo del tubo sin pérdidas



Modelos digitales

a) Modelo Tubo sin pérdidas

b) Sistema discreto equivalente

c) Retardos enteros



Modelos digitales

Línea discontínua: terminación en cortocircuito

º



Modelos digitales



Modelos digitales

GENERADORde PULSOS

PULSOGLOTALG(z)

GENERADORde RUIDO

x

x

TRACTOVOCALV(z)

RADIACIÓNLABIOSR(z)F0

AV

AUCOEFICIENTES

REFLEXIÓN

s(n)

EXCITACIÓNSONORA

EXCITACIÓNSORDA

GENERADORde

EXCITACIONES

TRACTOVOCALH(z)

u(n)

G(z) V(z) R(z)



Modelos digitales

Modelo de fuente y tracto vocal:Separa totalmente características de fuente y de tracto vocal.Funciona mejor cuando los parámetros varían lentamente: sonidos más estacionarios.Filtro V(z) todo polos: solo tiene resonancias, no puede modelar los ceros de las nasales.Separa fuente ruidosa y sonora: no válido para todos los sonidos. Cambio brusco de una fuente a otra: no realista.




Teoría de la producción del hablaEl sintetizador de formantes




Esquema general basado en el modelo de fuente y tracto vocal. Es uno de los primeras técnicas utilzadas para síntesis de voz y conversión de texto a voz (Holmes-63, Klatt-80).El tracto vocal se implementa con tipos de configuraciones de filtros, en función del sonido de que se trate:



El sintetizador de formantesLa rama paralelo está formada por resonadores de segundo orden conectados en paralelo. La propuesta de Holmesúnicamente incluía esta rama (Holmes-83). Es muy flexible, pero muy difícil de ajustar.




La rama serie está formada por una serie de resonadores de segundo orden conectados en cascada (o serie). Tiene menos parámetros de configuración (no pueden ajustarse las amplitudes) y modela muy bien la producción de las vocales. No puede utilizarse para las sordas.



Circuito resonador digital de segundo orden:

sFB

s

eg

gcFPgb

cbazczb

azH

π

π

2

2

21

)2cos(2

11

)(

−

−−

−=

−=

⋅⋅⋅⋅=

−−=⋅−⋅−

=)2()1()()( −⋅+−⋅+⋅= nycnybnxany

P=Frecuencia del polo (500, 1500, 2500, 3500Hz)

B=Ancho de banda (50 y 100Hz para P1 y P2, y 50 para P3 y P4)

El valor de la respuesta aumenta con la frecuencia y disminuye con el ancho de banda. Esto debe considerarse cuando se combinen las respuestas de varios resonadores.




sFB

s

eg

gacFPgab

cba

zczbazH

π

π

2

2

21

'

)2cos(2''

11'

''')(

−

−−

−=

⋅=

⋅⋅⋅⋅⋅−=

−−=

⋅+⋅+=)2(')1(')(')( −⋅+−⋅+⋅= nxcnxbnxany

Circuito antirresonador digital de segundo orden:

P=Frecuencia del cero (500, 1500, 2500, 3500Hz)

B=Ancho de banda (50 Hz)




Excitación sonora: hay muchas propuestas para la configuración del pulso glotal.




Excitación sorda:




Vocales: valores de los formantes constantes.

300Hz

i e a o u

F1

F22200Hz




Bibliografía

Rabiner, L.R. Schfer, R.W (1978) Digital Processing of Speech Signal. Prentice-Hall Signal Processing Sreries Alan V. Oppenheim. SeriesEditor. 1978.RabinerKlatt, D., (1980) Software for a Cascade/Parallel Formant Synthesizer.Journal of the Acoustical Society of America, vol.67, pp.971-995Holmes, J. (1983), Formant Synthesizer- Cascade or Parallel? SpeechCommunication, vol 2, pp.251-273Holmes, J., Mattingly, I., Shearme, J. (1964) Speech Synthesis by Rule. Language an Speech, vol. 7, pp. 127-143

modelos de producción de voz · 2002-03-04 · el sintetizador de formantes esquema general basado...

Documents