modelos de producción de voz · 2002-03-04 · el sintetizador de formantes esquema general basado...

27
Modelos de producción de Modelos de producción de voz voz Curso de doctorado 2001/2002 Inmaculada Hernáez [email protected]

Upload: others

Post on 08-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Modelos de producción de voz

Tratamiento digital de la señal de voz 1

Modelos de producción de Modelos de producción de vozvoz

Curso de doctorado 2001/2002Inmaculada Herná[email protected]

Modelos de producción de voz

Tratamiento digital de la señal de voz 2

Modelos de producción de voz

Teoría de la producción del habla

El sintetizador de formantes

Modelos de producción de voz

Tratamiento digital de la señal de voz 3

Teoría de la producción del habla• Sistema sub-glotal: pulmones, bronquios y

tráquea, son la fuente de energía

• Tracto vocal (longitud media 17cm, sección de 0 a 20 cm:

•Glotis (aloja las cuerdas vocales)•Faringe•Cavidad bucal

• Tracto nasal: velo del paladar y nariz• Sonidos nasales: el velo del paladar baja y el

tracto vocal y nasal se acoplan acústicamente (producción de los sonidos nasales).

• Voz: Onda acústica radiada cuando los pulmones expulsan el aire y el flujo resultante es perturbado por alguna constricción en el tracto vocal.

Modelos de producción de voz

Tratamiento digital de la señal de voz 4

Teoría de la producción del habla

Modelos de producción de voz

Tratamiento digital de la señal de voz 5

Teoría de la producción del habla

Sonidos sonoros: el flujo del aire procedente de los pulmones es periódicamente interrumpido por la apertura y cierre de las cuerdas vocales. Es un flujo periódico de frecuencia fundamental F0 (frecuencia de pitch).Sonidos sordos: No hay vibración de las cuerdas vocales. El flujo de aire encuentra una constricción en el tracto vocal, tomando granvelocidad y formando turbulencias.Tracto vocal y tracto nasal: Actúan de cavidades resonantes, cuyas frecuencias de resonancia se conocen como Formantes. Los valores de los formantes dependen de la forma y dimensiones del tracto vocal. Por ello, las características espectrales de la voz varían en el tiempo como varía la forma del tracto vocal.

Modelos de producción de voz

Tratamiento digital de la señal de voz 6

Teoría de la producción del hablaHombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz másgrave.Mujeres y niños: Glotis más pequeña, cuerdas vocales más cortas, vozmás aguda.

Modelos de producción de voz

Tratamiento digital de la señal de voz 7

Teoría de la producción del habla

Modelos de producción de voz

Tratamiento digital de la señal de voz 8

Teoría de la producción del habla

Pulso de Rosenberg

g(t)

G(f)

Excitación Cavidad Resonante

Radiación labios

Modelos de producción de voz

Tratamiento digital de la señal de voz 9

Resonancias orales:

Teoría de la producción del habla

Modelos de producción de voz

Tratamiento digital de la señal de voz 10

Teoría de la producción del habla

Vocales: Desde la glotis, el aire atraviesa la cavidad bucal sinobstáculos. Las vocales siempre son sonoras. Consonantes: La lengua o los labios ayudados por los dientes y por elpaladar interrumpen total (oclusivas) o parcialmente (fricativas, africadas) el paso del aire.

Modelos de producción de voz

Tratamiento digital de la señal de voz 11

Modelo del tubo sin pérdidas

Modelos de producción de voz

Tratamiento digital de la señal de voz 12

Modelo del tubo sin pérdidas

Modelos de producción de voz

Tratamiento digital de la señal de voz 13

Modelos digitales

a) Modelo Tubo sin pérdidas

b) Sistema discreto equivalente

c) Retardos enteros

Modelos de producción de voz

Tratamiento digital de la señal de voz 14

Modelos digitales

Línea discontínua: terminación en cortocircuito

º

Modelos de producción de voz

Tratamiento digital de la señal de voz 15

Modelos digitales

Modelos de producción de voz

Tratamiento digital de la señal de voz 16

Modelos digitales

GENERADORde PULSOS

PULSOGLOTALG(z)

GENERADORde RUIDO

x

x

TRACTOVOCALV(z)

RADIACIÓNLABIOSR(z)F0

AV

AUCOEFICIENTES

REFLEXIÓN

s(n)

EXCITACIÓNSONORA

EXCITACIÓNSORDA

GENERADORde

EXCITACIONES

TRACTOVOCALH(z)

u(n)

G(z) V(z) R(z)

Modelos de producción de voz

Tratamiento digital de la señal de voz 17

Modelos digitales

Modelo de fuente y tracto vocal:Separa totalmente características de fuente y de tracto vocal.Funciona mejor cuando los parámetros varían lentamente: sonidos más estacionarios.Filtro V(z) todo polos: solo tiene resonancias, no puede modelar los ceros de las nasales.Separa fuente ruidosa y sonora: no válido para todos los sonidos. Cambio brusco de una fuente a otra: no realista.

Modelos de producción de voz

Tratamiento digital de la señal de voz 18

Modelos de producción de voz

Teoría de la producción del hablaEl sintetizador de formantes

Modelos de producción de voz

Tratamiento digital de la señal de voz 19

El sintetizador de formantes

Esquema general basado en el modelo de fuente y tracto vocal. Es uno de los primeras técnicas utilzadas para síntesis de voz y conversión de texto a voz (Holmes-63, Klatt-80).El tracto vocal se implementa con tipos de configuraciones de filtros, en función del sonido de que se trate:

Modelos de producción de voz

Tratamiento digital de la señal de voz 20

El sintetizador de formantesLa rama paralelo está formada por resonadores de segundo orden conectados en paralelo. La propuesta de Holmesúnicamente incluía esta rama (Holmes-83). Es muy flexible, pero muy difícil de ajustar.

Modelos de producción de voz

Tratamiento digital de la señal de voz 21

El sintetizador de formantes

La rama serie está formada por una serie de resonadores de segundo orden conectados en cascada (o serie). Tiene menos parámetros de configuración (no pueden ajustarse las amplitudes) y modela muy bien la producción de las vocales. No puede utilizarse para las sordas.

Modelos de producción de voz

Tratamiento digital de la señal de voz 22

Circuito resonador digital de segundo orden:

sFB

s

eg

gcFPgb

cbazczb

azH

π

π

2

2

21

)2cos(2

11

)(

−−

−=

−=

⋅⋅⋅⋅=

−−=⋅−⋅−

=)2()1()()( −⋅+−⋅+⋅= nycnybnxany

P=Frecuencia del polo (500, 1500, 2500, 3500Hz)

B=Ancho de banda (50 y 100Hz para P1 y P2, y 50 para P3 y P4)

El valor de la respuesta aumenta con la frecuencia y disminuye con el ancho de banda. Esto debe considerarse cuando se combinen las respuestas de varios resonadores.

El sintetizador de formantes

Modelos de producción de voz

Tratamiento digital de la señal de voz 23

sFB

s

eg

gacFPgab

cba

zczbazH

π

π

2

2

21

'

)2cos(2''

11'

''')(

−−

−=

⋅=

⋅⋅⋅⋅⋅−=

−−=

⋅+⋅+=)2(')1(')(')( −⋅+−⋅+⋅= nxcnxbnxany

Circuito antirresonador digital de segundo orden:

P=Frecuencia del cero (500, 1500, 2500, 3500Hz)

B=Ancho de banda (50 Hz)

El sintetizador de formantes

Modelos de producción de voz

Tratamiento digital de la señal de voz 24

Excitación sonora: hay muchas propuestas para la configuración del pulso glotal.

El sintetizador de formantes

Modelos de producción de voz

Tratamiento digital de la señal de voz 25

Excitación sorda:

El sintetizador de formantes

Modelos de producción de voz

Tratamiento digital de la señal de voz 26

Vocales: valores de los formantes constantes.

300Hz

i e a o u

F1

F22200Hz

El sintetizador de formantes

Modelos de producción de voz

Tratamiento digital de la señal de voz 27

Bibliografía

Rabiner, L.R. Schfer, R.W (1978) Digital Processing of Speech Signal. Prentice-Hall Signal Processing Sreries Alan V. Oppenheim. SeriesEditor. 1978.RabinerKlatt, D., (1980) Software for a Cascade/Parallel Formant Synthesizer.Journal of the Acoustical Society of America, vol.67, pp.971-995Holmes, J. (1983), Formant Synthesizer- Cascade or Parallel? SpeechCommunication, vol 2, pp.251-273Holmes, J., Mattingly, I., Shearme, J. (1964) Speech Synthesis by Rule. Language an Speech, vol. 7, pp. 127-143