tecnologías del habla - aholab · tic en redes móviles t hombres: glotis de mayor tamaño,...
TRANSCRIPT
![Page 1: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/1.jpg)
Tecnologías del hablaTecnologías del hablaInmaculada HernaezEduardo LleidaEva NavasAlfonso Ortega
Curso 2006/2007
![Page 2: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/2.jpg)
TIC en Redes Móviles
Programa
Introducción 1.1. Generación y percepción de la señal de vozGeneración y percepción de la señal de voz
•• ProducciónProducción• Modelos digitales• Percepción
2. Técnicas avanzadas de análisis de voz3. Codificación de voz4. Reconocimiento automático del habla5. Conversión texto-habla
![Page 3: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/3.jpg)
TIC en Redes Móviles
1. Generación del habla
• Sistema sub-glotal: pulmones, bronquios y tráquea, son la fuente de energía
• Tracto vocal (longitud media 17cm, sección de 0 a 20 cm:
•Glotis (aloja las cuerdas vocales)•Faringe•Cavidad bucal
• Tracto nasal: velo del paladar y nariz• Voz: Onda acústica radiada cuando los
pulmones expulsan el aire y el flujo resultante es perturbado por alguna constricción en el tracto vocal.
![Page 4: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/4.jpg)
TIC en Redes Móviles
• Sonidos sonoros: la glotis se encuentra cerradacon las cuerdas vocales tensas. El aire empuja lascuerdas vocales y las hace vibrar. • Sonidos sordos: la glotis está abierta y lascuerdas relajadas. El flujo de aire saliente de la glotis será turbulento. El aire sale
impulsado confuerza por lospulmones hacia
el exterior
El aire coge granvelocidad en la tráquea
1. Generación del habla
![Page 5: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/5.jpg)
TIC en Redes Móviles
1. Generación del habla
![Page 6: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/6.jpg)
TIC en Redes Móviles
1. Generación del habla
Glotis y señal del laringógrafo
![Page 7: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/7.jpg)
TIC en Redes Móviles
0 T 2T 3T
Glotis abierta
Glotis cerrada
t
1. Generación del habla
1/F0Pitch
![Page 8: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/8.jpg)
TIC en Redes Móviles
Ama etorri da
Bihar eguraldi ona izango dugu
Ama etorri da?
Bihar eguraldi ona izango dugu?
Curvas de entonación
1. Generación del habla
![Page 9: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/9.jpg)
TIC en Redes Móviles
Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave.Mujeres y niños: Glotis más pequeña, cuerdas vocales más cortas, voz másaguda. Pitch o frecuencia fundamental o F0: Frecuencia de vibración de las cuerdasvocales en la producción de los sonidos sonoros.
1. Generación del habla
![Page 10: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/10.jpg)
TIC en Redes Móviles
1. Generación del habla
![Page 11: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/11.jpg)
TIC en Redes Móviles
• Sonidos sonoros: la glotis se encuentra cerradacon las cuerdas vocales tensas. El aire empuja lascuerdas vocales y las hace vibrar. • Sonidos sordos: la glotis está abierta y lascuerdas relajadas. El flujo de aire saliente de la glotis será turbulento. El aire sale
impulsado confuerza por lospulmones hacia
el exterior
El aire coge granvelocidad en la tráquea
La cavidad bucal actúa de cavidad resonante: frecuencias
de resonancia o formantes
1. Generación del habla
![Page 12: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/12.jpg)
TIC en Redes Móviles
1. Generación del habla
![Page 13: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/13.jpg)
TIC en Redes Móviles
Resonancias: Formantes
1. Generación del habla
![Page 14: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/14.jpg)
TIC en Redes Móviles
1. Generación del habla
![Page 15: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/15.jpg)
TIC en Redes Móviles
Vocales: Desde la glotis, el aire atraviesa la cavidad bucal sinobstáculos. Las vocales siempre son sonoras. Consonantes: La lengua o los labios ayudados por los dientes y por el paladar interrumpen total (oclusivas) o parcialmente(fricativas, africadas) el paso del aire.
1. Generación del habla
![Page 16: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/16.jpg)
TIC en Redes Móviles
Sonidos nasales: el velo del paladar baja y el aire se dirige hacia el exterior
atravesando la cavidad nasal. Las cavidadesnasal y bucal se acoplan acústicamente.
• Sonidos sonoros: la glotis se encuentra cerradacon las cuerdas vocales tensas. El aire empuja lascuerdas vocales y las hace vibrar. • Sonidos sordos: la glotis está abierta y lascuerdas relajadas. El flujo de aire saliente de la glotis será turbulento. El aire sale
impulsado confuerza por lospulmones hacia
el exterior
El aire coge granvelocidad en la tráquea
La cavidad bucal actúa de cavidad resonante: frecuencias
de resonancia o formantes
1. Generación del habla
![Page 17: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/17.jpg)
TIC en Redes Móviles
Sonidos sonoros: el flujo del aire procedente de los pulmones es periódicamente interrumpido por la apertura y cierre de las cuerdas vocales. Es un flujo periódico de frecuencia fundamental F0 (frecuencia de pitch).Sonidos sordos: No hay vibración de las cuerdas vocales. El flujo de aire encuentra una constricción en el tracto vocal, tomando gran velocidad y formando turbulencias.Tracto vocal y tracto nasal: Actúan de cavidades resonantes, cuyas frecuencias de resonancia se conocen como Formantes. Los valores de los formantes dependen de la forma y dimensiones del tracto vocal. Por ello, las características espectrales de la voz varían en el tiempo como varía la forma del tracto vocal.
1. Generación del habla
![Page 18: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/18.jpg)
TIC en Redes Móviles
200Hz
i e a o u
F1
F22500Hz
1. Generación del habla
Formantes de las vocales
![Page 19: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/19.jpg)
TIC en Redes Móviles
Fonética acústica: modo de articulación
No
FricativasAproximantes
VibrantesLaterales
Sono
ridad
VocalesSiNasales
Oclusivas
Oclusivas Fricativas
Africadas
Oclusión
No Total Parcial
1. Generación del habla
![Page 20: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/20.jpg)
TIC en Redes Móviles
labiales: [p], [b], [m]
dentales: [t], [d]
alveoares: [n], [s]
palatales: [J], [L]
velares: [k], [g], [x]
Fonética acústica: lugar de articulación
1. Generación del habla
![Page 21: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/21.jpg)
TIC en Redes Móviles
Factores culturales
• Volumen de la voz• Conjunto de sonidos• Duración• Entonación• Formas de formar frases• Velocidad del habla• Vocabulario
Factores Fisiológicos
• Tracto vocal• Cuerdas vocales y• frecuencia de vibración• Forma del pulso glotal• Cansancio• Congestión nasal
Factores Ambientales
• Ruido de fondo• Factores mecánicos: vibraciones• Estado emocional • Acústica de la sala • Ambiente: calor
1. Generación del habla
Variabilidad de la voz
![Page 22: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/22.jpg)
TIC en Redes Móviles
Programa
Introducción 1.1. Generación y percepción de la señal de vozGeneración y percepción de la señal de voz
•• ProducciónProducción•• Modelos digitalesModelos digitales• Percepción
2. Técnicas avanzadas de análisis de voz3. Codificación de voz4. Reconocimiento automático del habla5. Conversión texto-habla
![Page 23: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/23.jpg)
TIC en Redes Móviles
Pulso de Rosenberg
g(t)
G(f)
Excitación Cavidad Resonante
Radiación labios
1. Generación del habla
![Page 24: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/24.jpg)
TIC en Redes Móviles
GENERADORde PULSOS
PULSOGLOTAL
G(z)
GENERADORde RUIDO
x
x
TRACTOVOCAL
V(z)
RADIACIÓNLABIOS
R(z)F0
AV
AUCOEFICIENTES
REFLEXIÓN
s(n)
EXCITACIÓNSONORA
EXCITACIÓNSORDA
GENERADORde
EXCITACIONES
TRACTOVOCAL
H(z)
u(n)
G(z) V(z) R(z)
1. Generación del habla
![Page 25: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/25.jpg)
TIC en Redes Móviles
Modelo de fuente y tracto vocal:Separa totalmente características de fuente y de tracto vocal.Funciona mejor cuando los parámetros varían lentamente: sonidos más estacionarios.Filtro V(z) todo polos: solo tiene resonancias, no puede modelar los ceros de las nasales.Separa fuente ruidosa y sonora: no válido para todos los sonidos. Cambio brusco de una fuente a otra: no realista.
1. Generación del habla
![Page 26: Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. T Mujeres y niños: Glotis más pequeña,](https://reader033.vdocumento.com/reader033/viewer/2022052019/603390470ad9004cc908b1bc/html5/thumbnails/26.jpg)
TIC en Redes Móviles
BibliografíaRabiner, L.R. Schfer, R.W (1978) Digital Processing ofSpeech Signal. Prentice-Hall Signal Processing SeriesAlan V. Oppenheim. Series Editor. 1978.RabinerFant, G. Acoustic Theory of Speech Production 2nd. Ed. 1970, Mouton, The Hague.Deller, J., Hansen, Proakis (2000) Discrete-Time Processing of Speech Signals IEEE Press.
1. Generación del habla