![Page 1: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/1.jpg)
Tratamiento Digital de Voz
Prof. Luis A. Hernández Gómez
ftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema4a.ppt
Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones
![Page 2: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/2.jpg)
Tratamiento Digital de VozTratamiento Digital de Voz
Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades
![Page 3: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/3.jpg)
Síntesis de VozSíntesis de Voz
Tipos de Síntesis de Voz y Aplicaciones
(A)Voz Pre-Grabada(codificación)
(B)Conversión de Texto
a VozText-to-Speech TTS
(C)Conversión de Concepto
a VozConcept-to-Speech CTS
Acceso a Inform.
Telefónica
Asistentes de Lectura
Comunicadores y Ayudas para Discapacitados
Locutores virtuales (visual – TTS)
Otros: Enseñanza (I. Cervantes), .. http://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xsl
![Page 4: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/4.jpg)
1791
• El barón Wolfgang von Kempelen describió una máquina que reproducía fielmente la anatomía del aparato fonador humano
![Page 5: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/5.jpg)
1835
• Sistema parlante diseñado por Sir Charles Wheatstone
![Page 6: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/6.jpg)
Sprachsynthese (TTS, Vocoder)
Philipp S. Bach
1939
Homer Dudley’s “Voder”: Primer Sintetizador “electrónico” compuesto de:
• Un oscilador (controlado por un pedal) y una fuente de ruído blanco
• Diez filtros paso banda, con salida conectada a potenciómetros
• Algunos botones para generar consonantes como t, p, etc...
Historie der Sprachsynthese
Proseminar Sprachdialogsysteme
http://www.acoustics.hut.fi/~slemmett/dippa/appa.html
![Page 7: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/7.jpg)
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz
ProcesoLingüístico-Prosódico
Proceso de Señal
•Sonidos (pausas)•Prosodia:
o F0o Duracióno Energía
Análisis del Texto Análisis FonéticoAnálisis Prosódico
Modelos de Síntesisde Voz
SINTETIZADOR
Texto Voz
![Page 8: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/8.jpg)
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto
Componentes:
Detección de la Estructuradel Texto
Texto de Entrada
Normalización del Texto
Análisis Lingüístico
![Page 9: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/9.jpg)
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto
Detección de la Estructura:– Segmentación de
párrafos.– Separación de frases.– Tipos de frases.– Detección de estructura
de SMS, e-mail, página web, ...
– Identificación del Idioma, ...
Detección de la Estructuradel Texto
Texto de Entrada
Normalización del Texto
Análisis Lingüístico
![Page 10: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/10.jpg)
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto
Normalización del Texto:– Abreviaturas (Vd. Sr. ),
acrónimos (CEE, BMW) , etc.
– Fechas, Horas, Cantidades, Números
– Corrección automática de errores o expansión de formas de escritura (SMSs)
– Identificación de palabras extranjeras, ..
Detección de la Estructuradel Texto
Texto de Entrada
Normalización del Texto
Análisis Lingüístico
![Page 11: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/11.jpg)
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto
Análisis Lingüístico:– Análisis sintáctico y
semántico (posible)– Desambiguación de
palabras.– Estructura de la frase.– Identificación de tipo de
frase.
Detección de la Estructuradel Texto
Texto de Entrada
Normalización del Texto
Análisis Lingüístico
![Page 12: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/12.jpg)
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Fonético
Componentes: Salida del Componente de Análisis de Texto
Análisis Morfológico
ConversiónLetra-a-sonido
(Grafema-a-alófono)
![Page 13: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/13.jpg)
Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz
Proceso Lingüístico-Prosódico: Análisis Fonético
Salida del Componente de Análisis de Texto
Análisis Morfológico
ConversiónLetra-a-sonido
(Grafema-a-alófono)
Análisis Morfológico:– Palabras de función:
pronombres, preposiciones, conjunciones (determinar sílabas, ej.: sublunar)
– Palabras de contenido – Prefijos y sufijos,
conjugaciones, plurales, aumentativos, etc
– Descubrir homógrafas que cambian sentidoEj.: para (preposición) y para (verbo)
![Page 14: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/14.jpg)
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Fonético
Salida del Componente de Análisis de Texto
Análisis Morfológico
ConversiónLetra-a-sonido
(Grafema-a-alófono)
Conversión Grafema-Alófono:– Soluciones basadas en
diccionario• Palabras divididas en
morfemas (para disminuir diccionario)
• Si la palabra no está: usa reglas
– Soluciones basadas en reglas: Reglas de conversión letras-fonemas + Tabla + algoritmos de excepciones
![Page 15: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/15.jpg)
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Prosódico
Componentes: Salida del Componente de Análisis Fonético
Modelado de:• Entonación• Duración• Intensidad
Sonidos y pausas +F0, duración y Energía
Módulo Pausador
![Page 16: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/16.jpg)
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Prosódico
Salida del Componente de Análisis Fonético
Modelado de:• Entonación• Duración• Intensidad
Sonidos y pausas +F0, duración y Energía
Módulo Pausador
Módulo Pausador:– Decisión de dónde insertar
pausas –ortográficas y no ortográficas- :
• Información gramatical: coeficientes de relación
• Número de sílabas– Asignación de la duración
adecuada a las pausas
![Page 17: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/17.jpg)
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Prosódico
Salida del Componente de Análisis Fonético
Modelado de:• Entonación• Duración• Intensidad
Sonidos y pausas +F0, duración y Energía
Módulo Pausador
Modelado Prosódico:– Modelos:
• Patrones pre-establecidos• Basados en reglas• Estocásticos, a partir de
datos.– Modelado de F0 y duración:
¿independiente o conjunto?– Intensidad, generalmente
sólo normalización
![Page 18: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader035.vdocumento.com/reader035/viewer/2022062512/5528bde6497959977d8fd652/html5/thumbnails/18.jpg)
Síntesis de VozSíntesis de VozMODELOS PROSÓDICOS
Lineales o de Secuencia de Tonos – generar la curva de F0 de izquierda a derecha como una secuencia de valores o movimientos
Escuela Británica – basada en análisis auditivoPierrehumbert 1980 – análisis acústico (ToBI)Dutch school - ‘t Hart, Collier and Cohen 1990 – información perceptualTilt - Taylor 1998 – base fonética
Modelos Jerárquicos o de superposición: - generar el contorno de F0 modelando factores de forma aislada (fonema, sílaba, palabra, frase, sentencia) y
luego combinar los modelos parciales.
Fujisaki 1983, Grønnum 1992, Möbius et al. 1993,
Tomás Navarro Tomás, Manual de Pronunciación Española (1945) New York:
Hispanic Institute. Guadarrama 1974.
http://liceu.uab.es/publicacions/Linguistica_CTH_FDS02.pdf