tratamiento digital de voz prof. luis a. hernández gómez ftp.gaps.ssr.upm.es/pub/tdv/doc/...
TRANSCRIPT
Tratamiento Digital de Voz
Prof. Luis A. Hernández Gómez
ftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema4a.ppt
Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones
Tratamiento Digital de VozTratamiento Digital de Voz
Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades
Síntesis de VozSíntesis de Voz
Tipos de Síntesis de Voz y Aplicaciones
(A)Voz Pre-Grabada(codificación)
(B)Conversión de Texto
a VozText-to-Speech TTS
(C)Conversión de Concepto
a VozConcept-to-Speech CTS
Acceso a Inform.
Telefónica
Asistentes de Lectura
Comunicadores y Ayudas para Discapacitados
Locutores virtuales (visual – TTS)
Otros: Enseñanza (I. Cervantes), .. http://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xsl
1791
• El barón Wolfgang von Kempelen describió una máquina que reproducía fielmente la anatomía del aparato fonador humano
1835
• Sistema parlante diseñado por Sir Charles Wheatstone
Sprachsynthese (TTS, Vocoder)
Philipp S. Bach
1939
Homer Dudley’s “Voder”: Primer Sintetizador “electrónico” compuesto de:
• Un oscilador (controlado por un pedal) y una fuente de ruído blanco
• Diez filtros paso banda, con salida conectada a potenciómetros
• Algunos botones para generar consonantes como t, p, etc...
Historie der Sprachsynthese
Proseminar Sprachdialogsysteme
http://www.acoustics.hut.fi/~slemmett/dippa/appa.html
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz
ProcesoLingüístico-Prosódico
Proceso de Señal
•Sonidos (pausas)•Prosodia:
o F0o Duracióno Energía
Análisis del Texto Análisis FonéticoAnálisis Prosódico
Modelos de Síntesisde Voz
SINTETIZADOR
Texto Voz
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto
Componentes:
Detección de la Estructuradel Texto
Texto de Entrada
Normalización del Texto
Análisis Lingüístico
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto
Detección de la Estructura:– Segmentación de
párrafos.– Separación de frases.– Tipos de frases.– Detección de estructura
de SMS, e-mail, página web, ...
– Identificación del Idioma, ...
Detección de la Estructuradel Texto
Texto de Entrada
Normalización del Texto
Análisis Lingüístico
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto
Normalización del Texto:– Abreviaturas (Vd. Sr. ),
acrónimos (CEE, BMW) , etc.
– Fechas, Horas, Cantidades, Números
– Corrección automática de errores o expansión de formas de escritura (SMSs)
– Identificación de palabras extranjeras, ..
Detección de la Estructuradel Texto
Texto de Entrada
Normalización del Texto
Análisis Lingüístico
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto
Análisis Lingüístico:– Análisis sintáctico y
semántico (posible)– Desambiguación de
palabras.– Estructura de la frase.– Identificación de tipo de
frase.
Detección de la Estructuradel Texto
Texto de Entrada
Normalización del Texto
Análisis Lingüístico
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Fonético
Componentes: Salida del Componente de Análisis de Texto
Análisis Morfológico
ConversiónLetra-a-sonido
(Grafema-a-alófono)
Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz
Proceso Lingüístico-Prosódico: Análisis Fonético
Salida del Componente de Análisis de Texto
Análisis Morfológico
ConversiónLetra-a-sonido
(Grafema-a-alófono)
Análisis Morfológico:– Palabras de función:
pronombres, preposiciones, conjunciones (determinar sílabas, ej.: sublunar)
– Palabras de contenido – Prefijos y sufijos,
conjugaciones, plurales, aumentativos, etc
– Descubrir homógrafas que cambian sentidoEj.: para (preposición) y para (verbo)
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Fonético
Salida del Componente de Análisis de Texto
Análisis Morfológico
ConversiónLetra-a-sonido
(Grafema-a-alófono)
Conversión Grafema-Alófono:– Soluciones basadas en
diccionario• Palabras divididas en
morfemas (para disminuir diccionario)
• Si la palabra no está: usa reglas
– Soluciones basadas en reglas: Reglas de conversión letras-fonemas + Tabla + algoritmos de excepciones
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Prosódico
Componentes: Salida del Componente de Análisis Fonético
Modelado de:• Entonación• Duración• Intensidad
Sonidos y pausas +F0, duración y Energía
Módulo Pausador
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Prosódico
Salida del Componente de Análisis Fonético
Modelado de:• Entonación• Duración• Intensidad
Sonidos y pausas +F0, duración y Energía
Módulo Pausador
Módulo Pausador:– Decisión de dónde insertar
pausas –ortográficas y no ortográficas- :
• Información gramatical: coeficientes de relación
• Número de sílabas– Asignación de la duración
adecuada a las pausas
Síntesis de VozSíntesis de Voz
Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Prosódico
Salida del Componente de Análisis Fonético
Modelado de:• Entonación• Duración• Intensidad
Sonidos y pausas +F0, duración y Energía
Módulo Pausador
Modelado Prosódico:– Modelos:
• Patrones pre-establecidos• Basados en reglas• Estocásticos, a partir de
datos.– Modelado de F0 y duración:
¿independiente o conjunto?– Intensidad, generalmente
sólo normalización
Síntesis de VozSíntesis de VozMODELOS PROSÓDICOS
Lineales o de Secuencia de Tonos – generar la curva de F0 de izquierda a derecha como una secuencia de valores o movimientos
Escuela Británica – basada en análisis auditivoPierrehumbert 1980 – análisis acústico (ToBI)Dutch school - ‘t Hart, Collier and Cohen 1990 – información perceptualTilt - Taylor 1998 – base fonética
Modelos Jerárquicos o de superposición: - generar el contorno de F0 modelando factores de forma aislada (fonema, sílaba, palabra, frase, sentencia) y
luego combinar los modelos parciales.
Fujisaki 1983, Grønnum 1992, Möbius et al. 1993,
Tomás Navarro Tomás, Manual de Pronunciación Española (1945) New York:
Hispanic Institute. Guadarrama 1974.
http://liceu.uab.es/publicacions/Linguistica_CTH_FDS02.pdf