tratamiento digital de voz prof. luis a. hernández gómez ftp.gaps.ssr.upm.es/pub/tdv/doc/...

Tratamiento Digital de Voz

Prof. Luis A. Hernández Gómez

ftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema4a.ppt

Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones

Tratamiento Digital de VozTratamiento Digital de Voz

Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

Síntesis de VozSíntesis de Voz

Tipos de Síntesis de Voz y Aplicaciones

(A)Voz Pre-Grabada(codificación)

(B)Conversión de Texto

a VozText-to-Speech TTS

(C)Conversión de Concepto

a VozConcept-to-Speech CTS

Acceso a Inform.

Telefónica

Asistentes de Lectura

Comunicadores y Ayudas para Discapacitados

Locutores virtuales (visual – TTS)

Otros: Enseñanza (I. Cervantes), .. http://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xsl

1791

• El barón Wolfgang von Kempelen describió una máquina que reproducía fielmente la anatomía del aparato fonador humano

1835

• Sistema parlante diseñado por Sir Charles Wheatstone

Sprachsynthese (TTS, Vocoder)

Philipp S. Bach

1939

Homer Dudley’s “Voder”: Primer Sintetizador “electrónico” compuesto de:

• Un oscilador (controlado por un pedal) y una fuente de ruído blanco

• Diez filtros paso banda, con salida conectada a potenciómetros

• Algunos botones para generar consonantes como t, p, etc...

Historie der Sprachsynthese

Proseminar Sprachdialogsysteme

http://www.acoustics.hut.fi/~slemmett/dippa/appa.html


Principios básicos de sistemas de conversión de texto a voz

ProcesoLingüístico-Prosódico

Proceso de Señal

•Sonidos (pausas)•Prosodia:

o F0o Duracióno Energía

Análisis del Texto Análisis FonéticoAnálisis Prosódico

Modelos de Síntesisde Voz

SINTETIZADOR

Texto Voz


Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto

Componentes:

Detección de la Estructuradel Texto

Texto de Entrada

Normalización del Texto

Análisis Lingüístico



Detección de la Estructura:– Segmentación de

párrafos.– Separación de frases.– Tipos de frases.– Detección de estructura

de SMS, e-mail, página web, ...

– Identificación del Idioma, ...


Texto de Entrada





Normalización del Texto:– Abreviaturas (Vd. Sr. ),

acrónimos (CEE, BMW) , etc.

– Fechas, Horas, Cantidades, Números

– Corrección automática de errores o expansión de formas de escritura (SMSs)

– Identificación de palabras extranjeras, ..


Texto de Entrada





Análisis Lingüístico:– Análisis sintáctico y

semántico (posible)– Desambiguación de

palabras.– Estructura de la frase.– Identificación de tipo de

frase.


Texto de Entrada




Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Fonético

Componentes: Salida del Componente de Análisis de Texto

Análisis Morfológico

ConversiónLetra-a-sonido

(Grafema-a-alófono)

Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz

Proceso Lingüístico-Prosódico: Análisis Fonético

Salida del Componente de Análisis de Texto




Análisis Morfológico:– Palabras de función:

pronombres, preposiciones, conjunciones (determinar sílabas, ej.: sublunar)

– Palabras de contenido – Prefijos y sufijos,

conjugaciones, plurales, aumentativos, etc

– Descubrir homógrafas que cambian sentidoEj.: para (preposición) y para (verbo)


Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Fonético

Salida del Componente de Análisis de Texto




Conversión Grafema-Alófono:– Soluciones basadas en

diccionario• Palabras divididas en

morfemas (para disminuir diccionario)

• Si la palabra no está: usa reglas

– Soluciones basadas en reglas: Reglas de conversión letras-fonemas + Tabla + algoritmos de excepciones


Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Prosódico

Componentes: Salida del Componente de Análisis Fonético

Modelado de:• Entonación• Duración• Intensidad

Sonidos y pausas +F0, duración y Energía

Módulo Pausador



Salida del Componente de Análisis Fonético



Módulo Pausador

Módulo Pausador:– Decisión de dónde insertar

pausas –ortográficas y no ortográficas- :

• Información gramatical: coeficientes de relación

• Número de sílabas– Asignación de la duración

adecuada a las pausas



Salida del Componente de Análisis Fonético



Módulo Pausador

Modelado Prosódico:– Modelos:

• Patrones pre-establecidos• Basados en reglas• Estocásticos, a partir de

datos.– Modelado de F0 y duración:

¿independiente o conjunto?– Intensidad, generalmente

sólo normalización

Síntesis de VozSíntesis de VozMODELOS PROSÓDICOS

Lineales o de Secuencia de Tonos – generar la curva de F0 de izquierda a derecha como una secuencia de valores o movimientos

Escuela Británica – basada en análisis auditivoPierrehumbert 1980 – análisis acústico (ToBI)Dutch school - ‘t Hart, Collier and Cohen 1990 – información perceptualTilt - Taylor 1998 – base fonética

Modelos Jerárquicos o de superposición: - generar el contorno de F0 modelando factores de forma aislada (fonema, sílaba, palabra, frase, sentencia) y

luego combinar los modelos parciales.

Fujisaki 1983, Grønnum 1992, Möbius et al. 1993,

Tomás Navarro Tomás, Manual de Pronunciación Española (1945) New York:

Hispanic Institute. Guadarrama 1974.

http://liceu.uab.es/publicacions/Linguistica_CTH_FDS02.pdf

tratamiento digital de voz prof. luis a. hernández gómez ftp.gaps.ssr.upm.es/pub/tdv/doc/...

Documents