mbrola

UNIVERSIDAD DE VALLADOLID

ESCUELA UNIVERSITARIA POLITCNICA

I.T.T. Telecomunicacin Especialidad: Sistemas ElectrnicosPROYECTO FIN DE CARRERA:

Diseo y creacin de un corpus oral para su aplicacin en el modelo de sntesis de voz MbrolaAutores: Prez Martnez, AlbertoVicente Cabeza, Oliver Departamento de informtica (ATC, CCIA y LSI) Tutores: Csar Gonzlez Ferreras David Escudero Mancebo

Septiembre 2002

ndice general

2

ndice general

ndice general1. Introduccin .. 2. Objetivos. 3. Sntesis de voz, visin histrica .......................................... 3.1. Introduccin.. 3.2. Estructura bsica de un sintetizador . 3.2.1. Mdulo de procesamiento natural de la lengua NLP 3.2.1.1.Analizador de texto . 3.2.1.2.Fonetizador automtico 3.2.1.3.Generacin de prosodia .. 3.2.2. El componente DSP .. 3.2.2.1.Sintetizadores basados en reglas . 3.2.2.2.Sintetizadores concatenativos . 4. Sntesis Mbrola .. 4.1. Tcnicas de sntesis PSOLA .. 4.1.1. Introduccin . 4.1.2. Algoritmo TD-PSOLA 4.2. Proyecto Mbrola . 4.3. Algoritmo MBR-PSOLA ... 5. Creacin de una voz Mbrola . 5.1. Introduccin 5.2. Diseo del corpus 5.2.1. Introduccin . 5.2.2. Representacin fontica 5.2.3. Representacin ortogrfica .. 5.3. Grabacin 5.3.1. Introduccin ..... 5.3.2. Material . 5.3.3. Proceso . 5.4. Segmentacin y etiquetado .. 5.4.1. Dstudio . 5.4.2. Praat . 5.5. Formato Mbrola ... 7 11 13 13 14 15 16 17 21 23 24 25 31 31 31 31 34 35 37 37 37 37 38 40 41 41 42 42 44 44 45 47

3

ndice general 6. Parlante, estudio de funcionamiento .. 6.1. Introduccin 6.2. Descripcin de la estructura 6.3. Herramienta de gestin de configuraciones gconfig 6.3.1. Introduccin .. 6.3.2. Parmetros de la herramienta gconfig .. 6.3.3. Formato de entrada de gconfig (fichero de configuracin). 6.3.3.1.Seccin de anlisis.. 6.3.3.2.Seccin de sntesis .. 6.3.3.3.Seccin de reproduccin . 6.3.3.4.Seccin de conexiones 6.3.4. Ficheros que componen la herramienta 6.4. Descripcin de los mdulos 6.4.1. Mdulo Textofon.. 6.4.1.1.Descripcin . 6.4.1.2.Sintaxis 6.4.1.3.Entrada/salida .. 6.4.2. Mdulo Duracin .. 6.4.2.1.Descripcin . 6.4.2.2.Sintaxis 6.4.2.3.Entrada/salida .. 6.4.3. Mdulo Pitch . 6.4.3.1.Descripcin . 6.4.3.2.Sintaxis 6.4.3.3.Entrada/salida . 6.4.4. Mdulo Param .. 6.4.4.1.Descripcin .. 6.4.4.2.Sintaxis . 6.4.4.3.Entrada/salida .. 6.4.4.4.Formato unificado 6.4.5. Mdulo Fildur 6.4.5.1.Descripcin .. 6.4.5.2.Sintaxis . 6.4.5.3.Entrada/salida 6.4.6. Mdulo Filpitch .. 6.4.6.1.Descripcin .. 6.4.6.2.Sintaxis . 6.4.6.3.Entrada/salida 6.4.7. Mdulo Mixer . 6.4.7.1.Descripcin ... 6.4.7.2.Sintaxis . 6.4.7.3.Entrada/salida .. 6.4.8. Mdulo En2text . 6.4.8.1.Descripcin . 6.4.8.2.Sintaxis 6.4.8.3.Entrada/salida .. 6.4.9. Mdulo Text2en 6.4.9.1.Descripcin . 6.4.9.2.Sintaxis 51 51 51 53 53 54 55 55 56 56 56 58 58 60 60 60 60 61 61 62 62 63 63 64 64 64 64 64 65 65 68 68 68 69 69 69 69 69 69 69 69 70 70 70 70 70 70 70 71

4

ndice general 6.4.9.3.Entrada/salida . 6.4.10. Mdulo Par2mbrola . 6.4.10.1. Descripcin 6.4.10.2. Sintaxis .. 6.4.10.3. Entrada/salida 6.4.11. Mdulo Mbrolawrap 6.4.11.1. Descripcin .. 6.4.11.2. Sintaxis . 6.4.11.3. Entrada/salida 7. Pgina Web 8. Conclusiones . Bibliografa. Apndice A: Cdigo SAMPA Apndice B: Lista de difonemas que existen en palabras 71 71 71 71 72 72 72 72 72 73 79 81 83 85

Apndice C: Lista de difonemas que solo existen en transiciones entre palabras 91 Apndice D: Lista de difonemas formados por dos fonemas iguales Apndice E: Corpus Apndice F: Trascripcin fontica del corpus Apndice G: Localizacin de los difonemas.. 93 95 99 103

Apndice H: Conjunto de enumerados que puede producir el mdulo txt2alo 115

5

ndice general

6

CAPTULO I: INTRODUCCIN

Captulo 1

IntroduccinEste informe refleja el trabajo de los autores dedicado a la asignatura proyecto de fin de carrera, para la obtencin del titulo de Ingeniero tcnico de telecomunicacin especialidad en sistemas electrnicos. Ha sido desarrollado durante el curso 2001/2002 y su titulo es Sntesis de voz a partir de texto basada en el modelo de sntesis concatenativo Mbrola [9]. Este trabajo esta dedicado a la sntesis de voz a partir de texto, es decir a los sistemas capaces de generar un discurso hablado a partir de un archivo de texto. Actualmente se estn desarrollando distintas alternativas sobre este campo, abarcando muchas perspectivas de mercado. Una de las ms importantes consiste en la habilitacin de sistemas de ayuda para discapacitados visuales, como por ejemplo el acceso a Internet. Otro campo de gran importancia es la aplicacin de estos sistemas a servicios de telecomunicaciones como los de ayuda al cliente en la telefona donde la iteracin entre las dos partes es muy pequea. Otras aplicaciones son la educacin mediante sistemas de aprendizaje automticos y el tratamiento de trastornos del habla. En el campo de la sntesis de voz a partir de texto existen actualmente dos tendencias a la hora de generar el discurso. La primera se basa en la descripcin formal mediante una serie de reglas de la influencia de unos fonemas en otros, estos sistemas fueron los pasos iniciales en el campo de la sntesis de voz, se basan en tratar de emular el sistema fonador humano. La segunda trabaja almacenando muestras de transiciones fonticas y co-articulaciones en una base de datos de voz segmentada, y usndolas como unidades acsticas mnimas. Estas dos tendencias han dado lugar a la sntesis por regla y sntesis por concatenacin. Siendo este ultimo modelo de sntesis el tratado en este trabajo. Los dos principales modelos existentes de sistemas concatenativos son el modelo hbrido Harmnico-Estocstico (H/S) y el de Suma Solapada de Pitch Sncronos en el Dominio del Tiempo (TD-PSOLA). Ambos presentan unas interesantes caractersticas prcticas: una gran calidad de voz combinado con un bajo coste operacional. El modelo hbrido Harmnico-Estocstico es intrnsecamente ms potente que el TD-PSOLA, pero es tambin ms intensivo operacionalmente. El reciente desarrollo del algoritmo Mbrola nos ofrece un algoritmo en el dominio del tiempo que muestra la gran eficiencia de su capacidad de suavizado como la 7

CAPTULO I: INTRODUCCIN del modelo hbrido Harmnico-Estocstico as como sus altos ratios de compresin de datos mientras conserva la complejidad computacional del TDPSOLA. Los problemas de calidad en el discurso producidos por la discontinuidad de fase, salto en el pitch y la discontinuidad de la envolvente espectral utilizando el algoritmo TD-PSOLA se reducen con al algoritmo Mbrola mediante un tratamiento a dos niveles. En primer lugar se trabaja sobre la base de datos que previamente se ha almacenado siguiendo el algoritmo TD-PSOLA. El tratamiento que se realiza consiste en analizar y resintetizar todos los segmentos sonoros de la base de datos siguiendo el modelo Multi-Band Excited (MBE). El hecho de volver a sintetizar los segmentos sonoros permite fijar la misma frecuencia fundamental y hacer una correccin en la fase. En segundo lugar, se realiza una interpolacin lineal de tramas en el dominio temporal durante la fase de sntesis. Las mejoras introducidas con esta variante consiguen suavizar un poco las transiciones. En el informe se ha empezado realizando una breve introduccin a la sntesis de voz a partir de texto, describiendo los distintos componentes de un sistema de conversin texto-voz y haciendo una breve clasificacin de los distintos sistemas utilizados actualmente, esta clasificacin est basada en los distintos modelos de generacin del discurso. Posteriormente nos hemos centrado en los sistemas de sntesis concatenativa tipo PSOLA, especialmente en el algoritmo MBR-PSOLA mas conocido como Mbrola [9] describiendo sus caractersticas tcnicas superiores a los algoritmos de los que precede y el entorno en el que se ha desarrollado (proyecto Mbrola) en el laboratorio de TCTS del Facult Polytechnique de Mons (Blgica). Relacionado con el apartado anterior llegamos al eje central del trabajo, la creacin de una base de datos que sirva al algoritmo de sntesis para generar el discurso. Describiremos cmo disear un corpus oral, cmo segmentarlo y etiquetarlo posteriormente, as como una breve descripcin de las herramientas de visualizacin y segmentacin y de los formatos de datos utilizados. Tambin se describe en este apartado el proceso y material utilizado en la grabacin del corpus. En el siguiente apartado describimos el funcionamiento y estructura de la herramienta de sntesis a partir de texto PARLANTE [3] desarrollado por Leopoldo N. Feal Pinto para la asignatura sistemas informticos en el curso 1997/1998. Veremos su estructura de funcionamiento modular as como el funcionamiento individual de cada mdulo utilizado en nuestra arquitectura. PARLANTE [3] est basado en una herramienta de configuracin llamada gconfig que le permite un gran dinamismo a la hora de disear distintas arquitecturas de sistemas de sntesis. Por ultimo describimos el resultado prctico de todo el estudio condensado en la creacin de una pgina Web, que permitir al usuario la utilizacin del sistema utilizado y de la base de datos generada a lo largo del trabajo. Tambin permitir la utilizacin de distintos mdulos de entonacin y bases de datos para poder establecer una comparativa entre ellos. Cada opcin generar un archivo de

8

CAPTULO I: INTRODUCCIN sonido Wav que podr ser reproducido desde la misma pgina Web. Para la obtencin de estos resultados se facilitar en la pgina un formulario que deber ser rellenado por el usuario. Este formulario constar de una seccin para introducir el texto deseado y de una serie de opciones referentes a los distintos modelos de entonacin y bases de datos que podr utilizar para la sntesis. En la Web adems podremos encontrar toda la informacin recopilada a lo largo del trabajo as como un manual para el diseo y generacin de una base de datos para el sistema de sntesis Mbrola.

9

CAPTULO I: INTRODUCCIN

10

CAPTULO II: OBJETIVOS

Captulo 2

ObjetivosEl tiempo dedicado a este trabajo ha sido el segundo cuatrimestre del curso 2001/2002 y los meses de julio y agosto del 2002. Y los objetivos de dicho trabajo son los siguientes: El primer paso ser la comprensin del proceso de sntesis de voz a partir de texto. Haremos un estudio del estado del arte de los sistemas de sntesis de voz que existen en la actualidad y analizaremos la arquitectura de un sistema de sntesis de voz genrico. Nos centraremos en el funcionamiento de los sistemas basados en el modelo de sntesis PSOLA, especialmente los basados en el algoritmo MBRPSOLA [9] mas conocido como Mbrola. Adems, nos plantearemos realizar una relacin de prestaciones de unos modelos frente a otros que nos permita conocer las ventajas e inconvenientes de todos ellos. Una vez asimilados los conocimientos necesarios sobre el funcionamiento de la sntesis de voz basada en el modelo Mbrola, nuestros esfuerzos se centrarn en la creacin de una base de datos que sirva de voz para la sntesis mediante el modelo Mbrola. Las tareas principales son el diseo y creacin de un corpus para su posterior segmentacin en difonemas y etiquetado de los mismos. Para esta tarea seguiremos las indicaciones proporcionadas por los creadores del algoritmo MBR-PSOLA [9], que se dan como parte del proyecto Mbrola. En este sentido tambin nos planteamos hacer un estudio de las distintas herramientas de visualizacin y segmentacin disponibles en el laboratorio. Tras la obtencin de una base de datos para la sntesis Mbrola solo nos falta la herramienta capaz de generar los parmetros fonticos y prosdicos necesarios para que el algoritmo funcione correctamente, como herramienta usaremos un sistema ya existente llamado PARLANTE [3] desarrollado por Leopoldo N. Feal Pinto para el Departamento de Informtica de la Universidad de Valladolid, nuestra tarea consistir en la comprensin de su funcionamiento y estructura, de manera que podamos utilizar la configuracin ms til y eficiente para nuestros propsitos. El departamento dispone de distintas versiones de los mdulos que intervienen el la sntesis, de los que seleccionaremos los que nos sean de mayor utilidad.

11

CAPTULO II: OBJETIVOS Finalmente nuestro ltimo objetivo es la creacin de una pgina Web que sirva como interface sencillo para el usuario del sistema facilitndole la posibilidad de distintas opciones de sntesis sin necesidad de conocimientos de la herramienta PARLANTE [3]. Esto nos permitir un contacto con los lenguajes y programas de edicin Web. En la pgina adems reflejaremos los resultados de nuestro estudio a lo largo de todo el trabajo y manual para el diseo y creacin de un corpus oral.

12

CAPTULO III: SNTESIS DE VOZ, VISIN HISTRICA

Captulo 3

Sntesis de voz, Visin histrica.3.1 IntroduccinEn este apartado trataremos de dar una introduccin corta y comprensiva a la sntesis de texto a habla (TTS), destacando sus componentes del procesamiento natural de la lengua (NLP) y del proceso digital de la seal (DSP). Un sintetizador TTS es un sistema computerizado que debe ser capaz de leer cualquier texto en voz alta, si este se le introdujera de la forma indicada (directamente, reconocedor ptico, etc.). Hay una diferencia fundamental entre los sistemas que tratamos aqu y cualquier otra maquina capaz de reproducir el habla (como el magnetfono), esta es que nosotros estamos interesados en la produccin de nuevas oraciones y no en la reproduccin. Sistemas que concatenan simplemente las palabras o partes aisladas de las oraciones, denotadas como sistemas de la respuesta a la voz, son solamente aplicables cuando se requiere un vocabulario limitado y cuando las oraciones a reproducir responden a una estructura muy estricta (aviso en las estaciones de la llegada de trenes). En el contexto de la TTS es imposible (e intil) registrar y almacenar todas las palabras de una lengua. De manera que resulta conveniente definir TTS como la produccin automtica del discurso, a travs de una trascripcin del grafema a fonema de las oraciones a pronunciar. Hasta hace unos aos el parmetro fundamental que determinaba la utilidad de un sistema de conversin texto-voz era la inteligibilidad (es decir que el mensaje fuera entendido por el oyente), en la actualidad la mayor parte de los sistemas cumplen este objetivo con una inteligibilidad prxima al habla natural, lo que se busca es la naturalidad en el habla para que un usuario que este escuchando durante varios minutos no se sienta aburrido y cansado. Un lector humano introduce en el texto una informacin que denominamos prosodia. La prosodia relaciona los distintos sonidos del mensaje hablado, y permite reflejar tanto elementos lingsticos (modalidad, nfasis,) como no lingsticos (carcter del locutor, estado de animo,). La habilidad del locutor para reflejar acsticamente 13

CAPTULO III: SNTESIS DE VOZ, VISIN HISTRICA el contenido o sentido del mensaje mide la calidad del proceso de lectura realizada. Los usos potenciales de los sistemas de alta calidad TTS son numerosos: Servicios de telecomunicaciones. Los sistemas TTS permiten tener acceso a la informacin textual sobre el telfono. Sabiendo que el 70% de las llamadas requieren una interaccin muy pequea puede llegar a ser muy til. Educacin de la lengua adjuntando al sistema TTS un sistema de aprendizaje automatizado. Ayuda a personas disminuidas (trastornos en la voz producidos por desordenes mentales y motores/sensitivos), con ayuda de un teclado y un programa de generacin de oraciones rpido el discurso se puede producir en unos segundos para remediar estos impedimentos. Libros y juguetes. Supervisin vocal, en muchas ocasiones la informacin oral es mas eficiente que los mensajes escritos.

-

-

Como se puede ver los campos estn muy abiertos. Trataremos de explicar ahora como es capaz de leer un sistema TTS: Podramos plantear el problema como el diseo de una maquina que funcione segn lo hace el proceso natural de sntesis de discurso en los humanos, los sonidos vocales gobernados por ecuaciones diferenciales parciales de la mecnica de fluidos, aplicadas a un caso dinmico desde la presin de nuestros pulmones, tensin de la glotis y la configuracin vocal y nasal, que se desarrollan con el tiempo. Estos son controlados por nuestra corteza que paralelamente extrae la esencia del texto ledo. Aunque es cientficamente concebible dara lugar a una maquina muy compleja, no siempre compatible con criterios econmicos. Para hacer ms sencillo el proceso de sntesis se han desarrollado otros modelos ms simples que veremos en apartados posteriores.

3.2 Estructura bsica de un sintetizadorLa figura 1 muestra un esquema muy sencillo de un sintetizador muy general de TTS. Incluye un mdulo de procesamiento natural de la lengua (NLP), capaz de producir una trascripcin fontica del texto ledo y la duracin, junto con la entonacin y el ritmo deseado (esto se conoce como prosodia) y una seal numrica que procesa el mdulo de tratamiento digital de la seal (DSP), transformando la informacin simblica que recibe en discurso.

14


Texto

Mdulo de procesamiento natural de la lengua

Fonemas Prosodia

Mdulo de procesamiento digital de la seal

Voz

figura1: Diagrama funcional simple de un sistema TTS

3.2.1 Mdulo de procesamiento natural de la lengua NLPEl objetivo del mdulo de procesamiento natural de la lengua es determinar a partir del texto dos tipos de informacin necesarios para que el mdulo DSP genere la voz natural. Estos dos tipos de informacin se conocen como informacin segmental e informacin suprasegmental. Representacin de la informacin segmental:

La informacin segmental es la asociada a la cadena de sonidos que componen el mensaje. Cada idioma ha seleccionado una serie limitada de sonidos ideales aceptados por todos para su uso en el habla. Tenemos as una serie de representaciones abstractas que denominamos fonemas y cuyo nmero depende del idioma. Abandonando el plano abstracto de la lengua y situndonos en el plano del habla, debido a distintas variaciones de las condiciones del habla dan lugar a los distintos alfonos de cada fonema (son excepciones en la pronunciacin), esto complica aun mas el diseo de los sistemas de sntesis de alta calidad. Hay que establecer mecanismos que determinen la variacin concreta para cada sonido en cada situacin. Esta es una de las principales actividades de investigacin relacionadas con la informacin segmental. Representacin de la informacin suprasegmental:

La informacin suprasegmental es aquella relacionada a la prosodia. Esta informacin es clave para conseguir una alta naturalidad en los sistemas de sntesis de voz. Su representacin se determina a partir de tres parmetros acsticos de la seal de voz: La evolucin temporal de la frecuencia fundamental (pitch), es el parmetro fsico ms importante desde el punto de vista perceptivo. La duracin de los segmentos o sonidos que componen la frase. La curva de energa de la seal acstica (lo menos importante desde el punto de vista perceptivo).

En la figura 2 tenemos el esqueleto de un mdulo NLP general para procesos de TTS vemos que adems de la trascripcin a fonemas comprende un anlisis

15

CAPTULO III: SNTESIS DE VOZ, VISIN HISTRICA morfolgico, un anlisis del contexto y un anlisis sintctico. Esto se deba a dos razones: La trascripcin fontica exacta del discurso solo puede realizarse si conocemos la categora de las palabras dentro del discurso as como la dependencia entre palabras consecutivas conocida. La prosodia natural se basa en gran manera en la sintaxis. Tiene tambin mucho que ver con la semntica y la pragmtica, pero actualmente se tienen pocos datos sobre esta segunda dependencia.

Analizaremos ms detenidamente cada una de las partes del mdulo (NLP).

3.2.1.1 Analizador de textoEl analizador de texto se encarga de normalizar el texto de entrada para que pueda ser reconocido por los siguientes mdulos y de extraer informacin necesaria tanto para la trascripcin fontica como para la generacin de la prosodia, ya que como hemos anunciado esta depende en parte de la estructura de texto. Este bloque a su vez se compone de otros mdulos:

Mdulo preprocesoSe encarga de organizar la entrada en una lista manejable de palabras. Fragmenta el texto de entrada en unidades ms sencillas a las que denominaremos frases. Identifica nmeros, abreviaciones, siglas y los transforma en un texto que contenga su significado. Un punto crtico en la ambigedad de la puntuacin (incluso en el caso de fin de frase), puede resolverse, en parte, con las gramticas regulares elementales. La principal tarea de este mdulo es reducir la complejidad (variabilidad del texto), reduciendo cualquier tipo de representacin (numrica, horaria, abreviaturas,) a palabras y signos ortogrficos, de manera que puedan ser reconocidos por los siguientes, mdulos. Tambin se encarga de la silabificar el texto, es decir de dividir las palabras en silabas. Esto es necesario para poder determinar la acentuacin fontica e influye en la posterior decisin de los alfonos en el mdulo fonetizador. Respecto de la acentuacin fontica, en castellano a la mayora de las palabras presentan un nico acento fontico, pero esto no es siempre as. Hay palabras que presentan dos, estas son los adverbios precedentes de adjetivos, terminados en mente. Un acento recae sobre la primera e- de mente y el otro sobre la raz de la palabra que corresponde al adjetivo. Tambin hay palabras inacentuadas, suelen ser palabras funcin sin contenido semntico, por si mismas. Sin embargo hay palabras con la misma grafa pero con contenido semntico que si deben ser acentuadas con lo que hay que esperar a un anlisis de contexto posterior para poder acentuar correctamente. Las operaciones que realiza son las siguientes: 16


1) Conversin de nmeros a texto: i. Conversin de nmeros cardinales. ii. Convierte las abreviaturas que indican el tipo de unidad y establece concordancias con el nmero indicado por las unidades. iii. Conversin de fechas y horas. Expansin de las abreviaturas que tengan cierta normalizacin. La insercin del acento fontico en las palabras que deben llevarlo. Tratamiento de los signos de puntuacin. Omisin de cualquier carcter no previsto en los anteriores casos, de modo que sea eliminado de la cadena de anlisis.

2) 3) 4) 5)

Mdulo de anlisis morfolgico o categorizadorSu misin es la de proponer categoras del discurso para cada palabra tomada individualmente en base a su ortografa. Se descomponen las palabras compuestas en sus unidades gramaticales elementales. Este mdulo puede variar la acentuacin fontica en aquellas formas homgrafas en las que la presencia de acento depende de la categora a la que pertenezcan. La tarea del categorizador se puede descomponer en dos tipos de rutinas: 1. Rutinas que buscan en tablas las palabras a categorizar. 2. Rutinas que comprueban la estructura de la palabra, para intentar descubrir su categora. Esta tarea se complementa en el siguiente mdulo.

Mdulo de anlisis contextualEste mdulo complementa el anlisis de la categora de cada palabra que se iniciaba en el mdulo anterior. Considera las palabras en su contexto lo que le permite reducir la posible lista de categoras en el discurso a un nmero muy restringido de hiptesis muy probables.

Mdulo de anlisis sintcticoEste mdulo se encarga de analizar la estructura del texto en busca de informacin que pueda ser til para la obtencin de la prosodia en los siguientes mdulos. Como ya hemos indicado la prosodia depende en gran parte de la estructura sintctica de las oraciones.

17


3.2.1.2 Fonetizador automticoEl fonetizador [8] o sistema de trascripcin fontica automtico es el responsable de la determinacin automtica de la trascripcin fontica del texto entrante, transforma el texto de entrada representado en caracteres ortogrficos en un texto de salida representado en caracteres fonticos. Al fonetizador hay que entregarle el texto de entrada normalizado paso que ya hemos estudiado anteriormente. Parece una tarea fcil (tan fcil como realizar el equivalente de un diccionario de pronunciacin), pero esto no es as, fcilmente se observa que muchas palabras pueden aparecer en un discurso con distintas transcripciones, algunas incluso no aparecen en los diccionarios de pronunciacin. Algunos problemas son: Los diccionarios de pronunciacin solo se refieren a la pronunciacin de races. No responden explcitamente a las variaciones morfolgicas (femenino, plural, uniones, etc.). Que tiene que ser estudiado por un componente especfico de la fonologa, el llamado morfofonologa. Algunas palabras corresponden a varias entradas al diccionario, o mas generalmente a varios anlisis morfolgicos, generalmente con pronunciaciones diferentes. Su pronunciacin correcta depender de su posicin y funcin en el discurso. Los diccionarios de la pronunciacin proporcionan algo que es ms cercano a una trascripcin fonmica meramente que a una fontica (es decir se refieren ms a los fonemas que a los difonemas). Palabras incluidas en las frases no son pronunciadas como si estuvieran aisladas. Las diferencias no solo se producen en las variaciones de palabras limites (como los enlaces fonticos), sino tambin en variaciones basadas en la organizacin de la frase en unidades no lxicas de uso (muchos procesos fonolgicos son sensibles, por ejemplo, a la estructura de la silaba). No todas las palabras pueden encontrarse en un diccionario fontico: la pronunciacin de nuevas palabras y de muchos nombres de manera apropiada debe ser deducido de palabras ya conocidas.

-

-

-

-

18


Texto Mdulo NLP Analizador de texto

Preproceso Anlisis Morfolgico Anlisis Contextual Anlisis Sintctico

Fonetizador Automtico

Generador de prosodia

Salida al bloque DSP

Figura2: Mdulo NLP de un sistema TTS general.

19


Es posible entonces organizar la tarea del fonetizador automtico de muchas maneras, a menudo se clasifican en dos tipos de estrategias: Basadas en diccionario:

Consisten en recopilar un mximo de conocimientos fonolgicos en un lxico. El nmero de palabras de un idioma es muy amplio lo que conllevara un diccionario de gran tamao. Para reducir su tamao, se restringen generalmente las entradas a morfemas. En el proceso de trascripciones lleva a cabo un anlisis morfolgico que divide la palabra en sus componentes morfemticos, indicndose el tipo de morfema, su forma ortogrfica y su pronunciacin. Posteriormente las normas de la morfofontica gobiernan como se modifican las trascripciones fonticas cuando se combinan entre ellos. Morfemas que no pueden encontrarse en el lxico son trascritos por una regla. Despus de que se ha obtenido una primera trascripcin fontica de cada palabra hay un post-proceso fontico para responder a la coarticulacin de los fonemas suavizadores. Basados en regla:

La mayora de la competencia fontica se transmite al fonetizador automtico mediante una serie de reglas. Solo las palabras que se pronuncian de una manera especial son las que se trasmiten a las reglas mediante una especie de diccionario de excepciones. Ntese que muchas de las excepciones se encuentran entre las palabras ms corrientes de manera que un diccionario de excepciones puede abarcar un fragmento bastante grande del discurso. Es el mtodo mas apropiado en aquellas lenguas que se alejan poco del principio fontico de la representacin ortogrfica por lo que cada fonema se representa con un solo grafema y cada grafema se representa con un solo fonema. Existen dos tipos de reglas: dependientes o independientes de contexto. Las reglas dependientes de contexto pueden expresar distintos tipos de relaciones entre la entrada y la salida: Correspondencia biunvoca: una letra se transcribe como un fonema. Correspondencia dos a uno: dos letras adyacentes se transcriben como un fonema. Correspondencia uno a dos: una letra se transcribe como una secuencia de fonemas. Correspondencia uno a cero: una letra no tiene trascripcin fontica. El formalismo habitual de las reglas de trascripcin sigue el modelo de Chomsky y Halle (1986); son reglas de reescritura contextuales, con el siguiente formato: Foco cambio/ contexto izquierdo______ contexto derecho

Donde el foco, el cambio y el contexto pueden ser unidades o grupos de grafemas, fonemas, rasgos de fonemas o elementos vacos. La regla asigna un cambio

20

CAPTULO III: SNTESIS DE VOZ, VISIN HISTRICA estructural a un foco a condicin de que este vaya precedido del contexto izquierdo y seguido del contexto derecho. En la actualidad se han definido mtodos basados en diccionario muy poderosos que eran capaces de lograr una exactitud ms alta que los basados en regla dado la disponibilidad de diccionarios fonticos muy grandes en las computadoras. Los esfuerzos actuales van dirigidos a la creacin de reglas muy amplias, partiendo de diccionarios extensos y aadiendo reglas y excepciones hasta cubrir todas las palabras se cubren. Esta interrelacin es ineludible. Adems el compromiso es idioma-dependiente, dado que la fiabilidad del fonetizador depende del idioma. Con la evolucin de la inteligencia artificial se han desarrollado, adems, sistemas de fonetizacin basados en el aprendizaje inducido, capaces de calcular la trascripcin fontica a partir de una serie de datos procesados previamente. El desarrollo de los sistemas de fonetizacin automtica ha planteado el problema de la codificacin de los smbolos fonticos. Existe un condicionante tcnico que deriva de las limitaciones del medio informtico: la configuracin de los teclados no representan todos los smbolos y diacrticos del alfabeto fontico utilizado comnmente en lingstica (el AFI), por lo que dichos smbolos no tienen representacin ASCII. Existen programas que pueden disear los caracteres que sean necesarios para la descripcin fontica y fuentes ya diseadas con versiones del AFI, tambin se han desarrollado diversos sistemas que utilizan los signos codificados ASCII para representar los caracteres y diacrticos del AFI como son PHONASCII y SAMPA.

3.2.1.3 Generacin de prosodiaEl termino prosodia se refiere a ciertas propiedades del discurso que se relacionan con cambios audibles en el diapasn, intensidad, longitud de la silaba. Los rasgos prosdicos tienen funciones especficas en la comunicacin del discurso. El efecto mas claro de la prosodia es el enfoque. Hay por ejemplo ciertos eventos del diapasn que hacen que una silaba destaque dentro de la pronunciacin, e indirectamente la palabra o el grupo sintctico al que pertenece dentro se resaltara como un componente importante o nuevo dentro de la pronunciacin. La presencia de un enfoque marcado puede tener varios efectos, como el contraste, dependiendo del lugar donde ocurre, o el contexto semntico de la pronunciacin. Aunque quizs menos obvias hay otras reglas generales. Los rasgos prosdicos crean una segmentacin de la cadena del discurso en grupos de silabas o visto de otra manera ellos dan lugar a la agrupacin de silabas y palabras en grupos cortas y ms grandes posteriormente. Hay rasgos prosdicos que indican las relaciones entre cosas, indican o que se unen dos o ms grupos de silabas de alguna manera. Este efecto es jerrquico, aunque no necesariamente idntico a la estructura sintctica de la pronunciacin. Aunque son tres los parmetros que afectan al a prosodia (pitch, duracin y energa), solo tendremos en cuenta los dos primeros ya que la energa es el que menos afecta al aspecto perspectivo. Con lo que la tarea de generacin de la prosodia se divide en dos, una por cada parmetro a obtener.

21


o Calculo de duracinPara calcular la duracin de cada alfono partimos de una duracin base del alfono y la hacemos depender de varios factores, como son: o o o o Los alfonos adyacentes. La posicin respecto del acento fnico. La posicin dentro del grupo fnico. La longitud del grupo fnico al que pertenece.

o Calculo del pitchEl pitch es el parmetro que mas influye en la calidad y naturalidad de la voz producida. Los distintos valores de la frecuencia fundamental a lo largo del grupo fnico analizado (frase) es lo que llamaremos curva o patrn meldico. Se puede distinguir dos grandes clases de curvas meldicas en funcin del grupo fnico al que pertenezcan. Los grupos fnicos son terminales o no terminales dependiendo de la posicin que ocupen dentro de la oracin: Los grupos terminales son los que aparecen al final de la oracin. Contienen bsicamente informacin sobre el tipo de oracin, lo que se denomina modalidad oracional. Los grupos no terminales son los que aparecen, en oraciones con mas de u grupo fnico, en posiciones no finales dentro de las mismas. La informacin que contiene se refiere al tipo de frase subordinada. Se pueden distinguir tres partes e la curva meldica [6]: La rama inicial de la curva, formada por las silabas tonas que llegan hasta el primer acento fuerte. El cuerpo, que esta formado por el conjunto de silabas que comprenden la silaba fuerte inicial hasta la silaba inmediatamente anterior al ltimo acento fuerte. La rama final, que esta integrada por la ltima silaba fuerte y las siguientes dbiles, en el caso de que las haya. Hay distintos tipos de patrones meldicos, se pueden clasificar en cuatro grandes grupos [5]: 1. Patrones enunciativos, son los que aparecen en oraciones enunciativas, es decir aquellas que simplemente expresan la conformidad o disconformidad lgica del sujeto con el predicado. 2. Patrones interrogativos, se pueden dividir en: a. Patrones interrogativos absolutos, son las que han de tener un si o un no como respuesta. b. Patrones interrogativos pronominales, son las que contienen una partcula interrogativa, y cuya respuesta a de ser diferente a si o no. 22


c. Patrones interrogativos relativos son las que buscan confirmar algo que no se sabe con certeza pero que se intuye. 3. Patrones exclamativos, aparecen en aquellas oraciones con un contenido expresivo o emocional. Se podran sealar tantos subgrupos como tipos de emociones. 4. Patrones volitivos, aparecen en las oraciones que indican exhortacin, mandato o prohibicin. Se distinguen tres tipos: a. Patrones de mandato: propios de oraciones imperativas. b. Patrones de recomendacin: en oraciones que contienen mandatos atenuados, sugerencias o recomendaciones. c. Patrones de deseo, en oraciones que expresan deseos del emisor Esta informacin es muy compleja de determinar, aceptando una restriccin importante en la naturalidad de la voz sintctica, de manera que nos baste con que la entonacin sea creble. Los algoritmos actuales tratan de dividir el discurso en frases prosdicas y dar una entonacin a estas frases, olvidndose del contexto general del discurso.

3.2.2 El componente DSPIntuitivamente, las operaciones involucradas en el mdulo DSP son las que realiza el ordenador, anlogas al control dinmico de los msculos articulatorios y la frecuencia vibratoria de las cuerdas vocales por lo que la seal de salida se adapta a los requerimientos de entrada. Para hacerlo apropiadamente, el mdulo DSP debera obviamente, de alguna forma, tener en cuenta los constreimientos articulatorios, es conocido desde hace tiempo que las transiciones fonticas son ms importantes que los estados estables para el entendimiento de la voz. Esto, a su vez, puede ser logrado de dos formas: Explcitamente, en la forma de una serie de reglas que describen formalmente la influencia de unos fonemas en otros. Implcitamente, almacenando muestras de transiciones fonticas y coarticulaciones a una base de datos de voz segmentada, y usndolas tal y como son, como unidades acsticas mnimas (por ejemplo reemplazando a los fonemas).

Las fundamentales clases de sistemas TTS han emergido de estas alternativas, las cuales rpidamente se ha convertido en las filosofas de sntesis dando las divergencias que presentan en sus metas y objetivos: sntesis por regla y sntesis por concatenacin.

23


3.2.2.1 Sintetizadores basados en reglasAntes de hablar sobre estos sistemas veremos brevemente en que consiste el mecanismo de fonacin en los humanos. El habla es el resultado de la accin coordinada de los aparatos respiratorio y masticador, participan los siguientes rganos y cavidades: 1. 2. 3. 4. 5. 6. Pulmones. Traquea. Laringe con cuerdas vocales y glotis. Faringe. Cavidad oral o boca con lengua y labios. Cavidad nasal.

Al conjunto de cavidades comprendidas entre pulmones y labios se le conoce como tracto vocal. La distinta longitud, seccin y rigidez del tracto vocal de cada persona permite distinguir las voces entre si, el timbre, mientras que la particularidad de cada tracto vocal en la realizacin de un sonido permite distinguirlo de los dems. Para producir los sonidos es necesario un flujo de aire que se consigue con la tensin simultnea de los msculos respiratorios que cierran la caja torcica y la contraccin lenta del diafragma. El flujo de aire ataca a un conjunto de cavidades, pudiendo producir la excitacin acstica de las mismas por uno de los tres caminos siguientes: 1. Vibracin de las membranas de las cuerdas vocales con el paso del aire. La excitacin ser peridica, y se le llama excitacin glotal de frecuencia fundamental, es lo que llamamos pitch. Da lugar a los sonidos sonoros. 2. Un estrechamiento en algn punto del tracto vocal que genera turbulencias ms o menos aleatorias en la zona de constriccin. La excitacin es anloga a un ruido blanco. Genera los sonidos sordos. 3. Si el estrechamiento se convierte en un estrangulamiento o cierre total seguido de una posterior relajacin obtenemos los sonidos explosivos. Los sintetizadores basados en reglas estn mayormente respaldados por fonticos y fonlogos, ya que constituyen un conocimiento, de aproximacin generativa del mecanismo de fonacin. La amplia divulgacin del sintetizador Klatt, por ejemplo, es principalmente debido a su incalculable servicio en el estudio de las caractersticas del habla natural, por escucha analtica de voces sintetizadas por reglas. Y lo que es mas, la existencia de relaciones entre los parmetros articulatorios y las entradas al modelo Klatt, lo hacen una herramienta prctica para investigar los constreimientos fisiolgicos. Por razones prcticas e histricas (principalmente la necesidad de una interpretabilidad fsica de el modelo) ya que las cavidades que se encuentran posteriores a la glotis se pueden aproximar como un filtro acstico que producen 24

CAPTULO III: SNTESIS DE VOZ, VISIN HISTRICA amplificaciones a ciertas frecuencias, los sintetizadores de reglas siempre aparecen en la forma de sintetizadores de formantes. Estos describen el habla como una evolucin dinmica de hasta 60 parmetros, la mayora relacionados con las frecuencias formantes y las antiformantes y anchos de banda, unido con las formas de onda glotales. Claramente, el gran nmero de parmetros (acoplados) complica la etapa de anlisis y tiende a producir errores de anlisis. Y lo que es mas, las frecuencias formantes y los anchos de banda son inherentemente difciles para la estimacin de datos del habla. La necesidad de ensayos intensivos y errores para cubrir con errores de anlisis, les hace sistemas de tiempo-consumo para desarrollarlos (varios aos son un plazo normal). Todava, la calidad de voz alcanzada hasta ahora revela problemas tpicos del habla, los cuales se originan de las propias reglas: introducir un alto grado de naturalidad es tericamente posible, pero las reglas para hacerlo estn todava por descubrir. Tambin existen los sintetizadores articulatorios cuyo objetivo es controlar el modelo del aparato fonador, de manera semejante a como lo hace el cerebro, constituyendo los parmetros de control de dicho modelo, la posicin de los distintos rganos y las leyes que rigen el movimiento. Este mtodo presenta la dificultad de la obtencin y control de estos parmetros para su manejo lo que ha motivado que actualmente sean los menos desarrollados. Los sintetizadores basados en reglas permanecen, sin embargo, como una aproximacin potencialmente potente a la sntesis de voz. Permite, por ejemplo, estudiar las caractersticas de la voz dependiendo del locutor por lo que cambiar de una voz sinttica a otra se puede alcanzar con la ayuda de reglas especializadas en la base de datos de las reglas. Siguiendo la misma idea, la sntesis por reglas parece ser un camino natural de manipulacin de los aspectos articulatorios de cambios en el estilo del habla (como oposicin a su complemento prosdico, que puede ser considerado tambin por los sintetizadores basados en concatenacin). No sorprende entonces que haya sido ampliamente integrado en sistemas TTS (El sintetizador MITTALK y JSRU para Ingls, el sistema multilinge INFOVOX y el sistema INRS para Francs).

3.2.2.2 Sintetizadores concatenativosComo oposicin a los basados en reglas, los sintetizadores concatenativos poseen un limitado conocimiento de los datos que manipulan: la mayora esta incluido en los segmentos para ser encadenado, todas las operaciones que podran ser usadas indiferentemente en el contexto de un sintetizador de msica (por ejemplo sin ninguna referencia explcita a una naturaleza propia de los sonidos para ser procesada) han sido agrupadas en un bloque de procesamiento de sonido, en oposicin al superior bloque de procesamiento de habla cuyo diseo requiere al menos algunos conocimientos de fontica.

Preparacin de la base de datosUna serie de etapas preliminares deben ser completadas antes de que el sintetizador pueda producir su primera articulacin de sonido. Primeramente, los 25

CAPTULO III: SNTESIS DE VOZ, VISIN HISTRICA segmentos son escogidos para minimizar los futuros problemas de concatenacin. Una combinacin de difonemas (por ejemplo unidades que comienzan en el medio de un estado estable de un fonema y terminan en el medio del siguiente), semi-slabas, y trifonemas (que difieren de los difonemas en que ellos incluyen un fonema central completo) son a menudo elegidos como unidades del habla, ya que afectan a la mayora de las transiciones y co-articulaciones mientras requieran una cantidad de memoria econmica. Cuando ya ha surgido una lista completa de segmentos, se completa cuidadosamente su correspondiente lista de palabras, de tal manera que en cada segmento aparezca al menos una (dos mejor, por seguridad). Un cuerpo es entonces digitalmente grabado y almacenado, y los segmentos elegidos son marcados, o manualmente con la ayuda de herramientas de visualizacin de seal, o automticamente gracias a algoritmos de segmentacin, las decisiones de qu es chequeado y qu corregido interactivamente. Los algoritmos de segmentacin automtica se usan con bases de datos de gran tamao y consisten en generar una serie de marcas que delimiten todas las unidades de la base de datos a partir de los ficheros de voz y de su trascripcin fontica. Una base de datos de segmentos finalmente centraliza los resultados, en forma de nombres de segmentos, formas de onda, duraciones, y subdividiendo intervalos. En el caso de los difonemas, por ejemplo, la posicin del lmite entre fonemas debera ser almacenado, para ser posible modificar la duracin de una mitad del fonema sin que afecte a la longitud del otro. Los segmentos son a menudo dados de una forma paramtrica, en forma de una secuencia temporal de vectores de parmetros recogidos a la salida de un analizador de voz y almacenados en una base de datos de segmentos paramtricos. La ventaja de usar un modelo de voz origina que: Unos modelos de voz bien elegidos permiten la reduccin del tamao de los datos, una ventaja que es apenas insignificante en el contexto de la sntesis basada en concatenacin dada la cantidad de datos que se almacenan. Consecuentemente, el analizador es a menudo seguido de un codificador paramtrico. Un nmero de modelos explcitamente separa las contribuciones de cada recurso y el tracto vocal, una operacin que permanece til para las operaciones de pre-sntesis: adaptar la prosodia y los segmentos de concatenacin. De hecho, la actual tarea del sintetizador es producir, en tiempo real, una secuencia adecuada de segmentos concatenados, extrados de su base de datos de segmentos paramtricos y la prosodia de que halla sido ajustada de sus valores almacenados, por ejemplo la entonacin y la duracin que aparecen con el cuerpo de la voz original, a una impuesta por el mdulo de procesamiento de lenguaje. Consecuentemente, las respectivas partes reproducidas por los mdulos de adaptacin de prosodia y concatenacin de segmentos, son aliviadas considerablemente cuando los segmentos de entrada son presentados de forma que permitan una fcil modificacin de su pitch, duracin, y envolvente espectral, como apenas es en el caso de muestras de forma de onda sin tratar.

26

CAPTULO III: SNTESIS DE VOZ, VISIN HISTRICA Ya que los segmentos deben unirse son generalmente extrados de diferentes palabras, esto es en diferente contexto fontico, a menudo presentan amplitud y timbre desigual. Incluso en el caso de sonidos voclicos estacionarios, por ejemplo, un tosco secuenciamiento de parmetros tpicamente viene seguido de discontinuidades audibles. Estos pueden ser cubiertos durante la constitucin de la base de datos de los segmentos de sntesis, gracias a una ecualizacin en la que los comentados finales de los segmentos son impuestos un espectro de amplitud similar, siendo repartida la diferencia con sus vecinos. En la prctica, sin embargo, esta operacin, es limitada a parmetros de amplitud: La etapa de ecualizacin modifica suavemente los niveles de energa al comienzo y al final de los segmentos, de tal forma que elimine las amplitudes irregulares (colocando la energa de todos los alfonos de un fonema dado a su valor medio). En contraste con esto, los conflictos de timbre son mejor abordados en el tiempo de ejecucin, suavizando las parejas individuales de los segmentos cuando sea necesario en lugar de ecualizarlos a todos de una vez, por lo que algunas variabilidades fonticas introducidas naturalmente por co-articulacin se conservan todava. En la prctica, la ecualizacin de amplitud puede ser desarrollada o antes o despus del anlisis de voz (por ejemplo en las muestras sin tratar o en los parmetros de voz). Una vez la base de datos de segmentos paramtricos se haya completado, se puede comenzar la sntesis.

Sntesis de vozUna secuencia de segmentos es lo primeramente deducido de la entrada fontica del sintetizador. Una vez hayan sido correctamente asignados los sucesos prosdicos a segmentos individuales, el mdulo de casado prosdico consulta en la base de datos de segmentos de sntesis por los parmetros actuales, adecuadamente decodificados, de los sonidos elementales para ser usados, y los adapta uno a uno para la prosodia requerida. El bloque de concatenacin de segmentos tiene entonces la misin de unir los segmentos dinmicamente a otros, suavizando discontinuidades. De nuevo, una modelizacin adecuada de voz es muy beneficiosa, con tal de que los esquemas de interpolacin simple desarrollados sus parmetros aproximadamente correspondan a suavizar las transiciones acsticas entre sonidos. El flujo de parmetros resultante es finalmente presentado a la entrada de un bloque de sntesis, el complemento exacto del anlisis. Su tarea es generar la voz.

Calidad segmentalLa eficiencia de los sintetizadores para producir voz de alta calidad esta principalmente subordinado a:

27

CAPTULO III: SNTESIS DE VOZ, VISIN HISTRICA Tipo de segmentos Los segmentos deberan estar obviamente expuestos a unas propiedades bsicas: Deberan permitir tener en cuenta la mayora de los efectos coarticulatorios que sea posible. Dadas las restringidas capacidades de suavizado del bloque de concatenacin, debera ser fcilmente concatenable. Su nmero y longitud deberan mantenerse lo ms pequeo que se pueda.

Por otra parte, las unidades ms largas decrementan la densidad de los puntos de concatenacin, por lo que provee una mejor calidad de voz. Similarmente, un camino obvio de considerar para los fonemas articulatorios es proveer muchas variantes de cada fonema. Esto es claramente una contradiccin con la limitada contencin de memoria. Es necesario buscar un punto medio. Los difonemas son elegidos a menudo. No son muy numerosos (sobre 1200 para Francs, incluyendo las secuencias de fonemas que son solo encontrados en los lmites de las palabras, para 3 minutos de voz, por ejemplo aproximadamente 5 Mbytes de muestras de 16 bit a 16 kHz) y no incorporan la mayora de las transiciones fonticas. No nos sorprende entonces que hayan sido usados extensivamente. Implica, sin embargo, una alta densidad de puntos de concatenacin (uno por fonema), que refuerza la importancia de un algoritmo de concatenacin eficiente. Por otro lado, pueden solo considerarse particularmente para muchos efectos co-articulatorios del lenguaje hablado, ya que estos afectan a menudo al fonema completo en lugar de solo su mitad derecha o izquierda independientemente. Tales efectos estn especialmente patentes en algunos fonemas de transicin, tales como los lquidos y las semi-vocales (los peores de todos), que deben ser conectados a otros. De ah el uso tambin de algunas unidades mas grandes, tales como los trifonemas. Modelo de seal de voz Los modelos usados en el contexto de la sntesis concatenativa puede ser clasificada en dos grupos, dependiendo de su relacin con el actual proceso de fonacin, modelos reproduccin y modelos fenomenolgicos. Modelos de produccin Proveen sustitutos matemticos para cada respectiva parte reproducida por las cuerdas vocales, nasales y tractos vocales, y por la radiacin de los labios. Sus miembros ms representativos son los sintetizadores de codificacin de prediccin lineal (LPC), y los sintetizadores de formantes mencionados en la seccin 2.2.1. Los sintetizadores derivados de las tcnicas de prediccin lineal modelan el tracto vocal como una serie de cilindros huecos de dimetro variable. Las propiedades de la onda sonora despus de haber pasado por todos ellos, puede predecirse teniendo en cuenta que cada uno de los cilindros condiciona la forma de onda de entrada del siguiente. Este clculo complejo se simplifica mediante la utilizacin de la prediccin lineal, aprovechando la periodicidad de la onda sonora.

28

CAPTULO III: SNTESIS DE VOZ, VISIN HISTRICA Como ya hemos indicado en un apartado anterior los sintetizadores de formantes modelan el tracto vocal como una serie de filtros sencillos. Su principal ventaja es que trabajan con parmetros que mantienen una relacin directa con el mecanismo de produccin del habla y son fcilmente manipulables de cara al control del sintetizador. Modelos fenomenolgicos Descartan intencionadamente cualquier referencia al mecanismo de produccin humano. En medio de estas herramientas de procesado de la seal digital pura, el espectro y en el dominio del tiempo se aproxima en aumento al encontrado en los sistemas TTS. Los dos principales modelos existentes: el modelo hbrido Harmnico-Estocstico (H/S) y el de Suma Solapada de Pitch Sncronos en el Dominio del Tiempo (TD-PSOLA). Muestra unas interesantes caractersticas prcticas: una gran calidad de voz (la mayora normalmente disponible) combinado con un bajo coste operacional (7 operaciones por muestra de media). El modelo hbrido Harmnico-Estocstico es intrnsecamente ms potente que el TD-PSOLA, pero es tambin sobre diez veces ms intensivo operacionalmente. Descompone la seal de voz en una componente armnica mas una componente ruidosa o aleatoria, esta descomposicin permite modificaciones en la seal consiguiendo una mayor naturalidad en el habla sinttica. Las dos componentes se separan en el dominio frecuencial mediante un parmetro que varia en le tiempo, la frecuencia sonora mxima. Por debajo de esta frecuencia mxima se asume que se representara la componente armnica y por encima la componente ruidosa. La componente armnica se modela como una serie de sinusoidales con amplitud y fase variables y frecuencia mltiplo de la fundamental. La componente ruidosa se describe frecuencialmente mediante un modelo autorregresivo variante en el tiempo Los sintetizadores PSOLA son ampliamente usados actualmente en las comunidades de sntesis de voz. El reciente desarrollo del algoritmo MBRPSOLA nos ofrece un algoritmo en el dominio del tiempo que muestra la gran eficiencia de su capacidad de suavizado como la del modelo H/S (para la envolvente espectral las desigualdades no pueden ser evitadas en los puntos de concatenacin) as como sus altos ratios de compresin de datos (hasta 10 sin casi coste operativo adicional) mientras conserva la complejidad computacional del PSOLA. Hablaremos mas detenidamente de estos algoritmos en el apartado siguiente.

29


30

CAPTULO IV: SNTESIS MBROLA

Captulo 4

Sntesis Mbrola.En este apartado, tras una pequea introduccin a la sntesis PSOLA (lo analizaremos a travs del algoritmo TD-PSOLA, veremos en que marco se desarrolla el algoritmo MBROLA e indicaremos que ventajas presenta frente al algoritmo TD-PSOLA, analizado anteriormente.

4.1 Tcnicas de sntesis PSOLA4.1.1 IntroduccinLas tcnicas de sntesis PSOLA (Pitch-Synchronous Overlap-Add) tratan de conseguir una mejora en la calidad de la sntesis a travs de la concatenacin de unidades digitalmente pregrabadas, minimizndose as el ruido de cuantificacin. Adicionalmente al proceso de adquisicin y grabado de dichas muestras, ser necesario un procesado previo de las mismas con el fin de obtener la informacin prosdica de las mismas que necesita el algoritmo. Dado que la concatenacin directa de unidades no es posible (al tener estas habitualmente una prosodia distinta a la buscada), el principal problema que se va a plantear reside en las modificaciones que son necesarias para adaptar la prosodia de las unidades pregrabadas, a la prosodia del texto (procedente del bloque de procesado lingstico del conversor texto-voz) en donde se desea utilizar, sin que se produzcan perdida grabes o apreciables en la calidad.

4.1.2 Algoritmo TD-PSOLAEl algoritmo TD-PSOLA (Time Domain Pitch-Synchronous Overlap-Add), al igual que el resto de tcnicas PSOLA trata de hacer dicha adaptacin a travs de modificaciones en las transformadas de Fourier, afectando dichas modificaciones de forma conjunta a la frecuencia fundamental y a la duracin de las unidades. Hay que destacar la posibilidad de realizar modificaciones en la energa de las unidades, aunque este aspecto se puede considerar como un toque final de calidad en los sistemas, debindonos centrar fundamentalmente en los dos primeros y dejando este ltimo para las fases finales de desarrollo. En relacin a este aspecto,

31

CAPTULO IV: SNTESIS MBROLA el tratamiento ms frecuente que se llevar a cabo ser el de hacer una normalizacin de las energas de las unidades de la base de datos con respecto de un valor determinado, dado que en principio las unidades vendrn de contextos diferentes, y tendrn energas muy distintas. El fin perseguido con dicha normalizacin es el de conseguir que a la hora de concatenar las unidades, todas ellas posean aproximadamente la misma energa, traducindose este aspecto en enunciados con una intensidad sonora aproximadamente uniforme, y por lo tanto con una mayor calidad. El algoritmo TD-PSOLA presenta la ventaja frente al resto de mtodos PSOLA de que, al hacerse todas las modificaciones en el dominio temporal, se elimina la carga de clculo debida a la FFT. Tericamente, nos ofrece la posibilidad de modificar la frecuencia en un rango de, aproximadamente, unas dos octavas (de la mitad de la frecuencia original al doble de sta), aunque en la prctica el intervalo permitido se acorta bastante si queremos mantener un determinado grado de calidad. Como ya se dijo anteriormente, el punto de partida de la sntesis es una secuencia de unidades digitalizadas pregrabadas a concatenar, cuyas caractersticas prosdicas tendremos que modificar para adaptarnos a las de una determinada secuencia objetivo que habr sido generada previamente a partir de un texto por un mdulo anterior del Conversor Texto-Voz. Este mdulo es el encargado de generar la prosodia de dicho texto de una forma automtica, es decir, a partir de un texto de entrada que es lo que se desea sintetizar se encargar de generar otro fichero de texto que constituir la entrada del sintetizador. En este fichero, adems de aparecer las unidades procedentes de la base de datos que sern necesarias para sintetizar el texto, lo har la prosodia de dichas unidades en la frase en concreto, esto es, sus caractersticas de duracin y tono medio, ya que como se rese anteriormente una simple representacin textual de los mensajes no nos sirve para poder modelar el fenmeno del habla. Las unidades a considerar pueden ser fonemas, difonemas o trifonemas, estando en todos los casos stas constituidas por una serie de periodos bsicos de seal que vienen delimitados por las marcas de pitch (marcas colocadas sobre la seal que tratan de reflejar los momentos de cierre de la glotis). Estas marcas reciben el nombre de marcas de anlisis, y son provenientes del procesado previo. La forma que tiene el algoritmo TD-PSOLA de conseguir las modificaciones de las caractersticas prosdicas de las unidades almacenadas en la base de datos es mediante la repeticin en el tiempo de los periodos bsicos constituyentes de las mismas con una determinada cadencia, lo que consigue modificar la estructura de armnicos de las unidades originales sin llegar a perturbar el espectro "fino" de la seal. Estos periodos bsicos se enventanan de una forma sncrona con las marcas de pitch, de tal forma que la longitud de las ventanas sea siempre mayor que un periodo fundamental, existiendo un solape entre periodos consecutivos. Habitualmente el enventanado realizado es de Tukey, con una longitud de ventana que es el doble del periodo fundamental y centrado en las marcas de pitch, hecho que contribuye a minimizar el efecto de la reverberacin producido por la copia de seales a corto plazo y a suavizar las transiciones espectrales. El primer paso a seguir, una vez realizado el enventanado de la seal de anlisis, ser el clculo del nmero de marcas de pitch que tendr la seal sintetizada:

32


n _ marcas _ sin tesis =

duracion +1 T0 medio

Donde T0 medio es el periodo medio del difonema a generar. En cuanto a la posicin de dichas marcas, hay que tener en cuenta que el tono no va a ser constante a lo largo de la unidad a generar, no encontrndose por lo tanto las marcas de pitch equiespaciadas a lo largo de la misma. Partiremos de un valor inicial para el primer periodo del difonema, T0 inicial, debiendo terminar en un valor T0 final para el ltimo periodo. Una posibilidad que presenta la ventaja de conseguir una evolucin continua de la entonacin, es la de suponer que la curva de tono se comporta de forma lineal a lo largo de la unidad. De esta forma se puede determinar la posicin de las marcas de sntesis sin ms que calcular el escaln de la curva de sntesis. As: escalon = T0 inicial T0 final n _ marcas _ sin tesis 2

marca[i ] = T0 inicial * i + escalon * (i 1) El siguiente paso a realizar, consiste en establecer una correlacin entre los periodos de la seal de anlisis y los periodos de la seal de sntesis, de cara a realizar la copia o la supresin de los periodos de la seal original del eje de anlisis al de sntesis. Dado que cada uno de los nuevos periodos a generar, en principio, tendr una duracin diferente a la del periodo original del que provienen, habr que realizar una serie de transformaciones sobre los mismos que bsicamente consistirn en lo siguiente: - Si el periodo a generar tiene una duracin inferior a la del periodo original eliminaremos muestras del mismo. - Si por el contrario la duracin es mayor, completaremos con ceros las muestras del periodo original. El ltimo paso para la obtencin de la seal sintetizada consiste en un filtrado Overlapp- Add entre los periodos consecutivos y enventanados de la seal de sntesis. Al igual que el enventanado de anlisis, el enventanado en la sntesis tambin es de Tukey, tiene un tamao de dos periodos bsicos de seal, y est centrado en las marcas de pitch de sntesis. Con este proceso conseguimos una seal simtrica a partir de un espectro modificado de forma arbitraria. Los principales inconvenientes que presenta el algoritmo TD-PSOLA se pueden clasificar en tres grupos: a) Variaciones prosdicas: La modificacin de pitch comporta una modificacin en la duracin del segmento, que se tiene que compensar. La variacin de duracin slo se puede realizar de

33

CAPTULO IV: SNTESIS MBROLA forma cuantificada (resolucin de un perodo de pitch). El alargamiento de sonidos sordos mediante repeticin de tramas, da lugar a ciertos clics metlicos. b) Base de datos: Como consecuencia de no utilizar un modelo de produccin de habla, las unidades de la base de datos no estn parametrizadas, sino que se almacenan las muestras de la forma de onda. El tamao de la base de datos es muy grande en comparacin con otros sistemas de sntesis. c) Concatenacin: Se pueden producir discontinuidades a diferentes niveles entre las tramas final e inicial de las unidades a concatenar: Discontinuidad en la fase. Discontinuidad en el pitch. Discontinuidad espectral.

A pesar de estas limitaciones, la sntesis TD-PSOLA tiene la gran ventaja de proporcionar un habla sinttica de una cierta calidad con un coste computacional muy bajo.

4.2 Proyecto MbrolaEl proyecto Mbrola [9] es uno de los diversos proyectos que el laboratorio de TCTS del Facult Polytechnique de Mons (Blgica) ha desarrollado en el campo de las tecnologas del habla, algunos de estos proyectos son:

o Proyecto Euler, tiene como objetivo el producir de un ambiente unificado, extensible, y pblico disponible de la investigacin, del desarrollo y de la produccin para la sntesis multilinge de TTS. o Proyecto Mbrolign, la ltima meta de este proyecto es crear un etiquetado fontico y prosdico lo mas grande posible para tantos idiomas como sea posible. o Proyecto Mbrdico, es el DSP MBROLA que usa diccionario como sintetizador de discurso. Se realiza el proceso de texto usando un paquete completo de GNU GLP para el entrenamiento automtico del fonetizacin y generacin de duracin y entonacin.Tambin se han desarrollado diversas aplicaciones que se basan en el algoritmo Mbrola, como sintetizador de voz, entre ellos un fax que da un pequeo resumen de lo recibido en forma de voz. El objetivo del proyecto de Mbrola [9] es obtener un sistema de los sintetizadores de discurso para tantos idiomas como sea posible, y las proporciona libremente para usos no comerciales. La ltima meta es alzar la investigacin acadmica sobre sntesis de discurso, y particularmente sobre la generacin de prosodia, conocida como uno de los desafos ms grandes en el campo de los sintetizadores de voz a partir de texto.

34

CAPTULO IV: SNTESIS MBROLA El centro al proyecto de Mbrola [9] es el algoritmo MBR-PSOLA, un sintetizador de discurso basado en el encadenamiento de difonemas. Toma una lista de fonemas como entrada, junto con la informacin prosdica (duracin de fonemas y de una descripcin por trozos linear de la echada), y produce muestras de discurso. Por lo tanto no es un TTS puesto que no acepta el texto crudo como entrada. Mbrola es lo que hemos llamado mdulo DSP del sistema. Este motor se proporciona en libre distribucin para los usos no comerciales y no militares, exclusivamente. Una de las ofertas que proporciona el proyecto Mbrola [9], y que lo ha hecho muy popular entre los sistemas de sntesis de voz, es la posibilidad que da a los usuarios de participar en el proyecto generando sus propias bases de datos de voz. Actualmente se dispone de treinta bases de datos para veinte idiomas distintos. Uno de los objetivos de nuestro proyecto ser participar con el proyecto Mbrola construyendo nuestra propia base de datos para la lengua Espaola.

4.3 Algoritmo MBR-PSOLADebido a las limitaciones detalladas en el primer apartado, surge la necesidad de mejorar el mtodo de sntesis. El algoritmo MBR-PSOLA (Multi-Band Resynthesis Pitch Synchronous OverLap and Add), mas conocido como Mbrola, tiene como objetivo principal solucionar los problemas que presenta el algoritmo TD-PSOLA en cuanto a concatenacin de unidades. Los problemas de discontinuidad de fase, salto en el pitch y la discontinuidad de la envolvente espectral se reducen con un tratamiento a dos niveles. En primer lugar se trabaja con la base de datos que previamente se ha almacenado siguiendo el algoritmo TD-PSOLA. El tratamiento que se realiza consiste en analizar y resintetizar todos los segmentos sonoros de la base de datos siguiendo el modelo Multi-Band Excited (MBE) [2]. El hecho de volver a sintetizar los segmentos sonoros permite fijar la misma frecuencia fundamental y hacer una correccin en la fase. En segundo lugar, se realiza una interpolacin lineal de tramas en el dominio temporal durante la fase de sntesis. La resntesis MBE slo se tiene que efectuar una vez y nicamente sobre los segmentos sonoros, por lo tanto no se incrementa el coste computacional de la sntesis TTS. Las mejoras introducidas con esta variante consiguen suavizar un poco las transiciones pero no son suficientes debido a que hay demasiada dependencia con el TD-PSOLA.

35


36

CAPTULO V: CREACIN DE UNA VOZ MBROLA

Captulo 5

Creacin de una voz Mbrola.5.1 IntroduccinComo ya hemos indicado Mbrola es un sistema de sntesis de voz por concatenacin de unidades, las unidades que utiliza este sistema son lo que hemos llamado difonemas, la informacin de cmo crear una voz Mbrola se puede encontrar en la pagina Web del proyecto Mbrola [9]. Un difonema es una unidad que comienza en el centro de la zona estable de un fonema y termina en la mitad de la zona estable del siguiente. Su utilidad consiste en que reduce al mnimo los problemas de encadenamiento, ya que implica todas las posibles transiciones y co-articulaciones entre los fonemas, ocupando una capacidad relativamente pequea de memoria, ya que su nmero es mucho ms reducido que otras unidades como los trifonemas (unidad formada por tres fonemas). A la hora de elaborar una lista de difonemas ser muy importante el estudiar las posibles combinaciones de fonemas en el idioma as como la estructura de los archivos Pho que servirn como entradas al motor Mbrola [9]. Para la creacin de una base de datos que sirva como voz para el motor Mbrola [9] es necesario seguir una serie de pasos que son: Diseo del corpus. Grabacin del corpus. Segmentacin del corpus y etiquetado de los difonemas.

5.2 Diseo del corpus5.2.1 IntroduccinUn corpus es una recopilacin de texto, de manera que esta contenga todos los difonemas que buscamos, ser til intentar que contenga estos difonemas en ms de una ocasin por si hay algn tipo de error en la grabacin, contar con ms de una muestra.

37

CAPTULO V: CREACIN DE UNA VOZ MBROLA A la hora de disear el corpus partiremos de los fonemas, para obtener posteriormente los difonemas, las palabras que los contienen, y una serie de frases que le den cierto contexto a la hora de pronunciarlas para la grabacin. Otra manera de obtener el corpus es partiendo de la lista de difonemas crear lo que se conoce como logotomas. Los logotomas son palabras carentes de significado, compuestas por tres slabas, que permiten que el segmento a tratar est aislado sin coarticular con los sonidos anterior y posterior. De las tres slabas que componen el logotoma nos interesa la slaba central, que es donde se encuentra el segmento a extraer. Su estructura general es la siguiente:PRIMERA SLABA SONIDO EXPLOSIVO SONIDO QUE BUSCAMOS SONIDO EXPLOSIVO LTIMA SLABA

Ms informacin sobre este sistema se puede encontrar en [7], nosotros seguimos la primera opcin porque consideramos que la calidad de lo grabado mejora con la sencillez de las palabras utilizadas

5.2.2 Representacin fonticaRespecto a la representacin fontica nos hemos basado en el cdigo fontico SAMPA (SAM Phonetic Alphabet) [11]. SAMPA tiene su origen en el proyecto ESPRIT 1541 SAM (Speech Assessment Methods) (Fourcin et al., 1989; Fourcin y Dolmazon, 1991) llevado a cabo entre 1987 y 1989. Al final del proyecto existan versiones de SAMPA en dans, neerlands, ingls, francs, alemn e italiano, incorporndose en 1992 el noruego y el sueco, y el espaol, el griego y el portugus en 1993. Durante 1996 se ha extendido a una serie de lenguas de los pases de la Europa del Este en el marco del proyecto BABEL, y, en principio, no hay ningn obstculo para su adaptacin a otros idiomas. En cuanto a su utilizacin prctica, puede sealarse que es el sistema desarrollado para la trascripcin del corpus multilinge EUROM (Chan et al., 1995) y tambin el adoptado en el proyecto ONOMASTICA, centrado en la trascripcin de nombres propios en diversas lenguas europeas. SAMPA se basa en un conjunto de equivalencias entre smbolos del AFI y cdigos ASCII, restringindose al uso de caracteres de 7 bits (cdigos 32 a 127). El principio que rige las transcripciones en SAMPA, al igual que en el caso del AFI, es esencialmente fonolgico, emplendose nicamente smbolos distintos en el caso de segmentos con valor diferencial. Esta filosofa viene motivada por tres razones: simplicidad de la trascripcin sin incorporar ambigedades, ya que las realizaciones alofnicas son predecibles a partir del contexto; facilidad de utilizacin por parte personas con poca formacin en fontica; y falta de cdigos ASCII para la trascripcin alofnica de todas las lenguas. Sin embargo, en algunos casos, se introducen smbolos para la representacin de alfonos cuando los investigadores que han desarrollado las adaptaciones para cada lengua lo han considerado necesario. Para la trascripcin de texto a cdigo fontico SAMPA hemos utilizado el comando SED perteneciente al sistema operativo Linux. El cual nos permite mediante la definicin de unas normas la sustitucin de unos caracteres 38

CAPTULO V: CREACIN DE UNA VOZ MBROLA correspondientes a la representacin ortogrfica por otros correspondientes a la representacin fontica. La lista de fonemas incluidos en este cdigo, para el idioma Espaol la encontramos en el Apndice A. La lista que nosotros hemos utilizado es algo mas reducida, ya que no consideramos las fricativas B, D ni G, ya que su sonido es igual que el de las explosivas, tampoco consideraremos las semivocales ya que con difonemas no necesitamos tratar de manera especial esta co-articulacin. De esta forma nos quedamos con una lista de veinticuatro fonemas. De la combinacin de estos fonemas (cada uno de estos mas la posibilidad de silencio con el resto), podramos obtener una lista de 625 difonemas, este numero se puede reducir en parte estudiando la posible estructura de las palabras del idioma y la estructura de los archivos Pho que recibe como entrada el motor Mbrola.. As a la hora de confeccionar nuestra lista de difonemas partimos de la lista completa y fuimos buscando cuales de los posibles difonemas no se daban en nuestra lengua, esto redujo la lista a unos 400 difonemas. La lista de difonemas existentes en palabras de nuestro idioma con una serie de palabras que los contienen est en el Apndice B. A esta altura es importante enunciar el hecho de que muchos difonemas pueden aparecer en transiciones entre palabras. Con lo que a la lista que habamos conseguido reducir tenemos que aadir de nuevo todas las posibles combinaciones entre fonemas en los que puede acabar una palabra y fonemas en los que puede comenzar otra esto nos da otra lista de 23 (posibles inicios)*14(posibles finales), esto es una lista de 322 posibles difonemas de los cuales muchos estn ya reflejados y otros no se pueden dar. Finalmente esta lista se reduce a 64 difonemas ms. La lista de difonemas que solo existen en transiciones entre palabras con una serie de palabras en cuya transicin se contienen estn en el Apndice C. Encontrar algunas de estas combinaciones en un discurso normal es bastante complicado pero ser necesario incluirlas para evitar posibles errores. Adems distinguiremos los difonemas formados por dos fonemas iguales. La lista de estos difonemas esta en el Apndice D. Estos difonemas excepto el /aa/ no se pueden dar en un discurso normal, debido a la estructura del archivo Pho de entrada al motor Mbrola ya que este si una palabra termina por el mismo fonema por el que empieza la siguiente los junta en uno solo y modifica su duracin. Por ejemplo el archivo Pho correspondiente a El lucha sera: e l u ts a duracin duracin duracin duracin duracin pitch1 pitch2 pitch3 pitch4 pitch5 pitch1 pitch2 pitch3 pitch4 pitch5 pitch1 pitch2 pitch3 pitch4 pitch5 pitch1 pitch2 pitch3 pitch4 pitch5 pitch1 pitch2 pitch3 pitch4 pitch5

39


Como vemos no ser posible la existencia de difonemas formados por dos fonemas iguales. La segmentacin de este tipo de difonemas la abordaremos de manera distinta al resto como ya veremos en el apartado de segmentacin. El caso de /aa/ es especial ya que se puede dar que existan tres fonemas /a/ consecutivos. Por ejemplo la expresin Ana ama a Alicia, su archivo Pho sera: a n a m a a l i T i a duracin duracin duracin duracin duracin duracin duracin duracin duracin duracin duracin pitch1 pitch2 pitch3 pitch4 pitch5 pitch1 pitch2 pitch3 pitch4 pitch5 pitch1 pitch2 pitch3 pitch4 pitch5 pitch1 pitch2 pitch3 pitch4 pitch5 pitch1 pitch2 pitch3 pitch4 pitch5 pitch1 pitch2 pitch3 pitch4 pitch5 pitch1 pitch2 pitch3 pitch4 pitch5 pitch1 pitch2 pitch3 pitch4 pitch5 pitch1 pitch2 pitch3 pitch4 pitch5 pitch1 pitch2 pitch3 pitch4 pitch5 pitch1 pitch2 pitch3 pitch4 pitch5

En este ejemplo vemos como en la transicin entre Ana y ama los dos fonemas se fusionan pero en ama a Alicia hay dos transiciones /aa/, con lo que en este caso ser necesario este difonema, no as en el resto de los formados por dos fonemas iguales pero los incluimos por si algn otro sistema que quiera utilizar esta base trabaja de manera distinta este tipo de situaciones. Tras tratar todos los difonemas posibles en el idioma espaol, anteriormente mostrados, obtenemos una lista de 462 difonemas a desarrollar e incorporar a nuestra base. Una vez que ya tenemos la lista de difonemas y una serie de palabras dentro de las cuales o en cuya transicin existen, la creacin del corpus se reduce a ir incluyendo estas palabras en frases. Trataremos que estas frases tengan un cierto contexto y una duracin media (cinco o seis palabras), para facilitar en lo posible su lectura. Los resultados de esta operacin pueden ser ms o menos satisfactorios en cuanto al nmero de frases, duracin y sentido contextual dependiendo de la imaginacin de cada uno. Tras la realizacin de nuestro corpus y algn intento de grabacin creemos conveniente aconsejar que es preferible que los textos que componen el corpus sean de fcil lectura y pronunciacin aunque esto conlleve un mayor numero de frases. La facilidad de lectura conlleva una mejora en la calidad de lo grabado.

5.2.3 Representacin ortogrficaEn cuanto a la representacin ortogrfica del corpus nos basamos en la propuesta del Grupo de Trabajo de Lengua Oral de EAGLES. [4] Los documentos del Grupo de Trabajo sobre Lengua Oral de EAGLES (EAGLES, 1995) ofrecen las siguientes recomendaciones para trascripcin ortogrfica de corpus orales:

40


Las formas reducidas de las palabras se transcriben tal como aparecen en los diccionarios normativos. Si es necesario, y si se documentan adecuadamente, pueden utilizarse formas que no aparezcan en los diccionarios. Se recomienda el uso de formas reducidas si aparecen frecuentemente y si implican elisiones de slabas. Las formas dialectales se marcan en la transcripcin. Los nmeros se transliteran como palabras. En la transcripcin ortogrfica se utilizan las formas completas de las abreviaturas. Las abreviaturas que los hablantes pronuncian como palabras se transcriben de este mismo modo. En las transcripciones se indica la aparicin de palabras deletreadas. Las interjecciones se transcriben con la representacin ortogrfica que aparece en los diccionarios.

Como puede deducirse fcilmente, la filosofa general de esta propuesta consiste en utilizar siempre las formas que aparecen en los diccionarios normativos y documentar adecuadamente las formas no estndares que se encuentren durante el proceso de trascripcin. El corpus desarrollado se encuentra en el Apndice E y la trascripcin fontica de corpus se encuentra en el Apndice F. Una vez que ya tenemos el corpus el siguiente paso es la grabacin.

5.3Grabacin5.3.1 IntroduccinPara la grabacin es importante seguir los consejos que se nos dan en [9], estos nos dan una pauta de cmo realizar correctamente la grabacin y de cmo deben de ser las condiciones para que esta sea optima. Los principales puntos a seguir son: Formato de almacenamiento digital recomendado: Fs=16kH, 16 bits, mono. Es recomendable usar dispositivos de audio de alta calidad. Es importante evitar en lo posible los ruidos (ruidos de baja frecuencia que no percibimos) y la reverberacin del ambiente. Un dato importante para que la sntesis Mbrola funcione de manera mas optima la recopilacin se debe leer con la entonacin ms montona posible (como al leer una enumeracin larga y aburrida). Incluso el final de palabras debe mantener su constante de la frecuencia fundamental. Puesto que sta es una manera totalmente artificial de leer un texto, el locutor debe entrenar antes de comenzar la sesin de la grabacin.

41


5.3.2 MaterialPara nuestra grabacin utilizamos un micrfono AKG modelo HSC150 PC, este modelo es auricular, lo que nos permite mantener siempre la misma distancia entre la boca y el micrfono. Para reducir en lo posible el ruido de fondo hemos utilizado una mesa de mezclas BERINGER modelo EURORACK MX802A. La salida de esta mesa estar conectada con la entrada de lnea de la tarjeta de sonido del PC. Como software para la grabacin hemos utilizado un programa llamado Praat [10]. Aqu solo veremos como utilizarlo para la grabacin segn las indicaciones de Mbrola Project [9] en el apartado de segmentacin veremos algunas de las posibilidades que ofrece esta herramienta.

5.3.3ProcesoPara la grabacin utilizamos la opcin del men NEW: record sound lo que despliega la siguiente ventana:

Realizaremos la grabacin con la opcin Sample rate a 16000 Hz, como se nos indicaba en las instrucciones. A la hora de la grabacin tenemos que cuidar el volumen, la ventana tiene dos columnas que indican el nivel de la seal de forma grafica, hay que conseguir que la indicacin de estas barras este en la zona verde, de otra manera implicara que hay saturacin. Al necesitar el motor de sntesis Mbrola una seal mono para la base y al grabar obtenemos dos canales, recogeremos siempre nuestra grabacin de un nico canal en nuestro caso el izquierdo. Respecto de la indicacin de mantener el pitch constante adems de grabar manteniendo una entonacin montona. Praat tiene opciones que nos permiten manipular el pitch de la grabacin. El proceso que hemos seguido para dotar a todas las grabaciones de un pitch constante es el siguiente:

42


-

Con las herramientas de Synthetize, utilizamos la opcin Filter para realizar un preenfasis (Pre-emphasize), esta opcin necesita un argumento llamado From frequency que evala en Hz, esta es la frecuencia a partir de la cual se incrementara la seal en 6dB/octava. Nosotros hemos usado el valor que tiene por defecto.

-

-

Con las herramientas de Manipulate necesita tres argumentos Time step, evaluado en segundos, que se usa para el anlisis del pitch y los valores de pitch mximo (Maximum pitch) y mnimo (Minimum pitch) deseados, estos evaluados en hercios. Esto genera una copia de la muestra que ser la que manipulemos. Hemos usado los valores que utiliza por defecto.

-

Con la opcin Edit podemos visualizar la seal y la curva de entonacin definida por los puntos de pitch. Al precisar un pitch constante para la base siguiendo las recomendaciones, lo que haremos ser eliminar todos los puntos de pitch con las opciones del men Pitch: Remove Pitch Points e introducir uno, Pitch: Add Pitch Point at cursor, es decir una curva de pitch constante que sea la media aproximada de la anterior. La curva de entonacin ya estara bastante centrada a una frecuencia ya que el locutor debe procurar un pitch constante a lo largo de la lectura, como ya habamos indicado.

43


Por ultimo con la opcin Get resynthesis (PSOLA), obtenemos una nueva muestra con un pitch constante, que guardaremos como archivo Wav. Esta ser la muestra que utilizaremos para la segmentacin. Una vez recogido el corpus con las caractersticas deseadas el siguiente paso es etiquetar los difonemas que formarn parte de la base de datos.

-

5.4 Segmentacin y etiquetadoLa segmentacin y etiquetado se puede hacer manualmente con ayuda de herramientas de visualizacin de seal, o automticamente gracias a la existencia de algoritmos de segmentacin. Nosotros nos hemos inclinado por la primera. Como herramientas de visualizacin de seal estudiamos la utilidad de dos que tenamos a nuestra disposicin. Estas dos herramientas son Praat del que ya hemos hablado en el apartado anterior y Dstudio que es programa que proporciona el proyecto Mbrola.

5.4.1 DstudioEsta es una utilidad muy sencilla para su manejo, pero con muy pocas opciones a la hora de la manipulacin de las muestras. Solo nos permite la visualizacin del nivel de la seal. Con lo que la segmentacin la tendremos que hacer con la nica indicacin del dominio temporal sin podernos apoyar en espectro de la seal.

44

CAPTULO V: CREACIN DE UNA VOZ MBROLA La principal caracterstica de este programa es que esta diseado especficamente para trabajar con Mbrola, y sus formatos de archivos son los que utilizan en el proyecto Mbrola. Con lo que la utilizacin de Dstudio ser necesaria para trabajar con el formato de Mbrola, pero para la segmentacin nos hemos declinado por trabajar con Praat.

5.4.2 PraatPraat es un programa diseado para el estudio de la fontica. Las principales ventajas que ofrece frente a Dstudio para la segmentacin y etiquetado son dos: Su manejabilidad es mucho mejor, tanto en la seleccin de tramos de seal como en su marcado. Permite visualizar el espectrograma junto con el nivel de intensidad. Esto permite distinguir los lmites de los fonemas con mayor claridad. El espectrograma es la herramienta ms fiable para realizar una buena segmentacin ya que como se puede ver en la imagen se pueden distinguir perfectamente los fonemas y las coarticulaciones que aparecen entre ellos. Las franjas de puntos (rojos) representan los formantes mientras que la lnea recta (azul) representa el pitch que es constante a lo largo de toda la frase al haber sido tratado previamente.

Para la segmentacin utilizamos la opcin de Praat Lebel & Segment: to text grid lo que abre la siguiente ventana:

45


Praat permite utilizar varios niveles para la segmentacin que se definirn en la parte superior, estrictamente solo se necesitaran dos uno para el nivel fonema y otro para el de difonema de esta forma se pude recoger tanto el principio y el final del difonema como el punto de transicin entre los fonemas que lo forman. Nosotros sin embargo hemos utilizado tres niveles lo que nos permite segmentar dos difonemas formados por tres fonemas consecutivos en el mismo archivo, es decir de /kas/ se podra obtener los difonemas /ka/ y /as/ sin necesidad de crear dos archivos distintos.

Como podemos observar en la figura la segmentacin disponiendo del espectrograma se torna bastante ms sencilla que disponiendo solo del nivel de intensidad de la seal. Ms informacin a cerca de Praat y su funcionamiento se puede encontrar en [10]. La posicin de los difonemas segmentados dentro del corpus se encuentra en el Apndice G.

46

CAPTULO V: CREACIN DE UNA VOZ MBROLA Una vez segmentada la muestra obtenemos un fichero Textgrid con una estructura muy complicada que no podemos utilizar con Dstudio, este inconveniente lo tratamos en el siguiente apartado.

5.5 Formato MbrolaPara estudiar la diferencia entre los formatos de Praat y de Dstudio, este ltimo es el utilizado por los usuarios del proyecto Mbrola, las analizaremos a travs de un pequeo ejemplo. Una vez segmentada la frase con los difonemas que nos interesan, nos queda en la pantalla un resultado como el del siguiente ejemplo:

Donde en este caso particular, tenemos los difonemas /ug/, /ga/ y /rp/. La franja 1 debajo del espectrograma es en la que realizamos la segmentacin, mientras que la franja 2 y 3 sirven para verificar que los difonemas se han tomado correctamente. El archivo TextGrid resultante ser un archivo con la siguiente estructura: File type = "ooTextFile" Object class = "TextGrid" xmin = xmax = tiers? size = 0 6.3705625000000001 3

47

CAPTULO V: CREACIN DE UNA VOZ MBROLA item []: item [1]: class = "IntervalTier" name = "1" xmin = 0 xmax = 6.3705625000000001 intervals: size = 8 intervals [1]: xmin = 0 xmax = 3.8345032560642442 text = "" intervals [2]: xmin = 3.8345032560642442 xmax = 3.9559488010941988 text = "u" intervals [3]: xmin = 3.9559488010941988 xmax = 4.0335172459842994 text = "g" intervals [4]: xmin = 4.0335172459842994 xmax = 4.1526122320781909 text = "a" intervals [5]: xmin = 4.1526122320781909 xmax = 4.8740374755294162 text = "" intervals [6]: xmin = 4.8740374755294162 xmax = 4.9647090361907651 text = "r" intervals [7]: xmin = 4.9647090361907651 xmax = 5.0988659371692906 text = "p" intervals [8]: xmin = 5.0988659371692906 xmax = 6.3705625000000001 text = "" item [2]: .... Y con el programa realizado hacemos que los datos queden con el formato de archivo dat que admite el programa Dstudio. Quedando como resultado en nuestro ejemplo el siguiente archivo:!16000 u g g a r p FRASE8.WAV El lugar de la carpa 61352 63294 64536 FRASE8.WAV El lugar de la carpa 63294 64536 66442 FRASE8.WAV El lugar de la carpa 77984 79435 81581

48

CAPTULO V: CREACIN DE UNA VOZ MBROLA El archivo TextGrid est estructurado de la siguiente forma: Las dos primeras lneas indican el tipo de archivo que en este caso es de texto y la clase de objeto que se corresponde a un TextGrid. Las dos lneas siguientes indican el inicio y el final del archivo de sonido tratado en segundos. La lnea size=3 indica que disponemos de tres franjas para segmentar de las cuales como se ha indicado antes solo se ha usado la primera. Item define la franja etiquetada con el nombre que se encuentre en la lnea name y dentro de este se encuentra tabulada toda la informacin de los segmentos realizados. Intervals son cada uno de los intervalos de tiempo en los que hemos dividido la franja. En este ejemplo los intervalos tomados son ocho. Cada uno de los ocho intervalos van etiquetados con el nombre del fonema en cdigo SAMPA que hallamos deseado segmentar junto con la posicin de inicio y final que ocupa en segundos dentro del archivo de audio que contiene la frase a segmentar. Los segmentos generados por defecto es decir los que existen entre dos letras, no poseen valor en la etiqueta de texto del intervalo.

El archivo dat utilizado por Dstudio est dispuesto de la siguiente manera: La primera lnea indica la frecuencia de muestreo de la seal de audio que en este caso es de 16 kHz. Las siguientes lneas contienen cada uno de los difonemas tomados de la frase con una serie de datos ordenados de la siguiente forma: Primero se especifican los fonemas de inicio y final que posee el difonema en cdigo SAMPA. El siguiente dato es el nombre del archivo de audio del que se ha extrado el difonema. A continuacin se indica la frase que contiene el archivo de audio. Finalmente se indican en muestras la posicin de inicio, medio y fin del difonema.

Una vez descrita la disposicin y forma de cada uno de estos archivos, el programa realiza las siguientes operaciones: Recoge los valores de la posicin de inicio, medio y final del difonema en cuestin en segundos junto con el cdigo SAMPA del par de fonemas que intervienen en el difonema. Una vez adquiridos estos datos se disponen con el formato que poseen los archivos dat de diphone. Los campos de nombre de fichero de audio y frase del fichero se solicitan por teclado. Para pasar las posiciones de los difonemas cuyos valores se dan en segundos a muestras tal y como lo solicita el formato de diphone, deberemos conocer las muestras por segundo a las que ha sido muestreada la seal de audio. Al ser la recomendacin de Mbrola muestrear a 16 kHz, lo nico que habr que hacer es multiplicar cada valor por 16.000 para obtener los valores en muestras.

49

CAPTULO V: CREACIN DE UNA VOZ MBROLA El programa tambin posee la opcin de agregar al archivo dat, difonemas de distintas frases, ya que todo el corpus debe estar integrado en un archivo dat para generar el EXPORT a enviar. Una vez obtenido el archivo dat completo con la descripcin de dnde se localizan los 462 difonemas en las frases grabadas, el ltimo paso es abrir el archivo con el Dstudio y dentro del men File pulsar la opcin EXPORT y esto nos generar la serie de ficheros que deberemos

mbrola

Documents