tecnologias del habla_reconocimiento

Reconocimiento de Voz

M.C. Esmeralda Uraga

[email protected]

Universidad Nacional Autónoma de MéxicoInstituto de Investigación en

Matemáticas Aplicadas y en Sistemas

Departamento de Ciencias de la ComputaciónGrupo de Sistemas Multimodales Inteligentes

Contenido

•Introducción•Características•Cómo se desarrollan •Modelos utilizados•Resultados•Aplicaciones•Conclusiones

Introducción

El habla es la forma de comunicación humana más natural y eficiente (Cole95).

Los sistemas de lenguaje hablado hacen posible que las personas interactúen con las computadoras usando el habla (además del monitor, mouse, etc.).

Un sistema de lenguaje hablado (operadora) funciona así:•Reconoce las palabras que pronuncia una persona (¿Cuál es el número?)•Interpreta la secuencia de palabras para obtener un significado en términos de la aplicación del sistema (¿Directorio telefónico o dirección?•Proporciona una respuesta apropiada al usuario. (15-12-58 o #37)

Actualmente, los sistemas que son capaces de manejar lenguaje natural deben su éxito al enfocarse a resolver tareas específicas sobre dominios restringidos.Ej. C-STAR, TRAINS

cuál es el número

El reconocimiento de voz consiste en convertir una señal acústica de voz a una secuencia de palabras.

Reconocimiento de voz

¿Cuál es el número?

Ej. Dictado automático

Síntesis de voz

La síntesis de voz consiste en convertir un texto a voz artificial.

El número es 15 12 58

¿Por qué usar reconocimiento de voz?

Razones de mercado, tecnológicas, científicas, sociales, etc.

•Mayor productividad

•Recuperación rápida de la inversión

•Acceso a nuevos mercados, nuevos clientes

•Diferencia entre compañías

•Control del ambiente o de los sistemas

•Computadoras que den servicios de información

•Para proponer y probar modelos (redes neuronales)

•La gente que sabe hablar podría usar las computadoras

•Las computadoras podrían enseñar

•Sistemas de diagnóstico y rehabilitación

¿Cómo avanzó el área de reconocimiento de voz?

1870’s Alexander Graham Bell. Quería construir un sistema que permitiera ver el habla a personas con problemas auditivos. Resultado: el teléfono.

1880’s Tihamir Nemes. Quería patentar un sistema que identificara secuencias de sonido y las imprimiera (texto). Rechazado como proyecto no realista.

1950’s Laboratorios Bell AT&T construye la primer máquina capaz de reconocer los 10 dígitos en inglés (por una persona). Surge la esperanza de que el reconocimiento de voz es simple y directo.

1960’s Se reconoce que este proceso es más difícil de lo que se había pensado. Se reducen los alcances y se enfocan a sistemas más sencillos: (un hablante, palabras aisladas, vocabulario pequeño).

1970’s Reconocimiento de voz continua (un hablante).

1980’s y 90’s Computadoras más poderosas y más baratas. Gran desarrollo de las telecomunicaciones. Apoyo gubernamental y empresarial. Sistemas de habla espontánea, independientes del hablante y con vocabulario grande.

Características de los sistemas de reconocimiento de voz

•Forma de reconocimiento:

•palabras aisladas vs voz continua vs habla espontánea (ej. look & tel.)

•Dependencia (reconocimiento del hablante) vs Independencia del hablante

•Adaptación al hablante

•Tamaño del vocabulario: pequeño, mediano, grande o muy grande

•Gramática

•Tolerancia al ruido: no tolerante, tolerante, capacidad de rechazo, robusto

Planteamiento del problema

El problema que se aborda aquí es el de reconocimiento de voz continua para el español hablado en México.

El habla continua se distingue del habla espontánea en que sus alcances no abarcan el reconocimiento de titubeos, de correcciones y cambios de comportamiento al hablar.

La dificultad de reconocer voz continua se debe a algunas propiedades de ésta, entre las cuales están las siguientes:

•La complejidad de la voz producida sin hacer pausas al hablar. Esto causa que la pronunciación de una palabra afecte la pronunciación de las palabras en su contexto. (ej. Los rosales, David Rosales).

•Efectos en la voz continua. La pronunciación de un fonema se ve afectado por su contexto. (ej. Mano, mango).

•Difícil localización de fronteras entre palabras. (ej. Va a Alemania).

• Las fuentes de variabilidad como la velocidad y el tono de voz.

Un sistema de reconocimiento de voz

hablaAcousticModel

LanguageModel

PronunciationModel

PalabrasAplicaciónModelo Modelo

Lenguaje

ModeloPronunciación

23 HMM:•22 fonemas • 1 silencio

1 2 3

Acústico

Entrenamiento de los Modelos

Entrenamientode los modelos

Entrenamientode los modelos

Modelos Acústicos

Vectores deCaracterísticas

Lexicón Gramática

Transcripción

W P(S|W= w1,w2,…,wn)

Definición deMOM o RN

•Diseño (Dominio, aplicación, contenido lingüístico, hablantes)•Grabación (ambiente, equipo, muestreo, entrenamiento, evaluación)•Transcripción (niveles, unidades de voz, clasificación de unidades, léxico)

ej. pa’que, oye pa’ onta mi amá

Crear un corpus de voz:A

mpl

itud

Fre

cuen

cia

Tiempo (mseg)

Forma de onda de la señal de voz:

Espectrograma de la señal de voz:

Transcripción ortográfica y fonética:

Grabaciones

Duración 4 hrs.Hablantes 83 (42h, 41m)Habla ContinuaGrabado por MicrófonoAmbiente Oficina

Transcripción fonética

Forced Alignment

El modelo del lenguaje

7 hrs.Duration

MicrophoneRecorded by

Spont. & Cont.Speech

16Speakers

5140Utterances

Kitchen designDomain

DIMETraining Corpus

Back-off bigram word-loop network

W2

W3

W1

Wn

hablaAcousticModel

LanguageModel

PronunciationModel

PalabrasAplicaciónModelo

ModeloLenguaje

ModeloPronunciaciónAcústico

Cómo se obtienen los Modelos del Lenguaje

Modelos del Lenguaje

Generación de n-gramas

Generación de n-gramas

Corpus textual Vocabulario

W P(W= w1,w2,…,wn)

Conjunto de frases

w1,w2,…,wn

Corpus DIME

este <sil> eh me puede mostrar <sil> los fregaderos ?contamos <sil> con estos <sil> cuatro fregader[os]eh <sil> favor de elegir el fregadero con alacenaéste ? ajáy lo colocamos abajo de la vent [ana] de las ventanasde acuerdo ahí está bien ? sí así está bien

utt34:utt35:utt36:utt37:utt38:utt39:utt40:utt41:utt41:utt43:

(U)(S)(U)(S)(U)

(S)

(U)

Diálogo 13

Modelo de Pronunciación

ABAJO a V a x o

ACÁ a k a

ALACENA a l a s e n a

ALGÚN a l g u n

ARRIBA a rr i V a

BIEN b j e n

Pronunciación Canónica

hablaAcousticModel

LanguageModel

PronunciationModel

PalabrasAplicaciónModelo

ModeloLenguaje

ModeloPronunciaciónAcústico

Evaluación del reconocedor

Resultados: RN MOM-RN MOM

% palabras reconocidas 96.79% 92.55% 91.09%

Evaluación del reconocedor con diferentes modelos acústicos:

Reconocimientode voz

Reconocimientode voz

Palabras reconocidas

DiferenciasDiferencias

Transcripciones

% palabrasreconocidasLexicón

Modelo delLenguaje

ModelosAcústicos

Datos de voz

Características de las aplicaciones

El problema general de reconocimiento de voz no está resuelto todavía!

Con la tecnología actual, los sistemas convierten el problema general en otro más simple o fácil por medio de:

•limitando el tamaño del vocabulario•limitando la forma de hablar•restringiendo el rango posible de hablantes•limitando el tipo de ruido ambiental•limitando el tipo de habla (continua, espontánea)

Características deseables: Quitar los límites.

La idea es tener un sistema con vocabulario grande, que reconozca a cualquier persona, que pueda manejar cualquier dominio del discurso y cualquier estilo de hablar además de que pueda operar en cualquier ambiente acústico.

Procesamiento del lenguaje a varios niveles

El habla puede ser vista como una combinación compleja de información de varios niveles usada para enviar un mensaje.

Niveles:

•Fonético y fonológico•Léxico•Morfológico•Sintáctico•Semántico•Pragmático•Del discurso•Del mundo

Del reconocimiento de voz al entendimiento del lenguaje naturalutilizando sistemas multimodales.

Aplicaciones

•Dictado automático•Para controlar equipos mecánicos y servicios•Para ayudar a personas discapacitadas

(acceso, llamadas telefónicas, para aprender a hablar)•Sistemas automovilísticos•Para dar y obtener información (bases de datos, censo)•Sistemas bancarios•Solicitud de servicios (pizza, mensajería, directorio

telefónico)•Diálogos en tareas cooperativas para lograr una meta

(reservación de vuelos)•Navegar en Internet por medio de voz•Traducción de conversaciones en varios idiomas

http://pinocchio.is.cs.cmu.edu:8080/ramgen/Archive/CLIPS_Hosting.rm

Conclusiones

•Es necesario generar más recursos lingüísticos en México para poder desarrollar sistemas de reconocimiento de voz robustos.

•Es importante promover el área de tecnología del habla para formar grupos de trabajo multidisciplinarios para investigación y educación en ésta área.

•Es necesario capacitar personas para que desarrollen sistemas de reconocimiento de voz.

•El desarrollo de sistemas de lenguaje hablado permitirá que las personas interactúen con las computadoras (vía telefónica o directa) usando el lenguaje natural hablado.

¿Preguntas?

M.C. Esmeralda [email protected]

tecnologias del habla_reconocimiento

Education