tecnologias del habla_reconocimiento
TRANSCRIPT
Reconocimiento de Voz
M.C. Esmeralda Uraga
Universidad Nacional Autónoma de MéxicoInstituto de Investigación en
Matemáticas Aplicadas y en Sistemas
Departamento de Ciencias de la ComputaciónGrupo de Sistemas Multimodales Inteligentes
Contenido
•Introducción•Características•Cómo se desarrollan •Modelos utilizados•Resultados•Aplicaciones•Conclusiones
Introducción
El habla es la forma de comunicación humana más natural y eficiente (Cole95).
Los sistemas de lenguaje hablado hacen posible que las personas interactúen con las computadoras usando el habla (además del monitor, mouse, etc.).
Un sistema de lenguaje hablado (operadora) funciona así:•Reconoce las palabras que pronuncia una persona (¿Cuál es el número?)•Interpreta la secuencia de palabras para obtener un significado en términos de la aplicación del sistema (¿Directorio telefónico o dirección?•Proporciona una respuesta apropiada al usuario. (15-12-58 o #37)
Actualmente, los sistemas que son capaces de manejar lenguaje natural deben su éxito al enfocarse a resolver tareas específicas sobre dominios restringidos.Ej. C-STAR, TRAINS
cuál es el número
El reconocimiento de voz consiste en convertir una señal acústica de voz a una secuencia de palabras.
Reconocimiento de voz
¿Cuál es el número?
Ej. Dictado automático
Síntesis de voz
La síntesis de voz consiste en convertir un texto a voz artificial.
El número es 15 12 58
¿Por qué usar reconocimiento de voz?
Razones de mercado, tecnológicas, científicas, sociales, etc.
•Mayor productividad
•Recuperación rápida de la inversión
•Acceso a nuevos mercados, nuevos clientes
•Diferencia entre compañías
•Control del ambiente o de los sistemas
•Computadoras que den servicios de información
•Para proponer y probar modelos (redes neuronales)
•La gente que sabe hablar podría usar las computadoras
•Las computadoras podrían enseñar
•Sistemas de diagnóstico y rehabilitación
¿Cómo avanzó el área de reconocimiento de voz?
1870’s Alexander Graham Bell. Quería construir un sistema que permitiera ver el habla a personas con problemas auditivos. Resultado: el teléfono.
1880’s Tihamir Nemes. Quería patentar un sistema que identificara secuencias de sonido y las imprimiera (texto). Rechazado como proyecto no realista.
1950’s Laboratorios Bell AT&T construye la primer máquina capaz de reconocer los 10 dígitos en inglés (por una persona). Surge la esperanza de que el reconocimiento de voz es simple y directo.
1960’s Se reconoce que este proceso es más difícil de lo que se había pensado. Se reducen los alcances y se enfocan a sistemas más sencillos: (un hablante, palabras aisladas, vocabulario pequeño).
1970’s Reconocimiento de voz continua (un hablante).
1980’s y 90’s Computadoras más poderosas y más baratas. Gran desarrollo de las telecomunicaciones. Apoyo gubernamental y empresarial. Sistemas de habla espontánea, independientes del hablante y con vocabulario grande.
Características de los sistemas de reconocimiento de voz
•Forma de reconocimiento:
•palabras aisladas vs voz continua vs habla espontánea (ej. look & tel.)
•Dependencia (reconocimiento del hablante) vs Independencia del hablante
•Adaptación al hablante
•Tamaño del vocabulario: pequeño, mediano, grande o muy grande
•Gramática
•Tolerancia al ruido: no tolerante, tolerante, capacidad de rechazo, robusto
Planteamiento del problema
El problema que se aborda aquí es el de reconocimiento de voz continua para el español hablado en México.
El habla continua se distingue del habla espontánea en que sus alcances no abarcan el reconocimiento de titubeos, de correcciones y cambios de comportamiento al hablar.
La dificultad de reconocer voz continua se debe a algunas propiedades de ésta, entre las cuales están las siguientes:
•La complejidad de la voz producida sin hacer pausas al hablar. Esto causa que la pronunciación de una palabra afecte la pronunciación de las palabras en su contexto. (ej. Los rosales, David Rosales).
•Efectos en la voz continua. La pronunciación de un fonema se ve afectado por su contexto. (ej. Mano, mango).
•Difícil localización de fronteras entre palabras. (ej. Va a Alemania).
• Las fuentes de variabilidad como la velocidad y el tono de voz.
Un sistema de reconocimiento de voz
hablaAcousticModel
LanguageModel
PronunciationModel
PalabrasAplicaciónModelo Modelo
Lenguaje
ModeloPronunciación
23 HMM:•22 fonemas • 1 silencio
1 2 3
Acústico
Entrenamiento de los Modelos
Entrenamientode los modelos
Entrenamientode los modelos
Modelos Acústicos
Vectores deCaracterísticas
Lexicón Gramática
Transcripción
W P(S|W= w1,w2,…,wn)
Definición deMOM o RN
•Diseño (Dominio, aplicación, contenido lingüístico, hablantes)•Grabación (ambiente, equipo, muestreo, entrenamiento, evaluación)•Transcripción (niveles, unidades de voz, clasificación de unidades, léxico)
ej. pa’que, oye pa’ onta mi amá
Crear un corpus de voz:A
mpl
itud
Fre
cuen
cia
Tiempo (mseg)
Forma de onda de la señal de voz:
Espectrograma de la señal de voz:
Transcripción ortográfica y fonética:
Grabaciones
Duración 4 hrs.Hablantes 83 (42h, 41m)Habla ContinuaGrabado por MicrófonoAmbiente Oficina
El modelo del lenguaje
7 hrs.Duration
MicrophoneRecorded by
Spont. & Cont.Speech
16Speakers
5140Utterances
Kitchen designDomain
DIMETraining Corpus
Back-off bigram word-loop network
W2
W3
W1
Wn
hablaAcousticModel
LanguageModel
PronunciationModel
PalabrasAplicaciónModelo
ModeloLenguaje
ModeloPronunciaciónAcústico
Cómo se obtienen los Modelos del Lenguaje
Modelos del Lenguaje
Generación de n-gramas
Generación de n-gramas
Corpus textual Vocabulario
W P(W= w1,w2,…,wn)
Conjunto de frases
w1,w2,…,wn
Corpus DIME
este <sil> eh me puede mostrar <sil> los fregaderos ?contamos <sil> con estos <sil> cuatro fregader[os]eh <sil> favor de elegir el fregadero con alacenaéste ? ajáy lo colocamos abajo de la vent [ana] de las ventanasde acuerdo ahí está bien ? sí así está bien
utt34:utt35:utt36:utt37:utt38:utt39:utt40:utt41:utt41:utt43:
(U)(S)(U)(S)(U)
(S)
(U)
Diálogo 13
Modelo de Pronunciación
ABAJO a V a x o
ACÁ a k a
ALACENA a l a s e n a
ALGÚN a l g u n
ARRIBA a rr i V a
BIEN b j e n
Pronunciación Canónica
hablaAcousticModel
LanguageModel
PronunciationModel
PalabrasAplicaciónModelo
ModeloLenguaje
ModeloPronunciaciónAcústico
Evaluación del reconocedor
Resultados: RN MOM-RN MOM
% palabras reconocidas 96.79% 92.55% 91.09%
Evaluación del reconocedor con diferentes modelos acústicos:
Reconocimientode voz
Reconocimientode voz
Palabras reconocidas
DiferenciasDiferencias
Transcripciones
% palabrasreconocidasLexicón
Modelo delLenguaje
ModelosAcústicos
Datos de voz
Características de las aplicaciones
El problema general de reconocimiento de voz no está resuelto todavía!
Con la tecnología actual, los sistemas convierten el problema general en otro más simple o fácil por medio de:
•limitando el tamaño del vocabulario•limitando la forma de hablar•restringiendo el rango posible de hablantes•limitando el tipo de ruido ambiental•limitando el tipo de habla (continua, espontánea)
Características deseables: Quitar los límites.
La idea es tener un sistema con vocabulario grande, que reconozca a cualquier persona, que pueda manejar cualquier dominio del discurso y cualquier estilo de hablar además de que pueda operar en cualquier ambiente acústico.
Procesamiento del lenguaje a varios niveles
El habla puede ser vista como una combinación compleja de información de varios niveles usada para enviar un mensaje.
Niveles:
•Fonético y fonológico•Léxico•Morfológico•Sintáctico•Semántico•Pragmático•Del discurso•Del mundo
Del reconocimiento de voz al entendimiento del lenguaje naturalutilizando sistemas multimodales.
Aplicaciones
•Dictado automático•Para controlar equipos mecánicos y servicios•Para ayudar a personas discapacitadas
(acceso, llamadas telefónicas, para aprender a hablar)•Sistemas automovilísticos•Para dar y obtener información (bases de datos, censo)•Sistemas bancarios•Solicitud de servicios (pizza, mensajería, directorio
telefónico)•Diálogos en tareas cooperativas para lograr una meta
(reservación de vuelos)•Navegar en Internet por medio de voz•Traducción de conversaciones en varios idiomas
Conclusiones
•Es necesario generar más recursos lingüísticos en México para poder desarrollar sistemas de reconocimiento de voz robustos.
•Es importante promover el área de tecnología del habla para formar grupos de trabajo multidisciplinarios para investigación y educación en ésta área.
•Es necesario capacitar personas para que desarrollen sistemas de reconocimiento de voz.
•El desarrollo de sistemas de lenguaje hablado permitirá que las personas interactúen con las computadoras (vía telefónica o directa) usando el lenguaje natural hablado.