Problemática de Diseño de Sistemas de Diálogo
Prof. Luis A. Hernández Gómez
Grupo de Aplicaciones del Grupo de Aplicaciones del Procesado de Señal Procesado de Señal
Tecnología del HablaTecnología del Habla
Codificación de Voz
Reconocimiento de Habla
Conversión Texto - Habla
Modelado Acústico: Modelos Ocultos de Markov (HMM)Modelado del Lenguaje: N-gramas
GSM (ACELP)Esquemas tipo CELP: UMTS (AMR)
Voz IP (G729a, G723.1, ..)
Modelado Prosódico: sonidos, pausado, entonaciónSintetizadores de Voz: unidades pre-grabadas
Sistemas de ComunicacionesSistemas de Comunicaciones
Zona H.323
GATEKEEPE
R GATEWAY
RTCRTC
IntranetIntranet
RTCRTC
InternetInternet
RDSI Terminal IP
ROUTER
PortalPortal
de Vozde Voz
Servicios propios de la red:Servicios propios de la red:FuncionalidadFuncionalidadBases de informaciónBases de información
Servicios deServicios de
otras redesotras redes
Sistema de Diálogo HabladoSistema de Diálogo Hablado
Zona H.323
GATEKEEPE
R GATEWAY
RTCRTC
IntranetIntranet
RTCRTC
InternetInternet
RDSI
ROUTER
PortalPortal
de Vozde Voz
Servicios propios de la red:Servicios propios de la red:FuncionalidadFuncionalidadBases de informaciónBases de información
Servicios deServicios de
otras redesotras redes
DIÁLOGO
Estructura Básicade un
Sistema de Diálogo
Grupo de Aplicaciones del Grupo de Aplicaciones del Procesado de Señal Procesado de Señal
UNIVERSIDAD POLITÉCNICA DE MADRID
Sistemas de DiálogoSistemas de Diálogo
Cod
ific
ació
n de
Voz
H.3
23
Reconocedorde Habla
ConversorTexto - Habla
AnalizadorSemántico
GeneradorMensajesde Salida
GESTOR DEDIÁLOGO
Servicios
Gestor de DiálogoGestor de Diálogo
Campo de investigación de la Lingüística Computacional
Análisis del Discurso: metodología, principios y conceptos propios de la lingüística
Análisis de la Conversación: metodología inductiva y empíricaActos de HablaContexto (pragmática)
Turnos de palabraEstructura de la conversación
Tesis Doctoral
Universidad de SevillaFacultad de Filología
Departamento de Lengua Inglesa (Filología Inglesa)
Un modelo para la especificación lingüística y la gestión computacional de diálogos hombre-máquina mediante instrucciones expresadas en
lenguaje naturalMª Gabriela Fernández Díaz
2000Directores:Jose Gabriel de Amores CarredanoJosé Francisco Quesada Moreno
Gestor de DiálogoGestor de Diálogo
Problemática ActualProblemática Actual
Falta de madurez:
Reconocimiento (?) y Gestión de Diálogo
Inmediatez de nuevos servicios:
Servicios de “valor añadido”
¿Objetivo del Sistema de Diálogo?¿Objetivo del Sistema de Diálogo?
¿Simular un diálogo entre personas ?
Eficacia : (últil) para realizar tareas rutinarias.
Libertad de expresión : (¿Lenguaje Natural?) evitando memorizar formas expresivas fijas.
Ayuda: información y tutelaje para usuarios nuevosPerfiles de usuarioTareas
Perfiles de UsuarioPerfiles de Usuario
Nivel de experiencia: experto - novato Relación con el reconocimiento: “granja” Trato: coloquial - educado Edad / Relación con la tecnología: asiduo - casual Operaciones o funciones permitidas y no permitidas Dialecto / Idioma
Detectar perfil Estrategia flexible: iniciativa mixta / iniciativa sistema Permitir paso a agentes de operación
SubdiálogosAYUDA
Estructuras de
Conversación
para Perfiles
Diferentes
Sistema de DiálogoSistema de Diálogo
AnalizadorSemántico
GeneradorMensajesde Salida
GESTOR DEDIÁLOGO
AGENTE
TareasTareas
Niveles: (J. Allen, ACL 95 // Proyecto SIRIDUS)
Sin restricción (?)
Diálogos de lenguajes de comandos naturales (natural command language
dialogues)
Diálogos negociados (negotiate dialogues)Gestor de Aplicación
Agentes de razonamiento y resolución de problemas
SubdiálogosAYUDA
Estructuras de
Conversación
para Perfiles
Diferentes
Sistema de DiálogoSistema de Diálogo
AnalizadorSemántico
GeneradorMensajesde Salida
GESTOR DEDIÁLOGO
Funcionesdel
Servicio
B.D.Conocimiento del Dominio
GESTOR DE
APLICACIÓN
AGENTES DE RAZONAMIENTO
Y RESOLUCIÓN DE PROBLEMAS
AGENTE
Otros niveles de dificultadOtros niveles de dificultad
Competencia lingüística: capacidad para resolver estructuras y fenómenos supra
oracionales (elipsis, anáforas)
“Errores” en la entrada al sistema:– propios del habla espontánea
– originados en el Reconocedor de Habla
– situaciones típicas: no reconocimiento, no respuesta, time-out, ...
SubdiálogosAYUDA
Estructuras de
Conversación
para Perfiles
Diferentes
Sistema de DiálogoSistema de Diálogo
AnalizadorSemántico
GeneradorMensajesde Salida
GESTOR DEDIÁLOGO
Funcionesdel
Servicio
B.D.Conocimiento del Dominio
GESTOR DE
APLICACIÓN
AGENTES DE RAZONAMIENTO
Y RESOLUCIÓN DE PROBLEMAS
Histórico
Anáforas
Elipsis
Subdiálogos de
recuperación de
errores
AGENTE
El núcleoEl núcleo
Estrategias de diálogo: Gramáticas de diálogo Enfoques declarativos Enfoques basados en marcos Arquitecturas distribuidas Enfoques basados en planes Enfoques colaborativos Enfoques basados en agentes racionales
El problema: dependencia de la aplicación o de la tarea
Generalmente se recurre a estrategias mixtas
Dependencia de la aplicaciónDependencia de la aplicación
Objetivo de proyectos de investigación:
DISC, TRINDI, SIRIDUS I3S: Intuitive Interfaces to Information Systems
Microelectronic and Computer Terchnology Corporation (MCC)South Western Bell / TRI; Nortel, Texas Instruments y Telefónica I+D
“Desarrollar una arquitectura de sistema de diálogo independiente de la aplicación y que permita un desarrollo rápido de aplicaciones de diálogo dentro de una banda de dominios razonablemente amplia”
Adaptación a nuevas aplicacionesAdaptación a nuevas aplicaciones
I3S: Intuitive Interfaces to Information Systems (MCC)
“El objetivo último es conseguir que la tarea de adaptar el sistema de diálogo a nuevas aplicaciones pudiese ser realizada de forma rápida y sencilla por personal sin unos conocimientos especialmente profundos del sistema de diálogo”
Adaptación decomponentes de unSistema de Diálogo
Grupo de Aplicaciones del Grupo de Aplicaciones del Procesado de Señal Procesado de Señal
UNIVERSIDAD POLITÉCNICA DE MADRID
Tesis Doctoral
Universidad de SevillaFacultad de Filología
Departamento de Lengua Inglesa (Filología Inglesa)
Estrategias de análisis gramatical y semántico para un sistema dirigido por voz
Mª Teresa López Soto1999
Directores:Jose Gabriel de Amores CarredanoJosé Francisco Quesada Moreno
Analizador SemánticoAnalizador Semántico
Analizador SemánticoAnalizador Semántico
Representación estructurada de los enunciados del usuario, generalmente requiere:
Diseño de ontología adaptada a la tarea
Representación basada en estructuras y formas expresivas características de la aplicación
Desambiguación basado en información adaptada al dominio
Generador de Mensajes de SalidaGenerador de Mensajes de Salida
Definición de etiquetas correspondientes a actos de habla del sistema
Ajuste de formas expresivas al dominio particular de la aplicación
Elaboración de frases de ayuda y formas adaptadas a diferentes perfiles de usuario
Reconocedor de Habla NaturalReconocedor de Habla Natural
Modelado Acústico: independiente de la aplicaciónModelo de Lenguaje: (Alexander Rudnicky, School of Computer
Science, CMU)
Acousticmodels
Languagemodels
Speechdata
Textdata
Train
TrainTranscribe*
Importante número de tareas manuales
Procedimientos basados en la disponibilidad de un corpus suficientemente representativo de la aplicación diálogos persona-persona simulaciones Mago de Oz sucesivas versiones del sistema: usuarios reales !!! imaginación de los diseñadores
Gran interdependencia entre componentes
Adaptación de ComponentesAdaptación de Componentes
chicken and egg problem“Data Collection and Performance Evaluation of Spoken
Dialogue Systems: The MIT experience”J. Glass, J. Polifroni, S. Seneff and V. Zue (ICSLP 2000)
Dependencia entre ComponentesDependencia entre Componentes
Cod
ific
ació
n de
Voz
H.3
23
Reconocedorde Habla
ConversorTexto - Habla
AnalizadorSemántico
GeneradorMensajesde Salida
GESTOR DEDIÁLOGO
Servicios
Resumen de ámbitos problemáticos Resumen de ámbitos problemáticos
Funcionalidad del Sistema de Diálogo (perfiles de usuario y tareas)
Estrategias de diálogo (dependencia con la aplicación)
Desarrollo y adaptación a diferentes dominios
(Otros: Evaluación de Sistemas de Diálogo)
¿Soluciones?
Grupo de Aplicaciones del Grupo de Aplicaciones del Procesado de Señal Procesado de Señal
UNIVERSIDAD POLITÉCNICA DE MADRID
¿Diálogo genérico o diálogos comunes? ¿Diálogo genérico o diálogos comunes?
Diálogo genérico: arquitectura independiente de la aplicación (I3S)
Diálogos comunes: (Novic y Sutton, 1996)“postura contraria a la abstracción construyendo bibliotecas de diálogos comunes”
Sistemas de DiálogoSistemas de DiálogoSiridus (Disc, Trindi):
SRI, Univ. Göteborg, Univ. Saarland de Saarbrücken, Univ. Sevilla y Telefónica I+D Universidad de Sevilla: DELFOS
Universidad de Granada: (Ramón López-Cózar)
Univ. Politécnica de Catalunya, Univ. Politécnica de Valencia, Univ. Zaragoza, Univ. del País Vasco, Univ. Jaume I: “Desarrollo de un Sistema de Diálogo para Habla Espontánea en un Dominio Semántico Restringido” (TIC98-0423-C06)
AGORA: (J. Relaño y M.C. Rodríguez) Plataforma de diseño de Sistemas de Diálogo desarrollada por UPM y Telefónica I+D
Bibliotecas de diálogos comunesBibliotecas de diálogos comunesNuance: (http://www.nuance.com)
Voice Web Speech Objects:
“SpeechObjects are a set of open, reusable components that encapsulate the best practices of voice interface design. Developers use SpeechObjects to considerably reduce the time it takes to build high quality speech recognition and voice authentication applications”
VoiceXML
Foro VoiceXML (I)Foro VoiceXML (I)
Estándar tecnológico promovido por AT&T, IBM, Lucent y Motorola (en la actualidad cuenta con el apoyo de cerca de 300 empresas del sector. http://www.voicexml.org)
IBM: IBM Voice Server SDK Beta herramienta basada en VoiceXML Version 1.0 (http://www.alphaworks.ibm.com)
Nuance: Nuance V-Builder™, herramienta gráfica para el diseño de aplicaciones VoiceXML
TellMe: TellMe Studio, entorno de desarrollo de aplicaciones VoiceXML (http://www.tellme.com)
BeVocal: BeVocal Cafe + SpeechObjects (http://www.cafe.bevocal.com)
Foro VoiceXML (II)Foro VoiceXML (II)Crear contenidos Web y servicios que sean accesibles mediante
voz VoiceXML V1.0 (marzo 2000) aprobada por el W3C
World Wide Web Consortium
“The W3C speech interface framework will include integrated markup languages for dialog, grammar, speech synthesis, natural language semantics and multimodal dialogs, as well as a standard list of reusable dialogs”
Jim Larson (Intel Architecture Labs)Co-chair of the W3C Voice Browser Woprking Group
Foro VoiceXML (III)Foro VoiceXML (III)
VoiceXML pretende hacer transparente a los desarrolladores de aplicaciones para Internet, la programación a bajo nivel relacionada con los Sistemas de Diálogo
Modelo de Arquitectura VoiceXMLModelo de Arquitectura VoiceXML
VoiceXML GATEWAY(Contexto del Intérprete VoiceXML)
VoiceXML GATEWAY (Contexto del Intérprete VoiceXML)
Intérprete VoiceXMLIntérprete VoiceXML
InternetInternet
PLATAFORMA DEIMPLEMENTACIÓ
N :•Reconocimiento•Síntesis
SERVIDOR DE
DOCUMENTOS
Estructuras de Diálogo VoiceXMLEstructuras de Diálogo VoiceXMLEstructura de diálogo:
Máquina de Estados definida a través de una serie de documentos VoiceXML (sesión - aplicación) Gestión flexible de gramáticas (varios documentos), que permite iniciativa mixta Gestión de eventos genéricos (no respuesta, cuelgue, time-out, ...)
Tipos de diálogo: Formulario Menú
Sub-diálogos: Recuperación de errores Librería de sub-diálogos comunes a diferentes aplicaciones
Ejemplo Simple VoiceXMLEjemplo Simple VoiceXML
<?xml version="1.0"?>
<vxml>
<form>
<field name = “bebida”>
<prompt>¿Qué tipo de bebida quieres: café,
leche o té?</prompt>
<grammar src=”bebidas.gram"/>
</field>
<block>
<goto next=”http:/www.bebidas.ejemplo/bebidas2.asp”
submit=“bebida” method=“get”/>
</block>
<form>
</vxml>
Ejemplo Simple VoiceXMLEjemplo Simple VoiceXML
S1 (sistema): ¿Qué tipo de bebida quieres: café,leche o té?
U1 (usuario): quiero un café con leche
S2: Perdón no te he entendido, puedes repetir ¿Qué tipo de bebida quieres: café,leche o té?
U2: sí, que quiero café
S3: tenemos varios tipos de café...
...
Problemática de Diseño de Sistemas de Diálogo
Prof. Luis A. Hernández Gómez
Grupo de Aplicaciones del Grupo de Aplicaciones del Procesado de Señal Procesado de Señal