t ecnologÍas del lenguaje ana maríatangarife patiño

25
TECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

Upload: elvira-lozano-castilla

Post on 25-Jan-2016

223 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL LENGUAJE

Ana MaríaTangarife Patiño

Page 2: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

¿QUÉ SON?

Las tecnologías del lenguaje, también llamadas tecnologías lingüísticas o tecnologías para el lenguaje humano se integran en aplicaciones informáticas para permitir el tratamiento de textos escritos, procesamiento, dictado o lectura automática en voz alta de un mensaje.

Estas tecnologías hacen posible la creación de herramientas en las que se utilizan los ordenadores sin renunciar por ello a nuestro uso habitual del lenguaje como medio de interacción y de intercambio de información.

Page 3: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

SE DISTINGUEN…

Tecnologías lingüísticas que se centran en la lengua escrita. Procesamiento del lenguaje natural o tecnologías del texto escrito.

Tecnologías lingüísticas que tienen por objeto el habla.

El desarrollo de estas tecnologías y sus aplicaciones requieren disponer de recursos lingüísticos, entre los que se cuentan los corpus, los diccionarios y las gramáticas.

Page 4: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

OBJETO DE LAS TECNOLOGÍAS DEL HABLA

Speech technologies Tienen por objeto el tratamiento informático de

la lengua oral. Permiten que un ordenador:

Ofrezca información hablada: síntesis del habla. Reconozca los enunciados emitidos por un locutor:

reconocimiento automático del habla. Combine ambas tecnologías para entablar una

interacción: sistemas de diálogo. Tiene su origen en la ingeniería de

telecomunicaciones: telefonía, tratamiento digital de señales.

Page 5: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL HABLA - LINGÜÍSTICA

Síntesis del habla: conversión de texto en habla Reconocimiento del habla Sistemas de diálogo

La fonética, tanto en su vertiente descriptiva como experimental, es la disciplina lingüística que más directamente entronca con las tecnologías del habla.

Es necesario recurrir a conocimientos fonológicos, morfológicos, sintácticos, semánticos e incluso pragmáticos para representar fenómenos más precisos.

Page 6: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL HABLA.SÍNTESIS DEL HABLA

Objetivo: generar automáticamente mensajes orales, partiendo de un texto escrito

Conversión de texto en habla Representación simbólica

Transforma automáticamente cualquier texto escrito y disponible en formato electrónico en su correspondiente realización sonora.

Page 7: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL HABLA.SÍNTESIS DEL HABLA

La estructura de un conversor es modular, de manera que cada uno se ocupa de un aspecto de conversión de la cadena inicial de caracteres (texto) hasta la señal sonora, equivalente a su lectura en voz alta.

Page 8: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL HABLA.SÍNTESIS DEL HABLA

Ejemplos: Conversión de texto a habla:

En línea:

http://vozme.com/index.php?lang=es

http://www.ivona.com/us/

Para descarga:

https://addons.mozilla.org/en-US/firefox/addon/text-to-voice/

Page 9: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL HABLA.RECONOCIMIENTO DEL HABLA

Transformar una señal sonora (habla) y su correspondiente representación simbólica en un texto escrito.

Ejemplo:

Programas comerciales de dictado automático orientados a los usuarios que desean escribir sus textos sin recurrir al teclado del ordenador.

Page 10: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL HABLA.RECONOCIMIENTO DEL HABLA

Los reconocedores son sistemas que aprenden automáticamente de un extenso corpus de habla y, en el momento de enfrentarse a un nuevo enunciado, lo comparan con los datos que previamente han extraído de este corpus.

Actividades para desarrollar un sistema de reconocimiento: Diseñar y recoger el corpus de aprendizaje (o de

entrenamiento). Adquirir información para crear modelos de cada

una de las unidades de reconocimiento. Obtención la gramática del reconocedor: modelo

que recoge las probabilidades de aparición de palabras en un determinado punto.

Page 11: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL HABLA.RECONOCIMIENTO DEL HABLA

Page 12: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL HABLA.RECONOCIMIENTO DEL HABLA

Disciplinas como la fonética y la dialectología son muy relevantes para el reconocimiento automático del habla, puesto que aportan información básica y criterios prácticos para el desarrollo de los sistemas.

Ejemplo

http://www.e-speaking.com/publish.htm

Page 13: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL HABLASISTEMAS DE DIÁLOGO

Objetivo: facilitar la interacción mediante el habla entre una persona y un sistema informático.

Se utilizan en: Servicios telefónicos automáticos de información. Servicios de atención al cliente en ámbitos como la

banca y el comercio electrónicos. Tecnologías básica que sustentan los

denominados portales de voz. Información meteorológica. Cartelera, museos, restaurantes, farmacias de

guardia, compañías de taxi, etc. Son equivalentes a los que se encuentran en los

portales convencionales en la web.

Page 14: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL HABLASISTEMAS DE DIÁLOGO

Un sistema de diálogo consta de un conjunto de módulos que realizan todas las tareas necesarias para facilitar una información o llevar a cabo una transacción.

Page 15: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL HABLASISTEMAS DE DIÁLOGO

Problemas lingüísticos implicados en el desarrollo sistemas de diálogo Reconocimiento del habla

Ejemplo: un reconocedor puede presentar problemas a la hora de distinguir entre “Palencia” y “Valencia”, lo que hace necesario que en el módulo de gestión del diálogo se prevean estrategias de confirmación de la información dudosa, preguntando, por ejemplo “¿Desea usted viajar a Palencia o a Valencia?” o “¿Quiere usted saber los horarios de trenes a Palencia?”.

Reconocimiento de los rasgos prosódicos Ejemplo: “No, quiero viajar por la mañana” o “No quiero

viajar por la mañana” depende exclusivamente de la correcta detección de la pausa.

Diferencia a partir de la entonación Ejemplo: Pregunta: “¿Puedo viajar el lunes?” o una

aseveración: “Puedo viajar el lunes”

Page 16: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL HABLASISTEMAS DE DIÁLOGO

Ejemplo

http://www.youtube.com/watch?v=zGpuZNLWT8Y

Page 17: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL TEXTO

Se ocupan de la vertiente escrita de la lengua.

Se distinguen:

Las herramientas con las que se procesa la lengua escrita.

Las tecnologías empleadas en el desarrollo de aplicaciones.

Page 18: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL TEXTOHERRAMIENTAS DE AYUDA A LA ESCRITURA

Programas de corrección ortográfica y gramatical que se encuentran incorporados a la mayoría de los procesadores de textos y que pueden describirse genéricamente como herramientas de ayuda a la escritura.

En la corrección automática de textos se distinguen tres niveles de complejidad:

Verificación ortográfica. Verificación gramatical. Verificación de estilo.

Page 19: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL TEXTOHERRAMIENTAS DE AYUDA A LA ESCRITURA

Problemas

Ciertos errores en el texto escapan con facilidad al sistema. Por ejemplo en palabras que utilizan ciertos prefijos.

Aparecen como erróneas palabras que contienen equivocaciones ortográficas o de mecanografiado, sino también palabras existentes en la lengua pero que no han sido incluidas en el diccionario en el que se basa el corrector.

Page 20: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL TEXTOHERRAMIENTAS DE ANÁLISIS LINGÜÍSTICO

Programas que realizan de manera automática operaciones en morfología y sintaxis:

Extraer la raíz de una palabra. Segmentar la palabra en morfemas. Asignar la categoría gramatical correspondiente. Determinar la parte de la oración a la que pertenece la

palabra. Descomponer una frase en sus constituyentes indicando

la función sintáctica de cada uno de ellos. Estas herramientas se denominan lematizadores:

su función es detectar el radical de una palabra, separándola de los morfemas derivativos o flexivos que la acompañan

Analizadores semánticos

Page 21: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL TEXTOPROCESAMIENTO DEL LENGUAJE NATURAL

Generación del lenguaje: Se realiza a partir de una representación abstracta que debe transformarse en un texto bien formado. Problema: El contenido de una misma

representación puede manifestarse en la lengua de diversos modos.

Traducción automática: Requiere conocimiento morfológico, sintáctico, léxico y semántico automáticos. Es imprescindible además tener un conocimiento

del mundo, información que difícilmente puede formalizarse por ahora en un programa informático. Ejemplo: http://translate.google.com/toolkit

Page 22: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL TEXTOTRADUCCIÓN AUTOMÁTICA

Page 23: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

TECNOLOGÍAS DEL TEXTORECUPERACIÓN Y EXTRACCIÓN Esta operación consiste en seleccionar, en un conjunto de

documentos, aquellos que contienen la información que un usuario solicita mediante una consulta.

Problemas

Reconocimiento de nombres propios, ya que éstos se encuentran de diversas formas en los textos

“Lorca”, “García Lorca” o “Federico García Lorca” Poeta o ciudad

Correferencia: la misma persona puede aparecer en un documento con su apellido, su nombre y apellido o su cargo, y los tres deben identificarse como referentes al mismo individuo.

Anáfora: La extracción de información se lleva a cabo partiendo de un análisis morfológico, léxico y sintáctico de los documentos, y se basa en nociones como entidades, relaciones, o acontecimientos en el marco de un dominio determinado.

Page 24: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

RECURSOS LINGÜÍSTICOS Corpus: Conjunto estructurado de textos que

constituyen una muestra realista del uso de la lengua.

Orales Escritos o textuales

Tienen un diseño coherente, marcas en los textos, estructura según estándares y documentación completa de la procedencia y características de los textos.

Léxicos computacionales: léxicos monolingües o multilingües y redes léxico-semánticas. Contiene información morfológica, sintáctica y semántica

relevante para diversas aplicaciones de PLN. Gramáticas computacionales: Descripción

formalizada del conocimiento lingüístico que puede ser empleada por las herramientas de análisis y de generación de textos.

Page 25: T ECNOLOGÍAS DEL LENGUAJE Ana MaríaTangarife Patiño

REFERENCIAS

Sistemas de diálogo hablado y multimodal. En: http://www.ugr.es/~rlopezc/sistemas_dialogo.htm

Llisterri, Joaquim. Lingüística y tecnologías del lenguaje. Lynx. Panorámica de Estudios Lingüísticos, 2; pp. 9-71. En: http://liceu.uab.es/~joaquim/publicacions/Llisterri_03_Linguistica_Tecnologias_Lenguaje.pdf