introducción al pln 1
Post on 19-Mar-2016
63 Views
Preview:
DESCRIPTION
TRANSCRIPT
PLN Introducción Ingeniería Lingüística 1
Introducción al PLN 1
• Presentación del curso• Ingeniería lingüística
• Tareas• Recursos• Aplicaciones
• Niveles de procesamiento lingüístico
PLN Introducción Ingeniería Lingüística 2
Del PLN a la Ingeniería Lingüística
• La Ingeniería Lingüística es la aplicación del conocimiento de la lengua al desarrollo de sistemas informáticos capaces de reconocer, comprender, interpretar y generar lenguaje humano en todas sus formas.
• La IL comprende:• Métodos, Técnicas y Herramientas• Recursos (Lingware)• Aplicaciones
PLN Introducción Ingeniería Lingüística 3
Componentes de la Tecnología
TEXTO VOZ IMAGEN
ENTRADA
SALIDA
TEXTO VOZ IMAGEN
RECURSOS LINGÜÍSTICOS
Reconocer yValidar
Analizar yComprender Aplicar Generar
PLN Introducción Ingeniería Lingüística 4
Técnicas utilizadas
• Identificación del hablante. Verificación• Reconocimiento del habla• Reconocimiento de caracteres e imágenes• Comprensión de la lengua• Generación de lenguaje• Sistemas basados en diálogos• Síntesis del habla
PLN Introducción Ingeniería Lingüística 5
Identificación del hablante. Verificación
• Problemas:• Hablante desconocido• Ruido (en el entorno o en el medio de
transmisión)• Cambios temporales en el hablante
PLN Introducción Ingeniería Lingüística 6
Reconocimiento del habla
• Discurso discreto vs continuo• Adquisición y uso de modelos
estadísticos de los fonemas y palabras• Reconocimiento de cualquier locutor
(sin necesidad de entrenamiento)• Ruido• Acento, dialectos, agramaticalidades
PLN Introducción Ingeniería Lingüística 7
Reconocimiento de caracteres e imágenes
• Reconocimiento de caracteres impresos (OCR)• tipo de letra desconocido• mala calidad del texto
• Reconocimiento de texto escrito a mano (ICR)• Reconocimiento de imágenes
• Análisis del documento. • Separación en gráficos, texto, fotografías• Análisis del texto: títulos, encabezados, párrafos,
etc...
PLN Introducción Ingeniería Lingüística 8
Comprensión de la lengua
• Comprensión completa o parcial• Análisis incremental:
• Análisis parcial y/o superficial• localización de focos de interés• Análisis más detallados de dichos focos
• Técnicas lingüísticas, estadísticas e híbridas
• Modelos semánticos• Palabras desconocidas
PLN Introducción Ingeniería Lingüística 9
Generación de lenguaje
• Representación semántica del texto• Qué decir y Cómo decirlo (what to say,
how to say)• Planificación del contenido y de la forma• Elementos retóricos
PLN Introducción Ingeniería Lingüística 10
Sistemas basados en diálogos
• Alto nivel de comprensión• Calidad del diálogo• Detección del contenido ilocutivo de las
intervenciones del interlocutor humano• Acciones primitivas locutivas y no locutivas
• comunicaciones, órdenes, peticiones, preguntas, etc...
• Actos de habla directos e indirectos
PLN Introducción Ingeniería Lingüística 11
Síntesis del habla
• Contenido• Forma: intensidad, entonación, duración• Generación a partir de piezas
pregrabadas. Concatenación
PLN Introducción Ingeniería Lingüística 12
Recursos
• Lexicones generales• Diccionarios• Lexicones especializados• Ontologías• Gramáticas• Corpus textuales• Internet como fuente de información
PLN Introducción Ingeniería Lingüística 13
Lexicones generales
• Repositorios de palabras• lemarios, formarios, listas de palabras, ...
• Conocimiento sobre las palabras– Fonología– Morfología: categoría, concordancia..– Sintaxis: categoría, subcategorización, estructura
argumental, valencia, patrones de co-occurrencia...– Semántica: clase semántica,restricciones selectivas...– Pragmática: uso, registro, dominio, ...
PLN Introducción Ingeniería Lingüística 14
Diccionarios
• MRDs• tipos: generales, normativos, de uso, de
aprendizaje, mono/bilingües...• tamaño, contenido, organización
• entrada, acepción, relaciones, ...• Bases de datos léxicas
• ej. Acquilex LDB• Otras fuentes: enciclopedias, tesauros,...
PLN Introducción Ingeniería Lingüística 15
Lexicones especializados
• Nombres propios• Bases de datos terminológicas• Gazetteers• Diccionarios de locuciones, lexías,...• Wordnets• Siglas, jergas• Detectores de fechas, números,
fórmulas,...
PLN Introducción Ingeniería Lingüística 16
Ejemplo: relaciones morfoléxicas. U. Las Palmas (O. Santana)
PLN Introducción Ingeniería Lingüística 17
Ejemplo: utilización de Gazetteers en sistemas de Q&A
• Multitext (U.Waterloo)• Clarke et al, 2001, 2002
• Structured data• biographies (25,000), Trivial Q&A (330,000),
Country locations (800), acronyms (112,000), cities (21,000), animals (500), previous TREC Q&A (1393), ...
• 1 Tb of Web data• Altavista
• AskMSR (Microsoft)• Brill, 2002
PLN Introducción Ingeniería Lingüística 18
Gramáticas
• Gramáticas morfológicas• Gramáticas sintácticas
• Gramáticas de constituyentes• Gramáticas de dependencias• Gramáticas de casos• Gramáticas Transformacionales• Gramáticas sistémicas
• Gramáticas sintagmáticas vs de unificación• Gramáticas probabilísticas• Cobertura, lengua, categorías
PLN Introducción Ingeniería Lingüística 19
Ontologías
• Ontologías léxicas vs conceptuales• Ontologías generales vs de dominio• Ontologías de tareas, metaontologías• Contenido, granularidad, relaciones• Interlinguas: KIF, PIF• CYC, Frame-Ontology, WordNet,
EuroWordNet, GUM, MikroKosmos
PLN Introducción Ingeniería Lingüística 20
Corpus 1
• Textuales vs orales• Gran tamaño (1Mw - 1Gw)• Poco (o nada) estructurados• Información no disponible en forma más
tratable:• colocaciones, estructura argumental, contexto
de aparición, inducción gramatical, relaciones léxicas, restricciones selectivas, lexías, ejemplos de utilización,...
PLN Introducción Ingeniería Lingüística 21
Corpus 2
• Corpus anotados (tagged)• categoría gramatical (pos tagging) posible o
desambiguada• lema• acepción (granularidad)• parentizados• analizados sintácticamente (profundidad)• alineados
• Corpus equilibrados, piramidales, oportunistas
PLN Introducción Ingeniería Lingüística 22
Corpus 3 ejemplos
• Brown Corpus• ACL/DCI (Wall Street Journal, Hansard, ...)• ACL/ECI (European Corpus Initiative)• USA-LDC (Linguistic Data Consortium)• LOB (ICAME, International Computer Archive of Modern English)• BNC (British National Corpus)• SEC (Lancaster Spoken English Corpus)• TOSCA• Collins-Cobuild• PAROLE• IBM/Lancaster treebank• Penn Treebank• Susanne• SemCor• Trésor de la Langue Française (TLF)
PLN Introducción Ingeniería Lingüística 23
Corpus 4 ejemplos
• Instituto Cervantes. Observatorio Español de Industrias de la Lengua "http://www.cervantes.es/oeil/Oeil0.htm
• CREA, recopilado por la RAE. 200 Mw. etiquetado y lematizado
• CRATER, (esp, ing, fran), U.A.Madrid. 5.5Mw. alineado, anotado morfosintácticamente
• ALBAYZIN. Corpus oral, frases aisladas, consultas a BD geográfica. UPC (TSC), UGr, UPMad, UPVal, UABar
• LEXESP, 5Mw, anotado morfosintácticamente, lematizado, UBar, UPC
• IEC en el marco del DCC (catalán)
PLN Introducción Ingeniería Lingüística 24
Ejemplo: proyecto 3lb
PLN Introducción Ingeniería Lingüística 25
Internet como fuente de información 1
• Fuente ingente de información• 1000 Millones de páginas, decenas de Tb, • expansión (doble en 2 años)
• (Cho, 2002)
• Heterogénea• contenido, lengua (70% inglés), formatos
• Servidores de información general• (Medialinks)• 14.000 servidores (5000 periódicos, 70 en España)
PLN Introducción Ingeniería Lingüística 26
Internet como fuente de información 2
• Internet hoy• documentos HTML• dirigidos al consumo (visualización) humano• muchos generados automáticamente por aplicaciones• acceso a través de
• URLs conocidas• buscadores (o metabuscadores) de propósito general• buscadores específicos de una URL determinada
• Limitaciones• dificultad de consumir (por las aplicaciones) texto marcado
(generalmente mal) HTML• dificultad de construcción (y mantenimiento!) de los wrappers
PLN Introducción Ingeniería Lingüística 27
Internet como fuente de información 3
• Tareas relacionadas con la gestión de información en Internet• Modelado y consulta a la Web
• Localización de páginas potencialmente útiles• Consulta a fuentes heterogéneas• Question Answering
• Extracción de Información• Integración de Información• Construcción (y reestructuración) de Web sites• Agentes (crawlers, spiders, softbots, infobots ...)
PLN Introducción Ingeniería Lingüística 28
Internet como fuente de información 4
• Fuentes de información en la Web• Estructuradas
• Bases de datos
• Semi-estructuradas• Exhiben cierta regularidad• No suelen emplear LN no restringido• Elementos extraños que pueden ayudar (marcas HTML, XML) o
confundir (applets, propaganda, ...)• Una alta proporción de recursos actuales en Internet son fuentes semi-
estructuradas => útiles• Semantic Web
• Libres• texto no restringido
PLN Introducción Ingeniería Lingüística 29
Recursos: Repositorios y otras iniciativas 1
• ELRA (European Language Resources Association)• http://www.icp.grenet.fr/ELRA/home.html
• LDC (Linguistic Data Consortium)• http://www.ldc.upenn.edu/
• Eagles (Expert Advisory Group on Language Engineering Standards)• http://www.ilc.pi.cnr.it/EAGLES/home.html
• TEI (Text Encoding Initiative)• http://www.tei-c.org/
• ELSNET (European Network in Language and Speech)• http://www.elsnet.org/
PLN Introducción Ingeniería Lingüística 30
Recursos: Repositorios y otras iniciativas 2
• ACL NLP/CL Universe• http://www.summarization.com/~radev/u/db/acl/• ACL- DCI Data Collection Initiative• The NLP/CL Universe, a publicly extensible indexed
compilation of Web resources related to computational linguistics.
• Multext (Multilingual Text Tools and Corpora)• http://www.lpl.univ-aix.fr/projects/multext/
• CLR (Consortium for Lexical Resources)• EDR
PLN Introducción Ingeniería Lingüística 31
Aplicaciones 1
• Aplicaciones genéricas• (ayuda a la) traducción automática• gestión de la información (multilingüe)• authoring (multilingüe)• interfaz persona/máquina (multilingüe,
multimodal)• Obtención de recursos
• Aplicaciones específicas
PLN Introducción Ingeniería Lingüística 32
Aplicaciones 2
• traducción automática• TA con intervención humana, • TH. asistida• entornos de ayuda a la TH• Adquisición automática de recursos
para la TA (corpus alineados, modelos de traducción, memorias de traducción, ...)
PLN Introducción Ingeniería Lingüística 33
Aplicaciones 3
• gestión de la información• productores de resúmenes,• indiciadores,• {recuperación, extracción, formateo, filtrado,
encaminado} de información,• minería de información textual,• buscadores conceptuales, • alineadores de textos, • “guessers”• sistemas de búsqueda de la respuesta
PLN Introducción Ingeniería Lingüística 34
Aplicaciones 4
• “authoring”• correctores léxicos, gramaticales,
estilísticos, • consulta online de diccionarios, tesauros,
ontologías,• facilidades para la estructuración e
integración de documentos• interfaz persona/máquina (multilingüe,
multimodal)
PLN Introducción Ingeniería Lingüística 35
Aplicaciones 5
• Obtención de recursos lingüísticos• corpus alineados• gramáticas• gazetteers• morfología• restricciones de selección• patrones de subcategorización• Topic Signatures• ...
PLN Introducción Ingeniería Lingüística 36
Aplicaciones 4
• gestión de la información• productores de resúmenes, indiciadores, {recuperación,
extracción, formateo, filtrado, encaminado} de información, buscadores conceptuales, alineadores de textos, “guessers”
• “authoring”• correctores léxicos, gramaticales, estilísticos, consulta online
de diccionarios, tesauros, ontologías, facilidades para la estructuración e integración de documentos
• interfaz persona/máquina (multilingüe, multimodal)
PLN Introducción Ingeniería Lingüística 37
La ingeniería lingüística en Europa
• planes nacionales de investigación y desarrollo tecnológico
• 5º Programa Marco de I+D de la Unión Europea (1998-2002)• 9 áreas científico-tecnológicas
• área de las Tecnologías de la Información y las Comunicaciones
• 12 áreas sectoriales• área de la Sociedad de la Información
• 6º Programa Marco (2004-2008)
PLN Introducción Ingeniería Lingüística 38
Los programas marco de la UE
• Ingeniería Lingüística• Dirección General XIII
• Human Language Technologies• Programas concretos
• ESPRIT (Information Technologies)• LRE (Linguistic Research Engineering)•MLIS (Multilingual Information Society)• INCO (International Cooperation)• LE (Language Engineering)•HLT (Human Language Technologies).
PLN Introducción Ingeniería Lingüística 39
La investigación española en ingeniería lingüística
• Investigación de grupos españoles vs investigación sobre la lengua española• Técnicas independientes de la lengua• Mecanismos de evaluación para el inglés• Otras lenguas • Otros grupos europeos• Grupos americanos
PLN Introducción Ingeniería Lingüística 40
Cuántos grupos
• Unos 30 grupos• SEPLN (1997)• I.Cervantes
• Almansa et al, 1998• Llisterri, Garrido, 1998
• 75% en Universidades y C. Investigación• Equilibrio texto/habla/recursos• Áreas, aplicaciones• Especial interés en Recursos
top related