recursos(y(herramientas(al(amparo( de(las(teorías(lingüís6cas(
Post on 01-Jul-2022
5 Views
Preview:
TRANSCRIPT
Universidad de Málaga, 7 de Abril de 2016
1
Recursos y herramientas al amparo de las teorías lingüís6cas
Mercè Lorente
merce.lorente@upf.edu
Universidad de Málaga, 7 de Abril de 2016
2
Guión
1. Introducción 2. Recursos y herramientas 3. De teorías, modelos y mecanismos 4. El diseño de recursos y herramientas:
adecuación y coherencia 5. Ejemplos
Universidad de Málaga, 7 de Abril de 2016
3
De recursos y herramientas
Universidad de Málaga, 7 de Abril de 2016
4
Recursos lingüísJcos (1)
• Corpus textuales – Orales – Escritos – MulJmedia
• Recursos léxicos – Diccionarios – Bancos de datos – Jerarquías léxicas
Universidad de Málaga, 7 de Abril de 2016
5
Recursos lingüísJcos (2)
• Bancos de conocimiento – Enciclopedias – Ontologías – Portales integrados (corpus, léxicos, ontologías)
• Otros
Universidad de Málaga, 7 de Abril de 2016
6
CaracterísJcas
• Datos ordenados sistemáJcamente • Datos eJquetados (estándares) • Comparables • ReuJlizables
Universidad de Málaga, 7 de Abril de 2016
7
Herramientas lingüísJcas
• De búsqueda y clasificación de documentos • De estructuración (preproceso) • De procesamiento del lenguaje natural (PLN) • De extracción de datos lingüísJcos • De recuperación de la información (RI)
Universidad de Málaga, 7 de Abril de 2016
8
Búsqueda y clasificación
• Buscadores y metabuscadores • Indizadores de documentos • Filtros lingüísJcos • Clasificadores temáJcos de documentos
Universidad de Málaga, 7 de Abril de 2016
9
Estructuración y preproceso
• Metadatos de corpus y de documentos • Segmentación de unidades (o tokenización) • EJquetaje estructural • IdenJficación de nombres propios • IdenJficación y estandarización de fechas y canJdades
• IdenJficación de unidades fraseológicas • IdenJficación de préstamos de otras lenguas
Universidad de Málaga, 7 de Abril de 2016
10
Procesamiento del lenguaje natural
• EJquetaje morfosintácJco • Desambiguación lingüísJca • Desambiguación estadísJca o estocásJca • Análisis sintácJco • EJquetaje semánJco • EJquetaje pragmáJco-‐discursivo
Universidad de Málaga, 7 de Abril de 2016
11
Extracción
• Interfaces de consulta de corpus • Frecuencias y concordancias • Análisis lexicométrico • Extracción automáJca de terminología • Detección automáJca de neología – Neología formal y filtros lexicográficos – Neología semánJca y estrategias formales
Universidad de Málaga, 7 de Abril de 2016
12
Recuperación de información
• Expansión de consultas • Sistemas de pregunta-‐respuesta • Sistemas de diálogo persona-‐máquina
Universidad de Málaga, 7 de Abril de 2016
13
De teorías, modelos y mecanismos
Universidad de Málaga, 7 de Abril de 2016
14
Paradigmas cienbficos(1)
• El progreso cienbfico no es visto como la acumulación de observaciones, sino como "el repeJdo derrocamiento de teorías cienbficas y su reemplazo por otras mejores o más saJsfactorias“ (carácter permanentemente revolucionario de la ciencia). POPPER, Karl R. (1959) La lógica de la inves6gación
cien<fica. México: Rei, 1996. p. 16
Universidad de Málaga, 7 de Abril de 2016
15
Paradigmas cienbficos (2)
• Los paradigmas son "realizaciones cien<ficas universalmente reconocidas que, durante mucho 6empo, proporcionan modelos de problemas y soluciones a una comunidad cien<fica“.
KUHN, Thomas S. (1962) La estructura de las
revoluciones cien<ficas. México: Fondo de Cultura Económica, 2001. p. 13.
Universidad de Málaga, 7 de Abril de 2016
16
Conjunto de principios y fundamentos básicos sobre un objeto cienbfico. Se refiere a • la delimitación del objeto, • los objeJvos cienbficos que se propone, • y al método cienbfico uJlizado. Ejemplo: El generaJvismo, respecto de la lingüísJca anterior, es una teoría mentalista del lenguaje, que desarrolla subteorías como la teoría de la adquisición del lenguaje, la teoría de los universales del lenguaje y la teoría formal del lenguaje.
¿Qué es una teoría?
Universidad de Málaga, 7 de Abril de 2016
17
¿Qué es un modelo? Modelo: Representación ideal de un objeto Modelo lingüísJco: Representación ideal de la gramáJca del
hablante • Se inscribe en una teoría (marco teórico) • Puede ser un modelo completo, parcial o simplificado. • Puede evolucionar. • Para cada teoría, puede haber varios modelos. Ejemplo: Diferentes versiones de la gramáJca generaJva
Universidad de Málaga, 7 de Abril de 2016
18
Lenguajes formales o matemáJcos para el desarrollo de modelos gramaJcales. Símbolos, reglas, relaciones, etc. • Mecanismos descripJus o de representació • Mecanismos de processament i validació • Mecanismos de generalització
Ejemplos: • Mecanismos de unificación, como los de LFG (Bresnan & Kaplan 1982) o HPSG (Pollard & Sag 1990) • Mecanismos de generalización
¿Qué son los mecanismos?
Universidad de Málaga, 7 de Abril de 2016
19
TEORÍAS MODELOS MECANISMOS
OBJETOS DISEÑOS PROCEDIMIENTOS
Universidad de Málaga, 7 de Abril de 2016
20
Los paradigmas actuales de la lingüís6ca
Universidad de Málaga, 7 de Abril de 2016
21
La historia de la lingüísJca (1)
• Los estudios lingüísJcos antes de la lingüísJca – Las aplicaciones: Orientación prescripJva. – La reflexión: Los antecedentes de la filosora del lenguaje
– La historia de la lengua. La gramáJca histórica
Universidad de Málaga, 7 de Abril de 2016
22
La historia de la lingüísJca (2)
• La lingüísJca, como disciplina cienbfica – El estructuralismo europeo – El estructuralismo americano – El generaJvismo – El funcionalismo – El cogniJvismo
Universidad de Málaga, 7 de Abril de 2016
23
El generaJvismo
• La teoría innaJsta y formal del lenguaje • La gramáJca generaJva • La evolución del modelo – Principales hitos bibliográficos – CaracterísJcas comunes de las diferentes versiones
• Los mecanismos – De representación y de procesamiento
Universidad de Málaga, 7 de Abril de 2016
24
El generaJvismo, la teoría
• Teoría del lenguaje – Cambio de paradigma – Teoría de la adquisición del lenguaje – Teoría formal del lenguaje
• InnaJsmo y teoría de la adquisición • GramáJca universal • GramaJca formal
Universidad de Málaga, 7 de Abril de 2016
25
Teoría del lenguaje
• Teoría formal del lenguaje • Adecuación observacional, descripJva y explicaJva (noción de gramaJcalidad)
• Método hipotéJco-‐deducJvo • Competencia y actuación • Generación infinita • Simplicidad (no redundancia)
Universidad de Málaga, 7 de Abril de 2016
26
GramáJca formal
• Estructuras y categorías • Reglas, principios, restricciones • GramáJca como hipótesis • Universalidad de capacidad (procesos), no de contenidos
Universidad de Málaga, 7 de Abril de 2016
27
La gramáJca generaJva, el modelo
• GramáJca de la competencia • Modelo explicaJvo • Procesamiento secuencial • Modular
• Componentes de la gramáJca • Módulos teóricos
• Orientación sintacJsta • La metáfora del ordenador: input/output
Universidad de Málaga, 7 de Abril de 2016
28
Evolución del modelo
– Syntac6c Structures (1957) – Aspects of the Theory of Syntax (1965) – Remarks on nominaliza6ons (1970) – Rules and Representa6ons (1980) – Lectures on Government and Binding (1981) – The Knowledge of Language (1986) – Barriers (1986) – A Minimalist program for linguis6c theory (1992) – The Minimalist program (1995)
Universidad de Málaga, 7 de Abril de 2016
29
Componente de base
Estructura profunda
Componente transformacional
Estructura superficial
Syntac6c Structures (1957)
Universidad de Málaga, 7 de Abril de 2016
30
Comp Base R.R
Rsubcat Rlex
Comp Transf Rtransf
EP
ES
Componente sintáctico
Componente semántico
R interp semántica IS
Componente fonológico
R. Interpretación fonol IF
Aspects of the Theory of Syntax (1965)
Universidad de Málaga, 7 de Abril de 2016
31
El programa minimalista (1995) • Programa que reduce las representaciones del modelo de P&P
hacia un modelo económico, simplificado, no redundante. • A par6cular language L is an instan6a6on of the ini6al state of
the cogni6ve system of the language faculty with op6ons specified. (Chomsky 1995: 219)
• El sistema cogniJvo del lenguaje está formado por un componente computacional (derivacional) y por el lexicón.
• Los únicos niveles de representación son las interfaces hacia la FF y la FL.
• Reducción de categorías funcionales (T, C, D) • En síntesis, el PM refuerza la hipótesis de la autonomía del
lenguaje y incorpora mecanismos formales (merge) parecidos a los planteados por los FU y por la fonología de la opJmidad.
Universidad de Málaga, 7 de Abril de 2016
32
EJEMPLOS DE APLICACIONES
• LingüísJca de corpus • Análisis sintácJco • GesJón de la terminología
Universidad de Málaga, 7 de Abril de 2016
33
Qué es un corpus?
• A corpus is a collec6on of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguis6c research.
(Sinclair, 2005: 16)
Universidad de Málaga, 7 de Abril de 2016
34
No todos los corpus son corpus • Archivo digital: Agrupación de textos en soporte informáJco sin relación.
• Biblioteca de textos electrónicos: Colección de textos en soporte informáJco , de formato estándar y guiados por normas de contenido, sin criterio de selección.
• Corpus informaJzado: Colección de textos seleccionados por criterios lingüísJcos (externos o internos), codificados de manera estándar y homogenea, para ser procesados informáJcamente y para reflejar el comportamiento de una o más lenguas.
(Llisterri y Torruella, 1999: 50)
Universidad de Málaga, 7 de Abril de 2016
35
Uso de corpus
• La invesJgación en lingüísJca • La edición de obras de referencia (diccionarios, gramáJcas, libros de esJlo, tesauros documentales...)
• La enseñanza de lenguas (manuales, materiales de aprendizaje, etc.)
• El desarrollo de herramientas
Universidad de Málaga, 7 de Abril de 2016
36
Contenidos • Lengua oral: conferencies, mesas redondas, interacciones en áula, grabaciones TV o radio, cine y teatro, diálogos, entrevistas, llamadas (call centre), diarios de laboratorio, videoguía quirúrgica, etc.
• Lengua escrita: publicaciones, prensa, cartas, testamentos, leyes, pero también blogs, webs, publicidad, memorias de empresas y organismos, correo electrónico, Twiwer, mensajes, ...
Universidad de Málaga, 7 de Abril de 2016
37
Universidad de Málaga, 7 de Abril de 2016
38
La lingüísJca de corpus (LC)
• The study of language based on examples of ‘real life’ language use. (McEnery & Wilson 1996: 1)
• You know a word by the company it keeps. (Firth 1957)
• I’m interested in explaining what does occur, not what might occur. (Sinclair 1991)
Universidad de Málaga, 7 de Abril de 2016
39
Teorías y LingüísJca de Corpus
• Estructuralismo • Funcionalismo • LingüísJca textual • Variación lingüísJca
Universidad de Málaga, 7 de Abril de 2016
40
Universidad de Málaga, 7 de Abril de 2016
41
FREELING hwp://nlp.lsi.upc.edu/freeling/demo/demo.php
Universidad de Málaga, 7 de Abril de 2016
42
Análisis sintácJco
El niño irá a+l colegio el próximo otoño SN SN SN
SP
SV
S
((El niño) (irá (a(l colegio)) (el próximo otoño)))
(El niño) irá (al colegio) (el próximo otoño)
Universidad de Málaga, 7 de Abril de 2016
43
Sintaxis • Chunking (idenJficación de consJtuyentes o sintagmas)
• Full parsing (análisis de consJtuyentes) • Constraint grammar (análisis de dependencias)
• HERRAMIENTAS: IULA, Freeling, MaltParser
Universidad de Málaga, 7 de Abril de 2016
44
top related