un método de extracción de equivalentes de traducción a partir de un compus comparable...
TRANSCRIPT
Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego
Grupo de Gramática do Espanhol Departamento de Língua Espanhola,
Universidade de Santiago de Compostela
Xornadas empresa-universidade, Santiago, 2007
En colaboración con:
Empresa Imaxin | Software:
Área Imaxim | Context
(Responsable: José Ramom Pichel Campos)
Grupo Gramática do Español
Miembros que colaboran en la Red: Guillermo Rojo (coordinador)
M. Paula Santalla del Río
Victoria Vázquez Rozas
Susana Sotelo Docio
M. del Pilar Valverde Ibáñez
Pablo Gamallo Otero
Grupo Gramática do Español
Líneas de Investigación Estructura sintáctico-semántica de la cláusula
Elaboración y análisis de corpus
Bases de datos sintácticos (BDS)
Analizadores automáticos (parsers)
Extracción de información mono y plurilingüe
Objetivo generalConstruir léxicos bilingües:
archivo: file (.85), directory (.23), ...
Método:- Estrategias de extracción a partir de grandes cantidades de corpus no-paralelos y de temática comparable.
- Recursos externos: diccionarios bilingües electrónicos.
Objetivo específico
Actualizar el diccionario bilingüe castellano-gallego del traductor automático OPENTRAD.
Motivación:La falta de cobertura del diccionario castellano-gallego es la principal causa de errores de traducción:
cobertura diccionario 47%errores morfo-sintácticos 26%polisemia léxica 16%otros 11%
Trabajo relacionado
- Extracción de léxicos bilingües a partir de corpus paralelos y alineados
- Extracción de léxicos bilingües a partir de corpus no paralelos y comparables
Trabajo relacionado Extracción a partir de corpus paralelos
Requisito: el corpus Fuente y Meta están alineados (p.e. al nivel de la oración).
Método: Una palabra del corpus Fuente es similar a una palabra del corpus Meta, si las dos tienden a aparecer en los mismos segmentos alineados.
Word cannot copy the selected file to the base path because the following error occurred:
Unable to copy the file.
The file could not be saved because there was a sharing violation.
345Word no puede copiar el archivo seleccionado en la ruta de acceso de base debido al siguiente error:
067El archivo no se puede copiar.
003No pudo guardarse el archivo a causa de una infracción al compartir.
- Similaridad basada en el cálculo de los segmentos comunes :archivo file (003, 067, 345, ...)
Trabajo relacionado Extracción a partir de corpus no paralelos
Requisitos: un diccionario bilingüe que nos provea de un conjunto de palabras semilla (“seed words”).Método: Una palabra en el corpus Fuente es similar a una palabra del corpus Meta, si las dos tienden a coocurrir con las mismas palabras semilla dentro de una ventana de tamaño N (N = oración, párrafo, ...).
- Seed words:guardar save 0560copiar copy 0308seleccionar select 1002infracción violation 0601
- Similaridad basada en el cálculo de los “seed words” comunes:archivo file (0560, 0308, 1002, 0601...)
Nuestro enfoque
Extracción de léxicos bilingües a partir de corpus no paralelos
- En lugar de “palabras semilla”, usamos “contextos semilla”:
< guardar NOUN1 > < save NOUN
1 > 0340
< copiar NOUN1 > < copy NOUN
1 > 0456
< NOUN1 seleccionado > < selected NOUN
1 > 1204
- Similaridad basada en el cálculo de “contextos semilla” comunes:
archivo file (0340, 0456, 1204, ...)
Nuestro enfoque
Características genéricas del aprendizaje:
no supervisado
+- dependiente de la lengua
+- pobre en conocimiento lingüístico
Etapas del método
1) Procesamiento lingüístico del corpus
2) Generar el conjunto de contextos semilla
3) Crear vectores de palabras y expresiones multiléxicas en las dos lenguas
4) Construción del léxico bilingüe
1. Procesamiento lingüístico
Anotación y desambiguación morfosintáctica:- textos en inglés, francés y portugués: TreeTagger (Schimd, 2000).- textos en castellano y gallego: Freeling (Carreras et al., 2004).
Identificación de patrones léxico-sintácticos:
<acceso a NOUN><aprobar NOUN><enviar a NOUN><tráfico ADJ><NOUN de Portugal><NOUN afirmar><NOUN sexual><VERB a Portugal>
2. Los contextos semilla
- Escogemos los pares bilingües de entradas no polisémicas de un diccionario bilingüe. - Por cada par, generamos todos los pares de contextos posibles.
Por ejemplo: “venta” - “venda”:
<venta de/con/a/en... NOUN> <venda de/con/a/en... NOUN><NOUN prp venta> <NOUN de/con/a/en... venda><VERB venta> <VERB venda><venta VERB> <venda VERB><VERB de/con/a/en... venta> <VERB de/con/a/en... venda><venta ADJ> <venda ADJ><ADJ venta> <ADJ venda>
3. Vectores de palabras
índice contexto freq.00198 <estudio de N> 12300234 <estudiante de N> 21800456 <curso de N> 6901223 <asignatura de N> 3502336 <N en Lugo> 607789 <estudiar N> 9808121 <cursar N> 56
índice contexto freq.00198 <estudo de N> 7800234 <estudante de N> 14500456 <curso de N> 4501223 <materia de N> 4102336 <N en Lugo> 3507789 <estudar N> 2308121 <cursar N> 13
Extracto del vector del sustantivo castellano:“Bachillerato”
Extracto del vector del sustantivo gallego:“Bacharelato”
- Creamos los vectores de palabras en las dos lenguas usando loscontextos semilla, y filtrando aquéllos con dispersión elevada.
4. Creación del léxico bilingüe• Cada expresión del corpus Fuente se compara con las expresiones del corpus Meta (frecuencia de coocurrencia en contextos semilla). • Escogemos las N palabras (N = 5) del corpus Meta con el valor de similaridad más alto (coeficiente Dice).
accidentado Vaccidentados Naccidental Aaccidentalidade Naccidente_de_tráfico accidente_de_tráfico Naccidente_de_Prestige fuerte_lluvia, huracán, oleada_de_incendio Naccidente_en_estrada accidente_en_carretera Naccidente N
fletado, accidentado
accidentados, accidentado
accidental, inesperado, silenciosos
accidentalidad, sangría, mortalidad, fracaso_escolar, sinistrialidad
accidente, incendio, incidente, suceso, hecho
Coeficiente DICE
, e1
Dice (e
i
2
, e1
2F (e2
+ F(e1
F (e 2
, e1
F (e2 , s
1min(f (e
if (e
2, s
i
in
F (e , s(f (e in
s = contexto semilla de un corpus no-paralelo
ExperimentosCorpus no-paralelo comparable:
- Parte española: 13 millones (El Correo Gallego, La Voz de Galicia)
- Parte gallega: 10 millones (Galicia-Hoxe, Vieiros, A Nosa Terra)
Diccionario bilingüe de OpenTrad:
- más de 28.000 entradas
- número de contextos semilla: 539.561 (+754.469 a partir de cognados)
Vectores de palabras
- con 127.604 posiciones (contextos semilla seleccionados)
EVALUACIÓNPrecisión y Cobertura
Categoría Cobertura Prec-1 Prec-10 Tamañoléxico
Nombre 80% 81% 90% 3534
Adjetivo 80% 81% 87% 639
Verbo 80% 97% 100% 401
Nombre Multi-lex 50% 59% 62% 2013
En [Rapp, 1999], Precisión-1 = 72%Precisión-10 = 86%
Actualización del diccionario de Opentrad
Nuevo corpus no-paralelo: 22 X 2 millones Tamaño del léxico extraído: 41.892 entradas bilingües Número de entradas extraídas que ya están en el
diccionario: 12.344 Número de entradas multiléxicas extraídas con
traducción composicional: 16.047
Filtrado manual del resto de entradas (~13.000):
2.659 nuevas entradas
Trabajo por hacer
Fuerza bruta: recuperar cada N meses nuevos textos de la web
- Tasas de crecimiento de nombres comunes, verbos y adjetivos: > 0,5%
- Tasa de crecimiento de nombres propios: > 7%
Técnicas recursivas y de bootstrapping - incrementar el número de contextos semilla utilizando
expresiones multiléxicas composicionales aprendidas en anteriores fases de extracción.