un método de extracción de equivalentes de traducción a partir de un compus comparable...

Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego

Grupo de Gramática do Espanhol Departamento de Língua Espanhola,

Universidade de Santiago de Compostela

Xornadas empresa-universidade, Santiago, 2007

En colaboración con:

Empresa Imaxin | Software:

Área Imaxim | Context

(Responsable: José Ramom Pichel Campos)

Grupo Gramática do Español

Miembros que colaboran en la Red: Guillermo Rojo (coordinador)

M. Paula Santalla del Río

Victoria Vázquez Rozas

Susana Sotelo Docio

M. del Pilar Valverde Ibáñez

Pablo Gamallo Otero

Grupo Gramática do Español

Líneas de Investigación Estructura sintáctico-semántica de la cláusula

Elaboración y análisis de corpus

Bases de datos sintácticos (BDS)

Analizadores automáticos (parsers)

Extracción de información mono y plurilingüe

Objetivo generalConstruir léxicos bilingües:

archivo: file (.85), directory (.23), ...

Método:- Estrategias de extracción a partir de grandes cantidades de corpus no-paralelos y de temática comparable.

- Recursos externos: diccionarios bilingües electrónicos.

Objetivo específico

Actualizar el diccionario bilingüe castellano-gallego del traductor automático OPENTRAD.

Motivación:La falta de cobertura del diccionario castellano-gallego es la principal causa de errores de traducción:

cobertura diccionario 47%errores morfo-sintácticos 26%polisemia léxica 16%otros 11%

Trabajo relacionado

- Extracción de léxicos bilingües a partir de corpus paralelos y alineados

- Extracción de léxicos bilingües a partir de corpus no paralelos y comparables

Trabajo relacionado Extracción a partir de corpus paralelos

Requisito: el corpus Fuente y Meta están alineados (p.e. al nivel de la oración).

Método: Una palabra del corpus Fuente es similar a una palabra del corpus Meta, si las dos tienden a aparecer en los mismos segmentos alineados.

Word cannot copy the selected file to the base path because the following error occurred:

Unable to copy the file.

The file could not be saved because there was a sharing violation.

345Word no puede copiar el archivo seleccionado en la ruta de acceso de base debido al siguiente error:

067El archivo no se puede copiar.

003No pudo guardarse el archivo a causa de una infracción al compartir.

- Similaridad basada en el cálculo de los segmentos comunes :archivo file (003, 067, 345, ...)

Trabajo relacionado Extracción a partir de corpus no paralelos

Requisitos: un diccionario bilingüe que nos provea de un conjunto de palabras semilla (“seed words”).Método: Una palabra en el corpus Fuente es similar a una palabra del corpus Meta, si las dos tienden a coocurrir con las mismas palabras semilla dentro de una ventana de tamaño N (N = oración, párrafo, ...).

- Seed words:guardar save 0560copiar copy 0308seleccionar select 1002infracción violation 0601

- Similaridad basada en el cálculo de los “seed words” comunes:archivo file (0560, 0308, 1002, 0601...)

Nuestro enfoque

Extracción de léxicos bilingües a partir de corpus no paralelos

- En lugar de “palabras semilla”, usamos “contextos semilla”:

< guardar NOUN1 > < save NOUN

1 > 0340

< copiar NOUN1 > < copy NOUN

1 > 0456

< NOUN1 seleccionado > < selected NOUN

1 > 1204

- Similaridad basada en el cálculo de “contextos semilla” comunes:

archivo file (0340, 0456, 1204, ...)

Nuestro enfoque

Características genéricas del aprendizaje:

no supervisado

+- dependiente de la lengua

+- pobre en conocimiento lingüístico

Etapas del método

1) Procesamiento lingüístico del corpus

2) Generar el conjunto de contextos semilla

3) Crear vectores de palabras y expresiones multiléxicas en las dos lenguas

4) Construción del léxico bilingüe

1. Procesamiento lingüístico

Anotación y desambiguación morfosintáctica:- textos en inglés, francés y portugués: TreeTagger (Schimd, 2000).- textos en castellano y gallego: Freeling (Carreras et al., 2004).

Identificación de patrones léxico-sintácticos:

<acceso a NOUN><aprobar NOUN><enviar a NOUN><tráfico ADJ><NOUN de Portugal><NOUN afirmar><NOUN sexual><VERB a Portugal>

2. Los contextos semilla

- Escogemos los pares bilingües de entradas no polisémicas de un diccionario bilingüe. - Por cada par, generamos todos los pares de contextos posibles.

Por ejemplo: “venta” - “venda”:

<venta de/con/a/en... NOUN> <venda de/con/a/en... NOUN><NOUN prp venta> <NOUN de/con/a/en... venda><VERB venta> <VERB venda><venta VERB> <venda VERB><VERB de/con/a/en... venta> <VERB de/con/a/en... venda><venta ADJ> <venda ADJ><ADJ venta> <ADJ venda>

3. Vectores de palabras

índice contexto freq.00198 <estudio de N> 12300234 <estudiante de N> 21800456 <curso de N> 6901223 <asignatura de N> 3502336 <N en Lugo> 607789 <estudiar N> 9808121 <cursar N> 56

índice contexto freq.00198 <estudo de N> 7800234 <estudante de N> 14500456 <curso de N> 4501223 <materia de N> 4102336 <N en Lugo> 3507789 <estudar N> 2308121 <cursar N> 13

Extracto del vector del sustantivo castellano:“Bachillerato”

Extracto del vector del sustantivo gallego:“Bacharelato”

- Creamos los vectores de palabras en las dos lenguas usando loscontextos semilla, y filtrando aquéllos con dispersión elevada.

4. Creación del léxico bilingüe• Cada expresión del corpus Fuente se compara con las expresiones del corpus Meta (frecuencia de coocurrencia en contextos semilla). • Escogemos las N palabras (N = 5) del corpus Meta con el valor de similaridad más alto (coeficiente Dice).

accidentado Vaccidentados Naccidental Aaccidentalidade Naccidente_de_tráfico accidente_de_tráfico Naccidente_de_Prestige fuerte_lluvia, huracán, oleada_de_incendio Naccidente_en_estrada accidente_en_carretera Naccidente N

fletado, accidentado

accidentados, accidentado

accidental, inesperado, silenciosos

accidentalidad, sangría, mortalidad, fracaso_escolar, sinistrialidad

accidente, incendio, incidente, suceso, hecho

Coeficiente DICE

, e1

Dice (e

i

2

, e1

2F (e2

+ F(e1

F (e 2

, e1

F (e2 , s

1min(f (e

if (e

2, s

i

in

F (e , s(f (e in

s = contexto semilla de un corpus no-paralelo

ExperimentosCorpus no-paralelo comparable:

- Parte española: 13 millones (El Correo Gallego, La Voz de Galicia)

- Parte gallega: 10 millones (Galicia-Hoxe, Vieiros, A Nosa Terra)

Diccionario bilingüe de OpenTrad:

- más de 28.000 entradas

- número de contextos semilla: 539.561 (+754.469 a partir de cognados)

Vectores de palabras

- con 127.604 posiciones (contextos semilla seleccionados)

EVALUACIÓNPrecisión y Cobertura

Categoría Cobertura Prec-1 Prec-10 Tamañoléxico

Nombre 80% 81% 90% 3534

Adjetivo 80% 81% 87% 639

Verbo 80% 97% 100% 401

Nombre Multi-lex 50% 59% 62% 2013

En [Rapp, 1999], Precisión-1 = 72%Precisión-10 = 86%

Actualización del diccionario de Opentrad

Nuevo corpus no-paralelo: 22 X 2 millones Tamaño del léxico extraído: 41.892 entradas bilingües Número de entradas extraídas que ya están en el

diccionario: 12.344 Número de entradas multiléxicas extraídas con

traducción composicional: 16.047

Filtrado manual del resto de entradas (~13.000):

2.659 nuevas entradas

Trabajo por hacer

Fuerza bruta: recuperar cada N meses nuevos textos de la web

- Tasas de crecimiento de nombres comunes, verbos y adjetivos: > 0,5%

- Tasa de crecimiento de nombres propios: > 7%

Técnicas recursivas y de bootstrapping - incrementar el número de contextos semilla utilizando

expresiones multiléxicas composicionales aprendidas en anteriores fases de extracción.

un método de extracción de equivalentes de traducción a partir de un compus comparable...

Documents