![Page 1: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/1.jpg)
Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego
Grupo de Gramática do Espanhol Departamento de Língua Espanhola,
Universidade de Santiago de Compostela
Xornadas empresa-universidade, Santiago, 2007
![Page 2: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/2.jpg)
En colaboración con:
Empresa Imaxin | Software:
Área Imaxim | Context
(Responsable: José Ramom Pichel Campos)
![Page 3: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/3.jpg)
Grupo Gramática do Español
Miembros que colaboran en la Red: Guillermo Rojo (coordinador)
M. Paula Santalla del Río
Victoria Vázquez Rozas
Susana Sotelo Docio
M. del Pilar Valverde Ibáñez
Pablo Gamallo Otero
![Page 4: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/4.jpg)
Grupo Gramática do Español
Líneas de Investigación Estructura sintáctico-semántica de la cláusula
Elaboración y análisis de corpus
Bases de datos sintácticos (BDS)
Analizadores automáticos (parsers)
Extracción de información mono y plurilingüe
![Page 5: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/5.jpg)
Objetivo generalConstruir léxicos bilingües:
archivo: file (.85), directory (.23), ...
Método:- Estrategias de extracción a partir de grandes cantidades de corpus no-paralelos y de temática comparable.
- Recursos externos: diccionarios bilingües electrónicos.
![Page 6: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/6.jpg)
Objetivo específico
Actualizar el diccionario bilingüe castellano-gallego del traductor automático OPENTRAD.
Motivación:La falta de cobertura del diccionario castellano-gallego es la principal causa de errores de traducción:
cobertura diccionario 47%errores morfo-sintácticos 26%polisemia léxica 16%otros 11%
![Page 7: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/7.jpg)
Trabajo relacionado
- Extracción de léxicos bilingües a partir de corpus paralelos y alineados
- Extracción de léxicos bilingües a partir de corpus no paralelos y comparables
![Page 8: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/8.jpg)
Trabajo relacionado Extracción a partir de corpus paralelos
Requisito: el corpus Fuente y Meta están alineados (p.e. al nivel de la oración).
Método: Una palabra del corpus Fuente es similar a una palabra del corpus Meta, si las dos tienden a aparecer en los mismos segmentos alineados.
Word cannot copy the selected file to the base path because the following error occurred:
Unable to copy the file.
The file could not be saved because there was a sharing violation.
345Word no puede copiar el archivo seleccionado en la ruta de acceso de base debido al siguiente error:
067El archivo no se puede copiar.
003No pudo guardarse el archivo a causa de una infracción al compartir.
- Similaridad basada en el cálculo de los segmentos comunes :archivo file (003, 067, 345, ...)
![Page 9: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/9.jpg)
Trabajo relacionado Extracción a partir de corpus no paralelos
Requisitos: un diccionario bilingüe que nos provea de un conjunto de palabras semilla (“seed words”).Método: Una palabra en el corpus Fuente es similar a una palabra del corpus Meta, si las dos tienden a coocurrir con las mismas palabras semilla dentro de una ventana de tamaño N (N = oración, párrafo, ...).
- Seed words:guardar save 0560copiar copy 0308seleccionar select 1002infracción violation 0601
- Similaridad basada en el cálculo de los “seed words” comunes:archivo file (0560, 0308, 1002, 0601...)
![Page 10: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/10.jpg)
Nuestro enfoque
Extracción de léxicos bilingües a partir de corpus no paralelos
- En lugar de “palabras semilla”, usamos “contextos semilla”:
< guardar NOUN1 > < save NOUN
1 > 0340
< copiar NOUN1 > < copy NOUN
1 > 0456
< NOUN1 seleccionado > < selected NOUN
1 > 1204
- Similaridad basada en el cálculo de “contextos semilla” comunes:
archivo file (0340, 0456, 1204, ...)
![Page 11: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/11.jpg)
Nuestro enfoque
Características genéricas del aprendizaje:
no supervisado
+- dependiente de la lengua
+- pobre en conocimiento lingüístico
![Page 12: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/12.jpg)
Etapas del método
1) Procesamiento lingüístico del corpus
2) Generar el conjunto de contextos semilla
3) Crear vectores de palabras y expresiones multiléxicas en las dos lenguas
4) Construción del léxico bilingüe
![Page 13: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/13.jpg)
1. Procesamiento lingüístico
Anotación y desambiguación morfosintáctica:- textos en inglés, francés y portugués: TreeTagger (Schimd, 2000).- textos en castellano y gallego: Freeling (Carreras et al., 2004).
Identificación de patrones léxico-sintácticos:
<acceso a NOUN><aprobar NOUN><enviar a NOUN><tráfico ADJ><NOUN de Portugal><NOUN afirmar><NOUN sexual><VERB a Portugal>
![Page 14: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/14.jpg)
2. Los contextos semilla
- Escogemos los pares bilingües de entradas no polisémicas de un diccionario bilingüe. - Por cada par, generamos todos los pares de contextos posibles.
Por ejemplo: “venta” - “venda”:
<venta de/con/a/en... NOUN> <venda de/con/a/en... NOUN><NOUN prp venta> <NOUN de/con/a/en... venda><VERB venta> <VERB venda><venta VERB> <venda VERB><VERB de/con/a/en... venta> <VERB de/con/a/en... venda><venta ADJ> <venda ADJ><ADJ venta> <ADJ venda>
![Page 15: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/15.jpg)
3. Vectores de palabras
índice contexto freq.00198 <estudio de N> 12300234 <estudiante de N> 21800456 <curso de N> 6901223 <asignatura de N> 3502336 <N en Lugo> 607789 <estudiar N> 9808121 <cursar N> 56
índice contexto freq.00198 <estudo de N> 7800234 <estudante de N> 14500456 <curso de N> 4501223 <materia de N> 4102336 <N en Lugo> 3507789 <estudar N> 2308121 <cursar N> 13
Extracto del vector del sustantivo castellano:“Bachillerato”
Extracto del vector del sustantivo gallego:“Bacharelato”
- Creamos los vectores de palabras en las dos lenguas usando loscontextos semilla, y filtrando aquéllos con dispersión elevada.
![Page 16: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/16.jpg)
4. Creación del léxico bilingüe• Cada expresión del corpus Fuente se compara con las expresiones del corpus Meta (frecuencia de coocurrencia en contextos semilla). • Escogemos las N palabras (N = 5) del corpus Meta con el valor de similaridad más alto (coeficiente Dice).
accidentado Vaccidentados Naccidental Aaccidentalidade Naccidente_de_tráfico accidente_de_tráfico Naccidente_de_Prestige fuerte_lluvia, huracán, oleada_de_incendio Naccidente_en_estrada accidente_en_carretera Naccidente N
fletado, accidentado
accidentados, accidentado
accidental, inesperado, silenciosos
accidentalidad, sangría, mortalidad, fracaso_escolar, sinistrialidad
accidente, incendio, incidente, suceso, hecho
![Page 17: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/17.jpg)
Coeficiente DICE
, e1
Dice (e
i
2
, e1
2F (e2
+ F(e1
F (e 2
, e1
F (e2 , s
1min(f (e
if (e
2, s
i
in
F (e , s(f (e in
s = contexto semilla de un corpus no-paralelo
![Page 18: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/18.jpg)
ExperimentosCorpus no-paralelo comparable:
- Parte española: 13 millones (El Correo Gallego, La Voz de Galicia)
- Parte gallega: 10 millones (Galicia-Hoxe, Vieiros, A Nosa Terra)
Diccionario bilingüe de OpenTrad:
- más de 28.000 entradas
- número de contextos semilla: 539.561 (+754.469 a partir de cognados)
Vectores de palabras
- con 127.604 posiciones (contextos semilla seleccionados)
![Page 19: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/19.jpg)
EVALUACIÓNPrecisión y Cobertura
Categoría Cobertura Prec-1 Prec-10 Tamañoléxico
Nombre 80% 81% 90% 3534
Adjetivo 80% 81% 87% 639
Verbo 80% 97% 100% 401
Nombre Multi-lex 50% 59% 62% 2013
En [Rapp, 1999], Precisión-1 = 72%Precisión-10 = 86%
![Page 20: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/20.jpg)
Actualización del diccionario de Opentrad
Nuevo corpus no-paralelo: 22 X 2 millones Tamaño del léxico extraído: 41.892 entradas bilingües Número de entradas extraídas que ya están en el
diccionario: 12.344 Número de entradas multiléxicas extraídas con
traducción composicional: 16.047
Filtrado manual del resto de entradas (~13.000):
2.659 nuevas entradas
![Page 21: Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de](https://reader035.vdocumento.com/reader035/viewer/2022070417/5665b4591a28abb57c90bded/html5/thumbnails/21.jpg)
Trabajo por hacer
Fuerza bruta: recuperar cada N meses nuevos textos de la web
- Tasas de crecimiento de nombres comunes, verbos y adjetivos: > 0,5%
- Tasa de crecimiento de nombres propios: > 7%
Técnicas recursivas y de bootstrapping - incrementar el número de contextos semilla utilizando
expresiones multiléxicas composicionales aprendidas en anteriores fases de extracción.