traducción automática de código abierto: una oportunidad para lenguas menores

37
Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Traducción automática de código abierto: una oportunidad para lenguas menores Mikel L. Forcada 1,2 1 Departament de Llenguatges i Sistemes Informàtics, Universitat d’Alacant, E-03071 Alacant 2 Prompsit Language Engineering, S.L., E-03690 St. Vicent del Raspeig (Spain) CCDUTI – Alacant, 1 de febrero de 2007 Mikel L. Forcada TA de código abierto para lenguas menores

Upload: forcada-mikel

Post on 09-Jul-2015

1.257 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Traducción automática de código abierto:una oportunidad para lenguas menores

Mikel L. Forcada1,2

1Departament de Llenguatges i Sistemes Informàtics, Universitat d’Alacant,E-03071 Alacant

2Prompsit Language Engineering, S.L., E-03690 St. Vicent del Raspeig (Spain)

CCDUTI – Alacant, 1 de febrero de 2007

Mikel L. Forcada TA de código abierto para lenguas menores

Page 2: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

c© 2007 Universitat d’Alacant.c© 2007 Mikel L. ForcadaEste material puede ser distribuido, copiado y exhibido si el nombredel autor se muestra en los créditos. No se puede obtener beneficiocomercial. Las obras derivadas deben distribuirse en los mismostérminos de licencia que los del trabajo original. Más detalles:http://creativecommons.org/licenses/by-nc-sa/2.5/deed.es. Se pueden pedir los fuentes LaTeX a Mikel L. Forcada([email protected]).

Mikel L. Forcada TA de código abierto para lenguas menores

Page 3: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Índice

1 Conceptos

2 Efectos de la disponibilidad de TA sobre las lenguasmenores

3 Sistemas de TA comerciales y lenguas menores:oportunidades limitadas

4 Oportunidades de la TA de código abierto

5 Retos

6 Ejemplo: Apertium y el aranés

7 Conclusiones tentativas

Mikel L. Forcada TA de código abierto para lenguas menores

Page 4: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Lenguas menores y pares de lenguas menoresSoftware libre o de código abiertoSoftware de traducción automática

Lenguas menores y pares de lenguas menores/1

¿Qué es una lengua menor? Se usan muchas denominacionesalternativas (en “orden de Google”):

minority languages (minoritarias)lesser-used languages (menos usadas)minor languages (menores)small or smaller languages (pequeñas o más pequeñas)lesser languages (menores)under-resourced , resource-poor or less-resourcedlanguages (con pocos recursos)etc.

Mikel L. Forcada TA de código abierto para lenguas menores

Page 5: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Lenguas menores y pares de lenguas menoresSoftware libre o de código abiertoSoftware de traducción automática

Lenguas menores y pares de lenguas menores/2

¿Que és una lengua menor?Con un pequeño número de hablantes [alfabetizados].Lejos de la normalidad (se usa más en casa que en laescuela o en la administración, está socialmentediscriminada, reprimida políticamente, etc.).Carente de un sistema estable de escritura, una ortografíafija, o una variante estándar.Con una presencia limitada en Internet.Con escasez de lingüistas expertos en ella.Con pocos recursos legibles por el ordenador:diccionarios, corpus, etc.

Mikel L. Forcada TA de código abierto para lenguas menores

Page 6: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Lenguas menores y pares de lenguas menoresSoftware libre o de código abiertoSoftware de traducción automática

Lenguas menores y pares de lenguas menores/3

Los efectos de las tecnologías de traducción sobre una lenguamenor ocurren a través de pares de lenguas.Por ejemplo:

las lenguas menores A y B son lenguas relacionadas (esfácil construir programas para traducir entre ellas)C es una lengua importante.hay programas de traducción de C a A

Así, será más fácil tener programas de traducción de C a B

Mikel L. Forcada TA de código abierto para lenguas menores

Page 7: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Lenguas menores y pares de lenguas menoresSoftware libre o de código abiertoSoftware de traducción automática

Software libre o de código abierto

El software de código abierto se llama también software librepor estas cuatro libertades:

0 “La libertad de usar el programa, con cualquier propósito.”1 “La libertad de estudiar cómo funciona el programa, y

adaptarlo a tus necesidades.”2 “La libertad de distribuir copias, con lo que puedes ayudar

a tu vecino.”3 “La libertad de mejorar el programa y hacer públicas las

mejoras a los demás, de modo que toda la comunidad sebeneficie.”

Para que las condiciones 1 y 3 se cumplan, se debe teneracceso al código fuente (tal como lo ha escrito el programador),de ahí que también se hable de software de código abierto.

Mikel L. Forcada TA de código abierto para lenguas menores

Page 8: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Lenguas menores y pares de lenguas menoresSoftware libre o de código abiertoSoftware de traducción automática

Software de traducción automática/1

La traducción automática (TA) es especial: dependefuertemente de la existencia de datos. Hay trescomponentes en cualquier sistema de TA:1

El motor o ingenioLos datos lingüísticosLas herramientas necesarias para mantener estos datos yconvertirlos al formato usado por el motor

1TA “basada en reglas”; la TA “basada en corpus” tiene requisitosanálogos

Mikel L. Forcada TA de código abierto para lenguas menores

Page 9: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Lenguas menores y pares de lenguas menoresSoftware libre o de código abiertoSoftware de traducción automática

Software de TA/2 : TA comercial

Los sistemas comerciales usan tecnologías de propiedad(proprietary) que no se revelan (se las percibe como unaventaja competitiva fundamental)Sólo se permite una modificación parcial (personalización)de los datos lingüísticos

Mikel L. Forcada TA de código abierto para lenguas menores

Page 10: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Lenguas menores y pares de lenguas menoresSoftware libre o de código abiertoSoftware de traducción automática

Software de TA/3: TA de código abierto

Para que la TA sea de código abierto, tantoel motor,los datoscomo las herramientas

deben ser de código abierto.

Mikel L. Forcada TA de código abierto para lenguas menores

Page 11: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Lenguas menores y pares de lenguas menoresSoftware libre o de código abiertoSoftware de traducción automática

Software de TA/4: TA que no es ni comercial ni decódigo abierto

Pero hay más posibilidades:Sistemas que pueden usarse libremente por Internet(algunos ni siquiera se comercializan).El motor y las herramientas pueden ser programas decódigo cerrado bien documentados, y ser usados condatos lingüísticos abiertos.

Mikel L. Forcada TA de código abierto para lenguas menores

Page 12: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Incrementar la “normalidad”Mejorar los niveles de alfabetizaciónEfectos sobre la estandardizaciónAumentar la “visibilidad”

Efectos de la disponibilidad de TA sobre lenguasmenores

La disponibilidad de TA para una lengua menor puedeincrementar su “normalidad”mejorar sus niveles de alfabetizacióntener un efecto en su estandarizaciónaumentar su “visibilidad”

Mikel L. Forcada TA de código abierto para lenguas menores

Page 13: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Incrementar la “normalidad”Mejorar los niveles de alfabetizaciónEfectos sobre la estandardizaciónAumentar la “visibilidad”

Incrementar la “normalidad”

La TA puede contribuir a la normalidad de una lengua menor:traducción de materiales educativos de una lenguaimportante a una menortraducción de noticias de una lengua importante paracrear medios de comunicación en la lengua minoritarialas leyes, normas e informaciones gubernamentales sepodrían traducir a la lengua menor más fácilmentelas empresas lo tendrían más fácil para sacar al mercadonuevos productos en la lengua menor (“localización”)

[Aquí se asume que la postedición de la TA en bruto es factible]

Mikel L. Forcada TA de código abierto para lenguas menores

Page 14: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Incrementar la “normalidad”Mejorar los niveles de alfabetizaciónEfectos sobre la estandardizaciónAumentar la “visibilidad”

Mejorar los niveles de alfabetización

La disponibilidad de texto en la lengua menor (obtenido através de traducción automática y su elaboración posterior)puede motivar la alfabetización en la lengua minoritaria

Mikel L. Forcada TA de código abierto para lenguas menores

Page 15: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Incrementar la “normalidad”Mejorar los niveles de alfabetizaciónEfectos sobre la estandardizaciónAumentar la “visibilidad”

Efectos sobre la estandardización

La existencia de un sistema de TA de éxito puedepromover

un sistema particular de escritura (p.e. alfabeto romano sindiacríticos para el tamazight [= bereber])una ortografía determinada (kreyòl asisyen [=criollohaitiano])un dialecto concreto como estándar (variante aranesa deloccitano)

si se genera tecnología lingüística para ellos.

Mikel L. Forcada TA de código abierto para lenguas menores

Page 16: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Incrementar la “normalidad”Mejorar los niveles de alfabetizaciónEfectos sobre la estandardizaciónAumentar la “visibilidad”

Aumentar la “visibilidad”

La disponibilidad de TA desde la lengua menor a lenguasimportantes puede ayudar a la difusión de material escritooriginalmente en la lengua menor:

por ejemplo, TA de sitios web (“al vuelo” o seguida depostedición)

Mikel L. Forcada TA de código abierto para lenguas menores

Page 17: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Sistemas de TA comerciales y lenguas menores:oportunidades limitadas

Las compañías de TA suelen tener como objetivo laslenguas más importantes del mundo (existen excepciones,como el catalán, pero. . . ¿es realmente el catalán unalengua menor?)Es muy difícil adaptar sistemas comerciales cerrados alenguas menores

Mikel L. Forcada TA de código abierto para lenguas menores

Page 18: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Aumento de la pericia y los recursos lingüísticosAumento de la independencia

Oportunidades de la TA de código abierto

El uso de sistemas de TA de código abierto proporcionaoportunidades adicionales, además de los efectospositivos genéricos que acabo de mencionar:

Aumenta la pericia y los recursos lingüísticosAumenta la independencia

Mikel L. Forcada TA de código abierto para lenguas menores

Page 19: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Aumento de la pericia y los recursos lingüísticosAumento de la independencia

Aumento de la pericia y los recursos lingüísticos

La construcción de sistemas de TA de código abierto parauna lengua menor comporta el crecimiento de la pericia yde los recursos lingüísticos para la lengua menor, a travésde

la reflexión sobre la lengua menorla elicitación (explicitación) del conocimiento lingüístico(monolingüe o bilingüe) sobre ellala codificación subsiguiente de este conocimiento

El escenario de código abierto pone de manera natural elconocimiento y los recursos a disposición de lacomunidad.

Mikel L. Forcada TA de código abierto para lenguas menores

Page 20: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Aumento de la pericia y los recursos lingüísticosAumento de la independencia

Caso 1: Creación desde cero de datos para un motorde TA existente

Es un escenario muy desfavorable. Necesitamos:Un motor de TA de libre disposición (abierto o no).Herramientas de libre disposición (abiertas o no) paragestionar los datos lingüísticosDocumentación completa sobre cómo construir datoslingüísticos para su uso con el motor y las herramientas

Se deben tomar muchas decisiones lingüísticas. Elsíndrome del folio en blanco puede paralizar el proyecto.Si se supera, la pericia adquirida y los datos abiertosresultantes pueden ser mejorados o usados para otrosfines: efecto positivo en la lengua menor.

Mikel L. Forcada TA de código abierto para lenguas menores

Page 21: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Aumento de la pericia y los recursos lingüísticosAumento de la independencia

Caso 2: Creación de datos para un motor de TAexistente a partir de datos lingüísticos existentes

Si se dispone de datos abiertos para otro par de lenguassimilar o emparentado, el síndrome del folio en blanco sereduce dramáticamente.Se podría, por ejemplo:

usar el mismo conjunto de categorías léxicas e indicadoresde flexiónconstruir reglas de flexión basándose en las ya existentes.

Mikel L. Forcada TA de código abierto para lenguas menores

Page 22: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Aumento de la pericia y los recursos lingüísticosAumento de la independencia

Caso 3: Adaptación de un motor y herramientas de TAde código abierto para un par de lenguas nuevo

Si el motor y las herramientas son abiertos, se los puedemodificar o adaptar para abordar características noprevistas del nuevo par de lenguas:

juegos de caracteres (sistema de escritura),necesidad de un análisis más profundo, etc.

Más difícil que crear datos nuevosPero los programadores no necesitan tener un control totalde la lengua menor (es posible una gestión más abstractade los aspectos lingüísticos)

La rescritura del código aportaría nuevos conocimentos yrecursos a la comunidad de la lengua menor.

Mikel L. Forcada TA de código abierto para lenguas menores

Page 23: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Aumento de la pericia y los recursos lingüísticosAumento de la independencia

Aumento de la independencia

Disponer de un motor, de herramientas y de datoslingüísticos abiertos hace que los usuarios de una lenguamenor sean menos dependientes de un único proveedorcomercial de código cerradoEsto tiene un efecto análogo, no solo sobre la TA, sinotambién sobre otras tecnologías lingüísticas.

Mikel L. Forcada TA de código abierto para lenguas menores

Page 24: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Estandarización de la lengua menorNeutralización de las actitudes tecnofóbicasOrganización de una comunidad de desarrolladoresElicitación del conocimiento lingüísticoSimplicidad del conocimiento lingüístico necesarioEstandarización y documentación de los formatos de datos lingüísticosModularidad

Retos

La creación de un sistema de traducción se enfrenta entreotros a los siguientes retos:

Estandarización de la lengua menorNeutralización de actitudes tecnofóbicasOrganización de una comunidad de desarrolladoresElicitación del conocimiento lingüísticoMantenimiento de la simplicidad del conocimientolingüístico necesario.Estandarización y documentación de los formatos de losdatos lingüísticosModularidad de programas y datos.

Mikel L. Forcada TA de código abierto para lenguas menores

Page 25: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Estandarización de la lengua menorNeutralización de las actitudes tecnofóbicasOrganización de una comunidad de desarrolladoresElicitación del conocimiento lingüísticoSimplicidad del conocimiento lingüístico necesarioEstandarización y documentación de los formatos de datos lingüísticosModularidad

Estandarización de la lengua menor

La traducción automática puede acelerar la estandardizaciónde una lengua menor, pero esto tiene su lado negativo:

la carencia de un sistema de escritura, ortografía odialecto de referencia estándares es un serio reto para losdesarrolladores (“síndrome del pionero”).

Mikel L. Forcada TA de código abierto para lenguas menores

Page 26: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Estandarización de la lengua menorNeutralización de las actitudes tecnofóbicasOrganización de una comunidad de desarrolladoresElicitación del conocimiento lingüísticoSimplicidad del conocimiento lingüístico necesarioEstandarización y documentación de los formatos de datos lingüísticosModularidad

Neutralización de las actitudes tecnofóbicas

Para tener éxito es preciso conjugar el activismo en pro dela lengua menor con un nivel adecuado de formación entecnologías de la informaciónSe oponen las actitudes tecnofóbicas: los eruditos de lalengua suelen desconfiar de las tecnologías por causa de

una visión idealizada de la lengua y la comunicaciónpoco aprecio por los usos informales o no literariosdar demasiado énfasis a joyas (estructuras o palabrasespeciales) poco probables y resistentes a laautomatización en lugar de a los ladrillos (estructuras ypalabras cotidianas) muy probables y automatizables.

Estas adversidades “socioacadémicas” se dan (yo mismolas he experimentado).

Mikel L. Forcada TA de código abierto para lenguas menores

Page 27: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Estandarización de la lengua menorNeutralización de las actitudes tecnofóbicasOrganización de una comunidad de desarrolladoresElicitación del conocimiento lingüísticoSimplicidad del conocimiento lingüístico necesarioEstandarización y documentación de los formatos de datos lingüísticosModularidad

Organización de una comunidad de desarrolladores/1

[Asumamos que sólo estamos desarollando datos lingüísticos]El código abierto hace posible que la comunidad de unalengua menor desarrolle de manera colaborativa sistemasde TA para ella.Muchas lenguas alejadas de la normalidad tienen gruposde activistas con habilidades lingüísticas y de traducciónPero el tiempo ofrecido voluntariamente y estashabilidades son necesarias pero no suficientes.

Mikel L. Forcada TA de código abierto para lenguas menores

Page 28: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Estandarización de la lengua menorNeutralización de las actitudes tecnofóbicasOrganización de una comunidad de desarrolladoresElicitación del conocimiento lingüísticoSimplicidad del conocimiento lingüístico necesarioEstandarización y documentación de los formatos de datos lingüísticosModularidad

Organización de una comunidad de desarrolladores/2

Hace falta organización:Un equipo coordinador que domine motor y herramientas,con:

un director de programación (que instala, mantiene, ymodifica el código del programa)un director lingüístico (que se encarga del mantenimientode los datos lingüísticos)

Un servidor web para el proyectopara distribuir la última versión del sistemadonde se pueda usar en líneaa través del cual los voluntarios puedan contribuir datoslingüísticos

Un grupo de voluntarios bien formados, certificados por elequipo coordinador.

Mikel L. Forcada TA de código abierto para lenguas menores

Page 29: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Estandarización de la lengua menorNeutralización de las actitudes tecnofóbicasOrganización de una comunidad de desarrolladoresElicitación del conocimiento lingüísticoSimplicidad del conocimiento lingüístico necesarioEstandarización y documentación de los formatos de datos lingüísticosModularidad

Elicitación del conocimiento lingüístico

El conocimiento lingüístico existente se debe haceexplícito (elicitación) para poderlo aportar al sistema.La elicitación del conocimiento léxico es posible a travésde interfaces (formularios) web bien diseñados quepermiten

proporcionar los lemas de las palabras origen y metaseleccionar el paradigma de flexión de las palabras origeny metaestablecer el ámbito de una equivalencia léxica(bidireccional, de izquierda a derecha o de derecha aizquierda).

La elicitación de otros tipos de conocimiento (p.ej., reglasde transferencia estructural) es más difícil (y es objeto deintensa investigación).

Mikel L. Forcada TA de código abierto para lenguas menores

Page 30: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Estandarización de la lengua menorNeutralización de las actitudes tecnofóbicasOrganización de una comunidad de desarrolladoresElicitación del conocimiento lingüísticoSimplicidad del conocimiento lingüístico necesarioEstandarización y documentación de los formatos de datos lingüísticosModularidad

Simplicidad del conocimiento lingüístico necesario

El nivel de conocimientos lingüísticos necesarios para empezara construir un sistema de TA debería ser el mínimo posible(p.ej., conceptos y habilidades gramaticales básicas debachillerato).

Esto es bastante fácil en sistemas de transferenciasuperficial como los que se usan entre lenguasemparentadas.Pero es muy difícil (si no imposible) en sistemas detransferencia profunda (sintáctica o semántica).

Una documentación bien escrita puede ser muy útil.

Mikel L. Forcada TA de código abierto para lenguas menores

Page 31: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Estandarización de la lengua menorNeutralización de las actitudes tecnofóbicasOrganización de una comunidad de desarrolladoresElicitación del conocimiento lingüísticoSimplicidad del conocimiento lingüístico necesarioEstandarización y documentación de los formatos de datos lingüísticosModularidad

Estandarización y documentación de los formatos dedatos lingüísticos

Una documentación adecuada del formato de los datoslingüísticos es crucial.La solución es usar XML. ¿Por qué?

En XML cada elemento de los datos está explícitamenteetiquetado con una marca que tiene un nombre descriptivocon un significado claroLa estructura de los datos puede ser validadaautomáticamente con DTDs (Definiciones de tipo dedocumento) o similares (esquemas).Existen muchas tecnologías para XML (que conviertendesde XML y a XML: interoperabilidad).

Mikel L. Forcada TA de código abierto para lenguas menores

Page 32: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Estandarización de la lengua menorNeutralización de las actitudes tecnofóbicasOrganización de una comunidad de desarrolladoresElicitación del conocimiento lingüísticoSimplicidad del conocimiento lingüístico necesarioEstandarización y documentación de los formatos de datos lingüísticosModularidad

Modularidad

Una de las ventajas del código abierto es la posibilidad dereutilizar el código y los datos lingüísticos para crearnuevos sistemas de TA o nuevas aplicaciones detecnología de la lengua.Para ello, es necesaria la modularidad .Un motor modular induce modularidad en los datos queusa.Por ejemplo, tener un analizador morfológicoindependiente y un diccionario morfológico independiente

Facilita la creación de un sistema de TA para otra lenguametaSe puede usar para crear un buscador inteligente (quebusca palabras independientemente de la inflexión).

Mikel L. Forcada TA de código abierto para lenguas menores

Page 33: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Ejemplo: Apertium y el aranés/1

Apertium (www.apertium.org) es una plataforma de TA(motor y herramientas) de transferencia superficial y decódigo abierto creada en la Universitat d’AlacantEs especialmente adecuada para la TA entre lenguasemparentadasViene con datos lingüísticos abiertos para es–ca, es–gl,es–pt, fr–ca, en–ca, entre otros (próximamentero–es)2

Está siendo desarrollada en la actualidad a través de unaplataforma pública (www.sourceforge.net).Se puede usar en línea.

2es=español, ca=catalán, gl=gallego, pt=portugués, fr=francés,en=inglés, ro=rumano

Mikel L. Forcada TA de código abierto para lenguas menores

Page 34: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Ejemplo: Apertium y el aranés/2

Acabamos de publicar un nuevo par, entre:una lengua mediana (catalán, '6.000.000 hablantes) yuna lengua muy pequeña (aranés, '6.000 hablantes, undialecto estandarizado del occitano, oc, '1.000.000hablantes?)

Evaluación actual (oc–ca y ca–oc)Cobertura del texto (palabras conocidas): 95 %Tasa de error: 5 %

Mikel L. Forcada TA de código abierto para lenguas menores

Page 35: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Ejemplo: Apertium y el aranés/3

Con un sistema que tiene el 95 % de cobertura y el 5 % deerror:

La cantidad de texto en aranés en la web puede aumentar(visibilidad)El peso del dialecto aranés en la estandarizaciónactualmente en marcha del occitano puede aumentar.La comunidad occitana general (la mayoría en Francia)puede crear un traductor oc–fr a partir de los datosoc–ca y ca–fr existentes.Se han hecho públicos datos abiertos de aranés, útilespara crear otras aplicaciones de tecnología lingüística.

Mikel L. Forcada TA de código abierto para lenguas menores

Page 36: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Conclusiones tentativas

La TA puede tener un efecto positivo en lenguas menores(normalidad, “visibilidad”, alfabetización, estandarización)La TA de código abierto puede tener efectos específicosadicionales (aumento de la pericia lingüística, aportaciónde recursos reutilizables, reducción de la dependenciatecnológica).El desarrollo de TA para una lengua menor se enfrenta abastantes retos (falta de estandardización, actitudestecnofóbicas, elicitación del conocimiento lingüístico,necesidad de formatos estándares, modularidad).

Por supuesto, estaré encantado de debatir sobre todo ello . . .

Mikel L. Forcada TA de código abierto para lenguas menores

Page 37: Traducción automática de código abierto: una oportunidad para lenguas menores

ConceptosEfectos de la disponibilidad de TA sobre las lenguas menores

TA comercial: oportunidades limitadasOportunidades de la TA de código abierto

RetosEjemplo: Apertium y el aranés

Conclusiones tentativas

Agradecimientos

Financiación parcial de:Ministerio de Ciencia y Tecnología (ayudaTIC2003-08681-C02-01)Ministerio de Industria, Turismo y Comercio (ayudasFIT-340101-2004-3 y FIT-340001-2005-2).Generalitat de Catalunya (Secretaría deTelecomunicaciones y Sociedad de la Información)

Agradezco a A.M. Corbí-Bellot, M. Ginestí-Rosell, J.A.Pérez-Ortiz, G. Ramírez-Sánchez, F. Sánchez-Martínez,S. Ortiz–Rojas, C. Armentano–Oller y M.A. Scalco suscomentarios y sugerencias sobre la charla.Y a los organizadores de esta reunión por invitarme.

Mikel L. Forcada TA de código abierto para lenguas menores