Transcript
Page 1: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Seminari de Traducció AutomàticaAplicacions del PLN

Traducció basada en informació lingüística (2)

Page 2: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Traducció basada en informació lingüística

• Característiques tècniques dels sistemes de traducció automàtica (anàlisi, generació, lèxic, parser, etc.)

• L'arquitectura dels sistemes de traducció automàtica: – sistemes de transferència– d’interlingua– explotació estadística d’informació lingüística

Page 3: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Nivell d’anàlisi

ParaulesParaules ParaulesParaules

Inf. sintàcticaInf. sintàctica Inf. sintàcticaInf. sintàctica

Inf. semànticaInf. semàntica Inf. semànticaInf. semàntica

INTERLINGUAINTERLINGUA

Traducciódirecte

Transferència

Page 4: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

TA amb informació lingüística

Traduir és un procés de de-codificar un text en una llengua i tornar-lo a codificar en una altra llengua.

1) Analitzem el text en la LO2) Transferim informació3) Generem la informació en la LA

Page 5: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Problemes

Però assolir desxifrar el contingut d’un text en una llengua comportava problemes:

a) com es representava el “contingut”?b) com s’arribava a la representació d’aquest

contingut?c) quina era la informació necessària per poder

traduir?

Page 6: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

c) Informació necessària per traduir

• Coneixement equivalències entre llengües– Diccionari bilingüe– Construccions sintàctiques diferents:

• Subj Verb Predicat => Subj Predicat Verb• Passiva => Activa

• Coneixement llengua origen:– Reconèixer els constituents i les funcions: subj.

• Coneixement llengua meta:– Construir oracions correctes: la duda / el dubte

Page 7: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Un exemple senzill

Anglès Català

You like them Ells t’agraden

1 2 2 1

1= subjecte anglès2= objecte anglès

Page 8: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

b) Obtenir una representació automàticament

• arribar a una representació amb informació que ens permeti traduir

• Necessitem un mecanisme, un programa que disposi de coneixement sobre la llengua.

• Aquest programa rep una frase i ens torna una representació amb informació lingüística de la frase: una anàlisi gramatical

Page 9: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Programa per analitzar

• Necessitem:

1. Gramàtica: dades sobre com són les frases d’una llengua. Exactament, una definició formal del conjunt de frases que pertanyen a una llengua i solament aquestes(Formal = computacionalment tractable: que a partir de un nombre finit de símbols produeixi un nombre infinit d’expressions)

Page 10: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Programa per analitzar..

2. La gramàtica conté regles de re-escriptura per descriure el conjunt de les oracions d’una llengua.

O -> PRO SVSV -> V PRO

(Re-escriptura: si es dóna el cas que tenim el que hi ha a la banda dreta de la fletxa, ho podem substituir pel símbol de la banda esquerra)

2. Diccionari amb informació sobre les paraules: el lèxic (pot ser part de la gramàtica)

PRO -> them, youV -> like, ..

Page 11: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Programa per analitzar

3. Analitzador (parser): un mecanisme que llegeix, una per una, les paraules de l’oració que volem analitzar i construeix mitjançant les regles de re-escriptura la anàlisi de la fraseConceptualment l’analitzador i la gramàtica són dues coses diferents: la gramàtica és una definició d’un conjunt de frases; l’analitzador és un algorisme, una sèrie d’instruccions precises que compleixen les instruccions de la gramàtica

Page 12: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Funcionament

O -> PRO SV

SV -> V PRO

PRO -> they, you

V -> like, ..

Page 13: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Generació

• Una gramàtica (amb el lèxic inclós) tal com l’hem definida, pot també fer l’operació inversa a l’anàlisis: genera oracions de la llengua descrita

• O -> PRO SV• PRO -> you, them• SV -> V PRO• V -> like• PRO -> you, them

Page 14: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Generador

• Quan una gramàtica i l’analitzador construeixen cadenes de paraules, li direm generador i al procés generacióLa nostra gramàtica ha generat:1. you like them2. you like you3. them like you4. them like them

• Necessitem més informació per poder generar frases correctes...

Page 15: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Generador

• Solament volem generar les oracions correctes.• Afegim informació de cas, per que és el que ens pot

ajudar a definir les oracions correctesPRO_NOM -> youPRO_AC -> them

O -> PRO_NOM SVSV -> V PRO_AC

• “you like them”

Page 16: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Gramàtica d’anàlisi/generació del català

O -> PRO_NOM SV

SV -> PRO_AC V

PRO_NOM -> ells, elles

PRO_AC -> te

V -> agraden

“ells t’agraden”

“elles t’agraden”

Page 17: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Arquitectures de TA

Page 18: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Traducció basada en informació lingüística

• Característiques tècniques dels sistemes de traducció automàtica (anàlisi, generació, lèxic, parser, etc.)

• L'arquitectura dels sistemes de traducció automàtica: – sistemes de transferència

– d’interlingua

– explotació estadística d’informació lingüística

Page 19: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Transferència i Interlingua

• Transferència: tenen una component amb regles específiques per a cada parell de llengües que transformen la representació del text origen en una representació adequada per al generador de la llengua d’arribada

• Interlingüe: l’anàlisi del text origen dóna una representació en un llenguatge de representació del significat, neutre pel que fa a les llengües

Page 20: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Sistemes de transferència

Text LOText LO

Representació LORepresentació LO

Representació LARepresentació LA

Text LAText LA

Anàlisi Generació

Gramàtica i

Lèxic LO

Gramàtica i

Lèxic LO

Gramàtica i

Lèxic LA

Gramàtica i

Lèxic LA

Lèxic LO->LA

Regles de trànsferencia

Lèxic LO->LA

Regles de trànsferencia

Page 21: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Sistemes d’interlingua

Text LOText LO

Representació InterlingüeRepresentació Interlingüe Text LAText LA

Anàlisi Generació

Gramàtica i

Lèxic LO

Gramàtica i

Lèxic LO

Gramàtica i

Lèxic LA

Gramàtica i

Lèxic LALèxic

LO->INT>LA

Lèxic

LO->INT>LA

Page 22: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Representació Interlingüe al sistema KANT

Page 23: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Interlingua

• La traducció és un procés de 2 passes:– Traduir el text origen a una representació del coneixement

universal– Usar la representació per a generar el text d’arribada

• Avantatges:– Per n llengües, necessitem n components (no n2)

• Problemes:– Hem de construir un lèxic universal– Com representem el coneixement?

Page 24: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Transferència

• La traducció és un procés de 3 passes:– Analitzar el text origen– Transformar la representació lingüística que ens ha

tornat l’anàlisi en una representació adequada per la generació de la llengua d’arribada

– Usem la representació de la llengua d’arribada per generar una frase correcte

Page 25: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Tractament de fenòmens gramaticals• Concordança:

– Subjecte – Verb– Dintre el SN– Amb l’atribut

• Canvi d’ordre dels elements• Diferències en l’estructura:

– Afegir una preposició– Treure una preposició

• Selecció lèxica:– Pel context sintàctic– Per trets semàntics

Page 26: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Concordança

• Informació morfològica i la concordança Subj-V • A la gramàtica de generació

o_ca(o_ca(SN,SV)) -->sn_ca(Num,Gen,sn_ca(SN)),sv_ca(Num,Gen,sv_ca(SV)).

• Resultat?- trad([you,like,them],R).R = [ellas, te, gustan] ;R = [ellos, te, gustan] ;

Page 27: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Concordança dintre el SN

• Concordança dintre del SN– A la gramàtica de generació:sn_ca(Num,Gen,sn(Det,N)) -->d_ca(Num,Gen,Det),n_ca(Num,Gen,N).

– Resultat:?- trad([the,boys,work],R).R = [los, chicos, trabajan] ;trad([the,girls,work],R).R = [las, chicas, trabajan] ;

Page 28: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Concordança amb l’atribut:

• A la gramàtica de generació:sv_ca(Num,Gen,sv(V,SA)) -->

v_ca(Num,_,V),

sa_ca(Num,Gen,SA).• Resultat

?- trad([the,girls,are,pretty],R).R = [las, chicas, son, bonitas] ;

Page 29: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Canvi d’ordre dels constituents

• A la gramàtica de trànsfer:• Regla d’inversió d'adjectius

sn(De,SAe,Ne) <=> sn(Dcas,Ncas,SAcas)

• Resultat:?- trad([the,old,tables,are,very,pretty],R).R = [las, mesas, viejas, son, muy, bonitas] ;

Page 30: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Diferencies en l’estructura

• Afegir / treure estructura: • Afegir preposicions al trànsfer:

sv(Ve,SN1e,SN2e) <=>sv(Vcas,SN1cas,sp(p(_),SN2cas)):-Ve <=> Vcas,SN2e <=> SN1cas,SN1e <=> SN2cas.

• Resultat?- trad([sam,entered,the,elevator],R).R = [samuel, entró, en, el, ascensor] ;

Page 31: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Diferències en l’estructura

• Treure preposicions:sp(Pe,sn(Ne))<=>sn(Ncas) :-Ne <=> Ncas.

• Resultat:?- trad([sam,looks,at,the,table],R).R = [samuel, mira, la, mesa] ;

Page 32: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Selecció lèxica pel context

• Selecció de ser/estar?- trad([the,book,is,pretty],R).R = [el, libro, es, bonito] ;

?- trad([the,book,is,at,the,table],R).R = [el, libro, está, en, la, mesa] ;

• Al trànsfer identifiquen les traduccions de les diferents lecturesv(v5,_,_,be) <=> v(v5,_,_,ser).v(v6,_,_,be) <=> v(v6,_,_,estar).

Page 33: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Selecció lèxica pel context

• A la gramàtica d’anàlisi usem el context per assignar una lectura:

• Regles a la gramàtica d’anàlisi:sv(e,sv(V,SA)) -->v(e,v5,V),sa(e,SA).

sv(e,sv(V,SP)) -->v(e,v6,V),sp(e,SP).

Page 34: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Selecció lèxica amb trets semàntics

• Resultat:?- trad([sam,works],R).R = [samuel, trabaja] ;?- trad([the,elevator,works],R).R = [el, ascensor, funciona] ;• A la gramàtica de trànsferv(_,_,hum,work) <=> v(_,_,_,trabajar).

v(_,_,nhum,work) <=> v(_,_,_,funcionar).

Page 35: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Nivell d’anàlisi i transferència

• Transferència lèxica: la cerca del terme equivalent en la llengua d’arribada es realitza a partir d’informació que conté el diccionari.

• Transferència sintàctica: l’arbre d’anàlisis de l’oració d’origen es transforma en un arbre de generació equivalent per a l’oració d’arribada.

• Transferència semàntica: les oracions de la llengua de sortida es transformen en representacions profundes, com patrons de casos, o estructures lògiques.

Page 36: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Transfer semàntic

• Planteja la traducció com establir la relació entre representacions que encara són dependents de cada llengua, però on s’ha aconseguit informació semàntica que afavoreix la transferència.

• Les representacions estan orientades cap a la semàntica, per exemple en representacions semàntiques com a Forma Lògica:

Page 37: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Page 38: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Page 39: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Problemes dels sistemes basats en la transferència

• Tenir informació suficient per prendre decisions:– Know => saber – conèixer“I know him” vs. “I know the answer”

• Diferents lexicalitzacions i solapaments de significats de paraules

Luisa got up early => Luisa madrugó• Paraules que tenen traduccions complexes

Ich esse gern => M’agrada menjar

Page 40: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Problemes de la transferència

• Frases fetes i col·locacions:I made a decision => Tomé una decisiónI made a cake => Hice un pastel

Page 41: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Traducció basada en informació lingüística

• Característiques tècniques dels sistemes de traducció automàtica (anàlisi, generació, lèxic, parser, etc.)

• L'arquitectura dels sistemes de traducció automàtica: – sistemes de transferència

– d’interlingua

– explotació estadística d’informació lingüística

Page 42: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Explotació estadística d’informació lingüística

• Hi ha informació que podem aconseguir de corpus per la selecció lèxica

Page 43: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Sistema de Microsoft

Page 44: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Page 45: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Page 46: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Memòries de traduccióAutomaticTrans:

• la extracción sanguínea y su análisis

• l'extracció sanguínia i la seva anàlisi

• la extracción sanguínea

y su posterior análisis

• l'extracció sanguínia

i el seu posterior anàlisi

Page 47: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Sistemes amb informació lingüística de nivell baix (interNOSTRUM)

• Anàlisi: anàlisi morfològica, desambiguació estadística de categoríes

• Trànsfer: cerca lèxica bilingüe, processament: concordança, re-ordenació, canvis lèxics.

• Generació: generació morfològica, ortografía.

• Finalmente y en relación con el cuarto de los hechos enjuiciados ...

• Finalment i en relació amb la cambra

dels fets jutjats

• Finalmente y en relación con el cuarto de los hechos enjuiciados ...

• Finalment i en relació amb la cambra

dels fets jutjats

Page 48: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

SN

N[f,p] SA Orel

funciones típicas

SN SV

PR N V SP

[m,s] [m,s] [m,s]

cuyo análisis queda P SN

reservado al tribunal

cuyo = concordança dintre del seu SN

Page 49: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

SN

N[f,p] Orel

funcions

SN SV

N SP V SP

[f,s] P PR [f,s] P SN

[f,p]

l’anàlisis de les quals queda al tribunal

reservada

les quals = concordança amb l’antecedent

Page 50: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Sistemes de traducció automàtica amb informació lingüística

Finalment i en relació amb la

cambra dels fets jutjats, que la seva *autoria s'atribueix en l'escrit d'acusació als tres acusats, de la prova practicada no es desprèn l'existència d'indicis suficients atura enervar respecte als mateixos la presumpció constitucional d'innocència.

Finalmente y en relación con el cuarto de los hechos enjuiciados, cuya autoria se atribuye en el escrito de acusación a los tres acusados, de la prueba practicada no se desprende la existencia de indicios suficientes para enervar respecto de los mismos la presunción constitucional de inocencia.

Finalment i en relació amb el quart dels fets enjudiciats, la qual autoria s'atribueix a l'escrit d'acusació als tres acusats, de la prova practicada no es desprèn l'existència d'indicis suficients per enervar respecte dels mateixos la presumpció

constitucional d'innocència

Page 51: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Traducció i versió

• Así por esta mi sentencia, de la que se unirá certificación a los autos, lo pronuncio, mando y firmo.

• Així per aquesta la meva sentència, de la que s'unirà certificació a les actuacions judicials, ho{el} pronuncio, comandament{autoritat} i firmo.

• Aquesta és la meva Sentència. Uniu-ne un certificat a les actuacions. Així ho pronuncio, ho mano i signo.


Top Related