seminari de traducció automàtica aplicacions del pln

51
N. Bel & M. Marimon 2005- N. Bel & M. Marimon 2005- 06 06 Seminari de Traducció Automàtica Aplicacions del PLN Traducció basada en informació lingüística (2)

Upload: lucine

Post on 13-Jan-2016

41 views

Category:

Documents


0 download

DESCRIPTION

Seminari de Traducció Automàtica Aplicacions del PLN. Traducció basada en informació lingüística (2). Traducció basada en informació lingüística. Característiques tècniques dels sistemes de traducció automàtica (anàlisi, generació, lèxic, parser, etc.) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Seminari de Traducció AutomàticaAplicacions del PLN

Traducció basada en informació lingüística (2)

Page 2: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Traducció basada en informació lingüística

• Característiques tècniques dels sistemes de traducció automàtica (anàlisi, generació, lèxic, parser, etc.)

• L'arquitectura dels sistemes de traducció automàtica: – sistemes de transferència– d’interlingua– explotació estadística d’informació lingüística

Page 3: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Nivell d’anàlisi

ParaulesParaules ParaulesParaules

Inf. sintàcticaInf. sintàctica Inf. sintàcticaInf. sintàctica

Inf. semànticaInf. semàntica Inf. semànticaInf. semàntica

INTERLINGUAINTERLINGUA

Traducciódirecte

Transferència

Page 4: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

TA amb informació lingüística

Traduir és un procés de de-codificar un text en una llengua i tornar-lo a codificar en una altra llengua.

1) Analitzem el text en la LO2) Transferim informació3) Generem la informació en la LA

Page 5: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Problemes

Però assolir desxifrar el contingut d’un text en una llengua comportava problemes:

a) com es representava el “contingut”?b) com s’arribava a la representació d’aquest

contingut?c) quina era la informació necessària per poder

traduir?

Page 6: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

c) Informació necessària per traduir

• Coneixement equivalències entre llengües– Diccionari bilingüe– Construccions sintàctiques diferents:

• Subj Verb Predicat => Subj Predicat Verb• Passiva => Activa

• Coneixement llengua origen:– Reconèixer els constituents i les funcions: subj.

• Coneixement llengua meta:– Construir oracions correctes: la duda / el dubte

Page 7: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Un exemple senzill

Anglès Català

You like them Ells t’agraden

1 2 2 1

1= subjecte anglès2= objecte anglès

Page 8: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

b) Obtenir una representació automàticament

• arribar a una representació amb informació que ens permeti traduir

• Necessitem un mecanisme, un programa que disposi de coneixement sobre la llengua.

• Aquest programa rep una frase i ens torna una representació amb informació lingüística de la frase: una anàlisi gramatical

Page 9: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Programa per analitzar

• Necessitem:

1. Gramàtica: dades sobre com són les frases d’una llengua. Exactament, una definició formal del conjunt de frases que pertanyen a una llengua i solament aquestes(Formal = computacionalment tractable: que a partir de un nombre finit de símbols produeixi un nombre infinit d’expressions)

Page 10: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Programa per analitzar..

2. La gramàtica conté regles de re-escriptura per descriure el conjunt de les oracions d’una llengua.

O -> PRO SVSV -> V PRO

(Re-escriptura: si es dóna el cas que tenim el que hi ha a la banda dreta de la fletxa, ho podem substituir pel símbol de la banda esquerra)

2. Diccionari amb informació sobre les paraules: el lèxic (pot ser part de la gramàtica)

PRO -> them, youV -> like, ..

Page 11: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Programa per analitzar

3. Analitzador (parser): un mecanisme que llegeix, una per una, les paraules de l’oració que volem analitzar i construeix mitjançant les regles de re-escriptura la anàlisi de la fraseConceptualment l’analitzador i la gramàtica són dues coses diferents: la gramàtica és una definició d’un conjunt de frases; l’analitzador és un algorisme, una sèrie d’instruccions precises que compleixen les instruccions de la gramàtica

Page 12: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Funcionament

O -> PRO SV

SV -> V PRO

PRO -> they, you

V -> like, ..

Page 13: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Generació

• Una gramàtica (amb el lèxic inclós) tal com l’hem definida, pot també fer l’operació inversa a l’anàlisis: genera oracions de la llengua descrita

• O -> PRO SV• PRO -> you, them• SV -> V PRO• V -> like• PRO -> you, them

Page 14: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Generador

• Quan una gramàtica i l’analitzador construeixen cadenes de paraules, li direm generador i al procés generacióLa nostra gramàtica ha generat:1. you like them2. you like you3. them like you4. them like them

• Necessitem més informació per poder generar frases correctes...

Page 15: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Generador

• Solament volem generar les oracions correctes.• Afegim informació de cas, per que és el que ens pot

ajudar a definir les oracions correctesPRO_NOM -> youPRO_AC -> them

O -> PRO_NOM SVSV -> V PRO_AC

• “you like them”

Page 16: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Gramàtica d’anàlisi/generació del català

O -> PRO_NOM SV

SV -> PRO_AC V

PRO_NOM -> ells, elles

PRO_AC -> te

V -> agraden

“ells t’agraden”

“elles t’agraden”

Page 17: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Arquitectures de TA

Page 18: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Traducció basada en informació lingüística

• Característiques tècniques dels sistemes de traducció automàtica (anàlisi, generació, lèxic, parser, etc.)

• L'arquitectura dels sistemes de traducció automàtica: – sistemes de transferència

– d’interlingua

– explotació estadística d’informació lingüística

Page 19: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Transferència i Interlingua

• Transferència: tenen una component amb regles específiques per a cada parell de llengües que transformen la representació del text origen en una representació adequada per al generador de la llengua d’arribada

• Interlingüe: l’anàlisi del text origen dóna una representació en un llenguatge de representació del significat, neutre pel que fa a les llengües

Page 20: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Sistemes de transferència

Text LOText LO

Representació LORepresentació LO

Representació LARepresentació LA

Text LAText LA

Anàlisi Generació

Gramàtica i

Lèxic LO

Gramàtica i

Lèxic LO

Gramàtica i

Lèxic LA

Gramàtica i

Lèxic LA

Lèxic LO->LA

Regles de trànsferencia

Lèxic LO->LA

Regles de trànsferencia

Page 21: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Sistemes d’interlingua

Text LOText LO

Representació InterlingüeRepresentació Interlingüe Text LAText LA

Anàlisi Generació

Gramàtica i

Lèxic LO

Gramàtica i

Lèxic LO

Gramàtica i

Lèxic LA

Gramàtica i

Lèxic LALèxic

LO->INT>LA

Lèxic

LO->INT>LA

Page 22: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Representació Interlingüe al sistema KANT

Page 23: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Interlingua

• La traducció és un procés de 2 passes:– Traduir el text origen a una representació del coneixement

universal– Usar la representació per a generar el text d’arribada

• Avantatges:– Per n llengües, necessitem n components (no n2)

• Problemes:– Hem de construir un lèxic universal– Com representem el coneixement?

Page 24: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Transferència

• La traducció és un procés de 3 passes:– Analitzar el text origen– Transformar la representació lingüística que ens ha

tornat l’anàlisi en una representació adequada per la generació de la llengua d’arribada

– Usem la representació de la llengua d’arribada per generar una frase correcte

Page 25: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Tractament de fenòmens gramaticals• Concordança:

– Subjecte – Verb– Dintre el SN– Amb l’atribut

• Canvi d’ordre dels elements• Diferències en l’estructura:

– Afegir una preposició– Treure una preposició

• Selecció lèxica:– Pel context sintàctic– Per trets semàntics

Page 26: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Concordança

• Informació morfològica i la concordança Subj-V • A la gramàtica de generació

o_ca(o_ca(SN,SV)) -->sn_ca(Num,Gen,sn_ca(SN)),sv_ca(Num,Gen,sv_ca(SV)).

• Resultat?- trad([you,like,them],R).R = [ellas, te, gustan] ;R = [ellos, te, gustan] ;

Page 27: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Concordança dintre el SN

• Concordança dintre del SN– A la gramàtica de generació:sn_ca(Num,Gen,sn(Det,N)) -->d_ca(Num,Gen,Det),n_ca(Num,Gen,N).

– Resultat:?- trad([the,boys,work],R).R = [los, chicos, trabajan] ;trad([the,girls,work],R).R = [las, chicas, trabajan] ;

Page 28: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Concordança amb l’atribut:

• A la gramàtica de generació:sv_ca(Num,Gen,sv(V,SA)) -->

v_ca(Num,_,V),

sa_ca(Num,Gen,SA).• Resultat

?- trad([the,girls,are,pretty],R).R = [las, chicas, son, bonitas] ;

Page 29: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Canvi d’ordre dels constituents

• A la gramàtica de trànsfer:• Regla d’inversió d'adjectius

sn(De,SAe,Ne) <=> sn(Dcas,Ncas,SAcas)

• Resultat:?- trad([the,old,tables,are,very,pretty],R).R = [las, mesas, viejas, son, muy, bonitas] ;

Page 30: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Diferencies en l’estructura

• Afegir / treure estructura: • Afegir preposicions al trànsfer:

sv(Ve,SN1e,SN2e) <=>sv(Vcas,SN1cas,sp(p(_),SN2cas)):-Ve <=> Vcas,SN2e <=> SN1cas,SN1e <=> SN2cas.

• Resultat?- trad([sam,entered,the,elevator],R).R = [samuel, entró, en, el, ascensor] ;

Page 31: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Diferències en l’estructura

• Treure preposicions:sp(Pe,sn(Ne))<=>sn(Ncas) :-Ne <=> Ncas.

• Resultat:?- trad([sam,looks,at,the,table],R).R = [samuel, mira, la, mesa] ;

Page 32: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Selecció lèxica pel context

• Selecció de ser/estar?- trad([the,book,is,pretty],R).R = [el, libro, es, bonito] ;

?- trad([the,book,is,at,the,table],R).R = [el, libro, está, en, la, mesa] ;

• Al trànsfer identifiquen les traduccions de les diferents lecturesv(v5,_,_,be) <=> v(v5,_,_,ser).v(v6,_,_,be) <=> v(v6,_,_,estar).

Page 33: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Selecció lèxica pel context

• A la gramàtica d’anàlisi usem el context per assignar una lectura:

• Regles a la gramàtica d’anàlisi:sv(e,sv(V,SA)) -->v(e,v5,V),sa(e,SA).

sv(e,sv(V,SP)) -->v(e,v6,V),sp(e,SP).

Page 34: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Selecció lèxica amb trets semàntics

• Resultat:?- trad([sam,works],R).R = [samuel, trabaja] ;?- trad([the,elevator,works],R).R = [el, ascensor, funciona] ;• A la gramàtica de trànsferv(_,_,hum,work) <=> v(_,_,_,trabajar).

v(_,_,nhum,work) <=> v(_,_,_,funcionar).

Page 35: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Nivell d’anàlisi i transferència

• Transferència lèxica: la cerca del terme equivalent en la llengua d’arribada es realitza a partir d’informació que conté el diccionari.

• Transferència sintàctica: l’arbre d’anàlisis de l’oració d’origen es transforma en un arbre de generació equivalent per a l’oració d’arribada.

• Transferència semàntica: les oracions de la llengua de sortida es transformen en representacions profundes, com patrons de casos, o estructures lògiques.

Page 36: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Transfer semàntic

• Planteja la traducció com establir la relació entre representacions que encara són dependents de cada llengua, però on s’ha aconseguit informació semàntica que afavoreix la transferència.

• Les representacions estan orientades cap a la semàntica, per exemple en representacions semàntiques com a Forma Lògica:

Page 37: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Page 38: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Page 39: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Problemes dels sistemes basats en la transferència

• Tenir informació suficient per prendre decisions:– Know => saber – conèixer“I know him” vs. “I know the answer”

• Diferents lexicalitzacions i solapaments de significats de paraules

Luisa got up early => Luisa madrugó• Paraules que tenen traduccions complexes

Ich esse gern => M’agrada menjar

Page 40: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Problemes de la transferència

• Frases fetes i col·locacions:I made a decision => Tomé una decisiónI made a cake => Hice un pastel

Page 41: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Traducció basada en informació lingüística

• Característiques tècniques dels sistemes de traducció automàtica (anàlisi, generació, lèxic, parser, etc.)

• L'arquitectura dels sistemes de traducció automàtica: – sistemes de transferència

– d’interlingua

– explotació estadística d’informació lingüística

Page 42: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Explotació estadística d’informació lingüística

• Hi ha informació que podem aconseguir de corpus per la selecció lèxica

Page 43: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Sistema de Microsoft

Page 44: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Page 45: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Page 46: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Memòries de traduccióAutomaticTrans:

• la extracción sanguínea y su análisis

• l'extracció sanguínia i la seva anàlisi

• la extracción sanguínea

y su posterior análisis

• l'extracció sanguínia

i el seu posterior anàlisi

Page 47: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Sistemes amb informació lingüística de nivell baix (interNOSTRUM)

• Anàlisi: anàlisi morfològica, desambiguació estadística de categoríes

• Trànsfer: cerca lèxica bilingüe, processament: concordança, re-ordenació, canvis lèxics.

• Generació: generació morfològica, ortografía.

• Finalmente y en relación con el cuarto de los hechos enjuiciados ...

• Finalment i en relació amb la cambra

dels fets jutjats

• Finalmente y en relación con el cuarto de los hechos enjuiciados ...

• Finalment i en relació amb la cambra

dels fets jutjats

Page 48: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

SN

N[f,p] SA Orel

funciones típicas

SN SV

PR N V SP

[m,s] [m,s] [m,s]

cuyo análisis queda P SN

reservado al tribunal

cuyo = concordança dintre del seu SN

Page 49: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

SN

N[f,p] Orel

funcions

SN SV

N SP V SP

[f,s] P PR [f,s] P SN

[f,p]

l’anàlisis de les quals queda al tribunal

reservada

les quals = concordança amb l’antecedent

Page 50: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Sistemes de traducció automàtica amb informació lingüística

Finalment i en relació amb la

cambra dels fets jutjats, que la seva *autoria s'atribueix en l'escrit d'acusació als tres acusats, de la prova practicada no es desprèn l'existència d'indicis suficients atura enervar respecte als mateixos la presumpció constitucional d'innocència.

Finalmente y en relación con el cuarto de los hechos enjuiciados, cuya autoria se atribuye en el escrito de acusación a los tres acusados, de la prueba practicada no se desprende la existencia de indicios suficientes para enervar respecto de los mismos la presunción constitucional de inocencia.

Finalment i en relació amb el quart dels fets enjudiciats, la qual autoria s'atribueix a l'escrit d'acusació als tres acusats, de la prova practicada no es desprèn l'existència d'indicis suficients per enervar respecte dels mateixos la presumpció

constitucional d'innocència

Page 51: Seminari de Traducció Automàtica Aplicacions del PLN

N. Bel & M. Marimon 2005-06N. Bel & M. Marimon 2005-06

Traducció i versió

• Así por esta mi sentencia, de la que se unirá certificación a los autos, lo pronuncio, mando y firmo.

• Així per aquesta la meva sentència, de la que s'unirà certificació a les actuacions judicials, ho{el} pronuncio, comandament{autoritat} i firmo.

• Aquesta és la meva Sentència. Uniu-ne un certificat a les actuacions. Així ho pronuncio, ho mano i signo.