linguistica computacsdfsional

8
Denominació de la disciplina Tecnologies del llenguatge és un camp relativament nou. Denominacions diverses degut al caràcter multidisciplinari i la contínua aparició de noves tecnologies. Fronteres borroses / indistintament / especialitzat o deixat d’utilitzar. Es poden agrupar en: 1. Àrees d’estudi A partir dels anys 60 es distingeix entre L. Teòrica i L. Aplicada. LA estudia aspectes per donar resposta a unes necessitats socials, estableix connexions entre la L. I altres ciències relacionades, vessant de la L externa. Inclou l’ensenyament de llengües, L clínica, sociolingüística (planificació L), d’altres emergents (L Computacional, enginyeria L). - Lingüística computacional: Interès S XX. Tant la ment humana com els ordinadors són processadors d’informació que poden manipular signes i realitzar processos complexos (inferir dades, prendre decisions, aprendre coneixement nou). Es creu que es pot reproduir els processos cognitius humans en l’ordinador. LC terme de Grishman, (traduït directament de l’anglès). - Processament del llenguatge natural (o informàtica aplicada a la lingüística): Allen. Aquests termes es poden usar indistintament, signifiquen: “Estudi dels sistemes de computació utilitzats per la comprensió i generació de llengües naturals”. La terminologia està relacionada amb l’àmbit que es treballa. Inicialment, la LC concebuda amb autonomia respecte la lingüística. Causes: néixer en una altra àrea de coneixement, la informàtica. La informàtica no és una ciència humana ni social, com la psicologia o la sociologia, i s’ocupa del tractament automàtic de la informació per mitjà d’ordinadors. Amb la lingüística computacional, la informàtica va prescindir de la teoria lingüística i es va alimentar únicament de tècniques dissenyades per al tractament dels llenguatges artificials (de programació). Amb el temps, LC i processament del llenguatge natural s’han especialitzat segons l’àmbit. -Lingüística prefereix “lingüística computacional”, posa èmfasi en el llenguatge vist des d’una perspectiva computacional. -En informàtica “processament del llenguatge natural”, ja que tracta dades lingüístiques, prové de la psicolingüistica. Quan els informàtics pretenen que els ordinadors comprenguin i generin, es plategen crear sistemes que emulin el processament humà. Fins llavors el llenguatge informàtic era artificial i afegeixen l’adjectiu natural. Treballen sol amb textos escrits. Connexió amb la lingüística teòrica, i el processament del llenguatge natural implicava la utilització de processos intel·ligents, i una simple adaptació de les tècniques no és suficient. La lingüística computacional entra en contacte amb la intel·ligència artificial: área on es desenvolupen sistemes informàtics que mostren una conducta intel·ligent i tracta de codificar en programes facultats cognitives, com la lingüística. El terme lingüística computacional va ser encunyat per David Hays, qual l’entenia com una branca de la intel·ligència artificial. La intel·ligència artificial: Augmenta el nivell i les prestacions dels sistemes creats per al processament del llenguatge natural. Tracta sobre la construcció de sistemes informàtics de conducta intel·ligent i sobre codificar en programes facultats cognitives, com la lingüística. Fins a quin punt un sistema informàtic que fa tasques intel·ligents pot

Upload: marta-gort

Post on 11-Dec-2015

236 views

Category:

Documents


6 download

DESCRIPTION

jgaoig

TRANSCRIPT

Denominació de la disciplina

Tecnologies del llenguatge és un camp relativament nou. Denominacions diverses degut al caràcter multidisciplinari i la contínua aparició de noves tecnologies. Fronteres borroses / indistintament / especialitzat o deixat d’utilitzar. Es poden agrupar en:

1. Àrees d’estudi A partir dels anys 60 es distingeix entre L. Teòrica i L. Aplicada. LA estudia aspectes per donar resposta a unes necessitats socials, estableix connexions entre la L. I altres ciències relacionades, vessant de la L externa. Inclou l’ensenyament de llengües, L clínica, sociolingüística (planificació L), d’altres emergents (L Computacional, enginyeria L). - Lingüística computacional: Interès S XX. Tant la ment humana com els ordinadors són processadors d’informació que poden manipular signes i realitzar processos complexos (inferir dades, prendre decisions, aprendre coneixement nou). Es creu que es pot reproduir els processos cognitius humans en l’ordinador. LC terme de Grishman, (traduït directament de l’anglès).

- Processament del llenguatge natural (o informàtica aplicada a la lingüística): Allen. Aquests termes es poden usar indistintament, signifiquen: “Estudi dels sistemes de computació utilitzats per la comprensió i generació de llengües naturals”. La terminologia està relacionada amb l’àmbit que es treballa.

Inicialment, la LC concebuda amb autonomia respecte la lingüística. Causes: néixer en una altra àrea de coneixement, la informàtica. La informàtica no és una ciència humana ni social, com la psicologia o la sociologia, i s’ocupa del tractament automàtic de la informació per mitjà d’ordinadors. Amb la lingüística computacional, la informàtica va prescindir de la teoria lingüística i es va alimentar únicament de tècniques dissenyades per al tractament dels llenguatges artificials (de programació). Amb el temps, LC i processament del llenguatge natural s’han especialitzat segons l’àmbit. -Lingüística prefereix “lingüística computacional”, posa èmfasi en el llenguatge vist des d’una perspectiva computacional.

-En informàtica “processament del llenguatge natural”, ja que tracta dades lingüístiques, prové de la psicolingüistica. Quan els informàtics pretenen que els ordinadors comprenguin i generin, es plategen crear sistemes que emulin el processament humà. Fins llavors el llenguatge informàtic era artificial i afegeixen l’adjectiu natural. Treballen sol amb textos escrits. Connexió amb la lingüística teòrica, i el processament del llenguatge natural implicava la utilització de processos intel·ligents, i una simple adaptació de les tècniques no és suficient. La lingüística computacional entra en contacte amb la intel·ligència artificial: área on es desenvolupen sistemes informàtics que mostren una conducta intel·ligent i tracta de codificar en programes facultats cognitives, com la lingüística. El terme lingüística computacional va ser encunyat per David Hays, qual l’entenia com una branca de la intel·ligència artificial.

La intel·ligència artificial: Augmenta el nivell i les prestacions dels sistemes creats per al processament del llenguatge natural. Tracta sobre la construcció de sistemes informàtics de conducta intel·ligent i sobre codificar en programes facultats cognitives, com la lingüística. Fins a quin punt un sistema informàtic que fa tasques intel·ligents pot

ser considerat com un model del comportament cognitiu humà? Molts apliquen processos massa simples. Dilema: - Modelitzar formes humanes de tractament de problemes d’acord a la ciència cognitiva i, en el cas del llenguatge, la psicolingüística, - Limitar-se als resultats similars als humans utilitzant els seus propis mètodes.

A la pràctica, molts sistemes donen resultats satisfactoris sense aplicar models cognitius, incorporant processos dissenyats ad hoc per resoldre problemes específics. El més habitual és que el model utilitzat i l’abast d’aquest estigui en relació directa amb l’aplicació i les necessitats.

Relacions lingüística i informàtica: Les disciplines que interactuen en la L. Computacional són la lingüística i la informàtica. Per poder interactuar s’adapten metodològicament i en objectius. La informàtica tracta llenguatges artificials i haurà d’adaptar- a les llengües naturals (ambigüitats i irregularitats). La lingüística ha d’adoptar teories que permetin formalitzar fets lingüístics, establint comportaments regulars i expressant-los amb un llenguatge inequívoc. Àrea multidisciplinària: Aproximació per establir un clima de cooperació i enteniment entre els diferents especialistes. El lingüista formalitza dades amb llenguatges d’alt nivell basats en formalismes gramaticals que els informàtics tradueixen a algoritmes. La separació de les 2 àrees: codificar directament el coneixement gramatical en un programa és molt. Un lingüista que usa eines informàtiques no implica que sigui un lingüista computacional, ja que no necessàriament comprèn els mecanismes, les tècniques i els mètodes, i per tant, no podria dissenyar-los ni desenvolupar-los.

Formalització del llenguatge: 1r llenguatge per formalitzar és el Prolog, que prové de la lògica de predicats. Gràcies a l’aplicació de mètodes matemàtics s’aconsegueix un elevat grau de formalització de les llengües naturals. Important aportació a la formalització del llenguatge del corrent generativista, que es nodreix de la L distribucional. No va desenvolupar aplicacions funcionals però obrir camí a les gramàtiques d’unificació.

Relacions LC i LT: Mateix objectiu: “descripció i l’explicació́ dels processos lingüístics” però difereixen en els interessos. Per tal d’aconseguir aquest objectiu comú, des dels dos vessants es requereix dissenyar un model (arquetip) de com es el funcionament dels processos lingüístics. Els resultats obtinguts reverteixen també en la millora dels altres i s’influeixen mútuament:

- LT: l’objectiu es el fi, vol caracteritzar el seu objecte d’estudi, el llenguatge, i donar compte de les regles generals subjacents a les llengües i el comportament lingüístic.

- LC: pretén descriure el funcionament lingüístic humà per aconseguir amb mitjans informàtics els mateixos resultats, emulant el comportament cognitiu humà.

Avantatges per a la LT: - Primer la L. teòrica era deductiva i introspectiva. Actualment, el lingüista pot accedir a moltes dades, els corpus en format electrònic, que contenen textos, orals i escrits de varietats diverses (geogràfiques, socials o estilístiques).

- L. computacional ha facilitat la utilització d’un mètode empirista i les tecnologies del llenguatge són utilitzades com banc de proves per a la lingüística.

-Els models computacionals descriuen el comportament lingüístic per processar textos nous a partir dels formalismes que es creen en l’àmbit de la lingüística teòrica. La

utilització de models teòrics per processar textos no predefinits atorga validesa, i els resultats negatius informen sobre els aspectes a millorar.

2. Tractament de textos orals:

Tecnologies de la parla: processament de senyals sonores del llenguatge, comença en el marc de l’enginyeria de telecomunicacions.

3. Tractament superficial de textos: - L informàtica: sistemes que no inclouen coneixement lingüístic i realitzen un tractament superficial del text (escrit). - Lexicometria: anàlisi quantitativa dels textos. En els programes lexicomètrics els textos són considerats seqüències de caràcters (de tipus lingüístic, numèric) independentment de la llengua. Enfocament de l’estudi dels textos quantitatiu = lingüística quantitativa (LQ)

Amb aquestes eines es poden obtenir dades estadístiques per a seqüències de mots: no es tracta d’un recompte simple de paraules, es té en compte l’entorn d’ús per conèixer el comportament textual, i l’obtenció de dades de la dimensió sintagmàtica de cada forma del text. Dos procediments usats en aquests programes:

1) Documentals: Reorganitzen les unitats textuals: les presenten de forma diferent al text lineal. Dades que s’obtenen: llista de les paraules que apareixen en el text, freqüència de les paraules, llista de les paraules que apareixen al text, paraules que comencen/acaben/ contenen una determinada seqüència de caràcters, col·locacions i locucions, contextos en què apareixen els mots (concordances). 2) Estadístics: Realitzen diferents càlculs d’índexs de freqüència i comparacions entre textos d’un corpus. Comparen les parts d’un text segons el vocabulari i la freqüència d’ús per establir similituds o diferències entre diferents emissors o diferents textos del mateix emissor, i establir quin vocabulari tendeix a ser molt o poc usat.

Utilitat de la LQ: Àrees diverses (estudis literaris, elaboració de diccionaris, estudis estilístics, lingüístics com lexicografia, anàlisi de textos polítics, detecció d’autoria en el cas de textos anònims). Estudi de processos psicològics (sempre que es disposi de dades textuals dels subjectes implicats al llarg del temps.)

LQ (anàlisi superficial ) i LC (processar dades): Frontera no clara. - LC beneficia la LQ: l’anàlisi morfològica, sintàctica i semàntica dels textos milloren les possibilitats de cerques en els programes de la LQ. - Resultats LQ milloren els sistemes del processament del llenguatge natural: alimenten informació de les entrades lèxiques dels diccionaris o lèxics dels sistemes de processament (col·locacions, règims preposicionals). Útil en la traducció i correcció automàtiques de textos. 4. Aplicacions i programes comercials

Enginyeria lingüística, indústries de la llengua, tecnologies del llenguatge (humà), tecnologies lingüístiques. Durant els anys 90 en programes d’investigació de la UE per designar les aplicacions que permeten fer visibles a la societat els avenços aconseguits en la lingüística computacional. Finalitat pràctica per comercialitzar. Tipus d’usuaris:

• No experts. Públic general: Programes de correcció assistida i verificació ortogràfica, Programes de traducció automàtica i assistida, confecció de resums,

extracció i recuperació d’informació, programes de tecnologies de la parla (dictat automàtic, interfícies pregunta-resposta, conversió text-parla o parla-text, sistemes de diàleg), Programes de cerca d’informació. Sectors especialitzats: documentació i biblioteconomía, món empresarial, àmbit comercial.

• Experts: Traductors, lexicògrafs, terminòlegs, professors.

Tècniques LC, processament llenguatge natural PLN

Dades lingüístiques formalitzades per computar: Recursos del sistema = (gramàtiques i lexicons). Codifica informació sobre el llenguatge per obtenir els resultats esperats.

Programes informàtics: apliquen dades lingüístiques sobre els textos per analitzar, o produeixen textos que es volen generar. Els textos: L’actuació, composició de mòduls i tractament de dades, varia segons el sistema i el tipus d'aplicació. Les tecnologies del llenguatge poden realitzar 2 processos corresponents als processos bàsics del comportament lingüístic humà:

a) Anàlisi: transformar les dades lingüístiques (símbols escrits, o senyals parlades) en elements de coneixement representats de forma tractable per un sistema intel·ligent. En un sistema de TA, es transforma el text d'una llengua en una representació intermèdia entre les dues llengües.

b) Generació: Procés invers, els objectes estructurats (representació) es converteixen en elements lingüístics. Un sistema de TA transforma la representació intermèdia en el text de la llengua destí. Hi ha aplicacions que usen els dos procediments (traducció automàtica) i d'altres que només un.

Model

L’objectiu de la disciplina és dissenyar un model que reprodueixi les característiques de l’objecte i els processos que hi actuen. Ha de ser capaç de generar i/o analitzar textos i es pugui implementar informàticament. La naturalesa pot ser diversa, en funció procedimental i filosòfica. En lingüística computacional, el model ideal ha de ser complert, (incloure aspectes estructurals i funcionals.)

A l’inici de la lingüística com a ciència, S XX, es va considerar que bàsicament havia de donar compte d’aspectes estructurals (morfologia i sintaxi). Algunes incloïen la semàntica. Als anys 60 es va estendre la necessitat d’un model complert, que inclogués aspectes funcionals. Prenen importància els estudis de pragmàtica (interès per l’ús del llenguatge i el context comunicatiu dels intercanvis lingüístics). Mentre que la formalització dels nivells fonètico-fonològic, morfològic i sintàctic està assolida en el segle XXI, en la semàntica i la pragmàtica encara hi ha terreny per treballar.

Tipus de models: Hi ha un model poc estès basat en les xarxes neuronals, que utilitza els procediments de la lògica difusa. S’ha usat en l’àmbit de recuperació de la informació, la mineria de dades i l’aprenentatge automàtic.)

1) Models   simbòlics   basats   en   el   coneixement: Anys 70, intel·ligència artificial al processament del llenguatge natural per al desenvolupament de l’anàlisi sintàctica i semàntica. Àrea de la intel·ligència artificial. Primer en el camp de la representació

semàntica, on destaca Schank amb els scripts (guions): esquemes que inclouen seqüencies d’accions predeterminades i estereotipades que defineixen una situació quotidiana. Sintaxi: s’utilitzen gramàtiques d’estructura de la frase. Es parteix del fet que les llengües son sistemes formals. Es poden definir amb símbols (descriuen peces lèxiques) i regles (expliciten les combinacions de símbols, estructures sintagmàtiques). Els models simbòlics són un subtipus de models basats en el coneixement, ja que per a determinades tasques (tractament d’inferències) es requereixen altres procediments que van més enllà.

Aquesta formalització sintàctica va ser desenvolupada al corrent generativista de Chomsky. Els conceptes subjacents són el del poder generatiu de les llengües i competència: busca les possibles estructures gramaticals que es poden generar en una llengua. Respon a la filosofia racionalista, ja que pretenen explicar el comportament lingüístic. En els 80, van aparèixer formalismes gramaticals més elaborats usant restriccions. Aquest formalismes són rellevants en els processos de comprensió́ (anàlisi).

Limitacions: “El conferenciant va parlar als professors de tecnologia”. Gramàtica (model simbòlic). Ambigüetat: O bé va parlar sobre el tema de la tecnologia, o bé va parlar amb els professors de l’assignatura de tecnologia.

2)  Models   probabilístics   o   estadístics: Anys 80, com alternativa als simbòlics, amb limitacions en textos de dominis genèrics. Basats en l’aprenentatge a través de corpus: infereixen coneixement a partir de dades.. Protagonisme en les tecnologies de la parla (90). - interès per les teories i + per les aplicacions i resultats. Es qüestiona la necessitat d’emular processos mentals, es pretén que l’ordinador executi tasques sense imitar la ment humana. Es fonamenten en tècniques d’aprenentatge a través de corpus (machine learning), vol inferir coneixement a partir de dades. Ancorats en l’empirisme.

En el vessant lingüístic es descriu el comportament lingüístic, l’actuació. No se centra en la gramaticalitat oracional sinó en l’ús de les llengües. Els mètodes quantitatius es basen en inferir estructures a partir de la cerca en un corpus de regularitats estadístiques. Donada una seqüència, es busquen patrons de coaparició en n-grames, (seqüències de n elements). Aquesta tècnica es fa anar per desambiguar el sentit de mots polisèmics. En una anàlisi morfosintàctica que es disposi de corpus, l’extracció de regularitats es basa en la coaparició de categories morfosintàctiques lèxiques o sintagmàtiques.

Limitacions: • Si els textos estan en brut (sense anotació) les regularitats estan limitades a la

semàntica lèxica. Per avançar es requereixen textos enriquits amb informació lingüística (morfosintàctica, sintàctica, semàntica o pragmàtica).

• Limitats pels fenòmens reflectits en els textos analitzats. Com més grans siguin els textos en què es basen els algoritmes, millors resultats s’obtindran. Però l’anotació d’informació no és fàcil ni ràpida i, un corpus mai es podrà considerar com una representació completa d’una llengua. És possible que en analitzar textos nous, les gramàtiques creades trobin esculls amb noves estructures. La limitació no es troba en la capacitat de descripció del lingüista, com en els models simbòlics, sinó en la varietat de textos usats com a punt de partida per crear l’eina d’anàlisi.

• En casos d’interpretació semàntica ambigua, els models probabilístics poden prioritzar la interpretació més freqüent, però existeix un marge d’error.

• Coneixement del món: Com formalitzar el funcionament del món en què vivim? Tipus d’informació ingent de caire enciclopèdic. Habitualment s’utilitzen ontologies per reflectir la conceptualització subjacent a l’expressió lingüística, però determinat tipus de coneixements sobre com es relacionen els objectes i les entitats són difícils de reflectir a través de formalismes i jerarquies de conceptes.

Models basats en el coneixement

Models probabilístics

Corrent filosòfic Racionalisme Empirisme Model Competència Actuació Objectius Gramaticalitat, explicació Descripció Aplicacions Comprensió Tecnologies parla, cerca

informació Elements Estructura sintagmàtica n-grames

Solució: En la darrera dècada, arran de les limitacions dels probabilístics, s’ha apostat per una combinació dels dos models aprofitant els avantatges de cadascun, i millorar l’eficiència. Encara no hi ha una metodologia establerta que determini quina combinació és la més apropiada. S’han dut a terme experiments que combinen ambdues tècniques, com els mètodes estadístics per ampliar el coneixement dels formalismes gramaticals basats en models simbòlics. La idea és barrejar diferent tipus de coneixement.

Sistema modular d’un sistema de PLN

Per treballar amb el llenguatge des d'un punt de vista computacional és necessària la formalització del llenguatge que dissenyi la construcció d'un model. En lingüística es distingeixen diferents nivells en l'anàlisi del llenguatge (fonètic, fonològic, morfològic, sintàctic i semàntic), els sistemes que processen el llenguatge es distingeixen en mòduls encarregats d'un determinat tipus d'unitat (fonemes, morfemes, paraules, frases, discurs) i un programa gestor decideix quin actua en cada moment. El sistema modular té avantatges des del punt de vista informàtic, ja que el processament del llenguatge és un problema complex d'enginyeria del software i de gestió del coneixement sobre unitats lingüístiques diverses (morfemes, les paraules o les frases) i que requereix processos diversos com l'anàlisi morfològica i sintàctica o la interpretació semàntica. Avantatges:

• Mantenir cada mòdul de forma independent i aplicar-li diferents programes. • Mantenir la independència interna de les dades: fer modificacions en un mòdul sense

que això afecti la resta. El sistema és flexible i ampliable. • Desenvolupament simultani dels mòduls i especialització dels grups de treball. • Integració efectiva dels nivells definint el que cada component espera a l'entrada i

produeix com a sortida. Garanteix la consistència interna de les dades. Es presenten els components de manera estratificada, dels pròxims a la realització superficial als relacionats amb les capacitats cognitives d’alt nivell: TEXT – FF – M – LEX – SIN – LOG – SEM – PRG – SORTIDA

Fonètic i fonològic: síntesi i reconeixement de la veu. No existeix en text escrit. Funció de convertir una cadena de fonemes en sons i materialitzar-los físicament. En el reconeixement de veu, a partir de la cadena sonora es representaran els fonemes subjacents i a la cadena ortogràfica corresponent.

Morfosintàctic segmentació del text en unitats mínimes: lexemes, morfemes flexius i derivatius i l'assignació de les interpretacions morfosintàctiques. -1a fase: indica totes les possibles anàlisis d’un mot. Assignació de lemes a variants.

-2a fase: utilitza regles per desfer ambigüitats segons si davant hi ha una preposició, (categoria que pot combinar amb V però no amb N derivat d’infinitiu).

Lèxic s'identifiquen les unitats lèxiques i se'ls assigna informació per a l'anàlisi sintàctica i semàntica. Tracta unitats complexes com locucions i lexies.

L'anàlisi sintáctica. interrelacions dels mots, identificació dels constituents i l'assignació de descripcions estructurals

Lògic: interpretació de la frase a partir de la informació de l'estructura sintagmàtica, sense tenir en compte el context lingüístic i extralingüístic. (Acte de comprar on no queda especificat ni qui n'és l'agent (X) ni l'objecte (Y).) Semàntic connecta elements de la forma lògica amb els del món definit. Es realitzen inferències per resoldre ambigüitats, referents anafòrics, etc. Si és possible, es recupera el subjecte (3ª p.s.) i l'objecte. El domini de l'aplicació queda restringit a aquest àmbit. També s’associa el temps a una data concreta. Pragmàtic Per millorar la interpretació.

A cada mòdul hi ha coneixement (dades) i regles (programes) específic per tractar les dades pròpies en cada fase. En cada mòdul cal tractar les ambigüitats. Algunes no poden ser solucionades en el matei mòdul que són detectades, de manera que es va arrossegant informació no vàlida, alguns es poden quedar sense resoldre. Traducció automàtica:

Ajudar als humans en textos llargs i amb repeticions. No podrà ser literària perquè una màquina no té tant coneixement del món. 3 tipus de TA segons la participació:

1) Totalment automàtica: Intervenció humana nul·la. N’hi ha molt pocs. Domini conceptual i lingüístic restringit per preveure les estructures i lèxic.

a) llenguatges d'especialitat (sub-llenguatges), dins d'uns marges predictibles: les disposicions legals i administratives (butlletins oficials, resolucions), textos jurídics (contractes, normatives) manuals tècnics, butlletins informatius (meteorologia, borsa). "El llenguatge estàtic és fixat, ple de fórmules i clixés. S'oposa al dinamisme de textos creatius i en la parla col·loquial".

b) Esborranys: "fer-se una idea" del contingut. Avantatges: discriminar entre la informació i no perdre informació rellevant.

2) Automàtica assistida per humans: És necessària la intervenció humana en alguna de les fases del procés de traducció. idonis per grans volums de textos de caràcter tècnic, i manera continuada. Exemples: anys 60 – 80, Atlas-I i Metal.

a) La preedició: abans que es tradueixi el text, estandarditza l'estructura i el format. Reduir errors de traducció si s'unifica el format (signes de puntuació, espais), S'estandarditzen i es marquen noms propis, sigles i caràcters específics.

b) La postedició: verificació i correcció. No és equivalent a la correcció d'estil realitzada després de la traducció manual. Implica corregir l'estil i resoldre

problemes del procés automàtic. És l'última tasca i l'única que no és automàtica. TA en el millor dels casos (llengües molt properes), 90%.

c) Procés de traducció: resolució de l'ambigüitat en el processament lèxic i sintàctic. En aquests casos el sistema de traducció interroga el traductor cada cop que es troba davant d'un problema que no pot resoldre. Sistemes de traducció automàtica interactiva. Exemple: SALT, Generalitat Valenciana traduir castellà al català. Les fases de pre-edició i post-edició són obligatòries, però no ho és l'assistència humana, ja que alenteix el procés: el sistema no pren decisions i, els problemes els ha de resoldre l'humà. Si l'humà només intervé a l'inici i/o al final se solen considerar sistemes de traducció automàtica, però no estan totalment mecanitzats.

3) Humana assistida per l'ordinador: l'humà realitza la traducció utilitzant: processadors de textos, verificadors ortogràfics, correctors, recursos lèxics per a la consulta, bases de dades lèxiques i terminològiques (monolingües i bilingües), thesaurus, enciclopèdies.

a) Corpus paral·lels: textos disponibles en més d'una llengua. Cas òptim: versions originals acompanyades de les traduccions respectives. Permet trobar equivalències útils en dominis restringits.

b) Memòries de traducció: equivalències entre fragments de text. El programa va mirant frase a frase el text que es vol traduir buscant en la memòria de traducció una frase igual, o semblant. Quan el resultat de la cerca és positiu, el programa simplement canvia la frase de l'idioma original per la seva traducció emmagatzemada. Funcionen bé per traduir molts textos de temàtica semblant. Idònies si contenen fragments que es repeteixen: (manuals tècnics) on planes senceres de dues versions poden ser iguals. Les expressions o oracions que ja s'han traduït, no cal traduir-les un altre cop, això redueix el temps i garanteix un resultat correcte. El grau de similitud varia segons l'usuari, sol ser 80% (mateixes paraules i al mateix lloc).

c) Aplicacions híbrides: En les frases que no són 100% iguals, les paraules que no coincideixen s'envien a traduir a un motor de TA, mentre que la resta s'agafa de la traducció emmagatzemada. Útils per a un traductor professional, (però l'usuari comú també els pot utilitzar): millor qualitat de resultat i rendibilitat d’esforç. Funció de gestionar les fonts de coneixement a l'abast del traductor. Molts permeten l’actualització de dades per part de l'usuari. Problemes: qualitat sol ser molt baixa i requereix post-edició. Exemple de traducció assistida per a PC: Déjà Vu, amb memòries de traducció i gestió de bases terminològiques i Transit.