anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. mètodes exògens...

63
DEPARTAMENT DE TRADUCCIÓ I CIÈNCIES DEL LLENGUATGE UNIVERSITAT POMPEU FABRA Programa de doctorat interuniversitari: Ciència cognitiva i llenguatge Bienni 2005-2007 Anàlisi de tècniques estadístiques d’extracció automàtica de termes Mercè Vàzquez Garcia Treball de recerca Director: Antoni Oliver Gonzàlez Tutor: Toni Badia Cardús Barcelona, 2007

Upload: others

Post on 17-Aug-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

DEPARTAMENT DE TRADUCCIÓ I CIÈNCIES DEL LLENGUATGE UNIVERSITAT POMPEU FABRA Programa de doctorat interuniversitari: Ciència cognitiva i llenguatge Bienni 2005-2007

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

Mercè Vàzquez Garcia

Treball de recerca Director: Antoni Oliver Gonzàlez Tutor: Toni Badia Cardús

Barcelona, 2007

Page 2: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

2

0. Índex

1. Introducció 4 2. Marc teòric 5

2.1. Supòsits teòrics de base. El vessant lingüístic de la terminologia 5 2.2. Del terme a la unitat de significació especialitzada 6 2.3. Tècniques d’extracció d’unitats de significació especialitzada 7

2.3.1. Mètodes endògens per a l’extracció d’unitats de significació especialitzada 7 2.3.1.1. Mètodes estadístics 7 2.3.1.2. Mètodes lingüístics 8 2.3.1.3. Mètodes híbrids 9 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes que cerquen informació pròxima al terme 9 2.3.2.2. Mètodes semàntics 9 2.3.2.3. Mètodes que fan servir corpus de contrast 10

2.4. Limitacions de les tècniques d’extracció d’unitats de significació especialitzada11 2.5. Millores en les tècniques d’extracció d’unitats de significació especialitzada 13 2.6. Àrees de recerca en terminologia 13

2.6.1. Adquisició de termes 13 2.6.1.1. Adquisició de termes bilingües 14 2.6.2. Reconeixement de termes monolingües i indexació automàtica 14

2.7. Àrees de recerca del terme en el processament del llenguatge natural 16 2.8. Darrers avenços 16 2.9. Recuperació d’informació 16

2.9.1. Models de recuperació d’informació 17 2.9.1.1. Classificació del models de recuperació d’informació 18 2.9.1.2. Models conceptuals 18 2.9.1.3. Conceptes generals sobre els models de recuperació d’informació 19 2.9.1.4. Models algebraics lineals: model clàssic d’espai vectorial 19

2.10. Gestió d’informació 20 3. Pregunta de recerca 22 4. Objectius del treball de recerca 22 5. Hipòtesis de recerca 23 6. Part experimental 23

6.1. Problemàtica de l’extracció de termes 23 6.2. Recursos per a fer l’experiment 25

6.2.1. Eina d’anàlisi estadística 25 6.2.2. Corpus d’especialitat 28 6.2.3. Corpus de termes de referència 28 6.2.4. Llista de paraules buides 28

6.3. Plantejament de l’experiment 29 6.3.1. Preparació del corpus d’especialitat 29 6.3.2. Preparació dels resultats estadístics inicials 29 6.3.4. Descripció de les mesures estadístiques 31 6.3.4.1. Classificació de les mesures estadístiques 31 6.3.4.2. Descripció de les mesures 32

Page 3: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

3

7. Avaluació dels resultats 42 7.1. Resultats obtinguts per nombre de termes de referència 42 7.2. Resultats obtinguts per nombre d’unitats de significació especialitzada 44

7.2.1. Selecció de les unitats significativament rellevants amb informadors 44 7.2.2. Dificultats en la selecció d’unitats significativament rellevants 46 7.2.3. Valoració dels resultats 46 7.2.4. Validació de les hipòtesis de partida 48

8. Conclusions 49 9. Treball futur 50 10. Referències bibliogràfiques 50 11. Annexos 60

Annex 1. Llista de candidats a terme revisada manualment 60 Annex 2. Llista de nous termes de referència 62

Page 4: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

4

1. Introducció

Actualment, en l’àmbit de la terminologia, l’adquisició i el reconeixement de termes són dues grans àrees de recerca molt actives que estan relacionades amb el processament del llenguatge natural. En el nostre treball farem una aproximació a aquestes dues línies de recerca fent servir mètodes estadístics d’extracció d’unitats que tenen significat especialitzat en un corpus d’especialitat. L’ús de mètodes estadístics permeten de treballar amb grans volums d’informació i són molt àgils en el procés de localització de termes. El desenvolupament de la terminologia computacional incideix en un ampli ventall de camps, des de l’extracció d’informació, la construcció de lexicons bilingües, la terminografia i el resum automàtic fins a la construcció de glossaris, vocabularis i diccionaris terminològics, la indexació de textos, la traducció automàtica, la construcció de bases de dades de coneixement, la construcció de sistemes d’hipertext o sistemes experts i l’anàlisi de corpus. Amb l’augment del volum dels recursos digitals i l’accés als seus continguts, la recuperació d’informació necessita disposar de material terminològic actualitzat, ja que aquests recursos cada vegada tenen un volum de dades més elevat i el problema actual és l’automatització del contingut (terminologies, tesaurus, glossaris) d’un corpus. L’àmbit de la documentació necessita disposar de recursos terminològics per a classificar els termes dels tesaurus d’un determinat àmbit o extreure els termes dels documents amb l’objectiu de classificar-los. Els objectius d’aquesta àrea de coneixement són diferents dels que hi ha en el vessant lingüístic de la terminologia (diccionaris, bases de dades terminològiques, normalització, correcció i traducció, etc.), però les tècniques d’extracció poden ser compartides en ambdues disciplines. En el present treball establim un marc teòric que se centra en els mètodes d’extracció de terminologia, la recuperació d’informació i la gestió d’informació (apartat 2), plantegem una pregunta de recerca inicial, els objectius i les hipòtesis de treball (apartats 3, 4 i 5), desenvolupem una part experimental per a copsar quina mesura o conjunt de mesures estadístiques són més adequades per a poder recuperar les unitats lingüístiques que són significativament rellevants en un corpus d’especialitat (apartat 6), avaluem els resultats obtinguts en la part experimental (apartat 7) i tanquem l’estudi amb les conclusions a què ens han permès arribar els resultats obtinguts i plantegem el treball futur (apartats 8 i 9). Hem completat el treball amb la llista de referències bibliogràfiques que ens han ajudat a preparar aquest estudi (apartat 9) i un parell d’annexos (apartat 10). Els resultats que hem obtingut en la part experimental del nostre treball han estat possible gràcies a la cessió del corpus de termes de referència que ens ha fet el Termcat, Centre de Terminologia. Així mateix, hem comptat amb la col·laboració de cinc informadors que han revisat manualment les dades, concretament es tracta de Josep Cobarsí i Antoni Oliver, enginyers de Telecomunicacions; Alba Corral, Enric Senabre i Mercè Vàzquez, filòlegs i especialistes en terminologia. Finalment, volem agrair els consells i les observacions que ens han fet arribar Ona Domènech i Lluís Rius en el procés d’avaluació de les dades, els membres del grup de recerca KIMO (Gestió d'informació i gestió del coneixement a les organitzacions) de la Universitat Oberta de Catalunya en el plantejament general del nostre treball i Antoni Oliver del grup de recerca LPG (Processament del llenguatge) de la Universitat Oberta de Catalunya en la direcció del present treball.

Page 5: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

5

2. Marc teòric

Els supòsits teòrics que serviran de base per al desenvolupament de la part experimental del nostre treball se centren en els mètodes d’extracció de terminologia, la recuperació d’informació i la gestió d’informació. Primerament, centrem el nostre estudi en el vessant lingüístic de la terminologia i, en concret, plantegem els fonaments de base de la Teoria Comunicativa de la Terminologia i de quina manera seguim els supòsits teòrics d’aquesta teoria en la nostra recerca (apartat 2.1.). Seguidament, introduïm quin és l’objecte d’estudi propi del nostre treball, la unitat de significació especialitzada, (apartat 2.2.) i quines tècniques es fan servir actualment per a l’extracció d’aquestes unitats d’un àmbit de coneixement especialitzat (apartat 2.3.). Així mateix, plantegem quines són les limitacions que tenen les tècniques d’extracció d’unitats de significació especialitzada i quines millores cal tenir en compte per a disposar d’uns resultats més afinats (apartats 2.4. i 2.5.). A continuació, fem una descripció de quines són les àrees de recerca més actives que hi ha actualment en terminologia (apartat 2.6.), quines són les àrees de recerca sobre el terme en el processament del llenguatge natural (apartat 2.7.) i quins són els darrers avenços tecnològics en aquest àmbit (apartat 2.8.). Finalment, considerant que l’àmbit d’extracció de terminologia està molt lligat a la recuperació d’informació i a la gestió d’informació, descrivim, d’una banda, quins són els models de recuperació d’informació que hi ha actualment (apartat 2.9.) i, de l’altra, l’estreta relació que hi ha entre l’ús d’informació especialitzada i l’extracció de terminologia (apartat 2.10.).

2.1. Supòsits teòrics de base. El vessant lingüístic de la terminologia

La terminologia moderna, com a matèria sistemàtica i pràctica organitzada, neix a Viena als anys trenta del segle XX gràcies als treballs d’Eugen Wüster. Els motius que Wüster té per a endinsar-se en l’àmbit de la terminologia són merament pràctics, és a dir, superar els obstacles de la comunicació professional provocats per la imprecisió, diversificació i polisèmia del llenguatge natural. Wüster considera la terminologia com un instrument de treball que ha de servir de manera eficaç a la desambiguació de la comunicació científica i tècnica. D’entrada, la seva preocupació és bàsicament metodològica i normativa, no teòrica. El seu interès per la teoria vindrà més endavant, com a fruit de reflexió del seu procés de treball en la confecció del seu diccionari. En la seva obra pòstuma de 1979 hi ha el compendi de la seva teoria, anomenada Teoria General de la Terminologia (TGT), que serà desenvolupada posteriorment pels membres de l’escola de Viena. Actualment Wüster és conegut com a creador de la TGT i fundador de la terminologia moderna. En els darrers anys han començat a aparèixer veus crítiques als principis de la TGT, que se centren en la falta de capacitat que té per a explicar globalment la comunicació especialitzada i les seves unitats més representatives –els termes–, i també per a descriure les varietats terminològiques en tota la seva complexitat representativa i formal. En aquest sentit, és significatiu el treball pioner de Rey (1979) i les aportacions de Sager (1990), Gambier (1991), Rey (1992), Slodzian (1995), Condamines (1994), Gaudin (1991 i 1995), Temmerman (1997), Cabré (1992 i 1998). Les aportacions crítiques que s’han fet de la TGT fan referència a tres aspectes de la terminologia que

Page 6: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

6

constitueixen els fonaments del seu caràcter interdisciplinari: els aspectes cognitius, lingüístics i socials. Seguint l’aportació de Cabré (1999) feta en la Teoria Comunicativa de la Terminologia, aportació que cerca nous fonaments que donin llum a una nova teoria sobre els termes basada en els fonaments del llenguatge i en el seu caràcter sociocultural i que vol donar compte dels termes com a unitats singulars i alhora semblants a altres unitats de comunicació dins un esquema global de representació de la realitat, admetent la variació conceptual i denominativa i tenint en compte la dimensió textual i discursiva dels termes, en el nostre treball assumim una sèrie de supòsits teòrics amb relació a la terminologia i al seu objecte d’anàlisi, els quals resumim a continuació: a. La terminologia és una matèria que té un caràcter intrínsecament interdisciplinari, la qual rep les aportacions d’una teoria del llenguatge, que inclou aspectes pròpiament lingüístics, cognitius i socials; una teoria de la comunicació, i una teoria del coneixement. En el nostre treball ens centrem en els aspectes lingüístics de la teoria del llenguatge. b. L’objecte d’estudi són les unitats terminològiques pròpiament dites. El caràcter de terme d’aquestes unitats s’activa segons l’ús que se’n faci en un context i una situació determinats, aspecte que considerem essencial en el nostre treball per a determinar el caràcter terminològic del conjunt de candidats a terme que obtenim d’un corpus d’especialitat. c. Els termes són unitats lèxiques que consten de forma i significat. La forma és constant, però el significat varia segons el tipus de situació i l’àmbit en què es troba. d. El valor d’un terme s’estableix pel lloc que ocupa en l’estructura conceptual d’una matèria. Els termes no pertanyen a un àmbit, sinó que són usats en un àmbit amb un valor singularment específic, tal com volem observar en la part experimental del nostre treball. e. L’objectiu de la terminologia aplicada és recopilar unitats de valor terminològic en un tema i establir-ne les característiques, objectiu que tindrem en compte a l’hora d’avaluar el resultat de l’extracció de candidats a terme que obtindrem. f. La finalitat aplicada de la recopilació i anàlisi de les unitats de valor terminològic usades en un àmbit és molt diversa, la qual en el nostre treball se centrarà a avaluar el comportament de diverses mesures estadístiques a l’hora d’extreure els candidats a terme d’un àmbit d’especialitat.

2.2. Del terme a la unitat de significació especialitzada El conjunt de les paraules especialitzades d’una determinada disciplina (o domini d’activitat específica) constitueix la terminologia pròpia d’aquesta especialitat. Els termes, que són les unitats de base de la terminologia, són unitats sígniques, distintives i significatives que designen els conceptes propis de cada disciplina especialitzada. Un terme és l’associació d’una forma i un contingut; el contingut correspon a un conjunt de trets que coincideix amb un nus cognitiu d’una estructura conceptual concreta i sempre en un context especialitzat. La forma i el contingut dels termes tenen relació tant amb la llengua general com amb un àmbit d’especialitat. Els termes són sempre temàticament específics, per la qual cosa no hi ha termes sense un àmbit d’especialitat que els aculli. Els termes no són unitats aïllades que constitueixen un sistema propi, sinó unitats que s’incorporen en el lèxic d’un parlant quan adquireix el rol d’especialista per mitjà de l’aprenentatge de coneixements especialitzats (Cabré, 1999).

Page 7: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

7

Tots els termes sense excepció estan associats a una categoria gramatical bàsica i només a una, que és únicament nominal en una concepció de la terminologia exclusivament denominativa. Amb tot, la categoria «nom» pot correspondre a altres categories d’origen verbal o adjectival. Si la terminologia, en lloc d’identificar-se per la seva capacitat denominativa, es defineix per la seva especificitat significativa (significat propi de l’àmbit en què s’usa) i pragmàtica (situació comunicativa), amplia la seva identificació més enllà de les unitats nominals i se solapa amb altres tipus d’unitats com la fraseologia o les expressions especialitzades. En el nostre plantejament, a més de la concepció denominativa, considerem fonamentals els vessants significatiu i pragmàtic d’una unitat per a determinar si és terminològica o no ho és, ja que, sovint, l’ús que es fa d’una unitat en un context especialitzat indica el seu caràcter terminològic. Així, doncs, a més dels termes en el seu vessant denominatiu, considerem que hi ha unitats que, pel significat i per l’ús que tenen en un determinat context, també tenen un significat especialitzat. I és que les unitats de significació especialitzada (Estopà, 1999) van més enllà del terme entès com a concepte clàssic en el sentit que vehiculen el coneixement especialitzat d’una determinada especialitat i poden fer referència tant a unitats lingüístiques com a unitats no lingüístiques. Les unitats lingüístiques poden ser lèxiques –nominals, adjectivals, verbals, adverbials– o no lèxiques –unitats fraseològiques especialitzades (verbals, nominals, adjectivals, adverbials) o combinacions recurrents (descriptives)– i les unitats no lingüístiques poden ser símbols o fórmules. En aquesta classificació de les unitats de significació especialitzada, els termes en sentit clàssic queden situats en el marc de les unitats lingüístiques lèxiques nominals, és a dir, els termes són considerats un subconjunt de les unitats de significació especialitzada.

2.3. Tècniques d’extracció d’unitats de significació especialitzada

Actualment les tècniques d’extracció d’unitats de significació especialitzada empren diferents mètodes per a assolir l’objectiu d’obtenir les unitats més representatives d’un corpus d’especialitat. Seguidament descriurem breument quins són aquests mètodes i com treballen, classificats segons facin servir informació del mateix corpus per a l’extracció de les unitats, és a dir, informació morfològica, sintàctica, semàntica i estadística pròpia del terme o dels seus components (mètodes endògens) o bé facin servir informació externa a la unitat mateixa o al corpus, és a dir, informació lingüística o estadística del context en què apareix el terme o recursos externs com diccionaris, corpus de contrast, bases de dades, ontologies (mètodes exògens). 2.3.1. Mètodes endògens per a l’extracció d’unitats de significació especialitzada Els mètodes endògens que fan servir la informació del corpus d’especialitat per a extreure’n les unitats de significació especialitzada són els mètodes estadístics, els mètodes lingüístics i els mètodes híbrids.

2.3.1.1. Mètodes estadístics

Els mètodes estadístics s’han convertit en referents gràcies al desenvolupament de la lingüística de corpus. Aquests mètodes utilitzen càlculs propis d’altres àrees com la recuperació d’informació i la detecció de col·locacions. Els mètodes estadístics reconeixen les unitats terminològiques a partir de la freqüència que tenen en un corpus marcat temàticament. Malgrat ser un càlcul molt senzill, el problema que presenta és que no permet de recuperar termes que apareixen poques vegades en un corpus d’especialitat, mancança que es pot resoldre fent servir filtres lingüístics o bé mesures estadístiques (Daille, 1994).

Page 8: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

8

Altres tècniques que fan servir els mètodes estadístics se centren a mesurar el grau d’associació que hi ha entre alguns dels seus components. Per a saber el grau d’associació que hi ha entre els components d’un candidat a terme es basen en càlculs estadístics, que oscil·len des de simples freqüències fins a mesures més complexes. L’estudi comparatiu de diverses mesures estadístiques que portem a terme en la part experimental del present treball és un exemple d’aplicació del grau d’associació que hi ha entre unitats de significació especialitzada. L’inconvenient que tenen aquests càlculs és que extreuen totes les associacions lèxiques possibles sense distingir termes multiparaula, col·locacions o combinacions casuals de paraules de la llengua. Per a reduir aquest inconvenient s’introdueix informació lingüística a priori com a l’eina Xtract (Smadja, 1993) o a posteriori com a l’eina Acabit (Daille, 1994). Amb tot, per a obtenir més bons resultats en l’extracció d’unitats de significació especialitzada els mètodes estadístics permeten l’ús de llistes de paraules funcionals o buides (stopwords) –articles, pronoms, preposicions, conjuncions, etc.– per a evitar que al començament o al final del candidat a terme hi hagi una paraula buida de contingut, i també l’ús de mesures d’associació entre els elements d’una unitat multiparaula per a poder extreure únicament els candidats que tenen més probabilitat de ser candidats a terme per grau d’associació, com ara la ràtio de Log-likelihood, el test Chi-quadrat de Pearson, la ràtio Odds, el coeficient PHI, la mesura T-score, el coeficient Dice, la mesura Mutual information, entre altres. Si es treballa amb un corpus petit, aquest tipus de mètodes generen molt de silenci o un nombre de termes no reconeguts del total de termes presents en un text. Si el corpus és gran, sempre hi ha un nombre de termes que, per la seva baixa freqüència, no es poden recuperar. A més, també generen soroll, és a dir, recuperen candidats a terme que no tenen valor terminològic, això es deu al fet que en els textos especialitzats també hi apareixen paraules amb significat no especialitzat i que formen part de la llengua general i hi apareixen amb una freqüència elevada. Aquests mètodes no permeten arribar a generalitzacions que contribueixin a explicar fenòmens del llenguatge general, ja que fan servir estratègies independents de la llengua; en canvi, els mètodes lingüístics sí que ho permeten. 2.3.1.2. Mètodes lingüístics Els mètodes lingüístics fan servir coneixement lingüístic per a reconèixer els termes: recursos lexicogràfics, com ara diccionaris de termes o diccionaris de paraules auxiliars –Fastr (Jacquemin, 1999), Ana (Enguehard i Pantera, 1994); recursos morfològics, com poden ser patrons d’estructura interna de la paraula –Terms (Justeson i Kats, 1995); recursos morfosintàctics, com ara patrons morfosintàctics –Termino (David i Plante, 1991)–, elements que marquen la frontera exterior de la unitat terminològica –Lexter (Bourigault, 1994)– o funcions sintàctiques –Nodalida (Arppe, 1995). I, esporàdicament, recursos semàntics, com ara classificació semàntica, i recursos pragmàtics, com poden ser representacions tipogràfiques o informació de disposició del terme en el text –Drouin (Drouin, 1997)–, entre altres. En general, aquests mètodes generen molt de soroll, és a dir, proposen molts candidats a terme que després s’han de revisar manualment, i també generen silenci, ja que no detecten totes les unitats candidates a terme, ja sigui perquè aquestes corresponen a patrons morfològics que no han estat recollits, per problemes en el procés de desambiguació o per deficiències del sistema mateix. A més, pel tipus de coneixement que fan servir, aquests mètodes solament són aplicables a una llengua. Per a traslladar-los a una altra llengua, cal fer un estudi lingüístic previ.

Page 9: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

9

2.3.1.3. Mètodes híbrids

L’ús de mètodes que combinin tècniques lingüístiques i estadístiques permeten reafirmar o rebutjar la condició de terme d’una unitat lingüística. Les tècniques estadístiques donen informació amb relació a l’ús dels mots, fet que supleix la competència pragmàtica que té un especialista d’un terme. En aquest tipus de mètodes l’ordre d’aplicació del tipus de coneixement és important, ja que els resultats que s’obtenen són diferents. Els mètodes que apliquen primer coneixement estadístic i després coneixement lingüístic tenen problemes de silenci com també passa amb els mètodes lingüístics –Drouin, (Drouin, 1997). En canvi, si el coneixement estadístic es fa servir com a complement del lingüístic el resultat final és millor –Acabit (Daille, 1994), Clarit (Evans i Zhai, 1996). Alguns dels sistemes que es basen en la combinació d’aquestes tècniques són Naulleau (Naulleau, 1998), que fa servir perfils d’usuari per a poder extreure els candidats que satisfacin les necessitats de cada usuari i incorpora informació semàntica, o Trucks (Maynard, 1999), que combina mesures estadístiques amb informació lingüística (morfològica i semàntica) i fa servir informació contextual.

2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada

El paper de les propietats exògenes del terme és clau per a identificar el grau que té una paraula de ser un candidat a terme, especialment quan es combina amb la freqüència. Els mètodes exògens poden fer servir informació pròxima al terme, estratègies semàntiques o bé corpus de contrast per a extreure les unitats de significació especialitzada.

2.3.2.1. Mètodes que cerquen informació pròxima al terme

La mesura de similitud es fa servir per a observar quines són les propietats exògenes del terme en el marc de l’estructura sintàctica en què es troba situat, amb l’objectiu de poder classificar amb més precisió la llista de termes d’un corpus d’especialitat. Experiments fets demostren que la classificació de termes feta a partir d’informació sintàctica millora els resultats que s’obtenen si es classifiquen tenint en compte solament la freqüència (Basili i altres, 2001). Així, doncs, fent servir informació sintàctica les expressions temporals queden situades en posicions més baixes i els termes representatius del corpus d’especialitat queden situats en les primeres posicions.

2.3.2.2. Mètodes semàntics

Les estratègies semàntiques serveixen per a afinar els resultats obtinguts amb els mètodes estadístic i lingüístic d’extracció de termes. D’aquestes estratègies n’hi ha

Page 10: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

10

bàsicament de dues menes: d’una banda, les estratègies que fan servir categories semàntiques d’una font lèxica externa al corpus de treball, com WordNet1 (Miller, 1990), EuroWordNet2 (Vossen, 1999) o AlethDic (Naulleau, 1998), que organitzen el lèxic a partir del significat de les paraules i que poden integrar-se en una eina d’extracció de candidats de terme; d’altra banda, les que extreuen les categories semàntiques de les paraules del mateix corpus a través d’elements contextuals que fan referència a la combinació sintàctico-semàntica de les paraules, com el model de Fabre (1996).

2.3.2.3. Mètodes que fan servir corpus de contrast

Algunes mesures que provenen de l’àmbit de la recuperació d’informació s’han incorporat a l’àmbit de l’extracció de terminologia per a poder disposar d’una llista de candidats a terme representativa de l’àmbit d’especialitat del qual provenen. Una mesura molt utilitzada en recuperació d’informació i que s’ha incorporat a la tasca d’extracció de terminologia és la mesura tf-idf (term frequency - inverse document frequency), que té com a objectiu filtrar els termes que són presents en molts documents. En aquest plantejament cal quantificar la freqüència d’aparició d’un terme dins un document. Aquest paràmetre habitualment es coneix com a factor de freqüència del terme (tf, concepte local) i es considera que dóna una mesura de fins a quin punt aquest terme descriu el contingut del document, és a dir, com més vegades apareix un terme en un document, més pes semàntic té. No obstant això, els termes molt corrents gairebé no aporten la capacitat de distingir si un document és pertinent o no ho és per a una cerca concreta. Per aquest motiu, s’introdueix un factor calculat a partir d’una relació inversa respecte a la freqüència d’aparició del terme dins un conjunt de documents (freqüència inversa de documents, idf), és a dir, l’aparició del terme dins un conjunt de documents decreix com més nombre de documents en parlin; concepte basat en el corpus. I és que, com més freqüent sigui un terme en el conjunt de documents menys pes i menys capacitat discriminatòria tindrà i, per tant, representarà en menor mesura el conjunt de documents. En canvi, els termes que apareixen poc en el conjunt de documents són els que tindran més pes en la mesura tf-idf i, per tant, representaran més bé la totalitat de documents. En l’àmbit de l’extracció de terminologia la mesura tf-idf és molt productiva per a determinar quins són els termes rellevants d’un corpus d’especialitat. Ara bé, a diferència del que es fa en l’àmbit de recuperació d’informació, la selecció d’unitats de significació especialitzada es duu a terme fent servir un corpus de llengua general que servirà per a contrastar les unitats que apareixen en aquest corpus amb les que són pròpies d’un corpus d’especialitat. Per a calcular els resultats de la mesura tf-idf, el corpus de llengua general ha de ser classificat en diferents fitxers per àmbits temàtics. A partir d’aquí, el procés d’acceptació o eliminació dels candidats que se segueix té en compte les consideracions següents: si un candidat a terme apareix força representat i també força distribuït en els diferents fitxers amb què s’ha organitzat el corpus de

1 http://wordnet.princeton.edu/

2 http://www.illc.uva.nl/EuroWordNet/

Page 11: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

11

llengua general, llavors és descartat com a possible candidat a terme. I, a la inversa, si el candidat no apareix en cap dels àmbits temàtics del corpus de llengua general, hi apareix molt poc o bé queda poc distribuït en els diferents fitxers del corpus, llavors es considera adequat com a candidat a terme. D’aquesta manera, les unitats del corpus d’especialitat que apareixen sovint i força distribuïdes en el corpus de llengua general, es considera que corresponen a paraules d’ús general i no pas a paraules pròpies d’un àmbit d’especialitat i, per tant, són descartades com a unitats de significació especialitzada. A continuació presentem l’esquema que segueix la mesura tf-idf: Donada una col·lecció de documents D, una paraula w i un document individual d que pertany a D es fa el càlcul següent:

)/|log(| ,, Dwdwd fDxfw

On dwf , és igual al nombre de vegades que w apareix en d (freqüència del terme o tf),

|D| és la mida del corpus (nombre total de documents) i Dwf , és igual al nombre de

documents en què w apareix en D. Finalment, )/|log(| ,DwfD correspon a la freqüència

inversa del document (idf). (Salton i Buckley, 1988; Berger i altres, 2000).

2.4. Limitacions de les tècniques d’extracció d’unitats de significació especialitzada

L’extracció de terminologia, un pas previ a la construcció d’ontologies, està relacionada amb l’extracció de termes rellevants, o col·locacions de paraules, que tenen relació amb els conceptes que difonen els experts (Bourigault i Jacquemin, 1999; Smadja, 1993). A més, pot ser formalitzada com un problema de classificació –el terme t1 és rellevant/irrellevant– (Vivaldi, 2001) o bé com un problema de rànquing –el terme t1 és més rellevant que no pas el terme t2– (Cohen, 1999). La bibliografia que hi ha publicada sobre l’extracció de terminologia presenta a priori una varietat de criteris de rànquing, molts dels quals es basen en tècniques estadístiques que fan referència a l’ocurrència de paraules (Daille i altres, 1998; Xu i altres, 2002; Roche i altres, 2004). En aquest sentit, un terme és descrit com un vector de valors que és calculat tenint en compte les tretze mesures estadístiques següents: Mutual information (MI) (Church i Hanks, 1990), Mutual information al cub (MI3) (Daille i altres, 1998), coeficient Dice (Dice) (Smadja i altres, 1996), ràtio Log-likelihood (L) (Dunning, 1993), Nombre d’ocurrències i Log-likelihood (OccL)3

(Roche i altres, 2004), Mesura d’associació (Ass) (Jacquemin, 1997), Sebag-Schoenauer (SeSc) (Sebag i

3 OccL endreça els termes d’acord amb el seu nombre d’ocurrències i trenca el lligam basat en

el terme likelihood.

Page 12: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

12

Schoenauer, 1988), J-measure (J) (Goodman i Smyth, 1988), Conviction (Conv) (Brin i altres, 1997), Least contradiction (LC) (Azé i Kodratoff, 2004), Cote multiplier (CM) (Lallich i Teytaud, 2004), Test Khi2 –usat en mineria de text– (Khi2) (Manning i Schütze, 1999), T-test –usat en mineria de text– (Ttest) (Manning i Schütze, 1999). Anàlisis recents fetes a diferents sistemes d’extracció de terminologia4 (Vivaldi, 2001) mostren les mancances que pateixen aquests sistemes a l’hora d’extrapolar els resultats a altres àmbits d’especialitat per manca d’indicacions clares i precises de com s’han obtingut els resultats inicials. A més, els corpus que fan servir són reduïts i molt especialitzats, fet que difícilment permet d’obtenir resultats adequats amb corpus més grans o menys especialitzats. Així mateix, els sistemes que s’han estudiat produeixen molt soroll –sistemes majoritàriament lingüístics– i silencien un important nombre de termes –sistemes majoritàriament estadístics. Es produeix silenci intrínsec al text, és a dir, no detecten les unitats anaforitzades discursivament, i silenci extrínsec, ja que només detecten uns quants tipus d’unitats de significació especialitzada. A més, la majoria dels sistemes que hi ha actualment s’han dissenyat per al francès o l’anglès i no preveuen que es puguin usar per a altres llengües. Pel que fa al tipus d’unitats que extreuen, se centren fonamentalment en el sintagma nominal i no en el verb o el sintagma verbal, ja que en els textos especialitzats hi ha molts sintagmes nominals terminològics; ara bé, també seria convenient que tinguessin present els verbs. A més, les tècniques d’extracció es fan en cascada i no en paral·lel o combinades, que és el que ofereix més bons resultats. En aquests sistemes, la informació semàntica es fa servir poc per l’escassetat de recursos de què es disposa. La majoria de sistemes fan servir patrons morfològics per a identificar termes complexos i cobrir la majoria de possibilitats, però no les cobreixen totes i això fa que es produeixi silenci. Sembla que combinar la freqüència d’aparició i els patrons morfològics és adequat per a identificar si una unitat és terminològica. Ara bé, els resultats mostren que els resultats ofereixen molt soroll. Els autors de la majoria dels sistemes indiquen que és un error desambiguar la categoria morfològica d’una paraula, però no concreten quin és el grau de la incidència en el resultat. Finalment, els resultats presenten els candidats a terme aïllats, sense informació complementària per a facilitar-ne la tria o tenir les unitats relacionades per a saber si són adequades o no ho són. En aquest sentit, és important que els sistemes

4 Els sistemes d’extracció de terminologia que s’han estudiat són els següents: Ana (Enguehard

i Pantera), Acabit (Daille), Clarit (Evans i Zhai), Fastr (Jacquemin), Lexter (Bourigault), Naulleau (Naulleau), Nodalida-95 (Arppe), Termino (Plante i Dumas), Terms (Justeson i Katz), Trucks (Maynard).

Page 13: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

13

d’extracció de candidats a terme disposin de la informació del context per a ajudar a triar una unitat terminològica.

2.5. Millores en les tècniques d’extracció d’unitats de significació especialitzada

Un sistema d’extracció de candidats a terme ha de poder extreure unitats nominals, verbals, adjectivals i adverbials i unitats fraseològiques especialitzades, juntament amb el context. A més, si fa servir mètodes lingüístics, ha de poder establir relacions conceptuals entre les unitats per a veure si hi ha variants, relacionar les unitats d’una mateixa família morfològica i classificar les unitats segons el caràcter del seu nucli i els complements. És preferible combinar mètodes estadístics i lingüístics, ja que permet tenir més informació de si una unitat és terminològica o no ho és (termhood) que no pas de la seva cohesió lèxica interna (unithood) (Kageura, Umino, 1996). I, si és possible, sempre val més combinar més d’una d’estratègia i incorporar informació semàntica. Convé tenir en compte quines necessitats tenen els usuaris finals dels sistemes d’extracció de terminologia, perquè cada tipus de professional necessita un tipus d’unitat especialitzada. No totes les unitats de significació especialitzada que poden ser útils són vàlides per a totes les activitats professionals; així, doncs, el mètode d’extracció de terminologia s’ha d’adaptar a les necessitats que puguin tenir un traductor, un documentalista o un terminògraf.

2.6. Àrees de recerca en terminologia

Actualment hi ha dues grans àrees de recerca en les quals la terminologia està relacionada amb el processament del llenguatge natural; d’una banda, hi ha l’àrea d’adquisició de termes (term acquisition), que se centra en la localització de manera automàtica de nous termes; d’una altra, l’àrea de reconeixement de termes (term recognition), que se centra en la identificació de termes coneguts dins els corpus.

2.6.1. Adquisició de termes

Les tècniques que s’han fet servir fins ara per a recuperar termes d’un corpus són Termino (Lauriston, 1994), Lexter (Bourigault, 1996), Acabit (Daille, 1996), Terms (Justeson i Katz, 1995), Xtract (Smadja, 1993), Ana (Enguehard i Pantera, 1994). La diferència que hi ha entre aquests enfocaments rau en el fet que facin servir un filtre estadístic o que no el facin servir. Les eines que no fan servir el filtratge estadístic, com Lexter, parteixen de l’assumpció que cap ocurrència d’un document pot ser un bon candidat, fins i tot si apareix una sola vegada, i permeten a l’usuari de manera interactiva triar i estructurar els candidats a terme. En canvi, les eines que fan una selecció estadística de candidats, com Acabit, es fan servir en àmbits en què és preferible d’oferir una preselecció automàtica dels candidats.

Page 14: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

14

2.6.1.1. Adquisició de termes bilingües

Els programes que serveixen per a l’adquisició de termes bilingües treballen a dos nivells: primer, adquisició dels termes que hi ha en un corpus; segon, alineació dels termes en cada una de les llengües. En aquest sentit, en el treball de Pim van der Eijk (1993) els termes són extrets per mitjà de l’anàlisi de la categoria gramatical i la selecció del patró «(adj.)*(nom)». Els candidats obtinguts són alineats després d’haver comparat les freqüències locals i globals de les coocurrències. La tècnica implementada a Termight (Dagan i Church, 1994) es basa en l’alineació de les paraules per mitjà d’una eina d’alineació. Per a cada ocurrència del terme origen, Termight cerca els candidats de traducció com a seqüències de paraules alineades amb qualsevol de les paraules del terme origen. La tècnica que fa servir Gaussier (1998) es basa en l’alineació de corpus a nivell de frase. La probabilitat d’associació de les paraules és calculada sobre la base de coocurrències de paraules bilingües en les frases alineades. Aquestes probabilitats són usades per a trobar els equivalents en una altra llengua. En l’alineació de monoparaules, Hull (1997) fa un plantejament diferent de Gaussier (1998), ja que l’extracció i l’alineació de termes corresponen a mòduls diferents. Termes i paraules són alineats per mitjà d’un algoritme voraç, sense tornada enrere, el qual dóna una puntuació al parell de candidats bilingües segons càlcul de probabilitat, tria el parell que té una puntuació més alta, l’esborra del grup de parells bilingües i torna a començar recalculant les puntuacions i eliminant els parells fins que ha escollit tots els candidats.

2.6.2. Reconeixement de termes monolingües i indexació automàtica

La tècnica de reconeixement de termes, també anomenada «indexació de frases», és la tècnica més destacada en processament del llenguatge natural per a la indexació automàtica d’un document. En el reconeixement de termes hi ha, d’una banda, les tècniques d’indexació basades en el processament del llenguatge natural com ara la simplificació de text o el reconeixement de paraules clau, que trobem a Fasit (Dillon i Gray, 1983) i a LinkIt (Wacholder, 1998). D’altra banda, hi ha tècniques més complexes d’anàlisi basades en la dependència o transformació, com Clarit (Evans i Zhai, 1996), que combina tècniques de processament del llenguatge natural per a fer anàlisi morfològica i anàlisi sintàctica superficial i filtratge estadístic per a desambiguar i descompondre noms compostos; TTP (Strzalkowski, 1992), COP (Metzler i altres, 1990), COPSY (Schwarz, 1988) i altres, que fan servir analitzadors per a extreure sintagmes nominals dels documents per mitjà de dues tècniques: la relació de constituència, basada en el paradigma de generació, i la relació de dependència, que és el resultat d’algunes restriccions lingüístiques que han estat satisfetes a partir d’una configuració establerta, o Fastr (Jacquemin, 1999), que reconeix les variants de diversos tipus de termes per mitjà de transformacions dels termes de referència i que s’utilitza per a la indexació controlada. Una aproximació alternativa al reconeixement de la variació és proposada per Spärck Jones i Tait (1984), fent servir una representació semàntica en els termes de base i en les seves variants. De manera semblant, Woods (1997) infereix relacions semàntiques entre els termes i les seves variants fent servir raonament basat en subsumpció.

Page 15: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

15

Page 16: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

16

2.7. Àrees de recerca del terme en el processament del llenguatge natural L’ús dels termes en l’àmbit del processament del llenguatge natural està relacionat tant amb el processament automàtic, com ara la traducció automàtica, la recuperació d’informació, l’extracció d’informació i la gestió del coneixement, com amb la planificació lingüística, que es basa en la descripció i el recull de termes d’una determinada llengua i en una àrea concreta. En general, els termes en el context del processament del llenguatge natural són vistos com un tipus concret d’unitat lèxica. Contràriament amb el que s’esdevé amb els lexicons de llenguatge general, les bases de dades terminològiques estan formades majoritàriament per unitats multiparaula i estan en constant evolució. A més, les bases de dades terminològiques han de ser revisades periòdicament i completades per a mantenir la coherència temàtica en els àmbits tècnics i científics. En aquest sentit, l’àmbit del terme orientat al processament del llenguatge natural i del terme orientat a l’estadística que té un abast més ampli és el de l’adquisició terminològica. L’ús de termes en el processament automàtic del text és una tasca força pròxima a la indexació automàtica, és a dir, associar documents amb llistes de paraules o frases amb l’objectiu de tenir accés a la informació. Des que els termes aglutinen les representacions lingüístiques dels conceptes més representatius d’un àmbit concret, es poden fer servir com a descriptors abstractes del contingut dels documents per a la indexació automàtica. Hi ha dues tècniques per a localitzar candidats a terme en un corpus: d’una banda, un enfocament simbòlic que se centra en la descripció sintàctica dels termes –sobretot en les frases nominals– i, de l’altra, un enfocament estadístic que considera que els mots que formen part d’un terme acostumen a trobar-se de manera recorrent al costat dels altres junts amb més freqüència que no pas els que es troben junts per casualitat.

2.8. Darrers avenços

Els darrers avenços que s’han produït en l’àmbit de la recerca en terminologia són els estudis lingüístics sobre corpus especialitzats i corpus de recerca, la construcció a gran escala de recursos semàntics i morfològics per a termes i reconeixement de variants, les solucions híbrides per a adquisició i reconeixement de termes que combinen processament simbòlic i tècniques d’aprenentatge automàtic supervisat, l’etiquetatge semàntic i adquisició de relacions semàntiques d’un corpus, les tècniques complexes per a la construcció d’un corpus, la combinació d’informació textual i estructural per a reconèixer contextos rics com ara contextos expositius o parafràstics, la millora dels procediments d’adquisició dels termes: extracció de termes a nivell de frases verbals o adjectivals, combinació d’adquisició i reconeixement de termes, millora de les interfícies per la validació per part d’experts, entre altres.

2.9. Recuperació d’informació

Una aplicació important de les tècniques de detecció i extracció de terminologia es troba en l’àrea de la recuperació d’informació, tant en la fase d’indexació com en la de consulta. En aquesta àrea també és clau l’ús que es faci dels termes, ja que servirà per a poder classificar documents i indexar la informació.

Page 17: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

17

En termes generals, la recuperació de la informació tracta de la representació, emmagatzematge, organització i recuperació dels objectes informacionals que anomenarem «documents». Aquesta representació i organització ha de proveir a l’usuari d’un accés senzill a la informació en la qual està interessat. Malauradament, la tasca de caracteritzar les necessitats informatives de l’usuari és un problema complex. Aquesta necessitat primer s’ha de traduir en una equació de cerca o consulta que pugui ser processada pel motor de cerca. De manera general, aquesta traducció procura un conjunt de paraules clau o termes d’indexació que representen, suposadament, la descripció de les necessitats informatives de l’usuari. Donada la cerca, l’objectiu principal del sistema de recuperació de la informació és recuperar la informació rellevant per a l’usuari, que no necessàriament s’ha d’ajustar als documents que contenen tots els termes de la consulta. Durant molts anys, l’interès d’aquestes qüestions s’ha limitat a bibliotecaris i experts en informació, malgrat la ràpida disseminació d’eines de recuperació de la informació. Ara bé, a principis dels anys noranta, un fet va canviar totalment la situació, la introducció d’internet. El web s’ha convertit en el lloc de dipòsit dels coneixements i de la cultura humana, cosa que ens ha permès compartir idees i informació amb una rapidesa i volum mai no vistos fins aquell moment. Actualment la recuperació d’informació del contingut que hi ha publicat a internet es caracteritza pels canvis constants que hi ha en les bases dades i en la variació en la cobertura dels motors de cerca. Per aquest motiu, s’opta per crear un corpus estàtic de pàgines web, d’aquesta manera es pot avaluar més bé el funcionament dels motors de cerca i les diferents tècniques de recuperació d’informació. I és que el dinamisme del web marca la diferència amb la recuperació d’informació tradicional. Si abans en l’avaluació dels sistemes de recuperació d’informació es tenien en compte la precisió i la cobertura, actualment si parlem de web només es mesura la precisió, perquè la cobertura és difícil de mesurar. La recuperació d’informació s’ha endinsat en l’àmbit dels operadors booleans, els vectors d’espai i els models probabilístics. 2.9.1. Models de recuperació d’informació Un model de recuperació d’informació es pot definir com un quàdruple conjunt {D, Q, M, R (qi, dj)} on D és el conjunt de les representacions lògiques dels documents de la col·lecció, anomenats de manera metonímica simplement «documents»; Q és el conjunt format per les representacions lògiques de les necessitats d’informació de l’usuari, que reben el nom de consultes o cerques (queries); M és el marc que permet modelar les representacions dels documents, les consultes i les seves relacions i R(qi, dj) és una funció classificadora que anomenarem «similitud» i que associa un nombre real a cada consulta qiQ i cada document djD (R. Baeza-Yates i B. Ribeiro-Neto, 1999). La construcció de tot model de recuperació d’informació implica, en primer lloc, establir les representacions dels documents i de les consultes. Conegudes aquestes es pot procedir a establir el marc on s’han de modelar les relacions que, finalment, prenen la forma d’una funció jerarquitzadora de la rellevància d’un document, segons la noció establerta en el marc. Tradicionalment en els sistemes de recuperació d’informació els documents de la col·lecció romanen pràcticament estàtics, mentre que les consultes es van formulant. Aquesta manera d’actuar s’ha anomenat «recuperació ad hoc» (expressa o forçada). Ara bé, en els darrers anys ha aparegut un nou procediment conegut com a «filtratge». En aquest cas, les consultes són les que romanen estàtiques –definides normalment a través d’un perfil de preferències de l’usuari–, mentre que els nous documents que entren en el sistema són comparats sistemàticament. Tanmateix, no som davant de

Page 18: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

18

models de recuperació d’informació diferents, sinó de modes d’operació, ja que en ambdós procediments les funcions de similitud impliquen determinar els mateixos tipus d’elements de càlcul (qiQ, djD).

2.9.1.1. Classificació del models de recuperació d’informació

Si considerem els documents de text des d’una visió lògica, podem distingir entre models de recuperació de textos estructurats –amb parts separades perfectament identificables automàticament i d’importància ponderable– i no estructurats, és a dir, aquells en què tot el text forma un únic element. Així mateix, hem de distingir els sistemes de recuperació d’informació que es basen a comparar els termes que apareixen en una equació de cerca amb els que contenen els documents, o una selecció d’aquests, de les tècniques de classificació que consisteixen a agrupar els documents en categories conceptuals. Tanmateix, cal considerar que és possible la recuperació de documents, fins i tot jerarquitzada per rellevància, a partir de comparar el contingut de les cerques amb cadascuna de les classes obtingudes.

2.9.1.2. Models conceptuals

En l’àmbit dels models conceptuals podem establir una taxonomia a partir dels tres models considerats clàssics: el basat en la lògica de Boole, el model vectorial i el probabilístic d’independència binària. D’aquesta manera, tenim un model de teoria de conjunts, representat pel model de Boole, ja que els documents i les consultes són representats per conjunts de termes d’indexació; un d’algebraic, donat que la representació del model vectorial es basa en un vector n-dimensional, i, finalment, el probabilístic, ja que el model d’independència binària es basa fonamentalment en el teorema de Bayes. Aquesta classificació, de totes maneres, no és exempta de problemes, ja que aquestes categories no són, en la pràctica, totalment ortogonals. En la taula següent distingim les tres categories i els principals models de recuperació d’informació que s’utilitzen habitualment, que s’han experimentat o que han estat simplement formulats. Tots ells es basen en l’existència d’un índex invertit que conté els termes de la col·lecció i totes les seves ocurrències, manipulats per una taula hashing o una estructura d’arbre, de manera que s’evita una cerca seqüencial.

Model conceptual Tipus d’algorismes

Teoria de conjunts Model de Boole Model de lògica difusa Model estès de Boole

Algebraics lineals Espai vectorial Espai vectorial generalitzat Indexació semàntica latent (LSI): SVD

Probabilístic Independència binària (BIR) Regressió logística Xarxa d’inferències Xarxa de creences

Si fem una ràpida revisió de la bibliografia que aborda de manera general els models de recuperació d’informació, observem que a començament dels anys seixanta Maron i Kuhns ja havien discutit la qüestió de la rellevància i la indexació basada en mètodes probabilístics, enfront de les limitacions de la lògica de Boole. L’any 1983 Salton i McGill van publicar l’obra Introduction to Modern Information Retrieval, que es convertí durant molts anys en un clàssic de la recuperació de la informació en tractar el model de Boole, el vectorial i el probabilístic. Una altra referència important és la monografia

Page 19: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

19

de Rijsbergen titulada Information Retrieval (1979), que, a més de cobrir els tres mètodes clàssics, també presenta un gran debat sobre el model probabilístic. L’any 1992 Frakes i Baeza-Yates editen una recopilació sobre diverses estructures de dades i algorismes utilitzats en recuperació d’informació. Un dels capítols d’aquesta recopilació, escrit per Donna Harman, inclou un debat sobre la retroalimentació per rellevància amb una anotacions sobre la història dels procediments en recuperació d’informació des de 1960 fins a 1990. Els autors Spärk Jones, Walker i Robertson en la publicació A probabilistic model of information retrieval: Development and status (1998) descriuen algunes de les múltiples influències entre els diferents models. Finalment, l’obra Modern information retrieval, de Baeza-Yates i Ribeiro-Neto (1999), s’ha convertit en el manual de referència sobre recuperació d’informació en tractar no solament els models clàssics, sinó també models alternatius com la lògica difusa o les xarxes d’inferència.

2.9.1.3. Conceptes generals sobre els models de recuperació d’informació

Els models clàssics de recuperació d’informació consideren que cada document pot ser descrit per un conjunt de paraules clau anomenat «termes d’indexació», que constitueixen una representació del contingut semàntic del document. Generalment aquests termes són substantius, ja que tenen significat per ells mateixos, mentre que altres partícules sintàctiques serveixen més aviat com a complements. Tanmateix, és del tot possible considerar tots els termes del document com a indexables. Independentment del camí seguit quant a la selecció dels termes a indexar, no és gaire difícil percebre que no tots ells son igual d’útils per a descriure el contingut d’un document, ja que alguns són de naturalesa més vague que altres. Decidir la importància d’uns termes sobre els altres per a representar un document és una tasca complexa. Malgrat aquestes dificultats, hi ha una sèrie de característiques fàcilment mesurables que permeten avaluar el seu potencial. Això és, per exemple, el que passa amb termes que apareixen en un nombre molt elevat de documents d’una gran col·lecció i que, per tant, no aporten criteris de selecció o, al contrari, en una representació massa minsa i que redueixen insatisfactòriament el resultat d’una consulta. La manera de recollir la influència d’un terme en el document és assignant-li un pes que en quantifiqui la importància semàntica. Podem definir aquests pesos i la seva relació amb els documents i termes de la següent manera: Sigui t el nombre total de termes que indexen una col·lecció i ki un d’aquests termes qualsevol. K = {k1, k2, ..., kt} és el conjunt de tots els termes indexats. S’associa un pes wij a cada terme ki d’un document dj. Per a cada terme que no apareix en el

document, wij = 0. A cada document dj se li associa un vector de termes indexats d

j =

(w1,j, w2,j, ..., wt,j,). A més, sigui gi una funció que retorna el pes associat al terme ki de

qualsevol vector, concretament gi ( d

j) = wij.

La major part de sistemes de recuperació d’informació assumeixen que els pesos no estan correlacionats entre ells, és a dir, són independents. Aquesta simplificació redueix enormement la tasca de càlcul del pesos i accelera el còmput de la classificació jeràrquica de resultats de la cerca. Malgrat el que teòricament es podria pensar, els treballs de recerca fets que han considerat aspectes de correlació no han demostrat una millora en la classificació de complexitat afegida (R. Baeza-Yates i B. Ribeiro-Neto, 1999).

2.9.1.4. Models algebraics lineals: model clàssic d’espai vectorial

L’anomenat «model vectorial» és segurament el més popular dins la recerca en recuperació d’informació, això es deu al dilatat treball desenvolupat per Salton i el seus col·laboradors amb el sistema de recuperació d’informació Smart, desenvolupat a la Universitat de Cornell.

Page 20: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

20

Els models d’espai vectorial es basen en la idea d’assignar a cada document un vector n-dimensional els components del qual són, en els models clàssics, els termes del document. Les cerques també es representen amb un vector del mateix espai. Cada component és una variable contínua anomenada «pes». Per a comprovar el grau de similitud entre els vectors que identifiquen la cerca i el document es fa servir una correlació quantificada mitjançant el producte escalar d’ambdós vectors. Ordenant els documents recuperats que superin un cert grau de similitud obtenim un ordre jeràrquic de rellevància. El mòdul del vector cerca no afecta l’ordre de rellevància, ja que, donada una consulta, és igual per a tots els documents. La norma del vector document introdueix una normalització a l’espai vectorial dels documents, de manera que sigui la similitud entre els pesos dels termes la que faci el producte més gran i no merament un valor més alt degut a una major extensió del document. El sistema és simple i elegant, proporciona una estratègia de jerarquització molt flexible i amb rendiments comparables si més no als dels sistemes de càlcul més feixucs (R. Baeza-Yates i B. Ribeiro-Neto, 1999), per aquesta raó és un model força utilitzat. Amb tot, s’han desenvolupat mesures més afinades per a localitzar els termes, com l’esquema tf-idf, que hem descrit en l’apartat 2.3.2.3. d’aquest treball. Si repassem la bibliografia, H. P. Luhn (1953 i 1957) fou el primer a introduir teòricament el concepte d’espai vectorial en recuperació d’informació, que incloïa ja molts dels aspectes considerats actualment, però no es desenvoluparà fins als anys seixanta. Salton i Lesk (1968) inicialment utilitzaren simplement termes ponderats (tf). Spärck Jones (1972) va introduir el factor idf i Salton i Yang (1973) van demostrar-ne l’eficàcia millorant la recuperació. Yu i Salton (1976), a més, van estudiar l’efecte de la ponderació de termes en la presentació jeràrquica final segons la rellevància dels documents. G. Salton i M. J. McGill documentaren diverses variants per al càlcul de pesos. L’any 1988 Salton i Buckley sintetitzaren vint anys d’experiència amb Smart. Per la seva banda, Raghavan i Wong (1986) van elaborar una anàlisi crítica del model vectorial.

2.10. Gestió d’informació

La gestió d’informació és un àmbit que està estretament lligat amb la recuperació d’informació i l’extracció de terminologia. I és que la informació i l’ús estratègic que se’n faci representen un avantatge competitiu per a una organització (Nonaka i Takeuchi, 1995). En aquest sentit, són clau les habilitats de crear, usar, retenir i transferir informació en el procés de creació constant i dinàmica de coneixement. Si el coneixement és l’avantatge competitiu d’una organització, l’accés a la informació per a crear coneixement i els processos fets per a retenir i transferir aquest coneixement esdevenen el punt neuràlgic de l’organització. Les organitzacions competitives tenen accés a la mateixa intel·ligència, però la clau és fer-ne ús i no solament tenir-hi accés. Per a fer-ho, cal disposar de recursos que permetin crear coneixement i usar estratègicament la informació. En aquest sentit, l’aplicació de tècniques d’extracció de terminologia fa possible arribar amb més rapidesa a la informació clau de què disposen les organitzacions, fet que els permet tenir avantatge competitiu respecte altres organitzacions i, alhora, millorar la pròpia gestió del coneixement. I és que hi ha dos punts determinants en la resposta estratègica d’una organització: la capacitat de crear coneixement i l’habilitat de processar informació estratègica.

Page 21: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

21

La teoria de la informació ens presenta la gent com a consumidora activa d’informació, a diferència del comportament tradicional, que era més aviat passiu. Actualment la informació s’interpreta, i se’n crea de nova, s’assumeix la construcció activa del significat. La informació és una dimensió central en el complex món de les persones. La teoria de la informació se centra bàsicament en el processament de la informació humana: la gent usa el procés cognitiu per a interaccionar amb la informació. Bertran Brookes explica amb una equació la noció d’«interaccions cognitives»: K[S] + ∆I = K[S+∆S] On K[S] correspon a «estructura de coneixement», ∆I correspon a «increment d’informació» i K[S+∆S] correspon a «canvi en l’estructura del coneixement». En la formulació de Brokes hi ha dues idees clau que convé destacar: d’una banda, el canvi en l’estructura de coneixement es deu a les noves necessitats i situacions que es puguin produir, és a dir, es deu als nous usos d’informació que hi pugui haver en qualsevol àmbit de coneixement; d’altra banda, l’increment d’informació és directament proporcional a l’increment de coneixement en una organització. Així, doncs, observem que en l’àmbit de la gestió del coneixement són clau l’ús de la informació i, en conseqüència, els conceptes que vehiculen aquests nous usos, els quals faran que la informació tingui una determinada estructura. D’aquesta manera, Brookes presenta la cognició humana com a dinàmica, sempre canviant. Segons Brookes, el procés cognitiu comença quan la gent connecta amb la informació per mitjà d’accions com observar, llegir, escoltar i amb actes inconscients.

Page 22: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

22

3. Pregunta de recerca

La pregunta de recerca que ens hem plantejat es pot formular sintèticament de la manera següent: Es pot millorar el resultat d’extracció d’unitats de significació especialitzada d’un corpus especialitzat fent servir mesures estadístiques? Per tal de precisar més aquesta pregunta, especifiquem alguns dels elements que hi ha implícits: Pel que fa als resultats d’extracció, els valorem aplicant una metodologia estadística i reservem la valoració dels resultats fent servir altres mètodes endògens com els lingüístics o híbrids i mètodes exògens per a un treball futur. Amb relació a les unitats de significació especialitzada, aquestes seran extretes d’un corpus especialitzat propi de l’àmbit de les telecomunicacions. Pel que fa a les mesures estadístiques, volem observar si l’ús d’aquestes mesures en el procés d’extracció d’unitats de significació especialitzada millora el resultat que s’obté inicialment amb el càlcul estadístic de freqüència. Concretament, compararem els resultats d’onze mesures estadístiques amb el càlcul inicial de freqüència que ens ofereix l’eina de base estadística que fem servir en el nostre treball.

4. Objectius del treball de recerca

L’objectiu que volem assolir en el present treball de recerca és doble. En primer terme, mirem d’establir un marc teòric que reflecteixi l’estat de la qüestió en matèria d’extracció de terminologia, recuperació d’informació i gestió d’informació. En segon terme, avaluem de manera experimental els resultats que ofereixen onze mesures estadístiques a l’hora de recuperar les unitats de significació especialitzada d’un corpus d’especialitat i contrastem aquests resultats amb els que obtenim per mitjà del càlcul de freqüència. Per a l’avaluació dels resultats tenim en compte, d’una banda, quina mesura recupera un nombre més elevat de termes de referència i quina els endreça més bé, és a dir, quina mesura situa més termes de referència en les posicions inicials de la llista de resultats i també si hi ha coincidència entre la mesura que recupera més termes de referència i la que els endreça més bé; d’altra banda, per mitjà de cinc informadors i una mostra de dos-cents candidats a terme, avaluem manualment els resultats de les quatre mesures estadístiques que són més satisfactoris i els resultats fruit del càlcul estadístic, i ho fem per a observar si, a més dels termes de referència, es recuperen altres unitats de significació especialitzada. En fer l’avaluació comparem els resultats que obtinguem fent servir termes de referència i els que obtinguem per mitjà d’informadors.

Page 23: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

23

L’avaluació experimental que portem a terme en el nostre treball de recerca permetrà de disposar dels conceptes clau o termes d’un àmbit d’especialitat per a poder-ne fer un seguiment posterior i observar quin ús se’n fa, establir el marc conceptual d’un àmbit d’especialitat i difondre la terminologia pròpia d’aquest àmbit.

5. Hipòtesis de recerca

En el nostre treball ens plantegem tres hipòtesis de recerca: 1. Els mètodes estadístics que reconeixen les unitats terminològiques solament a partir del càlcul de freqüència recuperen moltes unitats que no tenen valor terminològic i no recuperen els termes que apareixen poques vegades en un corpus d’especialitat. 2. L’extracció d’unitats de significació especialitzada a partir de mesures estadístiques permet endreçar en les primeres posicions de la llista de resultats les unitats terminològiques més interessants d’un corpus d’especialitat. 3. L’ús de mesures estadístiques combinat amb una llista de filtratge de paraules buides de contingut (preposicions, conjuncions, etc.) permet millorar el resultat del càlcul de freqüència que ofereixen els mètodes estadístics. Aquestes tres hipòtesis de partida les examinarem en la part experimental del treball i comprovarem si s’acompleixen o no, en quins casos i quins motius hi ha per a acceptar-les o descartar-les.

6. Part experimental

En la part experimental del nostre treball volem observar quina mesura o conjunt de mesures estadístiques són més adequades per a poder recuperar les unitats lingüístiques que són significativament rellevants d’un corpus d’especialitat. Per a fer-ho, avaluarem els resultats obtinguts amb cada mesura i determinarem quina mesura permet recuperar de manera més eficient un major nombre d’unitats rellevants d’un corpus d’especialitat. Seguidament plantegem quines dificultats hi ha per a poder aconseguir extreure termes de manera automàtica d’un àmbit d’especialitat (apartat 6.1.) i també expliquem quins recursos hem fet servir per a portar a terme l’experiment del nostre treball (apartat 6.2.) i els detalls de com l’hem desenvolupat (apartat 6.3.).

6.1. Problemàtica de l’extracció de termes L’extracció automàtica de termes d’un corpus d’especialitat és una tasca complexa, sobretot a l’hora de valorar quin és el mètode més adequat per a recuperar les unitats terminològiques que hi ha en un conjunt de textos especialitzats. La localització de terminologia en un corpus té relació amb el problema d’identificar les col·locacions i les frases. La compilació de mots multiparaula no és una tasca fàcil. Els mètodes estadístics basats en freqüències o que mesuren la puntuació de la informació

Page 24: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

24

mútua de cadenes de paraules (per exemple, Choueka, 1998; Smadja, 1993; Nagao i Mori, 1994; Johansson, 1996; Kita i altres, 1994; Dagan i Church, 1990; Shimohata i altres, 1997; Yamamoto i Church, 1998; Zhou i Dapkus, 1995) produeixen llistes de termes i frases que consten d’unitats multiparaula, però sempre pot passar que les unitats que tinguin una freqüència baixa en quedin excloses. A més, en la tasca d’extracció terminològica cal fer algun tipus de filtratge; per exemple, l’eliminació d’algunes de les paraules funcionals que hi ha al començament, a l’interior o al final d’un candidat a terme (Merkel, 1994). Els avantatges d’aquesta aproximació és que no cal informació lingüística –independentment dels filtres que hi vulgui posar l’usuari–, això fa que el sistema es pugui adaptar a altres llengües. Altres aproximacions estan relacionades amb processos gramaticals o sintàctics i necessiten que el text estigui etiquetat per parts del discurs, fet que permet de trobar candidats en les freqüències baixes, formats per patrons de nom frase o altres criteris específics (Kupiec, 1993). Les característiques bàsiques que tenen les col·locacions o unitats multiparaula és que són recurrents, depenen del context i l’ordre de les unitats és rígid (Smadja, 1993). En aquest sentit, la primera observació ens indica que la freqüència és un element important per a identificar les unitats multiparaula d’un text. La segona característica indica que l’estil de la terminologia de les unitats multiparaula es pot trobar en textos homogenis. I la tercera característica indica que algunes tècniques de processament d’n-grams o agrupacions de paraules poden establir les bases de l’extracció de les unitats multiparaula. Així, doncs, l’extracció d’n-grams combinada amb el nivell de freqüència i un filtre de llengua (llista de paraules buides) al principi i al final de cada combinació, juntament amb l’ús de les tècniques estadístiques més avançades, permet d’obtenir un resultat òptim. La mesura estadística que s’ha usat com a indicador de les col·locacions és Mutual information (Church i Hanks, 1990). Smadja (1993) va fer servir el coeficient Dice per a trobar unitats multiparaula monolingües i bilingües. Shimohata i altres autors (1997) van mirar quines possibilitats hi havia de recuperar unitats multiparaula fent servir l’entropia per a diferents paraules col·locades a l’esquerra i a la dreta del context. Amb tot, hi ha estudis que mostren que una freqüència alta és un indicador més fort per a recuperar unitats multiparaula que no pas la informació mútua (Daille, 1994), que dóna suport a la freqüència. En l’experiment que descrivim a continuació, per a fer l’extracció terminològica utilitzem una eina de base estadística que ens permet de comparar el resultat de l’extracció d’n-grams del nostre corpus d’especialitat endreçats per freqüència i en ordre descendent amb el resultat obtingut per onze mesures estadístiques, les quals reendrecen amb criteris propis la llista de candidats a terme obtinguda inicialment amb el càlcul de freqüència. Les principals dificultats amb què ens hem trobat a l’hora de plantejar l’experiment han estat bàsicament de quatre tipus: en primer lloc, pel fet que treballem amb un corpus d’especialitat força gran i el nombre de resultats que hem d’avaluar és molt extens; en segon lloc, la tria dels termes propis de l’àmbit d’especialitat és costosa, perquè s’ha de fer prèviament a la valoració dels resultats finals de manera manual i consultant el context; en tercer lloc, la tria de la mesura estadística més adequada per a fer l’extracció de candidats, ja que cal veure quina mesura endreça més bé els resultats i en quin ordre ho fa, i, finalment, com ha de ser de representativa la mostra a partir de la qual fem l’avaluació. Havent plantejat les dificultats amb què ens hem trobat en plantejar-nos l’experiment del nostre treball, cal dir que hem optat per treballar amb tot el corpus d’especialitat i no pas amb una part per a no manipular les dades de partida, malgrat l’extensió dels resultats. Així mateix, hem considerat oportú de fer servir alhora un corpus de termes

Page 25: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

25

de referència propi de l’àmbit de les telecomunicacions per a poder identificar amb més facilitat quins termes endreça més bé cada mesura, ja que, tenir aquesta informació de partida, ens ha permès d’avaluar amb més rigor els resultats que hem obtingut amb la resta de termes del corpus d’especialitat i també comparar els resultats obtinguts amb els dos mètodes de treball: ús de termes de referència per al reconeixement d’aquests termes en el corpus i ús d’informadors per a la localització de la resta de termes que hi pugui haver en una mostra del corpus. Quant a la tria de la mesura estadística que endreci més bé els resultats, primer avaluem globalment i per parts els resultats obtinguts per a observar quin nombre de termes de referència de l’àmbit de les telecomunicacions recull cada mesura, concretament agafem quatre mostres que cobreixen un percentatge ampli del corpus. En segon lloc, per a poder avaluar el nombre de termes d’especialitat que hi ha en el nostre corpus, seleccionem els dos-cents primers candidats a terme que hem obtingut per a cada mesura i demanem a cinc informadors de formació específica en enginyeria i en filologia i lingüística que triïn quantes unitats consideren que són denominacions pròpies de l’àmbit de les telecomunicacions. Finalment, contrastem ambdós grups de resultats per a poder triar la mesura que endreça més bé les unitats candidates a terme.

6.2. Recursos per a fer l’experiment Els recursos que emprem per a preparar la part experiment que plantegem en aquest treball són una eina d’anàlisi estadística, un corpus d’especialitat, un corpus de termes de referència i una llista de paraules buides, els quals descriurem amb detall a continuació. La tria d’aquests recursos l’hem feta tenint en compte que disposàvem d’un corpus d’especialitat, que hem pogut obtenir la cessió de les dades d’un corpus de termes de referència i que tant l’eina d’anàlisi lingüística com la llista de paraules buides són recursos de codi lliure, fet que permet de reproduir la metodologia de treball a altres àmbits d’especialitat. 6.2.1. Eina d’anàlisi estadística L’eina d’anàlisi estadística que fem servir per a extreure les unitats de significació especialitzada del corpus d’especialitat és Ngram Statistics Package (NSP),5 que és una eina creada i desenvolupada en Perl per Ted Pedersen, Satanjeev Banerjee, Amruta Purandare, Bridget Thomson-McInnes i Saiyam Kohli des de l’any 2001, és de codi lliure, la qual es distribueix amb una llicència pública general de GNU6 i té centenars d’usuaris.

5 L’eina Ngram Statistics Package es troba disponible a SourceForge

(http://sourceforge.net/projects/ngram). 6 La llicència pública general de GNU es troba disponible a http://www.gnu.org/licenses/gpl.txt.

Page 26: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

26

L’eina NSP està formada per un conjunt d’utilitats que ajuden a analitzar els n-grams que hi hagi en un fitxer de text o en més d’un fent servir uns tests estàndards d’associació com la ràtio de Log-likelihood, el test Chi-quadrat de Pearson, el coeficient de Dice, entre altres. L’NSP ha estat dissenyat perquè l’usuari hi pugui afegir els seus propis tests sense gaire esforç. Un n-gram es pot definir com una seqüència de n tokens que hi ha en un text, els quals poden ser definits per l’usuari. Un token és una seqüència contínua de caràcters que correspon a un conjunt d’expressions regulars. Aquestes expressions regulars poden ser definides per l’usuari o, si no, en l’NSP se n’assumeixen dues per defecte: d’una banda, que la seqüència contínua de caràcters correspongui a caràcters alfanumèrics («\w+»); de l’altra, que aquesta seqüència correspongui amb un signe de puntuació («[\.,;:\?!]»). D’aquesta manera, abans de començar, l’usuari pot decidir quin tipus de seqüència contínua de caràcters vol obtenir en la llista de resultats finals i la pot ajustar definint les expressions regulars. Fet això, l’eina comprova si cada seqüència de caràcters correspon a les expressions regulars que hi ha definides; si hi ha correspondència, recull la seqüència de caràcters en qüestió i, si no, l’elimina. Aquesta utilitat de l’eina és molt rendible ja que permet d’eliminar directament de la llista de resultats, per exemple, tots els signes de puntuació que tinguem en el corpus d’especialitat. L’eina NSP consta d’una sèrie de programes que ajuden a analitzar els n-grams d’un fitxer. Concretament, disposa de dos programes principals i de quatre programes d’utilitats. Pel que fa als dos programes principals, d’una banda hi ha el programa «count.pl», que, a partir d’un fitxer de text pla, genera la llista d’n-grams endreçats per freqüència i en ordre descendent; d’una altra, hi ha el programa «statistic.pl», el qual, a partir de la llista d’n-grams anterior i la mesura estadística que triï l’usuari, calcula la puntuació que té cada n-gram. La llista d’n-grams final amb la puntuació es mostra per ordre descendent. La puntuació estadística que es calcula per a cada n-gram serveix per a decidir si hi ha prou evidència o no per a rebutjar la hipòtesi nul·la per a cada n-gram, és a dir, si l’n-gram és una col·locació o no ho és. Pel que fa als quatre programes d’utilitats de què disposa l’NSP, serveixen per a disposar d’informació complementària als resultats que s’obtenen amb els dos programes principals que acabem de descriure. El primer, «rank.pl», a partir del resultat de dos fitxers obtingut amb el programa «statistic.pl», calcula el coeficient de correlació per rangs de Spearman dels n-grams que són comuns en ambdós fitxers. Els dos fitxers que compara aquest programa són el resultat d’aplicar «statistic.pl» a la llista d’n-grams que s’ha obtingut amb el programa «count» però fent servir dues mesures estadístiques diferents. Així, doncs, el valor que s’obté amb «rank.pl» permet saber com són de semblants aquestes dues mesures, és a dir, si el valor obtingut és pròxim a 1 indica que aquestes dues mesures endrecen els n-grams en el mateix ordre, si és pròxim a -1 indica que els endrecen en ordre oposat i si és pròxim a 0 indica que no tenen cap mena de relació. El segon, «kocos.pl», a partir del resultat obtingut amb el programa «count.pl» o «statistic.pl», calcula quines coocurrències té una paraula. El tercer, «combig.pl», fa servir el resultat de la llista «count.pl» per a anivellar la puntuació que tenen les diferents combinacions d’una mateixa parella de paraules, per exemple en casos com ara «fine wine» i «wine fine», en què el programa «count.pl» els tracta com a diferents. I el quart, «huge-count.pl», permet dividir en diferents parts els corpus que pesen molt, de cada part el programa «count.pl» n’extreu la llista d’n-grams i, al final, combina les puntuacions obtingudes de cada part per a tenir una sortida final única. Hem triat aquesta eina de base estadística per a fer l’experiment que ens permetrà d’avaluar els resultats d’extracció d’unitats de significació especialitzada del nostre

Page 27: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

27

corpus d’especialitat perquè considerem que ens ofereix uns determinats avantatges respecte altres eines que s’han fet servir fins al moment i que seguidament esmentem: Facilitat d’ús a l’hora d’extreure els resultats d’un fitxer o d’un directori, per la qual cosa no cal ser un usuari expert per a poder treballar amb l’eina. Possibilitat de configurar els resultats finals segons els interessos de cada usuari. En aquest sentit, el programa «count.pl», a més de la configuració per defecte –un fitxer d’entrada per a calcular els n-grams i un de sortida amb els resultats endreçats per freqüència–, permet definir la llargada dels n-grams, és a dir, el nombre de tokens que es vol que hi hagi en cada n-gram; permet especificar una llista d’expressions regulars per a determinar com ha de ser una seqüència contínua de caràcters o token; permet incloure una llista de paraules buides (stopwords) amb la possibilitat de triar si l’n-gram ha de ser format de manera exacta per les paraules de la llista paraules buides per a ser eliminat o bé si l’n-gram és eliminat si qualsevol de les paraules que el forma és en la llista de paraules buides; finalment, l’usuari també pot decidir si s’han d’eliminar els n-grams que apareixen amb menys freqüència. Així mateix, el programa «statistical.pl» permet escollir quina mesura estadística l’usuari vol fer servir per a assignar una puntuació a cada n-gram. Visualització dels resultats d’una manera més completa, que inclou la mida de l’n-gram, la freqüència que tenen els n-grams que han estat eliminats i una llista amb els fitxers que s’han utilitzat per a crear el resultat amb el programa «count.pl» Generació d’un histograma que mostra quantes vegades han aparegut els n-grams que tenen una determinada freqüència i el percentatge de representació que tenen en el nombre total d’n-grams. Possibilitat de treballar tant amb corpus grans com petits. Utilització de l’eina per a diverses llengües. Possibilitat d’incloure-hi noves mesures estadístiques per a obtenir una nova llista d’n-grams finals. Possibilitat de comparar els resultats que s’obtenen amb les diverses mesures estadístiques. Eina de codi lliure i en desenvolupament continuat. A més, disposa d’una llista de distribució7 per a resoldre les consultes dels usuaris.

7 Llista de distribució per als usuaris de l’NSP: http://groups.yahoo.com/group/ngram/.

Page 28: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

28

6.2.2. Corpus d’especialitat L’experiment que ens plantegem per a comprovar si és possible d’aïllar unitats lingüístiques de significació especialitzada de la resta de mots poc rellevants d’un corpus d’especialitat el portem a terme fent servir el corpus de telecomunicacions del projecte Crater8 (Corpus Resources and Terminology Extraction), un corpus paral·lel trilingüe (espanyol, anglès i francès) d’un milió de paraules, etiquetat manualment amb categoria gramatical i anotació morfològica. Aquest corpus ha estat elaborat a partir d’una important col·lecció de textos tècnics procedents de la Unió Internacional de Telecomunicacions. 6.2.3. Corpus de termes de referència El corpus de termes de referència que fem servir per a contrastar els resultats que obtenim amb el corpus d’especialitat és el del Diccionari enciclopèdic de telecomunicacions9 publicat per Enciclopèdia Catalana, la Universitat Politècnica de Catalunya i el Termcat, Centre de Terminologia, l’any 2007. Aquest diccionari enciclopèdic recull i explica la terminologia i els conceptes de les telecomunicacions de diversos àmbits: tractament de la informació, tecnologia de telecomunicació, tecnologia electrònica, sistemes i serveis de telecomunicació i telemàtica. Inclou 4.214 entrades, un vocabulari invers castellà-català i un d'anglès-català, un índex d'entrades ordenades temàticament i un índex d'il·lustracions, una cronologia de les telecomunicacions, 178 biografies de persones rellevants en aquest camp, una llista d'institucions del sector i un recull de símbols. 6.2.4. Llista de paraules buides La llista de paraules buides que fem servir per a eliminar les categories tancades o paraules funcionals de la llista de candidats a terme que obtenim amb l’eina NSP és la que hi ha disponible actualment en el paquet d’eines NLTK (Natural Language Toolkit)10 i que consta de 571 formes. El paquet d’eines NLTK consta d’un conjunt de programes modulars, un conjunt de dades, tutorials i exercicis, i cobreix el processament del llenguatge natural estadístic i simbòlic. L’NLTK es distribueix amb una llicència pública general de GNU.

8 El projecte Crater és disponible a l’adreça següent:

http://www.comp.lancs.ac.uk/linguistics/crater/corpus.html. 9 http://www.termcat.cat/productes/economia.htm#telecomunicacions

10 http://nltk.sourceforge.net/index.php/Main_Page

Page 29: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

29

6.3. Plantejament de l’experiment Seguidament presentem amb detall el procés de preparació de l’experiment que hem plantejat per a poder valorar el resultat que ofereixen les diferents mesures estadístiques que hem fet servir en el nostre treball. 6.3.1. Preparació del corpus d’especialitat El contingut del corpus d’especialitat que forma part del projecte Crater està organitzat en 116 fitxers de treball amb un format de text pla. En cada fitxer la informació està estructurada per frases (marcades amb les etiquetes <CHUNK> i <S>), les quals estan desglossades per seqüències contínues de caràcters o tokens. Cada seqüència contínua de caràcters va encapçalada per l’etiqueta <TOK>, que conté la forma de la paraula (marcada amb l’etiqueta <ORTH>), el lema (marcat amb l’etiqueta <BASE>) i la categoria gramatical (marcada amb l’etiqueta <CTAG>), tal com veiem en la imatge següent.

Imatge 1. Estructura inicial dels fitxers del projecte Crater.

Com podem observar, la informació de partida està distribuïda en diversos fitxers i, a dins de cada fitxer, està segmentada a nivell de formes. Per a poder treballar amb el corpus i recuperar les unitats terminològiques per mitjà de mètodes estadístics el que hem fet és ajuntar tots els fitxers en un de sol i també hem ajuntat les formes que hi ha en cada una de les línies dels fitxers per a poder disposar de les frases completes. En la imatge següent mostrem un exemple de la transformació que ha sofert l’estructura original (imatge 1) en haver ajuntat totes formes corresponents en frases completes (imatge 2).

Imatge 2. Mostra d’una frase completa.

6.3.2. Preparació dels resultats estadístics inicials Per a començar a preparar els resultats amb l’eina NSP que hem descrit més amunt, primer l’instal·lem en el servidor del grup de recerca Natural Language Processing dels Estudis de Llengües i Cultures de la Universitat Oberta de Catalunya i hi

Page 30: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

30

emmagatzemem els resultats que obtenim tant amb el programa «count.pl» com amb el programa «statistic.pl» de l’eina. La preparació dels resultats estadístics que ens permeten de recuperar totes les combinacions de bi-grams del corpus i la seva freqüència d’aparició endreçades en ordre descendent, la portem a terme amb el programa «count.pl» de l’eina. Per a obtenir els resultats hem fet servir la configuració bàsica del programa: primer hem fet la crida del programa «count.pl», després hem indicat un fitxer de sortida per a emmagatzemar-hi els resultats i el fitxer on hem emmagatzemat les frases del corpus, i, finalment, hem indicat el fitxer de paraules buides que ja teníem preparat per a filtrar les paraules funcionals del corpus. El resultat obtingut amb el programa «count» és de 44.948 bi-grams diferents endreçats per freqüència i un total de 208.568 bi-grams comptant les repeticions. A més de la freqüència, cada candidat té associada la informació del nombre de bi-grams del corpus que tenen la mateixa seqüència contínua de caràcters a l’esquerra i a la dreta. A tall d’il·lustració, per al bi-gram «earth station» el programa «count.pl» ens indica que té una freqüència d’aparició en el corpus de 849, que la seqüència contínua de caràcters «earth» apareix combinada a l’esquerra amb altres seqüències 1.312 vegades i que la seqüència contínua de caràcters «station» apareix combinada a la dreta amb altres seqüències 1.670 vegades. En la imatge següent podem observar els resultats que acabem de comentar.

Imatge 3. Mostra dels resultats obtinguts.

6.3.3. Preparació dels resultats amb les mesures estadístiques

La preparació de cada un dels resultats amb les mesures estadístiques de què disposa l’eina NSP la fem a partir de la llista de candidats a terme que hem obtingut en l’apartat anterior i la freqüència d’aparició que tenen en el corpus amb el programa «statistic.pl», el qual calcula una puntuació per a cada n-gram i els endreça en ordre descendent. Els resultats per a cada mesura els hem obtingut fent servir la configuració bàsica del programa: primer hem fet la crida del programa «statistic.pl», després hem indicat el nom de la mesura perquè es carregui la llibreria estadística que té associada i també un fitxer de sortida perquè s’hi emmagatzemin els resultats d’haver aplicat el coeficient (o mesura) triat, i, finalment, hem indicat el fitxer que conté la llista d’n-grams i la seva freqüència. Els resultats que hem obtingut estan endreçats amb uns valors estadístics diferents per a cada mesura. Així, doncs, a més de la freqüència d’aparició i el nombre de vegades que apareixen les seqüències contínues de caràcters a la dreta i a l’esquerra dels bi-grams, per a cada candidat a terme també tenim l’ordre (rank) en què és endreçat i el valor que té a partir del càlcul de cada mesura. Si agafem l’exemple anterior, per al bi-gram «earth station», a més de les dades que ja hem donat, els resultats que obtenim fent servir tres mesures estadístiques diferents són els següents: el coeficient Dice el situa en la posició 61 de la llista de candidats i li atorga un valor de 0.5694, la ràtio Log-likelihood el situa en la posició 1 i li atorga un valor de 7025.7384 i el test Fishers twotailed el situa en la posició 2621 i li atorga un valor de 0.0000. La lectura que fem d’aquests resultats és que la ràtio Log-likelihood permet recuperar més ràpidament

Page 31: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

31

aquest candidat que no pas les altres dues, ja que el deixa situat entre els primers resultats de la llista de candidats. 6.3.4. Descripció de les mesures estadístiques L’eina que fem servir en el nostre treball per a l’extracció de candidats a terme del corpus d’especialitat disposa de diverses mesures estadístiques el resultat de les quals ens permet d’observar quina ofereix més bon rendiment a l’hora d’endreçar els candidats. Com que centrem el nostre experiment en l’anàlisi de bi-grams del corpus d’especialitat, les mesures que en permeten l’extracció són el coeficient Dice, el test Fishers twotailed, el coeficient Jaccard, la ràtio Log-likelihood, la mesura True mutual information, la mesura Pointwise mutual information, la ràtio Odds, el test Chi-quadrat de Pearson, la mesura T-score, la mesura Poisson stirling i el coeficient PHI. En general, les mesures estadístiques calculen el nivell d’associació que hi ha entre dos components (dues seqüències contínues de caràcters), el qual depèn d’alguna manera de tres paràmetres possibles: la relació entre les coocurrències, el model aleatori de la mostra i la inferència estadística. Amb tot, no és gaire clar de quina manera els valors dels components han de ser combinats per a obtenir un coeficient

d’estreta associació com a mesura quantitativa. Intuïtivament, un valor més alt de

indica una associació més forta, mentre que valors més alts de 1 i 2 indiquen una associació més feble. Hi ha moltes mesures d’associació que calculen la probabilitat

màxima o l’interval de confiança per a , o altres coeficients de grau d’associació. Aquestes mesures s’anomenen «grup de nivell» o «grau d’associació». Com que la mesura d’estreta associació és difícil d’establir, el que sí que té una definició clara és el concepte d’absència completa d’associació: independència estadística. Quan un parell de types (u,v) no tenen cap mena d’associació, els esdeveniments {U = u} i {V = v} són independents, fet que porta a la hipòtesi nul·la d’independència H0. La hipòtesi nul·la d’independència estableix la relació entre els

paràmetres de probabilitat (anomenats 21 ), però els valors del paràmetre no són completament fixats, i tampoc la distribució de la mostra. Un segon gran grup de mesures d’associació és el grup de les «mesures d’importància d’associació», que fa servir la quantitat d’evidència en contra de la hipòtesi nul·la d’independència com a associació de puntuació (association score). Aquesta associació ha de ser quantificada per la probabilitat de les dades observades o pel p-valor del test de la hipòtesi estadística. Ambdós valors són probabilitats entre [0,1] amb valors baixos que indiquen més evidència en contra de H0. Així, doncs, tenint en compte el grau d’associació i la importància d’associació, presentem seguidament com queden classificades les mesures que utilitzem per al nostre treball, juntament amb altres mesures estadístiques. 6.3.4.1. Classificació de les mesures estadístiques Mesures de nivell o grau d’associació a. Estimacions de punt de força d’associació Mu-value ( )

Ràtio Odds ( )

Mutual information Minimum sensitivity

Page 32: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

32

Coeficient Dice Jaccard b. Estimacions conservadores de força d’associació Mutual information (versió conservadora) Ràtio Odds (estimació conservadora) Mesura Fisher Mesures d’importància d’associació a. Mesures de probabilitat Poisson-likelihood Poisson stirling b. Proves d’hipòtesi exacta Poisson Test exacte de Fisher c. Proves d’hipòtesi asimptòtica Z-score i T-score Test Chi-quadrat de Pearson Ràtio de Log-likelihood Considerem interessant de completar aquesta classificació amb les mesures que provenen de l’àmbit de la teoria de la informació. Mesures que provenen de la teoria de la informació Pointwise Mutual Information Average Mutual Information [idèntica a la ràtio Likelihood (log-likelihood)] I també fem esment d’un grup de mesures heurístiques que han sorgit a partir de tres mesures existents: Mutual information, Poisson stirling i Log-likelihood Mesures heurístiques11 Local-MI M2

6.3.4.2. Descripció de les mesures

Seguidament fem una descripció detallada de cada una de les mesures estadístiques que emprem en el nostre experiment. Coeficient Dice

11

Aquestes mesures són variants de la mesura Mutual information.

Page 33: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

33

En el coeficient Dice (Smadja i altres, 1996) s’assumeix que la freqüència de les dades comptades associades amb el bi-gram <paraula1><paraula2> s’emmagatzema en la taula de contingència 2x2:

paraula2 ~paraula2

paraula1 n11 n12 n1p

~paraula1 n21 n22 n2p

np1 np2 npp

en la qual n11 és el nombre vegades que <paraula1><paraula2> es troben juntes, n12 és el nombre de vegades que <paraula1> es troba amb alguna paraula diferent de <paraula2> i n1p és el nombre de vegades total que <paraula1> es troba com a primera paraula en el bi-gram.

El coeficient Dice es defineix així: pnnp

n

11

112

En l’àmbit de l’extracció de terminologia, el coeficient Dice és una mesura de similitud que refina la correlació estimada de paraules indicant els tipus de paraules d’una col·locació.

)()()()(

)(),(

yntxnbynbxnt

xynbyxDice

En aquest sentit, )(xynb és la freqüència de la col·locació xy en els documents –un

document conté una col·locació si i només si els mots que formen la col·locació

apareixen contigus com a mínim en una frase del document– i )(xnt defineix el nombre

de paraules del mateix tipus de x en els documents (el nombre d’instàncies de la paraula amb la mateixa marca (tag) que x; per exemple, el nombre d’adjectius si x és un adjectiu). Així mateix, el coeficient Dice es fa servir per a localitzar unitats multiparaula monolingües i bilingües. En aquest sentit, es considera que és un coeficient que millora la localització d’n-grams en un text fent servir tècniques estadístiques més avançades que no pas la indicació de freqüència. Una altra aplicació del coeficient Dice és l’ús que se’n fa en l’àmbit de la classificació de documents com a mesura de similitud, juntament amb la tècnica estadística de freqüència d’n-grams i la mesura de dissimilitud Distància Manhattan. El coeficient Dice es fa servir amb l’objectiu de comparar resultats. Els resultats mostren que la classificació del text amb n-grams (tri-grams) fent servir la mesura Dice ofereix més bons resultats de classificació en comparació amb la mesura Manhattan. Fent servir la mesura Manhattan la categoria a la qual pertany un document és la que té una distància més petita respecte a la distància Manhattan, i fent servir la mesura Dice, la classe amb una mesura més elevada és escollida com la classe en què el document quedarà classificat. Els resultats de classificació fent servir aquestes dues mesures han estat comparats en termes de precisió i cobertura, i mostren que la mesura Dice ofereix més bons resultats de classificació que no pas la mesura Manhattan (Khreisat, 2006). Test Fishers twotailed

Page 34: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

34

En el test Fishers twotailed s’assumeix que la freqüència de les dades comptades associades amb el bi-gram <paraula1><paraula2> s’emmagatzema en la taula de contingència 2x2:

paraula2 ~paraula2

paraula1 n11 n12 n1p

~paraula1 n21 n22 n2p

np1 np2 npp

en la qual n11 és el nombre vegades que <paraula1><paraula2> es troben juntes, n12 és el nombre de vegades que <paraula1> es troba amb alguna paraula diferent de <paraula2> i n1p és el nombre de vegades total que <paraula1> es troba com a primera paraula en el bi-gram. Els tests exactes de Fisher són calculats fixant els marginals totals i calculant les probabilitats hipergeomètriques per totes les taules de contingència possibles. El test Fishers twotailed és calculat afegint les probabilitats de totes les taules de contingència amb menys probabilitats que la probabilitat de la taula observada. Aquesta mesura s’acostuma a utilitzar si es necessiten valors exactes sense errors. Coeficient Jaccard En el coeficient Jaccard (Jaccard, 1901) s’assumeix que la freqüència de les dades comptades associades amb el bi-gram <paraula1><paraula2> s’emmagatzema en la taula de contingència 2x2:

paraula2 ~paraula2

paraula1 n11 n12 n1p

~paraula1 n21 n22 n2p

np1 np2 npp

en la qual n11 és el nombre vegades que <paraula1><paraula2> es troben juntes, i n12 és el nombre de vegades que <paraula1> es troba amb alguna paraula diferent de <paraula2>, i n1p és el nombre de vegades total que <paraula1> es troba com a primera paraula en el bi-gram. El coeficient Jaccard és la ràtio del nombre de vegades que les paraules surten juntes amb el nombre de vegades en què com a mínim una de les paraules apareix.

El coeficient Jaccard es defineix així: 211211

11

nnn

n

El coeficient Jaccard també pot ser calculat aplicant la transformació del coeficient Dice: $jaccard = $dice/(2-$dice). Aquest càlcul de Jaccard s’utilitza en la implementació de l’eina NSP. Així mateix, el coeficient Jaccard és molt usat en l’àmbit de la recuperació d’informació. En la seva forma bàsica, la fórmula de Jaccard per a mesurar la similitud entre dos conjunts A i B és la següent:

BA

BABAJ

),(

Page 35: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

35

On A indica la mida del conjunt A. Si A=B, llavors BABA , i ),( BAJ 1. Ara bé,

si A i B no comparteixen elements comuns, llavors BA Ø i ),( BAJ 0.

Si en la teoria de conjunts les ocurrències duplicades de qualsevol element del conjunt són descartades, en la fórmula de Jaccard basada en la funció de similitud dels n-grams per cadenes ignora les ocurrències múltiples dels n-grams. El coeficient Jaccard penalitza un nombre baix d’entrades compartides més que no pas el coeficient Dice. Ambdues mesures endrecen de 0,0 (sense simultaneïtat) a 1,0 (simultaneïtat), però el coeficient Jaccard atribueix valors més baixos en els casos de simultaneïtat baixa. Per exemple, dos vectors amb deu entrades sense zero i una entrada comuna, el coeficient Dice dóna una puntuació de 2x1/(10+10) = 0,1 i la puntuació de Jaccard és de 1/(10+10-1) = 0,05. El coeficient Jaccard és molt usat en l’àmbit de la química com a mesura de similitud entre els compostos químics (Willet i Winterman, 1986). Ràtio Log-likelihood La ràtio Log-likelihood (Dunning, 1993) mesura la desviació entre les dades observades i el que es podria esperar si <paraula1> i <paraula2> fossin independents. A puntuació més alta hi ha menys proves a favor de dir que les paraules són independents. S’assumeix que la freqüència de les dades comptades associades amb el bi-gram <paraula1><paraula2> s’estableix com mostra la taula de contingència 2x2:

paraula2 ~paraula2

paraula1 n11 n12 n1p

~paraula1 n21 n22 n2p

np1 np2 npp

en la qual n11 és el nombre vegades que <paraula1><paraula2> es troben juntes, i n12 és el nombre de vegades que <paraula1> es troba amb alguna paraula diferent de <paraula2>, i n1p és el nombre de vegades total que <paraula1> es troba com a primera paraula en el bi-gram. Els valors esperats de les cel·les interiors són calculats agafant el resultat dels seus marginals associats i dividint-lo per la mida de la mostra, per exemple:

npp

pnnpm

1111

Llavors, la desviació entre els valors observats i els esperats per a cada cel·la interior és calculada perquè arribi al valor log-likelihood. Log-Likelihood =

22

22log22

21

21log21

12

12log12

11

11log112

m

nn

m

nn

m

nn

m

nn

La ràtio Log-likelihood, que és una aproximació de test d’hipòtesis, és molt usada per a l’extracció de terminologia. Aquesta ràtio es diferencia del coeficient Dice i la mesura Mutual information pel fet que també té en compte el nombre de casos en què no apareix cap de les paraules d’una col·locació; en canvi, Dice i Mutual information només tenen en compte els casos en què apareixen les paraules d’una col·locació.

Page 36: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

36

Així mateix, la ràtio Log-likelihood és més apropiada per a dades esparses que no pas el test X2. També té l’avantatge que els càlculs estadístics són més interpretables que no pas l’estadística de X2, ja que un sol nombre ens indica la probabilitat que té una hipòtesi respecte d’una altra. En aquest sentit, la ràtio Likelihood té una clara interpretació intuïtiva, i és que observant els resultats es pot saber de manera clara quina probabilitat hi ha, per exemple, que, per al bi-gram «powerful computers», «computers» acompanyi «powerful». Així, doncs, el nombre que aporta la ràtio Likelihood és més fàcil d’interpretar que no pas les puntuacions del t test o el test X2

(Manning i Schütze, 2003). Estudis recents que s’han centrat en la rendibilitat de les mesures estadístiques per a l’extracció de terminologia (M. Roche i altres, 2004) indiquen que, de totes les proporcions de termes que s’han trobat, la ràtio Log-likelihood sempre ofereix la proporció més alta de termes correctes. A més, també és així quan els candidats s’endrecen per freqüència. La ràtio Log-likelihood té en compte tant els components d’un n-gram que apareixen junts com els que apareixen de manera independent. La puntuació que atorga a un bi-gram és la ràtio entre dues versemblances (likelihoods): la versemblança d’un element en una col·locació mentre un altre hi és present i la versemblança d’aquest mateix element en una col·locació mentre un altre és absent. Si la ràtio és elevada, es constata la dependència estadística. Mesura True mutual information En la mesura True mutual information (Hutter, 2001) s’assumeix que la freqüència de les dades comptades associades amb el bi-gram <paraula1><paraula2> s’emmagatzema en la taula de contingència 2x2:

paraula2 ~paraula2

paraula1 n11 n12 n1p

~paraula1 n21 n22 n2p

np1 np2 npp

en la qual n11 és el nombre vegades que <paraula1><paraula2> es troben juntes, i n12 és el nombre de vegades que <paraula1> es troba amb alguna paraula diferent de <paraula2>, i n1p és el nombre de vegades total que <paraula1> es troba com a primera paraula en el bi-gram. Els valors esperats de les cel·les interiors són calculats agafant el resultat dels seus marginals associats i dividint-lo per la mida de la mostra, per exemple:

npp

pnnpm

1111

True Mutual Information (TMI) es defineix com la mitjana ponderada de Pointwise mutual information per a tots els parells de valors observats i esperats.

TMI =

22

22log

22

21

21log

21

12

12log

12

11

11log

11

m

n

npp

n

m

n

npp

n

m

n

npp

n

m

n

npp

n

Mesura Pointwise mutual information

Page 37: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

37

En la mesura Pointwise mutual information (Church i Hanks, 1990) s’assumeix que la freqüència de les dades comptades associades amb el bi-gram <paraula1><paraula2> s’emmagatzema en la taula de contingència 2x2:

paraula2 ~paraula2

paraula1 n11 n12 n1p

~paraula1 n21 n22 n2p

np1 np2 npp

en la qual n11 és el nombre vegades que <paraula1><paraula2> es troben juntes, i n12 és el nombre de vegades que <paraula1> es troba amb alguna paraula diferent de <paraula2>, i n1p és el nombre de vegades total que <paraula1> es troba com a primera paraula en el bi-gram. Els valors esperats de les cel·les interiors són calculats agafant el resultat dels seus marginals associats i dividint-lo per la mida de la mostra, per exemple:

npp

pnnpm

1111

Pointwise mutual information (PMI) es defineix com el logaritme de la desviació entre la freqüència observada del bi-gram (n11) i la probabilitat d’aquest bi-gram, si és independent (m11).

11

11log

m

nPMI

La informació de Pointwise mutual information tendeix a sobreestimar bi-grams amb baixa freqüència. Per a evitar-ho, algunes vegades es fa servir una variació de PMI que incrementa la influència de la freqüència observada.

11

exp)$11(log

m

nPMI

El $exp és 1 per defecte; per tant, per defecte la mesura calcula la informació de Pointwise mutual information per a un bi-gram. El fet d’usar una variació de la mesura permet que l’usuari pugui passar el paràmetre $exp fent servir l’ordre de la línia de comandament --pmi_exp amb statistic.pl o bé passar $exp al mètode initializeStatistic() del programa de l’usuari. L’ús per a «statistic.pl» és el següent:

statistic.pl pmi out_pmi.stt out.cnt Pointwise mutual information $exp és 1 en aquest cas

statistic.pl --pmi_exp 2 pmi out_pmi2.stt out.cnt

Variant amb $exp és 2.

Pointwise mutual information va ser la primera mesura a ser introduïda en la lingüística computacional per Church i Hanks l’any 1990 per a localitzar col·locacions interessants, ja que mesura la correlació de paraules d’una col·locació. La informació mútua entre dues paraules w1 i w2 és la següent:

)()(

),(log),(

21

21221

wPwP

wwPwwMI

Page 38: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

38

Aquesta mesura s’aplica en la tasca de detecció de sinònims fent servir la freqüència de les coocurrències obtingudes a partir de les consultes fetes a un motor de cerca (Turney, 2001). Anteriorment, Fano (1961) havia definit la informació mútua entre esdeveniments particulars x’ i y’, que correspon a l’ocurrència de paraules concretes.

)'()'(

)''(log)','( 2

yPxP

yxPyxI

)'(

)''(log)','( 2

xP

yxPyxI

)'(

)''(log)','( 2

yP

xyPyxI

La mesura Pointwise mutual information permet l’extracció de terminologia d’un corpus. I la seva variant, MI3 (Daille, Gaussier i Langé, 1998), incrementa la puntuació de les col·locacions.

)()(

)(log)(

3

23

ynbxnb

xynbxyMI

La informació mútua és una mesura simètrica, no negativa, de la informació comuna que hi ha en dues variables. Sovint la informació mútua es veu com una mesura de dependència entre variables. No obstant això, és millor veure-la com una mesura d’independència per dos motius: d’una banda, perquè hi ha valor 0 solament quan dues variables són independents; de l’altra, per a dues variables dependents, la informació mútua augmenta no solament amb el nivell de dependència, sinó també d’acord amb l’entropia de les variables (Manning i Schütze). Amb tot, no és una mesura adequada de dependència, perquè per a la dependència la puntuació depèn de la freqüència de cada paraula. Llavors, els bi-grams que són formats per paraules que tenen una freqüència baixa reben una puntuació més alta que no pas els bi-grams que són formats per paraules amb una freqüència més alta. Aquest fet és oposat amb el que es demana a una bona mesura, ja que una freqüència alta indica més evidència i això es tradueix amb una posició més alta per als bi-grams que, per ser més interessants, tenen més evidència. Una solució a aquest problema és tenir en compte únicament paraules amb freqüència com a mínim de tres. Aquesta solució no resol el problema però l’atenua. Com que Pointwise Mutual Information no aconsegueix de mostrar gaire bé les col·locacions interessants, s’acostuma a no fer-la servir en aplicacions pràctiques. És usada en estudis de lingüística de corpus, però és menys freqüent en l’àmbit de la teoria de la informació. La informació mútua en l’àmbit de la teoria de la informació fa referència a l’expectativa (expectativa d’informació mútua). La informació mútua s’ha usat en l’àmbit del processament del llenguatge natural des d’un punt de vista estadístic, com ara la clusterització de paraules, i també en la desambiguació de sentits. Per convenció, la informació mútua s’escriu amb un punt i coma que separa els dos arguments: I(X; Y).

Page 39: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

39

)()(

),(log);(

YpXp

YXpEYXI

Ara bé, hi ha diferents definicions d’informació mútua:

símbol definició Ús actual Fano (1961)

),( yxI

)()(

),(log

ypxp

yxp

Pointwise Mutual Information

Mutual Information

);( YXI

)()(

),(log

YpXp

YXpE

Mutual Information Average MI / Expectation of MI

Ràtio Odds En la ràtio Odds s’assumeix que la freqüència de les dades comptades associades amb el bi-gram <paraula1><paraula2> s’emmagatzema en la taula de contingència 2x2:

paraula2 ~paraula2

paraula1 n11 n12 n1p

~paraula1 n21 n22 n2p

np1 np2 npp

en la qual n11 és el nombre vegades que <paraula1><paraula2> es troben juntes, i n12 és el nombre de vegades que <paraula1> es troba amb alguna paraula diferent de <paraula2>, i n1p és el nombre de vegades total que <paraula1> es troba com a primera paraula en el bi-gram. Odds calcula la ràtio del nombre de vegades que les paraules del bi-gram surten juntes (o no) amb el nombre de vegades que les paraules apareixen individualment. És el resultat de multiplicar en diagonal el nombre de vegades que apareixen les paraules.

Per tant, la ràtio Odds s’expressa d’aquesta manera: 1221

2211 n

n

nnOdds .

Si n21 o n12 és igual a 0, llavors el valor de cada zero és “suavitzat” a 1 per a evitar que hi hagi un 0 en el denominador. Coeficient PHI En el coeficient PHI s’assumeix que la freqüència de les dades comptades associades amb el bi-gram <paraula1><paraula2> s’emmagatzema en la taula de contingència 2x2:

paraula2 ~paraula2

paraula1 n11 n12 n1p

~paraula1 n21 n22 n2p

np1 np2 npp

en la qual n11 és el nombre vegades que <paraula1><paraula2> es troben juntes, i n12 és el nombre de vegades que <paraula1> es troba amb alguna paraula diferent de <paraula2>, i n1p és el nombre de vegades total que <paraula1> es troba com a primera paraula en el bi-gram.

Page 40: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

40

PHI2 = )2211(

))2121()2211(( 2

pnnpnppn

nnnn

Cal tenir en compte que el valor de PHI2 equival al test Chi-quadrat de Pearson multiplicat per la mida de la mostra, és a dir: Chi-Squared = npp x PHI2. Es fa servir PHI2 en lloc de PHI des que PHI2 va ser usat per a la identificació de les col·locacions.12 Test Chi-quadrat de Pearson El test Chi-quadrat de Pearson mesura la desviació entre les dades observades i el que es podria esperar si <paraula1> i <paraula2> fossin independents. A puntuació més alta hi ha menys proves a favor de dir que les paraules són independents. S’assumeix que la freqüència de les dades comptades associades amb el bi-gram <paraula1><paraula2> s’emmagatzema en la taula de contingència 2x2:

paraula2 ~paraula2

paraula1 n11 n12 n1p

~paraula1 n21 n22 n2p

np1 np2 npp

en la qual n11 és el nombre vegades que <paraula1><paraula2> es troben juntes, i n12 és el nombre de vegades que <paraula1> es troba amb alguna paraula diferent de <paraula2>, i n1p és el nombre de vegades total que <paraula1> es troba com a primera paraula en el bi-gram. Els valors esperats de les cel·les interiors són calculats agafant el resultat dels seus marginals associats i dividint-lo per la mida de la mostra, per exemple:

npp

pnnpm

1111

Llavors, la desviació entre els valors observats i els esperats per a cada cel·la és calculada per a arribar al valor del test Chi-quadrat de Pearson. Test Chi-quadrat de Pearson =

2

22

)2222(2

21

)2121(2

12

)1212(2

11

)1111(2

m

mn

m

mn

m

mn

m

mn

12

K. Church (1991), «Concordances for Parallel Text», A: Seventh Annual Conference of the UW, Centre for the New OED and Text Research, Oxford, Anglaterra.

Page 41: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

41

Mesura Poisson stirling La mesura Poisson stirling (Quasthoff i Wolff, 2002) mesura la desviació entre les dades observades i el que es podria esperar si <paraula1> i <paraula2> fossin independents. A puntuació més alta hi ha menys proves a favor de dir que les paraules són independents. S’assumeix que la freqüència de les dades comptades associades amb el bi-gram <paraula1><paraula2> s’emmagatzema en la taula de contingència 2x2:

paraula2 ~paraula2

paraula1 n11 n12 n1p

~paraula1 n21 n22 n2p

np1 np2 npp

en la qual n11 és el nombre vegades que <paraula1><paraula2> es troben juntes, i n12 és el nombre de vegades que <paraula1> es troba amb alguna paraula diferent de <paraula2>, i n1p és el nombre de vegades total que <paraula1> es troba com a primera paraula en el bi-gram. Els valors esperats de les cel·les interiors són calculats agafant el resultat dels seus marginals associats i dividint-lo per la mida de la mostra, per exemple:

npp

pnnpm

1111

La mesura Poisson Stirling és una aproximació logarítmica negativa a la mesura Poisson-likelihood. Fa servir la fórmula Stirling per a aproximar el factorial a la mesura Poisson-likelihood.

Poisson-stirling = 1)11log()11log(11 mnn

Que és igual que:

Poisson-stirling =

1

11

11log11

m

nn

Mesura T-score En la mesura T-score (Church, 1991) s’assumeix que la freqüència de les dades comptades associades amb el bi-gram <paraula1><paraula2> s’emmagatzema en la taula de contingència 2x2:

paraula2 ~paraula2

paraula1 n11 n12 n1p

~paraula1 n21 n22 n2p

np1 np2 npp

en la qual n11 és el nombre vegades que <paraula1><paraula2> es troben juntes, i n12 és el nombre de vegades que <paraula1> es troba amb alguna paraula diferent de <paraula2>, i n1p és el nombre de vegades total que <paraula1> es troba com a primera paraula en el bi-gram. La mesura T-score es defineix com la ràtio de la diferència entre el que s’observa i la mitjana esperada de la variància de la mostra. Cal notar que és una variant del T-test

Page 42: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

42

estàndard, que va ser proposat per a ser usat en la detecció de les col·locacions en grans mostres de text.

La mesura T-score es defineix de la manera següent: npp

nppnm

1111

7. Avaluació dels resultats

A continuació presentem els resultats que hem obtingut fent servir les diferents mesures estadístiques que acabem de descriure. Concretament, i tal com hem plantejat en els objectius inicials del nostre estudi, mostrem dos blocs de resultats: d’una banda, els resultats que indiquen quina mesura estadística recupera un nombre més elevat de termes de referència i quina els endreça més bé; de l’altra, els resultats que mostren quina mesura recupera un nombre més elevat d’unitats de significació especialitzada, incloent-hi els termes de referència; aquests darrers resultats es basen en la revisió manual d’una mostra de dos-cents candidats a terme feta per cinc informadors.

7.1. Resultats obtinguts per nombre de termes de referència En el primer bloc de resultats volem copsar el nombre de termes de referència que hi ha en el nostre corpus d’especialitat i les mesures que en recuperen més en la part inicial de la llista de resultats, i ho fem filtrant els resultats amb la llista de paraules buides que tenim disponible i que hem descrit més amunt. Així, doncs, fem una tasca de reconeixement de termes, que se centra en la identificació de termes coneguts dins els corpus. Per a obtenir aquests resultats, primer hem cercat de manera automàtica quants termes del corpus de termes de referència hi ha en el corpus d’especialitat, i el resultat obtingut ha estat de 1.170 termes de referència d’un total de 4.000. Seguidament, hem fet l’extracció de termes del corpus d’especialitat amb el programa «count.pl» de l’eina NSP filtrats amb la llista de paraules buides i hem obtingut una llista de candidats a terme filtrats, endreçats per freqüència i en ordre descendent; aquest primer resultat correspon al càlcul estadístic basat en la freqüència i amb el qual recuperem un total de 44.498 candidats a terme del corpus d’especialitat. Finalment, hem preparat els resultats corresponents a les onze mesures estadístiques amb el programa «statistic.pl» també de l’eina NSP. El resultat que obtenim de cada mesura consisteix a reendreçar de posició cada un dels candidats a terme que recuperem amb el càlcul estadístic de freqüència a partir de càlculs estadístics diferents. En aquest sentit, el fet de disposar d’onze maneres diferents d’endreçar una mateixa llista de candidats a terme ens permet observar quina mesura pot ser més rendible a l’hora de reconèixer termes. En el gràfic 1 mostrem el nombre de termes de referència que reconeix cada mesura estadística en ordre de més a menys freqüent. Aquests resultats els hem obtingut valorant el conjunt de candidats a terme (44.498). Concretament, en l’eix de les categories (X) hi ha representades les diferents posicions en què es troben els candidats a terme –l’ordre en què les mesures situen els candidats– i en l’eix dels valors (Y) el nombre de termes de referència que les mesures recuperen en cada posició. Com que en el nostre estudi considerem solament bi-grams, es recuperen en total 355 termes de referència.

Page 43: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

43

Els resultats que interessen més per al nostre estudi són els que queden situats al costat esquerre del gràfic, ja que corresponen als termes que apareixen amb més freqüència en el corpus i, per tant, els que tenen un interès més alt des del punt de vista terminològic. En conseqüència, les mesures que recuperen més termes de referència en aquesta primera franja de resultats seran les que permeten de reconèixer-los amb més facilitat i faran estalviar temps a l’hora de fer-ne la revisió manual. Així, observem que fins aproximadament la posició 1.000 la mesura T-score és la que recupera més termes de referència, seguida del càlcul de freqüència, True mutual information, Log-likelihood, Poisson stirling i la resta de mesures. A partir d’aquesta posició, passa al capdavant el càlcul estadístic de freqüència seguit de les mesura T-score, True mutual information, Poisson stirling, Log-likelihood –tots amb valors força ajustats– i la resta de mesures fins a la meitat de la llista de candidats a terme, posició 20.000. A partir d’aquest punt se situen al capdavant els resultats de la mesura Twotailed i, darrere d’aquesta, la resta de mesures en el mateix ordre esmentat. Aproximadament a partir de la posició 33.000 la xifra de termes de referència que recuperen totes les mesures augmenten de sobte fins que s’igualen els resultats finals, ja que el que fan és reendreçar tots resultats i no pas recuperar-ne més o menys.

Gràfic 1. Nombre de termes de referència dins el corpus d’especialitat.

Centrant-nos en el nombre de termes de referència que són recuperats per les diferents mesures fins a la posició 1.000, en la taula que hi ha a continuació observem que la mesura T-score és la que reconeix un major nombre de termes de referència, seguida del càlcul de freqüència, True mutual information, Poisson stirling i Log-likelihood. Així mateix, si ens fixem en els resultats obtinguts en les posicions 250, 500 i 750 veiem que la mesura T-score també és la mesura que va situant més termes de referència en les posicions inicials de la llista de resultats, juntament amb el càlcul de freqüència. Així, doncs, hi ha coincidència entre la mesura que recupera un nombre més elevat de termes de referència i la que els endreça o els situa en les primeres posicions de la llista.

Page 44: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

44

posició 250 posició 500 posició 750 posició 1.000

Càlcul de freqüència 24 36 49 62

Coeficient Dice 1 1 2 2

Test Fishers twotailed 3 6 10 13

Coeficient Jaccard 1 1 2 2

Ràtio Log-likelihood 22 34 44 54

Mesura True mutual information 22 33 46 55

Mesura Pointwise mutual information

0 1 1 2

Ràtio Odds 1 1 1 2

Test Chi-quadrat de Pearson 1 1 1 2

Mesura T-score 25 35 47 64

Mesura Poisson stirling 22 37 45 54

Coeficient PHI 1 1 2 2

7.2. Resultats obtinguts per nombre d’unitats de significació especialitzada En el segon bloc de resultats avaluem manualment per mitjà de cinc informadors els primers dos-cents candidats a terme13 que pertanyen a les mesures que han obtingut més bons resultats en el primer bloc de resultats, és a dir, el càlcul de freqüència, la mesura Poisson stirling, la mesura True mutual information, la ràtio Log-likelihood i la mesura T-score. Aquests candidats a terme també han estat filtrats amb la llista de paraules buides i endreçats per freqüència en ordre descendent. En aquest cas, doncs, mirem de fer una aproximació a l’adquisició de termes, que se centra en la localització de nous termes en un corpus d’especialitat; en el nostre cas, però, en lloc de fer-ho de manera automàtica hem localitzat els termes manualment amb informadors. 7.2.1. Selecció de les unitats significativament rellevants amb informadors Els cinc informadors que hem triat per a fer la selecció dels termes del corpus d’especialitat amb què treballem tenen els perfils següents: dues persones són expertes en l’àmbit de les telecomunicacions i tres persones són expertes en terminologia. La mostra que hem triat per a fer l’avaluació dels resultats ha estat de dos-cents candidats a terme, perquè considerem que aquest nombre d’unitats ens pot oferir dades prou representatives de quin comportament tenen les diferents mesures estadístiques amb relació a la localització de termes en les primeres posicions de la llista de resultats i també ens permet de poder fer una avaluació de les dades amb informadors.

13

Vegeu l’annex 1.

Page 45: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

45

Les persones que han avaluat els resultats ho han fet tenint en compte la pertinència terminològica dels dos-cents candidats a terme de les cinc mesures que hem esmentat per a poder contrastar els resultats; en total, han hagut de supervisar 263 candidats. Les indicacions generals que hem donat als cinc informadors han tingut com a objectiu que tots triessin els termes que consideressin propis de l’àmbit de les telecomunicacions a partir de les mateixes premisses, és a dir, han hagut de fer la selecció de termes tenint en compte que un terme tant pot ser una unitat que consti de paraules tècniques pròpies de l’àmbit d’especialitat, com ara «modulation rate», com una unitat que estigui formada per paraules de la llengua general però que per l’ús que se’n fa en el corpus d’especialitat es pot considerar que és un terme, com ara «earth station». Així mateix, han tingut en compte que la unitat terminològica és formada pel conjunt del bi-gram («earth station») i no pas per cada una de les parts individualment («earth», «station») i que les variants que pogués tenir una unitat (majúscula i minúscula, singular i plural) també les havien de triar. De la llista de candidats a terme que han extret els informadors han hagut de valorar unitats que no són específiques de l’àmbit de les telecomunicacions, però que considerem que són imprescindibles per a aquesta àrea d’especialitat. També han tingut en compte que una paraula de la llengua general que apareix en un context especialitzat passa directament a ser terme per l’ús que se’n fa. En definitiva, els informadors han hagut de tenir en compte tres grups de candidats a terme: Termes específics propis de l’àmbit de les telecomunicacions Termes que pertanyen a altres àmbits i que en el de les telecomunicacions també tenen un caràcter especialitzat Termes de la llengua general que, pel fet de ser usats en el corpus, ja passen a ser termes Les persones que han fet l’avaluació dels candidats a terme han inclòs observacions amb relació a la pertinència dels candidats a partir de la consulta del context en què es fan servir. Tenint en compte que avaluem bi-grams, els quals han estat extrets de manera estadística del corpus d’especialitat, fa que alguns no siguin del tot pertinents com a termes perquè el terme complet és més llarg. Seguidament indiquem alguns d’aquests casos. Candidats que són termes combinant-se amb altres candidats de la llista «data link» i «link layer» «data link layer» «data link» i «link connection» «data link connection»

Candidats que són termes si van acompanyats amb altres paraules del corpus «call connected» «call connected signal» «international telex» «international telex network» «international exchange» «incoming / outgoing international exchange» «Telegraph Alphabet» «International Telegraph Alphabet» «user network» «user network interfaces» «link connection» «data link connection» «incoming international» «incoming international exchange» «binary coded» «binary coded system» «clear confirmation» «clear confirmation signal» «International Telegraph» «International Telegraph Alphabet» «stop distortion» «start stop distortion» «call set» «call set-up» «busy flash» «busy flash-signal»

Page 46: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

46

«answer back» «party's answer back» «clear confirmation» «clear confirmation signal» «frequency telegraph» «voice-frequency telegraphy» o «voice frequency

telegraphy» «pulsing signal» «end of pulsing signal» o «end-of pulsing signal» «division multiplex» «time divison multiplex» / «frequency division

multiplex» «flash signal» «busy-flash signal» «select signal» «proceed - to - select signal» «stage selection» «one stage selection» / «two stage selection»

La tria de termes, agafant tant unitats que consten de paraules específiques de l’àmbit d’especialitat com unitats que no ho són, és àmplia perquè considerem que els termes resultants han de ser vàlids per a poder ser utilitzats en una eina de traducció automàtica, en un mòdul de gestió de terminologia d’una eina de traducció assistida o bé en una base de dades terminològica que reculli termes nous o encara vacil·lants, i no pas per a formar part exclusivament d’un diccionari terminològic, que és una obra més restrictiva pel que fa al tipus de contingut i de termes. La tria té com a objectiu un ús més funcional de les unitats que no pas normalitzador. 7.2.2. Dificultats en la selecció d’unitats significativament rellevants La selecció manual d’unitats significativament rellevants d’un corpus d’especialitat feta amb informadors és complexa per diversos motius: cal comptar amb diversos especialistes de l’àmbit del qual es recuperen termes per a poder contrastar els resultats obtinguts; s’ha d’especificar molt bé el tipus d’unitat que volem que l’especialista triï amb l’objectiu d’obtenir uns resultats homogenis; cal preveure un marge de temps per a fer la selecció, ja que la tria final d’unitats significativament rellevants s’ha de fer consultant el context d’ús en què apareixen aquestes unitats, i cal preveure quin nombre de candidats a terme es vol revisar. En aquest sentit, el tipus d’unitat significativament rellevant que volem que seleccioni l’informador té una relació molt estreta amb l’objectiu que ens hàgim plantejat a l’hora de fer l’extracció de les unitats, és a dir, la selecció dependrà de si volem fer una extracció d’unitats exhaustiva o si volem només les unitats que apareixen amb més freqüència en el corpus, i també dependrà del tipus d’usuari que farà servir les unitats que es recuperin i per a quina tasca les farà servir. Un altre punt complex de resoldre és el nivell d’acord que hi ha entre els diferents informadors en la tria de les unitats significativament rellevants. D’entrada sembla que tots els especialistes d’un àmbit d’especialitat haurien de coincidir en la selecció de les unitats, però en la pràctica hem vist que hi ha força divergència d’opinió. En el nostre cas, el nivell d’acord entre els informadors ha quedat repartit: tots cinc informadors han coincidit a triar 96 dels 200 candidats a terme, quatre informadors han triat 56 candidats, tres informadors han triat 31 candidats, dos informadors n’han triat 22 i un informador n’ha triat 23. Així, doncs, hi ha un nivell baix d’acord total entre els informadors, que és degut probablement a la dificultat que hi ha a l’hora d’establir què és un terme. 7.2.3. Valoració dels resultats Amb relació als resultats obtinguts de l’avaluació feta per part dels informadors i pel que fa al nivell d’acord que hi ha hagut en la tria d’unitats significativament rellevants per part d’aquests, cal dir que tots cinc informadors han triat 96 dels 200 candidats a terme, és a dir, hi ha hagut un acord unànime d’un 48% entre els informadors. A aquest resultat s’hi ha d’afegir el fet que quatre dels cinc informadors han triat 56 dels 200

Page 47: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

47

candidats a terme, resultat que correspon a un 28% del total. Així, sumant aquests dos blocs de resultats tenim que un 76% dels termes han estat triats per acord gairebé unànime dels informadors. Aquest volum de termes triats pels informadors (un total de 152) esdevé un conjunt de nous termes de referència14 i es poden fer servir per a engrossir el corpus de termes de referència de què hem partit en el nostre estudi. Així mateix, aquests nous termes de referència ens serveixen per a saber quin nombre d’unitats significativament rellevants, incloent-hi els termes de referència de partida, hi ha en la mostra de dos-cents candidats a terme de les cinc mesures que analitzem. I els resultats que obtenim són els següents: amb el càlcul de freqüència es localitzen 126 termes, amb la mesura T-score 124, amb la mesura Poisson stirling 115, amb la mesura True mutual information 113 i amb la ràtio Log-likelihood 112. Així, doncs, copsem que no hi ha cap mesura que millori el resultat que ofereix el càlcul per freqüència a l’hora de localitzar termes nous, encara que un dels resultats s’hi acosti força, el de la mesura T-score. En la taula següent, a partir d’una mostra de dos-cents candidats, comparem els resultats d’extracció de termes de referència que hem obtingut amb el càlcul de freqüència, la mesura Poisson stirling, la mesura True mutual information, la ràtio Log-likelihood i la mesura T-score amb els resultats revisats manualment pels cinc informadors.

Extracció automàtica de termes de referència

Selecció manual d’unitats significativament rellevants

Càlcul de freqüència 19 126

Mesura T-score 19 124

Mesura Poisson stirling 19 115

Mesura True mutual information

17 113

Ràtio Log-likelihood 17 112

Els resultats que hem obtingut havent fet la revisió manual de les dades acaben de confirmar que la millor mesura per a recuperar unitats significativament rellevants d’un corpus d’especialitat és el càlcul estadístic de freqüència, juntament amb la mesura T-score, que queda en segona posició per ordre de resultats. Així, doncs, comprovem que amb els dos mètodes de treball que hem fet servir per a avaluar el comportament de les diferents mesures estadístiques –amb termes de referència (reconeixement de termes) i amb informadors (localització de termes)– obtenim una mateixa classificació de les mesures tenint en compte el nombre d’unitats que recuperen. I, a més, els resultats de la localització manual de termes indiquen

14 Vegeu l’annex 2.

Page 48: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

48

encara amb més claredat la posició en què queden situades les cinc mesures estadístiques. 7.2.4. Validació de les hipòtesis de partida A partir de les dades que hem obtingut en la part experimental del nostre treball ja podem validar les tres hipòtesis de recerca que hem plantejat en l’apartat 4. A continuació, revisem cada una de les hipòtesis. Primera hipòtesi: els mètodes estadístics que reconeixen les unitats terminològiques solament a partir del càlcul de freqüència recuperen moltes unitats que no tenen valor terminològic i no recuperen els termes que apareixen poques vegades en un corpus d’especialitat. L’ús de mètodes estadístics, a partir del càlcul de freqüència juntament amb una llista exhaustiva de paraules buides, permeten d’obtenir una llista de candidats a terme amb un nivell més aviat baix d’unitats no terminològiques. Aquesta afirmació l’hem poguda constatar en haver realitzat el procés d’extracció de candidats a terme amb les diferents mesures estadístiques sense fer servir el filtratge de la llista de paraules buides. En aquest cas, en la llista de resultats vam recuperar un nombre elevat d’unitats no terminològiques. Així mateix, els termes que apareixen poques vegades en un corpus d’especialitat sí que queden representats en la llista de resultats, però queden situats en la franja final. Per a detectar aquestes unitats minoritàries, s’ha de fer una revisió manual dels resultats. Segona hipòtesi: l’extracció d’unitats de significació especialitzada a partir de mesures estadístiques permet endreçar en les primeres posicions de la llista de resultats les unitats terminològiques més interessants d’un corpus d’especialitat. Els resultats que hem obtingut ens han permès constatar en termes globals que cap de les onze mesures estadístiques que hem utilitzat en el nostre estudi recupera un nombre més elevat d’unitats de significació especialitzada que el càlcul estadístic de freqüència. Ara bé, si ens centrem en les posicions inicials de la llista de candidats a terme sí que hem localitzat una mesura que recupera un nombre més elevat d’unitats de significació especialitzada que el càlcul estadístic de freqüència, i és la mesura T-score. Aquesta mesura, doncs, pot ser útil per a treballar amb els resultats que queden situats en les posicions inicials de la llista de resultats; en canvi, per a les posicions més avançades cal tenir en compte els resultats que ofereix el càlcul estadístic de freqüència. Tercera hipòtesi: l’ús de mesures estadístiques combinat amb una llista de filtratge de paraules buides de contingut (preposicions, conjuncions, etc.) permet millorar el resultat del càlcul estadístic de freqüència que ofereixen els mètodes estadístics. Tenint en compte els resultats obtinguts podem afirmar que la combinació del càlcul estadístic de freqüència amb una llista de filtratge de paraules buides millora substancialment el resultat d’extracció de candidats a terme d’un corpus d’especialitat. I ho podem constatar perquè hem comparat els resultats obtinguts amb la llista de filtratge de paraules buides i sense aquesta llista.

Page 49: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

49

8. Conclusions

En el present treball hem fet una revisió de l’estat de la qüestió en matèria d’extracció de terminologia, recuperació d’informació i gestió d’informació, i també hem plantejat una part experimental per a poder avaluar els resultats que ofereixen onze mesures estadístiques a l’hora de recuperar les unitats de significació especialitzada d’un corpus d’especialitat i comparar-los amb el resultat del càlcul estadístic de freqüència. Els resultats que hem obtingut en la part experimental del nostre treball ens demostren que no es pot millorar gaire més el resultat d’extracció d’unitats de significació especialitzada d’un corpus especialitzat fent servir les mesures estadístiques amb què hem treballat, ja que el resultat que s’obté amb el càlcul estadístic de freqüència utilitzant una llista de filtratge de paraules buides recull un nombre més elevat d’unitats de significació especialitzada en la major part de posicions de la llista de candidats a terme que no pas les onze mesures estadístiques que hem avaluat. També hem pogut constatar que la mesura T-score millora els resultats obtinguts amb el càlcul estadístic de freqüència en les posicions inicials de la llista de candidats a terme i en molts casos recupera un nombre de termes molt semblant, seguida de les mesures Poisson stirling, True mutual information i la ràtio Log-likelihood. Amb relació a l’avaluació dels resultats, constatem que no ha estat senzill d’establir una correlació entre els resultats obtinguts a partir de la llista de termes de referència i els que hem obtingut amb la revisió feta per part de cinc informadors. En primer lloc, el fet d’avaluar manualment la llista de candidats a terme ha demanat de poder contrastar els resultats amb diferents especialistes de l’àmbit de les Telecomunicacions. En segon lloc, ha calgut especificar molt bé el tipus d’unitat que havien de triar els especialistes per a obtenir resultats homogenis estretament vinculats a l’objectiu del nostre estudi i també quant de temps necessitaven els especialistes per a fer la selecció de termes. En tercer lloc, s’ha hagut d’establir la mostra de treball per a fer l’avaluació. A més a més, hi ha hagut un nivell d’acord baix entre els diferents informadors a l’hora de triar les unitats del corpus que tenen caràcter terminològic, ja que on rau la màxima dificultat és a l’hora d’establir què consideren els especialistes que és un terme. En el nostre estudi, hem comparat els resultats obtinguts amb la llista de termes de referència i amb la revisió feta per cinc informadors a partir d’una mostra de dos-cents candidats a terme, comparació que ens ha permès d’arribar als resultats que hem comentat més amunt. La llista d’unitats de significació especialitzada que ha estat revisada manualment pels cinc informadors és un altre dels resultats que hem aconseguit en la part experimental del treball i té molta utilitat, perquè permet d’enriquir o confeccionar bases de dades terminològiques amb l’objectiu que puguin ser consultades o compartides per traductors, correctors, especialistes, terminòlegs o tècnics en general, i disposar d’una llista actualitzada dels termes nous o encara vacil·lants d’aquest àmbit d’especialitat per a fer-ne estudis d’ús. En aquest sentit, aquesta llista també pot ser d’ajuda per a la futura elaboració de productes terminològics. La importància de l’ús dels termes en un context especialitzat ha estat cabdal en el nostre estudi per a poder determinar el caràcter terminològic del conjunt de candidats a terme que hem extret del nostre corpus. Tal com hem comentat, l’aparició d’una unitat en un context especialitzat fa que passi directament a ser terme per l’ús que se’n fa. Per aquest motiu en el nostre treball ens hem centrat en les unitats de significació especialitzada com a objecte d’estudi, perquè van més enllà del terme entès com a concepte clàssic i vehiculen el coneixement especialitzat d’una determinada especialitat per mitjà d’unitats lingüístiques i no lingüístiques.

Page 50: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

50

I si l’ús que es fa d’una unitat en un determinat context confereix a aquesta unitat caràcter terminològic, en el context d’una organització disposar d’aquestes unitats significativament rellevants és clau per dos motius: d’una banda, per a classificar documents i indexar la informació, tasques pròpies de l’àmbit de la recuperació d’informació; d’altra banda, per a usar estratègicament la informació, tenir avantatge competitiu respecte altres organitzacions i crear coneixement, propis de l’àmbit de la gestió de la informació. A més, les noves unitats que es vagin recullin per mitjà de sistemes d’extracció de terminologia permetran copsar noves necessitats i noves situacions que es vagin produint, és a dir, nous usos d’informació que hi pugui haver en qualsevol àmbit de coneixement.

9. Treball futur

Com a treball futur ens plantegem l’ús de mètodes exògens per a millorar l’extracció d’unitats de significació especialitzada, concretament els mètodes que fan servir corpus externs com ara la mesura tf-idf, que fa servir un corpus de contrast de la llengua general per a triar les unitats representatives de l’àmbit d’especialitat, i també la combinació d’estratègies de treball (ús de mètodes endògens i exògens). Així mateix, ens plantegem d’observar quin tipus d’unitats lingüístiques hi ha al davant i al darrere de les unitats significativament rellevants per a poder-les localitzar d’una manera més senzilla i rendible. Finalment, volem mirar d’establir una tipologia de contextos habituals en els quals se situïn les unitats de significació especialitzada amb l’objectiu de poder localitzar la seva posició.

Page 51: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

51

10. Referències bibliogràfiques

Ardanuy, J. (2003). «Els models matemàtics de Recuperació de la Informació i la seva implementació en motors de cerca de propòsit general». A: E-prints in Library and Information Science. <http://eprints.rclis.org/archive/00007953/01/motors.pdf> Arppe, A. (1995). «Term extraction from unrestricted text». A: Proceedings of the X Nordic Conference of Computational Linguistics (NODALIDA 1995). Hèlsinki. <http://www2.lingsoft.fi/doc/nptool/term-extraction.html>

Azé, J.; Roche, M.; Sebag, M. (2005). «Bagging Evolutionary ROC-based Hypotheses. Application to Terminology Extraction». A: Proceedings of the ROC Analysis in Machine Learning. ICML, Bonn (Alemanya). <http://eprints.pascal-network.org/archive/00001960/01/azeCRC.pdf>

Baeza-Yates, R.; Ribeiro-Neto, B. (1999). Modern information retrieval. ACM press. Banerjee, S.; Pedersen, T. (2003). «The Design, Implementation and Use of the Ngram Statistics Package». A: Proceedings of the Fourth International Conference on Intelligent Text Processing and Computational Linguistics. Mèxic. [Disponible en aquesta distribució com a cicling2003.pdf o cicling2003.ps]. <http://www.d.umn.edu/~tpederse/Pubs/cicling2003-2.pdf> Baroni, M; Bisi, S. (2004). «Using cooccurrence statistics and the web to discover synonyms in a technical language». A: Proceedings of the Language Resources and Evaluation Conference. Pàg. 1725-1728. LREC, Lisboa (Portugal). <http://www.form.unitn.it/~baroni/publications/lrec2004/syn_lrec_2004.pdf> Basili, R.; Pazienza, M.T.; Zanzotto, F.M. (2001). «Modelling syntactic context in automatic term extraction». A: Proceedings of the III Conference on Recent Advances in Natural Language Processing. RANLP, Tzigov Churck (Bulgària). <citeseer.ist.psu.edu/basili01modelling.html> Berger, A. [i altres] (2000). «Bridging the Lexical Chasm: Statistical Approaches to Answer Finding». A: Proceedings of the XXIII Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Pàg. 192-199.

<citeseer.ist.psu.edu/article/berger00bridging.html> Bourigault, D. (1994). Lexter, un logiciel d’Extractions de TERminologie. Application à l’acquisition des connaissances à partir des textes. Tesi doctoral. École des Hautes Études en Sciences Sociales. Bourigault, D.; Gonzalez-Mullier, I.; Gros, C. (1996). «LEXTER, a Natural Language Processing Tool for Terminology Extraction». A: Proceedings of the VII EURALEX International Congress on Lexicography (EURALEX 1996). Pàg. 771-779. Bourigault, D.; Jacquemin, C.; L’Homme, M. C. (editors) (2001). Recent advances in computational terminology. Amsterdam: John Benjamins. Brin, S.; Motwani, R.; Silverstein, C. (1997). «Beyond market baskets: generalizing association rules to correlations». A: Proceedings of the Association for Computing Machinery (SIGMOD 1997). Pàg. 265-276.

Page 52: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

52

Brookes B. C. (1980). «The foundations of Information Science». Part I. Philosophical Aspects. Journal of Information Science. Vol. 2, núm. 3-4, pàg. 125-33. Brookes, B. C. (1981). «The foundations of information science». Part IV. Information science: the changing paradigm. Journal of Information Science. Vol. 3, pàg. 3-12. Cabré, M.T. (1992). La terminologia. La teoria, els mètodes, les aplicacions. Barcelona: Empúries. Cabré, M.T. (1999). «Una nueva teoría de la terminología: de la denominación a la comunicación». A: La terminología: representación y comunicación. Elementos para una teoría de base comunicativa y otros artículos. Barcelona: Institut Universitari de Lingüística Aplicada. UPF.

Choueka, Y. (1988). «Looking for needles in a haystack». A: Proceedings from Recherche d'Information Assistée par Ordinateur (RIAO 1988). Pàg. 609-623.

Church, K. W.; Hanks, P. (1990). «Word association norms, mutual information and lexicography». Computational Linguistics. Núm. 16, pàg. 22-29. <http://acl.ldc.upenn.edu/J/J90/J90-1003.pdf> Church, K. W.; Gale, W. (1991). «Concordances for parallel text». A: Proceedings of the VII Annual Conference of the UW Center for the New OED and Text Research. Pàg. 40-62. Association for Computational Linguistics. Church, K. W.; Gale, W.; Hanks, P.; Hindle, D. (1991). «Using statistics in lexical analysis». A: Uri Zernik (editor). Lexical Acquisition: Exploiting On-Line Resources to Build a Lexicon. Pàg. 116-164. Codina, L.; Rovira, C (2002). «Information Retrieval Techniques». A: Organización y recuperación de la información. Documents de lectura. Universitat Oberta de Catalunya. <http://cv.uoc.es/cdocent/BOIQM7V2N6_PVI7JZGVG.pdf> Cohen, W.; Schapire, R.; Singer, Y. (1999). «Learning to Order Things». Journal of Artificial Intelligence Research. Núm. 10, pàg. 243-270. Computational approaches to collocations <http:www.collocations.de/AM/contents.html> Condamines, A. (1994). «Terminologie et représentation des connaissances». La Banque des Mots, número especial. Pàg. 29-44. CRATER, Multilingual Aligned Annotated Corpus <http://www.comp.lancs.ac.uk/linguistics/crater/corpus.html> Dagan, I; Church, K. (1994). «Termight: Identifying and Translating Technical Terminology». A: Proceedings of the IV Conference on Applied Natural Language (ANLP 1994). <http://www.aclweb.org/anthology-new/A/A94/A94-1006.pdf> Daille, B. (1994). «Combined approach for terminology extraction: lexical statistics and linguistic filtering». A: UCREL. Núm. 5. Universitat de Lancaster. <http://www.comp.lancs.ac.uk/ucrel/papers/techpaper/vol5.pdf>

Page 53: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

53

Daille, B.; Gaussier, E.; Lang, J. (1998). «An Evaluation of Statistical Scores for Word Association». A: Proceedings of the Tbilisi Symposium on Logic, Language and Computation. CSLI Publications. Pàg. 177-188. David, S.; Plante, P. (1991). «Le progiciel TERMINO: de la nécessité d’une analyse morphosyntaxique pour le dépouillement terminologique des textes». A: Actes du Colloque international «Les industries de la langue: perspectives des années 1990». Pàg. 71-88. Dice, L. (1945). «Measures of the amount of ecological association between species». J. Ecology. Núm. 26, pàg. 297-302. Dillon, M.; Gray, A. (1983) «FASIT: Fully automatic syntax-based indexing». Journal of the American Society for Information Science. Vol. 34, núm. 2, pàg. 99-108. Drouin, P. (1997). «Une méthodologie d’identification automatique des syntagmes terminologiques: l’apport de la description du non-terme». Meta. Vol. 42, núm. 1, pàg. 45-54. <http://www.erudit.org/revue/meta/1997/v42/n1/002593ar.pdf> Dunning, T. E. (1993). «Accurate methods for the statistics of surprise and coincidence». Computational Linguistics. Núm. 19, pàg. 61-74. <http://www.comp.lancs.ac.uk/ucrel/papers/tedstats.pdf> Enguehard, C.; Pantera, L. (1994). «Automatic Natural Acquisition of a Terminology». Journal of Quantitative Linguistics. Vol. 2, núm. 1, pàg. 27-32. Eijk, P. van der (1993). «Automating the Acquisition of Bilingual Terminology». A: Proceedings of the VI Conference of the European Chapter of the Association for Computational Linguistics (EACL 1993). Pàg. 113-119. <http://acl.ldc.upenn.edu/E/E93/E93-1015.pdf> Estopà, R. (1999). «Eficiencia en la extracción automática de terminologia». Studies in Traductology. Vol. 7, núm. 2, pàg. 277-286. Copenhaguen. Estopà, R. (1999). Extracció de terminologia: elements per a la construcció d’un sistema d’extracció automàtica de candidats a unitats de significació especialitzada. Tesi doctoral. Universitat Pompeu Fabra. <http://tdx.cesca.es/TESIS_UPF/AVAILABLE/TDX-0319102-135659//treb1de2.pdf> <http://tdx.cesca.es/TESIS_UPF/AVAILABLE/TDX-0319102-135659//treb2de2.pdf> Evans, D.; Zhai, C. (1996). «Noun-phrase Analysis in Unrestricted Text for Information Retrieval». A: Proceedings of the XXXIV Annual Meeting of the Association for Computational Linguistics (ACL 1996). Pàg. 17-24. <http://citeseer.ist.psu.edu/evans96nounphrase.html> Fabre, C. (1996). Interprétation automatique des séquences binominales en anglais et en français. Aplication à la recherche d’informations. Tesi doctoral. Universitat de Rennes I. <http://www.inria.fr/rrrt/tu-0909.html> Frakes, W.; Baeza-Yates, R. (editors) (1992). Information Retrieval: Algorithms and Data Structures. Prentice-Hall. Gambier, Y. (1991). «Travail et vocabulaires specialisés: prolegomènes à une socioterminologie». Meta. Vol. 36, núm. 1, pàg. 8-15.

Page 54: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

54

Gaudin, F. (1991). «Terminology et travail scientifique: mouvement des signes, mouvement des connaissances». Cahiers de linguistique sociale. Núm. 18, pàg. 111-132. Gaussier, E. (1998). «Flow Network Models for Word Alignment and Terminology Extraction from Bilingual Corpora». A: Proceedings of the XXXVI Annual Meeting of the Association for Computational Linguistics i XVII International Conference on Computational Linguistics (COLING-ACL 1998). Pàg. 444-450. <http://citeseer.ist.psu.edu/gaussier98flow.html>

Gonzalo, J.; Verdejo, M. F. (2001). «Recuperació i extracció d'informació». A: M. A. MARTÍ (coord.). Les tecnologies del llenguatge. Barcelona: Edicions de la Universitat Oberta de Catalunya (Manuals, 53). Pàg. 151-187. Goodman, M.; Smyth, P. (1988). «Information theoretic rule induction». A: Proceedings of the European Conference on Artificial Intelligence (ECAI 1988). Pàg. 357-362. Heinrichs, J.; Lin, J. (2005). «Model for organizational knowledge creation and strategic use of information». Journal of the American Society for Information Science and Technology. Vol. 56, núm. 6, pàg. 620-629. Hutter, M. (2001). «Distribution of Mutual Information». A: Proceedings of the XIV International Conference on Neural Information Processing Systems (NIPS 2001). Pàg. 399-406. <citeseer.ist.psu.edu/article/hutter01distribution.html> Hull, D. (1997). «Using Structured Queries for Disambiguation in Cross- Language Information Retrieval». A: Working Notes of AAAI Spring Symposium on Cross-Language Text and Speech Retrieval. Pàg. 73- 81. Stanford, CA. Jacquemin, C. (1997). «Variation terminologique : Reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus». A: Mémoire d’Habilitation à Diriger des Recherches. Université de Nantes. Jacquemin, C. (1999). «Syntagmatic and paradigmatic representations of term variation». A: Proceedings of the XXXVII Annual Meeting of the Association for Computational Linguistics (ACL 1999). Pàg. 341-348. <citeseer.ist.psu.edu/jacquemin99syntagmatic.html> Jacquemin, C.; Bourigault, D. (2003). «Term-Oriented NLP». A: The Oxford Handbook of Computational Lingüistics. Ed. Ruslan Mitkov. Oxford University Press. Järvellin, A.; Järvellin, A.; Järvellin, K. (2007). «S-grams: Defining generalized n-grams for information retrieval». Information Processing Management. Vol. 43, núm. 4, pàg. <http://www.uta.fi/~antti.jarvelin/research/pubs/07_ipm_jarvelin_et_al_s_grams.pdf> Johansson, C. (1996). Good Bigrams. A: Proceedings of the XVI International Conference on Computational Linguistics (COLING-96). Copenhagen: 592-597. Justeson, J.; Katz, S. (1995). «Technical terminology: some linguistic properties and an algorithm for identification in text». Natural Language Engineering. Vol. 1, núm. 1, pàg. 9-27.

Page 55: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

55

Kageura, K; Umino, B. (1996). «Methods of Automatic Term Recognition: a review». Terminology. Vol. 3, núm. 2, pàg. 259-289. <citeseer.ist.psu.edu/kageura96methods.html> Khreisat, L. (2006). «Arabic Text Classification Using N-Gram Frequency Statistics. A Comparative Study». A: Proceedings of the International Conference on Data Mining. Pàg. 78-92. DMIN, Las Vegas (EUA). <http://ww1.ucmss.com/books/LFS/CSREA2006/DMI5552.pdf> Kita, K.; Omoto, T.; Yano, Y.; Kato, Y. (1994). «Application of Corpora in Second Language Learning. The Problem of Collocational Knowledge Acquisition». A: Proceedings of the II Annual Workshop on Very Large Corpora (WVLC-2). Pàg. 43-56. Kyoto. Kupiec, J. (1993). «An Algorithm for Finding Noun Phrase Correspondences in Bilingual Corpora». A: Proceedings of the XXXI Annual Meeting of the Association of Computational Linguistics (ACL-93). Pàg. 17-22. Lauriston, A. (1994). «Automatic recognition of complex terms: Problems and the TERMINO solution». A: Terminology. Vol. 1, pàg. 147-170. Lallich, S.; Teytaud, O. (2004). «Evaluation et validation de l’intérêt des règles d’association». Revue RNTI, numéro spécial «Mesures de qualité pour la fouille de données». E-1, pàg. 193-217. Luhn, H. (1953). «A new method of recording and searching information». American Documentation. Vol. 4, núm. 1, pàg. 14-16. Luhn, H. (1957). «A statistical approach to mechanized encoding and searching of literaty information». IBM Journal of Research and Development. Vol. 1, núm. 4, pàg. 307-319. Manning, C.D.; Schütze, H. (2003). «Lexical Acquisition». A: Foundations of statistical natural language processing. MIT Press. Manning, C.D.; Schütze, H. (2003). «Collocations». A: Foundations of statistical natural language processing. MIT Press. Maynard, D. (1999). Term recognition using combined knowledge sources. Tesi doctoral. Universitat Metropolitana de Manchester. Merkel, M.; Nilsson, B.; Ahrenberg, L. (1994). «A Phrase-Retrieval System Based on Recurrence». A: Proceedings of the II Annual Workshop on Very Large Corpora (WVLC-2). Pàg. 99-108. Kyoto. Merkel, M.; Andersson M. (2000). «Knowledge-lite extraction of multi-word units with language filters and entropy thresholds». A: Proceedings of the Content-Based multimedia information access. RIAO, Suècia. <http://www.ida.liu.se/~magme/publications/merkel-andersson-riao-2000.pdf> Metzler, D.P.; Haas, S.W.; Cosic, C.L.; Weise, Ch.A. (1990). «Conjunction, Ellipsis, and other Discontinuous Constituents in the Constituent Object Parser». A: Information Processing & Management. Vol. 26, núm. 1, pàg. 53-71.

Page 56: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

56

Miller, G.A.; Beckwith, R.; Fellbaum, C.; Gross, D.; Miller, K. (1990). «Introduction to WordNet: an on-line lexical database». International Journal of Lexicography. Vol. 3, núm. 4, pàg. 235 - 244. <ftp://ftp.cogsci.princeton.edu/pub/wordnet/5papers.ps> Nagao, M.; S. Mori (1994). «A New Method of N-gram Statistics for Large Number of n and Automatic Extraction of Words and Phrases from Large Text Data of Japanese». A: Proceedings of the XV International Conference on Computational Linguistics (Coling 1994). Pàg. 611-615. Kyoto. Nakagawa, H.; Mori, T. (2000). «Automatic Term Recognition based on Statistics of Compound Nouns». Terminology. Vol. 6, núm. 2, pàg. 195-210. <http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/term9-2.pdf> Naulleau, E. (1998). Apprentissage et filtrage syntaxico-sémantique de syntagmes nominaux pertinents pour la recherche documentaire. Tesi doctoral. Universitat París XIII. <http://semiosys.free.fr/Semio-Sys/past/THESEEN98.pdf> Nonaka, I.; Takeuchi, H. (1995). The knowledge-creating company: How Japanese Companies Create the Dynamics of Innovation. Nova York: Oxford University Press. Quasthoff, U.; Christian, W. (2002). «The Poisson collocation measure and its application». A: Proceedings of the II International Workshop on Computational Approaches to Collocations. Rasmussen, E. (2003). «Indexing and Retrieval for the Web». Annual Review of information science and tecnology. Vol. 37, núm. 1, pàg. 91-124. <http://www3.interscience.wiley.com/cgi-bin/fulltext/109882859/PDFSTART> Raghavan, V.; Wong, S. K. M. (1986). «A critical analysis of vector space model for information retrieval». Journal of the American Society for Information Science. Vol. 37, núm. 5, pàg. 279-287. Rey, A. (1992). La terminologie: noms et notions. París: Presses Universitaires de France. (1979, 1a. ed.). Rijsbergen, C. J. van (1979). Information Retrieval. Department of Computer Science, Universitat de Glasgow. 2a. edició. <citeseer.ist.psu.edu/vanrijsbergen79information.html> Roche, M.; Azé, J.; Kodratoff, Y; Sebag, M. (2004). «Learning Interestingness Measures in Terminology Extraction. A ROC-based approach». A: Proceedings of the ROC Analysis in Artificial Intelligence. Pàg. 81-88. ECAI, València (Espanya). <citeseer.ist.psu.edu/roche04learning.html> Roche, M.; Azé, J.; Matte-Tailliez, O.; Kodratoff, Y. (2004). «Mining texts by association rules discovery in a technical corpus». A: Proceedings of the Intelligent Information Processing and Web Mining. Pàg. 89-98. Springer Verlag, sèrie «Advances in Soft Computing». Zakopane (Polònia). Sager, J-C. (1990). A pratical course in Terminology processing. Amsterdam: John Benjamins. Salton, G.; Lesk, M.E. (1968). «Computer evaluation of indexing and text processing». Journal of the Association for Computing Machinery (ACM). Vol. 15, núm. 1, pàg. 8-36.

Page 57: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

57

Salton, G. (editor) (1971). The SMART Retrieval System. Experiments in Automatic Document Retrieval. Prentice-Hall. Salton, G.; Yang, C.S. (1973). «On the specification of term values in automatic indexing». Journal of Documentation. Vol. 29, núm. 4, pàg. 351-372. Salton, G.; McGill, M. (1983). Introduction to modern information retrieval. Nova York: McGraw-Hill. Salton, G.; Buckley, C. (1988). «Term-Weighting Approaches in Automatic Text Retrieval». Information Processing and Management. Vol. 5, núm. 24, pàg. 513-523. Salton, G. (1989). Automatic text processing: the transformation, analysis, and retrieval of Information by computer. Addison-Wesley. Schwarz, C. (1988). «The TINA project: text content analysis at the Corporate Research Laboratories at Siemens». A: Proceedings of the Intelligent Multimedia Information Retrieval Systems and Management (RIAO 1988). Pàg. 361-368. Sebag, M.; Schoenauer, M. (1988). «Generation of Rules with Certainty and Confidence Factors from Incomplete and Incoherent Learning Bases». A: Proceedings of the European Knowledge Acquisition Workshop (EKAW 1988). Shimohata, S.; Sugio, T.; Nagata, J. (1997). «Retrieving Collocations by Co-occurrences and Word Order Constraints». A: Proceedings of the XXXV Conference of the Association for Computational Linguistics (ACL 1997). Pàg. 476-481. Slodzian, M. (1995). «Comment revisiter la doctrine terminologique aujourd’hui?». La Banque des Mots, número especial. Núm. 7, pàg. 11-18. Smadja, F. (1993). «Extracting collocations from text: Xtract». Computational Linguistics. Vol. 19, núm. 1, pàg. 143-177. Smadja, K.; McKeown, R.; Hatzivassiloglou, V. (1996). «Translating collocations for bilingual lexicons: A statistical approach». Computational Linguistics. Vol. 22, núm. 1, pàg. 1-38. <http://ucrel.lancs.ac.uk/acl/J/J96/J96-1001.pdf> Spärck Jones, K. (1972). «A statistical interpretation of term specificity and its application in retrieval». Journal of Documentation. Vol. 28, pàg. 11-21. Spärck Jones, K.; Tait, J. I. (1984). «Automatic search term variant generation». Journal of Documentation. Vol. 40, núm. 1, pàg. 50-96. ISSN 0022-0418 Spärck Jones, K.; Walker, S.; Robertson, S. E. (1998). A Probabilistic Model of Information Retrieval: Development and Status. Cambridge University Computer Laboratory. <http://citeseer.ist.psu.edu/sparckjones98probabilistic.html> Strzalkowski, T. (1992). «TTP: A Fast and Robust Parser for Natural Language». A: Proceedings of the International Conference on Computational Linguistics (COLING 1992). Pàg. 198-204. <citeseer.ist.psu.edu/strzalkowski92ttp.html>

Page 58: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

58

Temmerman, R. (1997) «Questioning the univocity ideal. The difference between socio-cognitive Terminology and traditional Terminology». Hermes. Journal of Linguistics. Núm. 18, pàg. 51-91. Todd, R. (2000). «A theory of information literacy in-formation and outward looking». A: Information literacy around the world. Cap. 15, pàg. 163-175. Universitat Charles Sturt. Turney, P. (2001). «Mining the web for synonyms: PMI-IR versus LSA on TOEFL». A: Proceedings of the XII European Conference on Machine Learning (ECML 2001). Pàg. 491-502. Universitat Politècnica de Catalunya; TERMCAT, Centre de Terminologia; Enciclopèdia Catalana (2007). Diccionari de telecomunicacions. Barcelona: Enciclopèdia Catalana / TERMCAT, Centre de Terminologia. ISBN 978-84-412-1459-0; 978-84-393-7408-4 Vivaldi, J. (2001). Extracción de candidatos a término mediante combinación de estrategias heterogéneas. Tesi doctoral. Universitat Politècnica de Catalunya. Vivaldi, J.; Màrquez, L.; Rodríguez, H. (2001). «Improving Term Extraction by System Combination Using Boosting». Lecture Notes in Computer Science. Núm. 2167, pàg. 515-526. <citeseer.ist.psu.edu/vivaldi01improving.html> Woods, W.A. (1997). Conceptual indexing: A better way to organize knowledge. Technical Report SMLI TR-97-61, Sun Microsysterns Laboratories. <http:l/www.sun.com I researeh/techrep/1997/abstract-61.html> Vossen, P. (1999). «EuroWordNet as a multilingual database». A: Wolfgang Teubert (editor). TWC. <http://www.vossen.info/docs/1999/VossenEQ2.pdf> Wacholder, N. [i altres] (2000). «Document Processing with LinkIT». A: Proceedings of the RIAO Conference. Centre de Hautes Etudes Internationales d'Informatique Documentaire (CID) i Center for the Advanced Study of Information Systems (CASIS). França. Wüster, E. (1998). Introducción a la teoría general de la terminología y a la lexicografía terminológica. Barcelona: IULA. Universitat Pompeu Fabra. Xu, F.; Kurz, D.; Piskorski, J.; Schmeier, S. (2002). «A Domain Adaptive Approach to Automatic Acquisition of Domain Relevant Terms and their Relations with Bootstrapping». A: Proceedings of the III International Conference on Language Resources an Evaluation (LREC 2002). Yamamoto, M.; Church, K. W. (1998). «Using Suffix Arrays to Compute Term Frequency and Document Frequency for all Substrings in a Corpus». A: E. Charniak. Proceedings of the VI Workshop on Very Large Corpora. Pàg. 28-37. Mont-real. Yu, C.T.; Salton, G. (1976). «Precision Weighting. An Effective Automatic Indexing Method». Journal of the Association for Computing Machinery (ACM). Vol. 23, núm. 1, pàg. 76-88. Zhong, M; Chen, Z.; Lin, Y. (2004). «Using classification and key phrase extraction for information retrieval». A: Proceedings of the V World Congress on Intelligent Control and Automation. Hangzhou, Xina.

Page 59: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

59

<http://ieeexplore.ieee.org/iel5/9294/29581/01343076.pdf> Zhou, J.; Dapkus, P. (1995). «Automatic Suggestion of Significant Terms for a Predefined Topic». A: Proceedings of the III Workshop on Very Large Corpora. Pàg. 131-147. Cambridge.

Page 60: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

60

11. Annexos

Annex 1. Llista de candidats a terme revisada manualment

earth station data link Ccitt Recommendation start stop earth stations link layer graphic characters coast earth control functions international telex telex network unanimously declares satellite service international exchange se plusmn supplementary service telex service telex subscriber modulation rate terminal equipment connected signal confirmation signal information element location register calling subscriber call connected clearing signal signal receiver fixed satellite information transfer data transmission control function state exists voice frequency Teletex service abstract operation service signal noise temperature mobile station received signal called subscriber control procedures bit rate active position International Telegraph control document telex Sfu Teletex terminal echo control

semi automatic time division supplementary services multiple access clear forward satellite system reference number Malaga Torremolinos Telegraph Alphabet international circuit satellite communications signalling systems user network signalling system automatic working outgoing international country code frequency band transit exchange switching equipment clear back Signalling System delivery notification character set telephone type link connection access connection frequency bands answer signal call establishment stop distortion call control bit combinations selection signals power level graphic character telematic services frequency modulation alizaci oacute satellite systems GHz band satellite transponder control character forward signal call set transit centre signalling path busy flash national matter

layer management answer back call reference network interface telephone channels ship station stop polarity data networks incoming international start polarity power supply bit combination call confirmation mandatory parameter seizing signal binary coded signalling equipment calling telex incoming call group delay called party clear confirmation error correction distant end space segment character sets al de line signal receiving end radio relay character position number received international circuits isochronous distortion control characters echo suppressors numbering plan calling terminal frequency telegraph Ccit Recommendation multiplex equipment location registers code table basic Teletex Ipm service telephone network layer entity conmutaci oacute telegraph channels

Page 61: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

61

pulsing signal telephone circuits echo suppressor division multiplex transport connection attenuation distortion originating telex transport service frequency division telex terminal error rate stage selection send signal roaming number visitor location Fdm Fm transmission quality signal level telephone channel information field receiving terminal scan line line feed calling party flash signal hypothetical reference signal elements conversion facility gateway switch select signal international transit testing equipment circuit switched stop element guard circuit address information high power coded character telegraph circuits public data

radio path system management functional unit Mar del del Plata carriage return noise ratio user data code extension leased circuits control device terrestrial network calling signal release guard acute accent vice versa Page Blanche intermodulation products bilateral agreement takes place window size speech interpolation inactivity timer frame alignment circumflex accent half duplex regenerative repeaters home location num eacute format effector block diagram time slot apogee motor telegr aacute national significant letter shift Radio Regulations energy dispersal traiter comme

Blanc Montage fully automatic coding scheme Operational provisions comme tableau management entity speech detector Administrations concerned variable length efficiency factor Iso a4 inherent isochronous Imsi detach recognition time mhs doc doc xfer language digit Vhf Uhf bit streams future standardization Capability Data International Alphabet discriminating digit amplitude modulation tableau Mep power amplifiers caract egrave telematic interworking Min Max Activity Resume telegraf iacute data syntax conexi oacute interpersonal messaging Osi Ns Ccitt Recommendations location area

Page 62: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

62

Annex 2. Llista de nous termes de referència

signalling system Teletex terminal recognition time format effector control functions Teletex service frequency bands radio relay frequency band International Alphabet receiving terminal switching equipment fixed satellite called party apogee motor telex Sfu satellite systems call establishment ship station location register data networks frame alignment Signalling System earth station telegraph channels testing equipment telex subscriber efficiency factor gateway switch functional unit signal receiver call reference transit exchange satellite service called subscriber character set bit rate satellite system half duplex signalling equipment scan line Ipm service satellite communications power supply call control telephone channel echo control stop element location area frequency division regenerative repeaters echo suppressors telephone channels signal level character sets service signal noise temperature multiplex equipment guard circuit inactivity timer bit combination telex network clearing signal interpersonal messaging telematic services telephone circuits control characters answer signal speech detector management entity roaming number satellite transponder terrestrial network mobile station location registers transmission quality data syntax amplitude modulation signalling path calling terminal telegraph circuits transit centre telephone network network interface signalling systems control function telematic interworking speech interpolation earth stations line signal echo suppressor power amplifiers active position Radio Regulations numbering plan data transmission telex service confirmation signal call confirmation calling party modulation rate mandatory parameter conversion facility attenuation distortion language digit isochronous distortion layer management group delay graphic character connected signal multiple access terminal equipment information transfer incoming call window size voice frequency clear forward stop polarity discriminating digit time division block diagram circuit switched received signal transport service calling subscriber telex terminal information field frequency modulation access connection address information delivery notification radio path error correction start polarity coded character seizing signal user data line feed Imsi detach Fdm Fm coding scheme code table bit streams space segment

Page 63: Anàlisi de tècniques estadístiques d’extracció automàtica ... · 2.3.2. Mètodes exògens per a l’extracció d’unitats de significació especialitzada 9 2.3.2.1. Mètodes

Anàlisi de tècniques estadístiques d’extracció automàtica de termes

63

control document graphic characters abstract operation time slot distant end country code leased circuits energy dispersal Osi Ns forward signal selection signals