de la oración y sus relaciones semánticas. resnik · stetina en [15] introduce un método para...

7
Método basado en Marcas de Especificidad para WSD Andrés Montoyo Grupo de Procesamiento del Lenguaje y Sistemas de Información Departamento de Lenguajes y Sistemas Informáticos. Universidad de Alicante. Teléfono: 965903772 Ext. 2725 Fax: 965909326 E-mail: montoyo@dlsi.ua.es Resumen Este artículo presenta un método que resuelve la ambigüedad léxica de nombres en textos escritos en inglés. El método depende en gran medida de la taxonomía de nombres (en particular, Hipernimia/Hiponimia) que utiliza WordNet [8], y la noción de Marcas de Especificidad definida en este artículo para desambiguar automáticamente el sentido de las palabras. El método es completamente automático por lo que no necesita procesos de entrenamiento, codificación manual léxica de las entradas ni etiquetado de los nombres del texto. La evaluación del método se ha realizado sobre el corpus Semantic Concordance (Semcor) [9] y sobre la enciclopedia electrónica “Microsoft Encarta 98 Encyclopedia Deluxe”, obteniendo unos porcentajes de sentidos correctos de 65,8 % y de 65,6 % respectivamente. Estos porcentajes demuestran que el método obtiene resultados muy similares sobre dos corpus con diferentes dominios. Por lo tanto el método propuesto se puede aplicar satisfactoriamente a cualquier corpus. 1. Introducción Cualquier sistema de Procesamiento del Lenguaje Natural (PLN) necesita utilizar abundante conocimiento sobre las estructuras del lenguaje, siendo este conocimiento de tipo morfológico, sintáctico, semántico y pragmático. El conocimiento morfológico nos proporciona información de cómo se construyen las palabras, el sintáctico de cómo combinar las palabras para formar oraciones, el semántico qué significan las palabras y cómo contribuye el significado de las mismas al significado completo de la oración, y por último, el pragmático de cómo el contexto afecta a la interpretación de las oraciones. Todas las formas anteriores de conocimiento lingüístico tienen un problema asociado, la ambigüedad. Por lo tanto, la resolución de este tipo de problema es uno de los objetivos principales de cualquier sistema de PLN. Se distinguen diversos tipos de ambigüedades: estructural, léxica, de ámbito de cuantificación, de función contextual y referencial. En el presente artículo nos centramos en la resolución de la ambigüedad léxica, la cual aparece cuando las palabras presentan diferentes significados. A esta tarea se le conoce como Desambiguación del sentido de las palabras (Word Sense Disambiguation, WSD). Esta es una "tarea intermedia" [19] que sirve de ayuda cuando necesitamos conocer el sentido de las palabras en algunas aplicaciones del PLN, como en Traducción Automática (TA), Recuperación de la Información (RI), Clasificación de Textos, Análisis del Discurso, Extracción de Información (EI), etc. De forma más genérica, la WSD consiste en la asociación de una palabra dada en un texto con una definición o significado, el cual la distingue de otros significados atribuibles a esa palabra. La asociación de palabras a los sentidos, se cumple dependiendo de dos recursos de información (contexto 1 y recursos de conocimiento externos 2 ). Para WSD existen diferentes métodos de trabajo como puede verse en [4], sin embargo, el presente artículo se centra en el método que se basa en el emparejamiento del contexto de la palabra a ser desambiguada con cualquier información de un recurso de conocimiento léxico externo, conociéndose como desambiguación del sentido de las palabras basada en el conocimiento ( ). 1 El de la palabra a ser desambiguada es considerado como un conjunto de palabras que acompañan a la palabra a desambiguar, junto con las relaciones sintácticas, categorías semánticas, etc. En este artículo el contexto se compone de oración en oración. 2 Los son los recursos léxicos, enciclopédicos, recursos de conocimiento léxico (WordNet) desarrollados manualmente que proporcionan datos valiosos para asociar palabras con sentidos, etc.

Upload: dangcong

Post on 20-Jul-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Método basado en Marcas de Especificidad para WSD

Andrés MontoyoGrupo de Procesamiento del Lenguaje y Sistemas de Información

Departamento de Lenguajes y Sistemas Informáticos. Universidad de Alicante.Teléfono: 965903772 Ext. 2725 Fax: 965909326

E-mail: [email protected]

Resumen

Este artículo presenta un método queresuelve la ambigüedad léxica de nombres entextos escritos en inglés. El método dependeen gran medida de la taxonomía de nombres(en particular, Hipernimia/Hiponimia) queutiliza WordNet [8], y la noción de Marcas deEspecificidad definida en este artículo paradesambiguar automáticamente el sentido delas palabras. El método es completamenteautomático por lo que no necesita procesos deentrenamiento, codificación manual léxica delas entradas ni etiquetado de los nombres deltexto.

La evaluación del método se ha realizadosobre el corpus Semantic Concordance(Semcor) [9] y sobre la enciclopediaelectrónica “Microsoft Encarta 98Encyclopedia Deluxe”, obteniendo unosporcentajes de sentidos correctos de 65,8 % yde 65,6 % respectivamente. Estos porcentajesdemuestran que el método obtiene resultadosmuy similares sobre dos corpus con diferentesdominios. Por lo tanto el método propuesto sepuede aplicar satisfactoriamente a cualquiercorpus.

1. Introducción

Cualquier sistema de Procesamiento delLenguaje Natural (PLN) necesita utilizarabundante conocimiento sobre las estructuras dellenguaje, siendo este conocimiento de tipomorfológico, sintáctico, semántico y pragmático.El conocimiento morfológico nos proporcionainformación de cómo se construyen las palabras,el sintáctico de cómo combinar las palabras paraformar oraciones, el semántico qué significan laspalabras y cómo contribuye el significado de lasmismas al significado completo de la oración, ypor último, el pragmático de cómo el contextoafecta a la interpretación de las oraciones.

Todas las formas anteriores de conocimientolingüístico tienen un problema asociado, la

ambigüedad. Por lo tanto, la resolución de estetipo de problema es uno de los objetivosprincipales de cualquier sistema de PLN. Sedistinguen diversos tipos de ambigüedades:estructural, léxica, de ámbito de cuantificación, defunción contextual y referencial.

En el presente artículo nos centramos en laresolución de la ambigüedad léxica, la cualaparece cuando las palabras presentan diferentessignificados. A esta tarea se le conoce comoDesambiguación del sentido de las palabras(Word Sense Disambiguation, WSD). Esta es una"tarea intermedia" [19] que sirve de ayuda cuandonecesitamos conocer el sentido de las palabras enalgunas aplicaciones del PLN, como enTraducción Automática (TA), Recuperación de laInformación (RI), Clasificación de Textos,Análisis del Discurso, Extracción de Información(EI), etc.

De forma más genérica, la WSD consiste en laasociación de una palabra dada en un texto conuna definición o significado, el cual la distinguede otros significados atribuibles a esa palabra. Laasociación de palabras a los sentidos, se cumpledependiendo de dos recursos de información(contexto1 y recursos de conocimiento externos2).

Para WSD existen diferentes métodos detrabajo como puede verse en [4], sin embargo, elpresente artículo se centra en el método que sebasa en el emparejamiento del contexto de lapalabra a ser desambiguada con cualquierinformación de un recurso de conocimiento léxicoexterno, conociéndose como desambiguación delsentido de las palabras basada en el conocimiento(������������ ����������������������

).

1 El ���! #"%$�&�"%� de la palabra a ser desambiguada es considerado comoun conjunto de palabras que acompañan a la palabra a desambiguar,junto con las relaciones sintácticas, categorías semánticas, etc. Eneste artículo el contexto se compone de oración en oración.

2 Los '�$���(#'�)*�!),+#$����! #�!��- ./- $� #"%�0$�&!"%$�'� #�!) son los recursos léxicos,enciclopédicos, recursos de conocimiento léxico (WordNet)desarrollados manualmente que proporcionan datos valiosos paraasociar palabras con sentidos, etc.

Particularmente para este artículo, se hautilizado WordNet como recurso léxico externoporque combina las características de losdiccionarios y los tesauros, además de incluirrelaciones semánticas (hiperonimia, hiponimia,meronimia, etc) entre palabras. WordNet incluyedefiniciones para sentidos individuales depalabras (como un diccionario) y define grupos depalabras sinónimas, mediante "Synsets",representando un simple concepto léxico yorganizándolo en una jerarquía conceptual (comoun tesauro).

Muchas investigaciones, sobre WSD basado enel conocimiento, han sido realizadas durante losúltimos años. Lesk en [5], propone un métodopara descifrar el sentido de una palabra en uncontexto, contando el número de coincidenciasque aparecen entre el contexto y la definición deldiccionario. Cowie ��������� en [2] describe unmétodo para resolver la ambigüedad léxica detextos usando la definición dada en Longman´sDictionary of Contemporary English (LDOCE)obteniendo unos resultados del 47 % en cuanto adistinguir los sentidos y un 72 % parahomógrafos. Yarowsky en [20] deriva clases depalabras a partir de palabras en categoríascomunes del Roget´s International Thesaurus.Wilks ������� en [18] utiliza co-ocurrencia de datos,extraídos del LDOCE, para construir vectores decontexto y de sentidos asociados a las palabras.Voorhees en [17] define la construccióndenominada �� � �� utilizando los hipónimos paranombres en WordNet. Sussna en [16] define unamétrica basada en la distancia semántica entre lostérminos de un texto, la cual consistía en asignarpesos a los enlaces de WordNet según los tipos derelación (sinónimos, hiperónimos, etc) y en contarel número de arcos del mismo tipo que salen delnodo y la profundidad del arco en total. Resnik en[10] define una métrica basada en la similaridadsemántica para las palabras en la jerarquíaWordNet. Aguirre �������� en [1] describe unalgoritmo no supervisado usando la DistanciaConceptual para desambiguar nombres enSemcor. Rigau �������� en [13] combina un conjuntode algoritmos no supervisados para desambiguarel sentido de las palabras en un corpus noetiquetado. Hale ��������� en [3] presenta losresultados obtenidos de la combinación deRoget´s International Thesaurus y la taxonomía deWordNet usando la similaridad semántica comomedida. Stetina ������� en [15] introduce un métodopara WSD, basado en un corpus de entrenamientoetiquetado sintácticamente y semánticamente.Este método explota la información del contexto

de la oración y sus relaciones semánticas. Resniken [12] presenta una medida para la similaridadsemántica in una taxonomía IS-A, y la aplica enun algoritmo para resolver la ambigüedadessintácticas y semánticas. Mihalcea ��������� en [7]expone un método para desambiguar nombres,verbos, adverbios y adjetivos de un texto,referenciando el sentido proporcionado porWordNet.

En el presente artículo se presenta un método,que resuelve la ambigüedad léxica de nombres,basándose en el conocimiento que nosproporciona la taxonomía semántica de nombrespara el inglés, WordNet. En la siguiente secciónse explica de forma intuitiva y detallada el métodopropuesto.

2. Método con Marcas de Especificidad

El método que se presenta consistebásicamente en desambiguar automáticamente elsentido de las palabras que aparecen dentro delcontexto de una oración. Normalmente, laspalabras que aparecen en un mismo contextotienen sus sentidos muy relacionados entre sí. Portal motivo, y para resolver el problema interesatener un recurso que tenga las palabras y losconceptos organizados alrededor de clases(jerarquías), de tal forma que describan todas suscaracterísticas semánticas. Así, si dos palabraspertenecen a una misma clase quiere decir que sussentidos están fuertemente relacionados. Elmétodo propuesto fue diseñado para que obtuvieralas ventajas de lo comentado anteriormente, poreso se usarán las relaciones jerárquicas(hiperonimia/ hiponimia) que proporcionaWordNet.

En primer lugar se explicará intuitivamente lanoción de Marca de Especificidad paraposteriormente aplicarla en la desambiguación.Cuanta más información común comparten dosconceptos, más relacionados estarán, y lainformación común que comparten esos dosconceptos es indicada por el concepto padre deambos en la jerarquía, al cual se llamará de ahoraen adelante Marca de Especificidad (ME). EstasME se obtendrán a partir de clases semánticas dela jerarquía de WordNet.

El método recorrerá todos los subárboles de lajerarquía semántica de WordNet para el contextode entrada y para cada ME calculará cuantaspalabras del contexto de entrada se agrupanalrededor de ella. Aquella ME que agrupe elmáximo número de palabras del contexto, seráelegida como el sentido de la palabra. Con otras

palabras, el método busca aquella ME que tengamayor densidad de palabras debajo de susubárbol, queriendo decir que sus sentidos estánfuertemente relacionados. Este método se aplicasobre las jerarquías de WordNet de la siguientemanera.

La entrada al método WSD será el grupo depalabras W={W1, W2, ..., Wn} que se obtienen dela oración y forman el contexto. Cada palabra Wi

se busca en WordNet y se obtienen los sentidosasociados a ellas Si={Si1, Si2, ..., Sin} y para cadasentido Sij se obtendrá todos los synsetshiperónimos en su taxonomía IS-A. Inicialmente,se busca el concepto común a todos los sentidosde las palabras que forman el contexto de entrada.A este concepto se le denomina Marca deEspecificidad Inicial (MEI). Si esta MEI noresuelve la ambigüedad de las palabras, se vadescendiendo nivel a nivel a través de la jerarquíaWordNet asignando nuevas ME. Para cada MEanterior, se calculará el número de conceptos queforman parte del contexto y que están contenidosen la subjerarquía. Aquella ME que en susubjerarquía, tenga el mayor número de palabrasdel contexto será la elegida, asignando el sentidoque nos devuelve WordNet a cada una de estaspalabras que forman parte de la ME seleccionada.

En la figura 2, se puede apreciar gráficamentecomo la palabra W1 tiene cuatro sentidosdiferentes y varias palabras de contexto. La MEIno resuelve la ambigüedad léxica, ya que lapalabra W1 aparece en tres subjerarquías condiferentes sentidos. Sin embargo, la ME con elsímbolo (*) contiene el mayor número de palabrasdel contexto (tres) y, por lo tanto, será elegidapara resolver el sentido S2 de la palabra W1. Laspalabras W2 y W3 también son desambiguadaseligiendo el sentido S1 para ambas. Para la palabraW4, que no ha sido desambiguadasatisfactoriamente, se le aplicarán las heurísticasespecificadas a continuación y que están previstaspara estos casos.

Palabra a desambiguar Marca Especificidad Contexto={W1, W2, W3, W4} Virtual Sentidos para:W1={s1,s2,s3,s4} Marca Esp. Inicial Marca Esp.W2={s1,s2}W3={s1} MarcaW4={s1,s2,s3} Esp. W4(s1) W1(s1) W2(s2)Marca W1(s3)Esp . (*) Marca Esp.

W1(s2)

W1(s4) W2(s1) W3(s1)

Se elige Marca de Especificidad Con sentido s2 de la palabra W1.

��� �������: "Marcas de Especificidad" (ME).

Después de evaluar el método se observó quese podía mejorar, obteniendo unos niveles dedesambiguación bastante mejores. Para ello sedefinieron tres heurísticas : de hiperónimo, dedefinición y de Marca de Especificidad Común.Estas tres heurísticas se definen a continuación:

•• �� ��������������� �� ��� ��������! : Esta heurística seutiliza para resolver la ambigüedad de aquellaspalabras, que formando parte del contexto, noson directamente relacionadas por WordNet(plant and leaf, etc). Pero, sin embargo, a vecessi que aparece alguna de las palabras delcontexto como miembro de un synset dealguna relación de hiperonimia para algúnsentido de la palabra a ser desambiguada(leaf#1 à plant organ). Esta heurística actúade la siguiente manera para desambiguar unapalabra dada. Todas las otras palabras queforman el contexto son chequeadas en cadauno de los synsets obtenidos de la relación dehiperonimia a partir de cada uno de lossentidos de la palabra dada. Si se encuentraalgún synset hiperónimo conteniendo palabrasdel contexto, se asigna un peso en relación a laprofundidad de la subjerarquía. Y el sentidocon mayor peso será el elegido como correcto.En caso de tener varios sentidos con el mismopeso, o el peso es 0 para todos se pasará aaplicar la siguiente heurística. Ejemplo:

Palabras del contexto: "�#$%�&'(&*)++�',#+-$./'"/+)-+%%-0$#Palabras no desambiguadas: #+$-. .Sentidos finales: #+$-.1/2-'3#-+$.-14/'5#+-$.1-6 .

Para leaf#1

78 +%�&90/&�:;'5<=>-+/&9?-0%9@78 =A�B;+C�&'D"/?9:�<0C-$#E=AFBG+C/&78 %$�&9H)-$#E=AFBG+C/&78JI/KL-M/N "/$)�&78JI/K-LM/N =)*@/$%78 #+$-.1/2-'3#-+$.-$9@/+Como puede observarse, en los hiperónimosdel sentido leaf#1 aparece "/#$-%/& que esotra de las palabras pertenecientes alconjunto de entrada o contexto. El pesopara este sentido sería el siguiente: O-PQR= peso + (Nºnivel / No niveles total) =(4/6) + ( 5/6) = S�TFU;V

•• �� �������������W� � X ������������ : WordNet incluyedefiniciones (glosas) para cada sentidoasociado a una palabra. Estas definiciones sonútiles porque tienen asociadas un micro-contexto para cada sentido. Por tal motivo, estaheurística actúa de la siguiente manera paradesambiguar una palabra dada. Todas las

palabras que forman parte del contexto sonchequeadas para buscar coincidencias en lasdefiniciones asociadas a cada sentido que nossuministra WordNet. Cada vez que coincidenlas palabras en la definición de un sentido, seincrementa su peso en una unidad. El sentidoque finalmente tiene el mayor peso es elegido.En caso de tener varios sentidos con el mismopeso, o el peso es 0 para todos se pasará aaplicar la siguiente heurística. Ejemplo:

Palabras del contexto: ����������������� ������� �������������Palabras no desambiguadas: ������ ����� ��� ����������� .Sentidos finales: ������ �������������� �������������� �������������� �������� .Para sister#1 à peso = �1. sister, sis -- (a female ������ �!�" who hasthe same parents as another ������ �!�" ; "mysister married a #�$� %�&%�'�" ")Para sister#3 à peso = (3. sister -- (a female ������ �!�" who is afellow member (of a sorority or labor unionor other group); "none of her sisters wouldbetray her")

••)+*�,.-�/10325416�7 8.* 9:7;-�6�7 8.* <=0?>.*�6�[email protected];8CED;FHG.I

: Con esta heurística se resuelve elproblema de la granularidad fina (year,month). Esta heurística actúa de la siguientemanera para desambiguar una palabra dada. Laprimera ME que sea común a todos lossentidos resultantes de la heurística anterior eselegida, ya que proporciona el concepto comúnmás informativo a tales sentidos. Mediante estaheurística se intenta resolver el problema de lagranularidad fina que posee WordNet, ya queen la mayoría de los casos, los sentidosresultantes de las palabras se diferencian en unpequeño matiz y debido a que el contexto esmuy general no se consigue dar con el sentidomás acertado. Ejemplo:

Palabras del contexto: J����� � ��� �KL�Palabras no desambiguadas: J������ .Sentidos finales: J����������MJ���������MJ��������� .

Para year#1:

=> abstraction => measure, quantityN�OQP %�#��������%�!�R�SM�����%�!�R => year#1, twelvemonth

Para year#2:

=> abstraction => measure, quantity

N�OQP %�#��������%�!�R�SM�����%�!�R => year#2

Como puede observarse en este ejemplo,debido a la granularidad tan fina quetiene la versión de WordNet 1.6 y que� ��� �K no especifica nada sobre alguno delos sentidos de J����� , lo que más se puedeafinar es diciendo que el sentido paraJ������ es el de P %�#��Q������%�!�R .

3. Evaluación y Discusión.T�UWVYX *�032�8.*Z>.-�,[*�\.7

La evaluación del método con Marcas deEspecificidad se ha realizado sobre textos delcorpus Semantic Concordance (Semcor) y de laenciclopedia electrónica ]H _�acb;d3b�e fhgjiL_�klamf1kon;pgjiq_sr�_�t�bluqvBwl kyx�v�t�zl{v . Los textos a desambiguarhan sido escogidos al azar, sumando en total 100frases y 619 nombres para el Semcor y 100 frasesy 697 nombres para la enciclopedia. Laevaluación del método se ha realizado sin y conheurísticas, para poder demostrar el porcentaje demejora que aportan estas heurísticas.

T�UW|~} *B03,.�1257;8 D 0

Las siguientes tablas muestran los porcentajesobtenidos cuando se aplica el método base sólo ojunto con las tres heurísticas. Estos resultadosdemuestran que cuando el método se aplica conheurísticas se obtienen unos porcentajes de mejoraconsiderables.

Para el Semcor

% Bien Mal Sin DesambiguarMétodo Base 52’5% 28% 19’5%1ª heurística 53% 29’7% 17’3%2ª heurística 53’5% 30’2% 16’3%3ª heurística 65’8% 32’5% 1’7%

Para Encarta

% Bien Mal Sin DesambiguarMétodo Base 55’2% 26’7% 18’1%1ª heurística 56’4% 27’2% 16’4%2ª heurística 58’3% 27’5% 14’2%3ª heurística 65’6% 33’3% 1’1%

Como comentario final y considerando losdatos anteriores, hay que resaltar que losporcentajes de las palabras que quedan sindesambiguar, entre 1,1% y 1,7%, se deben a queno se obtiene ninguna ME común querelacione a las palabras a ser desambiguadas.

�������������� ��������������������� ������� ������������

Según Resnik �� "!$#&% en [11], los métodos deWSD son muy difíciles de comparar unos contraotros, debido a la gran cantidad de diferencias quese encuentran en las palabras elegidas paradesambiguar, además de los diferentes tipos demétodos empleados (i.e. métodos basados en elconocimiento, en el corpus o en estadística).

Resnik en [10] aplica su método a una tareadiferente, que consiste en desambiguarautomáticamente el sentido de las palabras(nombres) utilizando la agrupación de losnombres. La entrada para este tipo de evaluaciónproviene de las categorías de Roget´s Thesaurus.Como se puede deducir es muy difícil compararlocon nuestro método.

Yarowsky en [21] propone un método queobtiene un porcentaje del 91,4 % de sentidoscorrectos. Sin embargo, su método está orientadoa un número limitado de palabras y a dos sentidosúnicamente. Además, este método requiere de uncorpus de entrenamiento, por lo que es muy difícilque nuestro método se pueda comparar con este.

Mihalcea �� '!$# . en [7] propone un método queutiliza dos recursos de información diferentes. Elprimero busca en Internet con preguntaspreviamente formateadas. Los sentidos sonclasificados por el número de veces que la palabraaparece. El siguiente paso es utilizar WordNetpara medir la densidad semántica de un par depalabras. Aunque este método tiene unosresultados del 85,6% para nombres, estremendamente ineficiente. Esto es debido a querequiere un filtrado previo a causa del problemade combinatoria que acarrea. Nuestro métodoresuelve este problema, porque es completamenteautomático y no requiere ningún proceso defiltrado ni preguntas manuales en un buscador deInternet.

Los resultados publicados por Stetina �� '!(#&% en[15] no se pueden comparar con los nuestros porvarias razones. Utiliza un método supervisadopara desambiguar el sentido de las palabras conuna corpus de entrenamiento semánticamenteetiquetado. Por lo tanto, requiere de un proceso deentrenamiento para ver como utiliza la limitacióndel dominio.

El método propuesto en este artículo se puedecomparar con los de Agirre �� )!$#&% en [1] yYarowsky en [20], ya que estos son los métodosmás similares al propuesto. El trabajo en [20] setuvo que adaptar para poder trabajar con WordNet

y esto se hizo en [1]. Los resultados3 de lacomparación se muestran en la siguiente tabla:

* +�,.-0/&1�2�3&4015+6+�7�281�98: ;�: -&<=+>+�?.189830@ @�+Specification

Marks98.5 % 66.6 % 65.7 %

Agirre and Rigau 86.2 % 71.2 % 61.4 %Yarowsky 100 % 64.0 % 64.0 %

Una comparación más amplia y detallada sepodría haber realizado entre los métodos dearriba, pero no ha podido ser posible debido a quelas comparaciones se han realizado sobrediferentes versiones de WordNet y de oracionesde entrada. En este artículo se ha utilizado laversión 1.6 de WordNet, lo cual implica unamayor granularidad y un mayor número desentidos para cada palabra que en la versión 1.4.

���BADC����E��F��E�����

Los resultados obtenidos demuestran que elmétodo propuesto tiene un mejor recall que todoslos demás métodos comparados. También tieneuna mejor precision que el método de Yarowsky yuna mejor coverage que el método de Aguirre-Rigau. Por lo que el método propuesto mejoraconsiderablemente bastantes aspectos de los otrosmétodos comparados.

4. Conclusiones y trabajos futuros

El método propuesto en este artículo paradesambiguar el sentido de las palabras tiene laventaja de no necesitar procesos deentrenamiento, ni codificación manual de lasentradas, ni etiquetado manual. Por lo tanto, apartir de un texto de cualquier dominio seobtendrán de forma automática los sentidos de laspalabras cuyas categorías léxicas sean nombres.Las salidas de este método serán las palabras conel sentido correspondiente de WordNet.

El inconveniente encontrado en losexperimentos realizados con el Semcor y con laenciclopedia electrónica Microsoft Encarta 98Encyclopedia Deluxe es que el método dependeen gran medida de las relaciones semánticas(Hiperonimia/Hiponimia) y la organizaciónjerárquica conceptual que utiliza WordNet. Haypalabras que semánticamente deberían estarrelacionadas, sin embargo WordNet no refleja esta

3 "Coverage" es obtenida del resultado entre el número total desentidos contestados y el número total de sentidos. "Precision" sedefine como el resultado entre los sentidos desambiguadoscorrectamente y el número total de sentidos contestados. "Recall" sedefine como el resultado entre los sentidos desambiguadoscorrectamente y el número total de sentidos.

relación. Por ejemplo los nombres en inglés"plant" y "leaf" pertenecen al contexto de "flora"y WordNet únicamente incluye a "plant" en estacategoría mientras que a "leaf" le asigna la de"object". Por tal motivo se introdujeron lasheurísticas del Hiperónimo y de la Definición yaque en la gran mayoría de casos solucionan esteproblema.

WordNet no es un recurso perfecto paradesambiguar el sentido de las palabras, ya quetiene el problema de la granularidad fina para ladistinción de los sentidos [4]. Esto crea muchasdificultades a la hora de desambiguar el sentido delas palabras automáticamente, debido a que hayque hacer elecciones en cuanto al significado, quea veces es difícil hasta manualmente. Inclusovarios autores como [14] han dicho que lasdivisiones de un sentido en los diccionarios sondemasiado finas para el propósito de los trabajosde Procesamiento del Lenguaje Natural. Parasolucionar este problema se introdujo la heurísticade la Marca de Especificidad Común ya queproporciona el concepto común mas informativo atales sentidos.

Como trabajo futuro se pretende modificar elmétodo para utilizar más y mejor las relacionessemánticas de WordNet, además de añadir máscategorías léxicas a la hora de desambiguar, comolos verbos y los adjetivos. Esto hará que se tengamás información de contexto y mejor relacionado.A consecuencia de lo dicho anteriormente y segúnMcRoy en [6], también se pretende combinarotros recursos léxicos para obtener másinformación.

Pero quizá el cambio más importante seautilizar relaciones sintácticas combinadas condiferentes técnicas y recursos para producir todosjuntos una mejor desambiguación del sentido delas palabras.

5. Reconocimientos

Quiero agradecer a M. Palomar suscomentarios y revisiones en el presente trabajo,así como a German Rigau y a Eneko Aguirre porsus consejos para mejorarlo.

6. Referencias

[1] Agirre E. and Rigau G. (1996) ����������� ����� ��� ��� ����� ��� � � � � � ��� � ����� � � ��! � � � � � "$# Proc.16th International Conference on COLING.Copenhagen.

[2] Cowie J., Guthrie J. and Guthrie L. (1992) %&�' � ��� !� � ������� ���(� �(� � �� � � � � � � � � !���� )�*�� ����! � � . Proc.

DARPA Workshop on Speech and NaturalLanguage. 238-242. New York.

[3] Hale, Michael L. Mc. A comparison of WordNetand Roget´s taxonomy for measuring semanticsimilarity.

[4] Ide N. and Véronis J. (1998) +,�� ����� � ��� � � -� �-� . �/�(0� � � !�+,��� � 1� -�������2��� �� ��� ��� ��� ���(� �(� � ��(3546. ��� ��� 7��8�� . :9$�6� . Computational Linguistics. 24 (1),1-40.

[5] Lesk, M. (1986) 9 � � ������� � �;������1� � ������� �<��� ��� � ��� � � � ������. � �7���� ��� ��!�7� � ��� � �� ��� � ��63>=��(?@� �A� �!<!B�� � �C���� D8<��� �E� � ��C������ �F��� � . Proc. 1986SIGDOC Conference, ACM 24-26, New York.

[6] McRoy S. (1992) GH� � ��IJ� !K� � ��!�ML �(?�!��� � ��� � �N���� 8�� � �O� ��� � ���� ��� �6��� � � � ��(� � � .Computational Linguistics 18 (1).

[7] Mihalcea R. and Moldovan D. (1999) 9 I 0� . ���P8����?������P��� ��Q� � ��� ��� ���(� �(� � ��P� 8 � �����6� � � ��� ��R� �'0� . Proc.37th Annual Meeting of the ACL 152-158SMaryland, Usa.

[8] Miller G. A., Beckwith R., Fellbaum C., Gross D.,and Miller K. J. (1990) ��������TU0��3�9V:� (WX! � 5!��' � ����!����� ����� �� . International Journal of Lexicography,3(4): 235-244.

[9] Miller G., Leacock C., Randee T. and Bunker R.(1993) 9Y������ �� � � � ��(��� ��� ��(�� . Proc. 3rd DARPAWorkshop on Human Language Tecnology, 303-308, Plainsboro, New Jersey.

[10] Resnik P. (1995) ��� ��� ��� �<��� ��� � � � � � ��� � � � � �

? � � .Z����[��0���C� �\��� ��� T 0�D�������� . Proc. ThirdWorkshop on Very Large Corpora. 54-68.Cambridge, MA.

[11] Resnik P. and Yarowsky D. (1997) 9]������[��0��� ��^ ��_?������`������Y� � ��� ��� ���(� �(� � � `��0� . �����a�� �b� .� � � ^ ��! � ��� � ��(# Proc. ACL Siglex Wordshop on TaggingText with Lexical Semantics, why, what and how?,Washington DC.

[12] Resnik P. (1999) ��������� � �c� � � � !�� � � � " � d�� ��'�� �� �H"$3R� � �8<�������(� � � �WX� ������e���� � � ��f�� � � � ��/� ��! � ����� � � g� �@�(��� ��!�����f� 8a����� �����h� � " � i��(� � ����!!�) ��� � � j# In Journal of Artificial IntelligenceResearch 11. 95-130.

[13] Rigau G., Atserias J. and Agirre E. (1997)� ����� � � � G> � � �(�� �� ���� %&�' � ����! L ��(?�!��� � I 0� .�� ���B8�� �O��� ���k� ���� ��� ������� ���(� �(� � � . Proc. 35thAnnual Meeting of the ACL, 48-55S Madrid, Spain.

[14] Slator B. and Wilks Y. (1987) 46��?�� ��� �P������ �� � ��6� � � ��� � ����Q8������f� � ��� � � ����l":��� � � )� . Proc. 2nd AnnualRocky Mountain Conference on ArtificialInteligence, 85-96. Boulder, CO.

[15] Stetina J., Kurohashi S. and Nagao M. (1998)m � �����!7?������A������a� � ������� ���(� �(� � � Y��0� .�� �Y��� ������n8 � !�!o����� �(� � � !P��� �� �'0� . In Usage of WordNet inNatural Language Processing. COLING-ACLWorkshop, Montreal, Canada.

[16] Sussna M. (1993) �O� ���p������P� � ������� ���(� ��� � ��p8����8����0W,� �'0� � �� �' � �]� � � � �q��� ��� �K ������� �� � � 0��?�� ��r .

Proc. Second International CIKM, 67-74,Airlington, VA.

[17] Voorhees E. (1993) ��������� � ��� ������� � ������������������� ���� �� ���!���"�����"��#� �$� �"%��&����� ������'(� ) . Proc.16th Annual International ACM SIGIR Conferenceon Research and Development in InformationRetrieval. 171-180, Pittsburgh, PA.

[18] Wilks Y., Fass D., Guo C., McDonal J., Plate T.and Slator B. (1993) *+���'(��� ��� �-,$��.(/���� �102����."� � ��)�)��3 �(."� �� �����54602� )�� . In Semantics and the lexicon(Pustejowsky J. Ed.) 341-401.

[19] Wilks Y. And Stevenson M. (1996) 02/ �7����� ����� � #8���"������97:;�<�� ���=���>�����?� � ��� ��� �@�8� .(/@�� ���?� /�� �A ���2��BC�#DBE� A �"��.F/-� � ��� ������G Technical Report CS-96-05,University of Sheffield, UK.

[20] Yarowsky D. (1992) � ���IH �"� ���J����������� ��������� �� ��K����� �L�2� ��� ���2� �(.(��)M���� �N)��O�#MP+������>Q ��.(��� �"�� �����"�� ������� �����"�< �<)�� �����=.(�� A ���� . Proc. 14th COLING,454-460, Nantes, France.

[21] Yarowsky, D. (1995) �����R� A �"�2'(�����"�<�� ���SH��"� ���� ����� �T� �����K��� ����@���('(� )���� �@�2� A �"�2'(�����"�@����� / ���� . Proc.32nd Annual Meeting of the ACL.