descubrimiento de patrones léxicos en la web para su...
TRANSCRIPT
UNIVERSIDAD POLITECNICA DE VALENCIA
DEPARTAMENTO DE SISTEMAS INFORMATICOS Y COMPUTACION
TRABAJO DE INVESTIGACION
Descubrimiento de patrones léxicos en la Web para su integración en sistemas de desambiguación del
sentido de las palabras Elaborado por: Rafael Guzmán-Cabrera Directores: Paolo Rosso UPV Manuel Montes y Gómez INAOE, Puebla, México
Valencia, España
Enero 2005
______________________________________________________________________
___________________________________________________________________ i
Índice General
Capítulo 1. Introducción 1.1 Motivación…………………………………………………………… 2 1.2 Planteamiento del problema…………………………………………. 5 1.3 Objetivo general de la investigación…………………………………. 6 1.4 Estructura del trabajo de investigación………………………………. 7
Capítulo 2. La tarea de la desambiguación léxica 2.1 Introducción.…………………………………....……………………… 8 2.2 La ontología de WordNet……………………....……………………… 9 2.3 La desambiguación léxica……………………….…………………….. 15
2.3.1 Sistemas supervisados………………………………………. 18 2.3.2 Sistemas no supervisados….…..…..………………………… 20
2.4 La competición Senseval……..……………..………………………… 23 2.4.1 Senseval-1…………………………………………………… 23 2.4.2 Senseval-2…………………………………………………… 26 2.4.3 Senseval-3…………………………………………………… 29
2.5 Minería de texto en la Web………………….………………………… 32 2.6 La Web como corpus………………………………………………….. 35
Capítulo 3. Descubrimiento de patrones léxicos 3.1 Introducción……………....……...…………………………………... 40 3.2 La metodología propuesta...……...…………………………………... 41 3.3 Medida de fuerza……………………………………………………... 43 3.4 Medidas de dispersión …………………...…………………………... 44
3.4.1 Dispersión local……………………………………….......... 45 3.4.2 Dispersión externa………………..…………….…………... 46
3.5 Asociaciones léxicas………………………….……………………… 47 3.5.1 Asociaciones léxicas simples……….….…………………… 47
3.5.2 Asociaciones léxicas compuestas...….……………………… 50 3.6 Secuencias…………………………………………………………….. 52
Capítulo 4. Experimentación y resultados 4.1 Introducción…………………………………………………………... 54 4.2 La estructura del corpus………..……………………………………... 54 4.3 Análisis de los resultados preliminares……………………………….. 57
4.3.1 El caso de instance……….………………………………….. 57 4.3.2 El caso de peak………………………………………………. 66
Capítulo 5. Conclusiones y trabajo futuro 5.1 Conclusiones……………….…..……………………………………... 69 5.2 Estado actual de la investigación…………….……………………….. 70 5.3 Actividades futuras………………………..………………………….. 72 5.4 Cronograma………………………………………………………….... 74
Referencias 75
______________________________________________________________________
___________________________________________________________________ ii
Índice de tablas
1 Número de palabras y Synsets en WordNet……………..………… 9 2 Matriz de vocabulario de WordNet………………….…..………… 10 3 Relaciones existentes en WordNet.……………..……………….… 12 4 Resumen de algunos de los sistemas participantes en la tarea english
all-words de Senseval-2..……………..…………………………… 28 5 Resumen de algunos de los sistemas participantes en la tarea english
all-words de Senseval-3..……………………….…………………. 30 6 Número estimado de páginas Web, indexadas por Altavista…….... 38 7 Frecuencias de frases en inglés en el corpus BNC y en la Web.….. 39 8 Número de snippets bajados de la Web para los sinónimos de
Instance…………………………..……………..…………………. 57 9 Resumen de estadísticas para Instance.……………..……………... 58 10 Palabras comunes antes de la medida de dispersión para instance... 58 11 Asociaciones léxicas simples para instance……………………...… 59 12 Asociaciones léxicas compuestas para instance-1.………..………. 61 13 Asociaciones léxicas compuestas para instance-2……………….… 62 14 Secuencias ininterrumpidas para Instace en la Web y el CLEF…… 63 15 Secuencias a la izquierda de instance.……………..………………. 64 16 Secuencias a la derecha de instance…………..………………….… 65 17 Resumen de estadísticas para peak..……………..………………… 66 18 Asociaciones léxicas simples para peak..………………………….. 67 19 Asociaciones léxicas compuestas para peak.………………………. 68
______________________________________________________________________
___________________________________________________________________ iii
Índice de figuras 1 Sitio Web WordNet para obtener relaciones léxicas entre palabras. 13 2 Conjunto de palabras relacionas con network y agent, por Google
sets.………………………………………….……….…..………… 14 3 Representación de los synsets para break.………………………… 22 4 Comparación entre diferentes motores de búsqueda..……………… 34 5 Composición de la Web..……………………….…………………. 37 6 Palabras de contexto tomadas en torno al sinónimo………………. 43 7 Salida de la medida de fuerza……………………………………… 44 8 Dispersión local ………………………………...…………………. 45 9 Palabras vinculadas a los sentidos de WordNet……..…………..… 46 10 Salida del sistema ……………………………………………….… 48 11 Estructura del archivo XML de la palabra polisémica.………….… 56 12 Relación entre las secuencias diferentes y las secuencias
significativas de instance.………………………….…………….… 64
Agradecimientos
La realización de la fase final del trabajo de investigación que se presenta en esta memoria ha sido posible gracias a los apoyos recibidos por parte de la Universidad Politécnica de Valencia, a través del programa de cooperación de la UPV con Ibero América, al proporcionar apoyo económico para la pasantia de 3 meses. Y de la Universidad de Guanajuato y el PROMEP por su apoyo a través de la beca UGTO-121.
______________________________________________________________________
___________________________________________________________________ 2
Capítulo 1. Introducción 1.1 Motivación
La lengua es uno de los aspectos fundamentales del comportamiento humano
y es un componente crucial de nuestras vidas. La lengua se estudia en
diversas disciplinas académicas. Cada disciplina define su propio sistema de
problemas y tiene sus propios métodos para tratarlos. La lingüística, por
ejemplo, estudia la estructura de la lengua misma, mientras que la psico-
lingüista por otra parte, estudia los procesos de la producción y de la
comprensión humana de la lengua. La lingüística de computo se encarga de la
solución de problemas que tienen que ver, por ejemplo, con la identificación de
la estructura de oraciones o con el modelado del conocimiento y el
razonamiento así como con la definición de estrategias que permitan el uso de
la lengua en tareas especifícas.
Uno de los aspectos centrales de estudio tanto en lingüística teórica como en
lingüística computacional es la polisemia, el cual es un problema controvertido
para la comprensión del lenguaje. A pesar de la gran cantidad de bibliografía
dedicada al respecto así como la existencia de varias teorías y orientaciones, la
polisemia sigue siendo un problema teórico de difícil solución [Pustejovsky96].
En particular, en el área de Procesamiento de Lenguaje Natural (PLN), la
polisemia se considera desde hace medio siglo como el mayor problema por
resolver [Weaver55] y las competiciones Senseval de sistemas de
desambiguación léxica (Word Sense Disambiguation, WSD) han revelado la
inmensa dificultad de la tarea [Kilgarriff01].
Cuando se trabaja sobre la estructura semántica de un documento es
necesario utilizar conocimiento sobre las estructuras del lenguaje; dicho
conocimiento debe ser de tipo morfológico, sintáctico, semántico y pragmático.
El morfológico nos proporciona información de cómo se construyen las
palabras. El conocimiento sintáctico por otro lado nos da información de cómo
______________________________________________________________________
___________________________________________________________________ 3
combinar las palabras para formar frases, mientras que el semántico esta
enfocado a saber qué significan las palabras y cómo contribuye el significado
de las mismas al significado completo de la frase. Por último el conocimiento
pragmático, nos proporciona información de cómo el contexto afecta a la
interpretación de las frases. Todas estas formas de conocimiento lingüístico,
tienen el problema asociado de la ambigüedad [Montoyo00].
La tarea de desambiguación del sentido de las palabras consiste en la
asociación de una palabra, dada en un contexto, con una definición o
significado que la distingue de otros significados atribuibles a dicha palabra.
Cualquier sistema de PLN necesita un módulo con estas características. WSD
no es un fin en sí misma, sino que es una etapa necesaria para realizar
acciones como son el análisis sintáctico o la interpretación semántica en tareas
del PLN, así como para el desarrollo de aplicaciones finales, tales como:
recuperación de información [Montes00], clasificación de textos [Kosala00],
análisis de discurso [Montes02] y traducción automática [Smrz01] entre otras.
Por ejemplo, un sistema de recuperación de información tradicional responderá
a la pregunta ¿Cuáles plantas que viven en el desierto? con todos los
documentos que contengan los términos plantas y desierto
independientemente de su significado. En algunos de estos documentos el
término planta aparecería con el sentido de ser vivo, mientras que en otros
significaría industria. Si el sistema de recuperación de información fuera capaz
de distinguir los sentidos de los términos de la consulta, devolvería solamente
los documentos en los que se usa el sentido de ser vivo. Para ello, el sistema
debe integrar un módulo de WSD, tanto para desambiguar los términos de la
consulta como los términos de los documentos indexados.
Últimamente, se resalta el diálogo necesario entre la lingüística teórica y la
lingüística computacional: por un lado no es posible un progreso significativo en
los aspectos computacionales de la polisemia sin avances serios en las
cuestiones teóricas; por otro lado, la labor teórica puede beneficiarse de los
resultados de la lingüística computacional y a la vez encontrar su comprobación
en las aplicaciones del procesamiento del lenguaje natural.
______________________________________________________________________
___________________________________________________________________ 4
Una posición de bastante relevancia en el área de WSD es la de quienes
sostienen la falta de concordancia entre el tipo de conocimiento sobre los
sentidos ofrecido por las fuentes léxicas y el necesario para desambiguar
ocurrencias en el texto [Kilgarriff97] [Véronis02]. Una opinión creciente en la
comunidad computacional es que el contexto desempeña un papel central en la
resolución de la polisemia y por ello tiene que ser parte integrante de su
solución [Pustejovsky96].
El objetivo general de los sistemas de PLN, es el tratamiento de la lengua a fin
de ser interpretada de la misma manera que lo hacemos los seres humanos.
En este sentido, el estudio de las secuencias y asociaciones de palabras es
muy importante, ya que son comunes en todos los idiomas y tipos de escritura
o incluso áreas técnicas o contextos específicos.
El uso de técnicas de minería de datos en corpus es esencial para la extracción
de características como son las asociaciones y secuencias léxicas entre
palabras. Además nos permiten “pesar” que tan significativas son el conjunto
de palabras encontradas, filtrando aquellas que no lo son.
Frente a esta diversidad, presentamos un método que permite dar solución
parcial a esta problemática encontrando asociaciones y secuencias
significativas de palabras en torno a un sentido de la ontología de WordNet.
Esta tarea es realizada, usando la redundancia de la Web como corpus y
haciendo uso del contexto inmediato de la palabra a desambiguar. El método
desarrollado tiene un carácter genérico, aplicable a cualquier idioma existente
en la Web. No obstante, esta genericidad necesita una fuente de datos léxica
que permita determinar los sentidos atribuibles a una palabra polisémica.
______________________________________________________________________
___________________________________________________________________ 5
1.2 Planteamiento del problema
Uno de los problemas claves en WSD es la falta de criterios y objetivos claros
que permitan discriminar, definir y delimitar los sentidos que puede tomar una
palabra polisémica, así como la necesidad de contar con un nivel de
granularidad adecuado que nos permita desarrollar esta tarea.
Para reorientar la lexicografía hacia las necesidades de la desambiguación
léxica y definir los sentidos a partir de los usos de las palabras en los textos es
necesario contar con modelos del significado adecuados para las diferentes
tareas del procesamiento del lenguaje natural.
En este trabajo de investigación se presenta un método innovador que permite
para una palabra polisémica dada en inglés, encontrar asociaciones y
secuencias usando la Web como corpus. Para extraer las secuencias y las
asociaciones se utilizan técnicas de minería de textos, minería de la Web y
medidas estadísticas que nos permiten recuperar sólo aquellas que son
significativas para los sentidos de WordNet de la palabra dada.
Las secuencias y asociaciones obtenidas se incorporarán en sistemas de
desambiguación léxica, como patrones léxicos, para que faciliten dicha tarea.
______________________________________________________________________
___________________________________________________________________ 6
1.3 Objetivo general de la investigación
El objetivo general del presente trabajo de investigación es definir, desarrollar e
implementar métodos que permitan, para una palabra dada en inglés, encontrar:
- Asociaciones léxicas simples, entendidas estas como la vinculación
significativa entre dos palabras en un contexto y no necesariamente
contiguas.
- Asociaciones léxicas compuestas, partiendo de las asociaciones
léxicas simples, encontrar un conjunto de dos o más palabras
vinculadas a otra en su contexto.
- Secuencias de palabras, entendidas estas como una secuencia
ininterrumpida de palabras, en un contexto determinado y en torno a
un sustantivo .
Las secuencias y asociaciones son encontradas usando la redundancia de la
Web como corpus. Con la finalidad de lograr la incorporación futura de los
resultados obtenidos en sistemas de desambiguación del sentido de las
palabras, utilizamos además técnicas de minería de texto, minería de la Web y
medidas estadísticas que nos permitan extraer el conjunto de palabras que sea
significativo a un sentido de WordNet de la palabra dada.
______________________________________________________________________
___________________________________________________________________ 7
1.4 Estructura del trabajo de investigación
Organizamos el presente trabajo de investigación en dos partes principales: en
la primera, delineamos el marco de trabajo y sentamos las bases teóricas y
metodológicas para la investigación que se presenta en la segunda parte. Así,
la primera parte contiene una síntesis de los enfoques fundamentales al estudio
del significado en WSD y minería de la Web (capítulo 2).
La segunda parte se dedica a la propuesta metodología , basada en el
descubrimiento de asociaciones y secuencias de palabras por sentido de
WordNet. En el capítulo 3 se presenta el método desarrollado para el
descubrimiento asociaciones léxicas simples, asociaciones léxicas compuestas
y secuencias ininterrumpidas de palabras. En el capítulo 4 se presenta la
descripción de la experimentación realizada utilizando este método, desde la
formación del corpus hasta la obtención de asociaciones y secuencias léxicas,
así como el análisis de los resultados obtenidos.
Concluimos el trabajo con una reflexión sobre los desarrollos, el estado actual
de la investigación y el trabajo futuro (capítulo 5), donde reunimos algunos de
los problemas abiertos en WSD y una síntesis del trabajo pendiente para la
continuación del presente proyecto en el desarrollo de la tesis.
En el anexo se presentan los resúmenes de las publicaciones realizadas con el
desarrollo del presente trabajo, así como las cartas de aceptación de las
conferencias en las que serán presentados.
______________________________________________________________________
___________________________________________________________________ 8
Capítulo 2. La tarea de la desambiguación léxica 2.1 Introducción
En este capítulo se presenta una introducción a diferentes áreas a las que se
hace referencia en el presente trabajo. En la sección 2.2 describimos la base
de datos léxica WordNet. Esta base de datos está estructurada en forma de red
semántica y es utilizada como fuente de conocimiento externo en sistemas de
desambiguación del sentido de las palabras. Existen tres enfoques en los
sistemas de desambiguación léxica basados en corpus: supervisados, no
supervisados e híbridos o mixtos. Si el sistema requiere una fase previa de
entrenamiento, usando para ello un corpus etiquetado, esto es, un corpus en el
que cada palabra del corpus tiene una etiqueta con información sintáctica y
semántica se trata de un sistema supervisado. En caso de no requerir un
entrenamiento previo, tenemos un sistema no supervisado. Estos enfoques de
desambiguación léxica, se detallan en el apartado 2.3.
Cada dos años se lleva a cabo una competencia de sistemas de
desambiguación léxica en varias categorías e idiomas. Dicha competencia es
conocida como Senseval y tiene el propósito de comparar diferentes sistemas
automáticos de desambiguación léxica y así poder establecer unas bases
objetivas para la evaluación de los mismos. Presentamos en la sección 2.4 un
resumen de los logros y avances que se han tenido en el área con las
competiciones Senseval.
Un área muy importante y de gran relevancia en el presente trabajo es minería
de texto en la Web, ya que en el presente trabajo es utilizada como
herramienta para encontrar las asociaciones y secuencias entre palabras. En la
sección 2.5 se describen las técnicas más usadas en esta área. Terminamos el
presente capítulo haciendo una amplia justificación del uso de la Web como
corpus lingüístico en la sección 2.6.
______________________________________________________________________
___________________________________________________________________ 9
2.2 La ontología de WordNet
WordNet es una base de datos léxico-conceptual del inglés estructurada en
forma de red semántica, de manera que el acceso a la información léxica no se
restrinja a un acceso meramente alfabético. Para ello se ha inspirado en teorías
psicolinguísticas sobre la memoria léxica humana. WordNet almacena
información sobre palabras pertenecientes a las categorías sintácticas de
sustantivo, verbo, adjetivo y adverbio. El coste de tener categorías sintácticas,
es una gran cantidad de redundancia que los diccionarios convencionales no
tienen.
WordNet se ha venido desarrollando desde los años 80 bajo la dirección del
psicolingüista George Miller en la Universidad de Princeton [Miller95]. La última
versión hecha pública es WordNet 2.0, la cual consta de más de 150.000
palabras distintas, organizadas dentro de más de 115.000 synsets, como se
muestra en la tabla 1. Esta ontología incluye las características de un
diccionario y la potencia de un tesauro, además está disponible de manera
gratuita1.
Tabla 1. - Número de palabras y Synsets en WordNet.
Las palabras en WordNet se organizan en conjuntos de sinónimos o synsets
(set of synonyms), cada uno de los cuales representa un concepto léxico
diferente. Cada synset contiene la lista de palabras sinónimas, además de
información de relaciones semánticas establecidas con otras palabras o
synsets. Así, en WordNet, las relaciones se establecen fundamentalmente
1 http://www.cogsci.princeton.edu/~wn/
Categoría sintáctica
Palabras simples
Synsets
Sustantivo 114648 79689 Verbo 11306 13508 Adjetivo 21436 18563 Adverbio 4669 3664 Total 152059 115424
Sustantivo Verbo Adjetivo Adverbio
______________________________________________________________________
___________________________________________________________________ 10
entre conceptos, no entre palabras, asumiéndose que un concepto viene
definido por el conjunto de formas léxicas que, en un contexto apropiado, sirven
para representarlo en el lenguaje. Un sistema de desambiguación léxica que
utilice WordNet como diccionario asignará a cada palabra ambigua un sentido
de WordNet.
En [Miller95], ilustran el concepto de matriz léxica, donde las formas léxicas son
representadas como un listado de encabezados de columna. En esta
representación, un synset es el resultado de cruzar una fila de la matriz de un
lado a otro y asignar un número arbitrario al conjunto de palabras obtenido.
Este número actuará como un identificador del concepto representado por el
conjunto de elementos léxicos que lo designan. Esta representación se muestra
en la tabla 2, donde la entrada E1.1 implica que la forma léxica F1 puede usarse
para expresar el significado M1. Si hay dos entradas en la misma columna, la
forma léxica es polisémica; si hay dos entradas en la misma fila, las dos formas
léxicas son sinónimas. Esto nos da acceso a la información de dos maneras
distintas, la primera es accediendo a una columna e ir bajando hasta el final: de
esta forma obtenemos todos los sentidos que una palabra puede tener en
diversos contextos. La segunda manera en que tenemos acceso a la
información es acceder por una fila y seguirla hasta el final: de este modo
obtendríamos todas las maneras posibles de expresar un determinado
concepto. Así, la matriz de vocabulario contempla dos de los principales
problemas de la semántica léxica: la polisemia y la sinonimia respectivamente.
Tabla 2. - Matriz de vocabulario de WordNet
Formas Léxicas Significados Léxicos
F1 F2 F3 ....... Fn M1
M2
M3
:
Mn
E1.1 E1.2
E2.2
E3.3
..
.....
Em.n
______________________________________________________________________
___________________________________________________________________ 11
Por ejemplo, la palabra car tiene los siguientes sentidos en WordNet: 1. car, auto, automobile, machine, motorcar -- (4-wheeled motor vehicle; usually propelled by
an internal combustion engine)
2. car, railcar, railway car, railroad car -- (a wheeled vehicle adapted to the rails of railroad)
3. cable car, car -- (a conveyance for passengers or freight on a cable railway)
4. car, gondola -- (car suspended from an airship and carrying personnel and cargo and power
plant)
5. car, elevator car -- (where passengers ride up and down)
Las relaciones las podemos ver por sentido, por ejemplo la sinonimia define los
conceptos o synsets, esto es, car-1 es sinónimo de auto, automobile, machine
y motorcar ; mientras que car-2 es sinónimo de railcar, railway car y railroad car.
Mientras que la taxonomía los ordena de forma jerárquica, a continuación se
muestran las relaciones de Hipónimia para el sentido 1 de car, en las cuales
podemos ver que car se encuentra relacionado taxonómicamente por hiponimia
sucesiva con motor vehicle, vehicle, artifact y object entre otros: car, auto, automobile, machine, motorcar
=> motor vehicle, automotive vehicle
=> self-propelled vehicle
=> wheeled vehicle
=> vehicle
=> conveyance, transport
=> instrumentality, instrumentation
=> artifact, artefact
=> object, physical object
=> entity
=> whole, whole thing, unit
=> object, physical object
=> entity
=> container
=> instrumentality, instrumentation
=> artifact, artefact
=> object, physical object
=> entity
=> whole, whole thing, unit
=> object, physical object
=> entity
______________________________________________________________________
___________________________________________________________________ 12
Los nodos superiores de la estructura taxonómica nominal constituyen un
conjunto de aproximadamente 30 conceptos con los que cualquier entidad del
modelo del conocimiento léxico está relacionada (entidad, abstracción, lugar,
forma, estado, evento, grupo, etc.). En la tabla 3 se muestran las relaciones
existentes en WordNet y ejemplos de cada una de ellas. Tabla 3. - Relaciones existentes en WordNet.
Relación Categorías en que se aplica
Ejemplos
Sinonimia sustantivos, verbos, adjetivos adverbios
rápido/veloz
Antonimia sustantivos, verbos, adjetivos, adverbios
veloz - lento
Hipéronimia -Hipónimia
sustantivos coche- vehículo èhipónimia vehículo – coche è hipéronimia
Merónimia - Holonimia
sustantivos el volante es parte del coche èMerónimia un coche tiene un volanteèholonimia
Implicaciones verbos roncar – dormir Similitud adjetivos positivo-bueno Atributo/Valor sustantivos - adjetivos altura-alto
Durante los últimos años se han desarrollado además, recursos similares a
WordNet para otras lenguas. En concreto, el proyecto EuroWordNet2 , que
finalizó en 1999, tuvo como objetivo la construcción de una base de datos
léxica multilingüe para varios idiomas europeos (alemán, checo, estonio,
español, francés, holandés e italiano).
En EuroWordNet, cada base de datos se estructura de forma similar al
WordNet inglés, estableciendo relaciones semánticas entre las distintas
palabras. Pero además, los diferentes WordNets están enlazados entre si
mediante el índice Inter-Lingual-Index basado en el WordNet 1.5 (actualmente
se encuentra disponible la versión 2.0 de WordNet). Continuamente se están
mejorando y ampliando las distintas bases de datos léxicas de las lenguas ya
existentes y desarrollando nuevas bases de datos para lenguas que aun no
cuentan con un WordNet.
2 http://www.illc.uva.nl/EuroWordNet
______________________________________________________________________
___________________________________________________________________ 13
Se encuentra disponible en la web 3 un browser de WordNet que permite
encontrar las relaciones léxicas entre palabras (sinonimia, Hipónimia,
hipéronimia, etc.). La figura 1 muestra la imagen del sitio Web.
Figura1.- Sitio Web WordNet para obtener relaciones léxicas entre palabras.
WordNet no es en absoluto un recurso perfecto para desambiguar el sentido de
las palabras, debido a que la granularidad para la distinción de significados y
las divisiones de un sentido son en ocasiones demasiado finas para el
propósito de muchos trabajos de PLN. Esto ocasiona una multiplicación
innecesaria de sentidos además de la falta de consistencia en las aplicaciones
de ciertas relaciones semánticas. Estas son algunas de las razones que crean
muchas dificultades a la hora de desambiguar el sentido de las palabras
automáticamente, debido a que hay que hacer elecciones en cuanto al
significado muchas veces difícil incluso manualmente.
3 www.cogsci.princeton.edu/cgi-bin/webwn2.0
______________________________________________________________________
___________________________________________________________________ 14
Existen otros recursos que permiten, para una o varias palabras dadas como
entrada, obtener un conjunto de palabras relacionadas con su sentido o
significado directamente de la Web. Por ejemplo la página de Google Sets4
proporciona un conjunto de palabras que tienen relación con el significado de
las palabras dadas como entrada de manera automática, aunque sin tener en
consideración directamente una ontología como WordNet y sus sentidos. Por
ejemplo, si damos como entrada las palabras network y Agent, la salida que
nos da es la que se muestra en la figura 2, como se puede observar las
palabras que devuelve están relacionadas con el sentido de las palabras
proporcionadas.
Figura 2.- Conjunto de palabras relacionas con network y agent, por Google sets.
4 http://labs.google.com/sets
______________________________________________________________________
___________________________________________________________________ 15
2.3 La desambiguación léxica
La desambiguación del sentido de las palabras es el problema de decidir cuál
es el sentido correcto de una palabra en un contexto determinado y es una de
las tareas primordiales en muchas de las aplicaciones del procesamiento del
lenguaje natural [Ide98]. Como ejemplo de ellas podemos encontrar a la
traducción de un lenguaje a otro, donde se requiere más que un buen
conocimiento de la estructura sintáctica y la representación semántica de los
lenguajes en cuestión [Smrz01], además se pueden aplicar en recuperación de
información, ya sea esta en un conjunto de documentos o de la Web.
[Montes00][Volk02].
La dificultad para abordar la tarea de WSD se debe a varias razones. Por un
lado están las dificultades intrínsecas de la tarea:
• El grado de ambigüedad medio por palabra es mayor que en
otras tareas, ya que, por ejemplo, mientras que en el etiquetado
morfosintáctico el grado de ambigüedad está entre 2 y 3 etiquetas
por palabra, en WSD puede ser de entre 5 y 6 sentidos por
palabra.
• El número de sentidos diferentes suele ser muy elevado, si no se
restringe el dominio de la aplicación. Esto ocasiona que los
métodos de aprendizaje deban ser capaces de estimar de forma
fiable un número elevado de parámetros.
• El contexto necesario para poder desambiguar una palabra puede
ser muy extenso, llegando incluso a requerir párrafos u oraciones
anteriores.
• Las fuentes de información necesarias para poder desambiguar
una palabra son muy diversas (morfología, sintaxis, conocimiento
pragmático, etc.). Al ser tantas y tan variadas, en ocasiones no se
dispone de ellas.
Por otro lado, se encuentran las dificultades en la evaluación de los sistemas
de desambiguación: la definición de sentidos utilizada (o diccionario), la lengua,
______________________________________________________________________
___________________________________________________________________ 16
las medidas de evaluación, el alcance del sistema, etc. Los recursos
disponibles hasta el momento son insuficientes para que las aproximaciones de
aprendizaje automático alcancen unos resultados satisfactorios. Además, la
mayoría de estos recursos se han construido principalmente para el inglés, por
lo que muchas veces en el resto de las lenguas se ven obligados a desarrollar
principalmente aproximaciones no supervisadas.
La asociación de una palabra, a un sentido, depende de dos tipos de recursos
de información: el contexto y los recursos léxicos de conocimientos externos. El
contexto del sustantivo a ser desambiguado se define como el conjunto de
palabras de la misma frase. Existen bases de datos léxicas, como WordNet
para el idioma inglés, que se pueden usar como recurso léxico de conocimiento
externo.
El conocimiento lingüístico puede ayudar al proceso de WSD no sólo como
aportación teórica, de orden general, sobre el lenguaje y las lenguas, sino
también como información particular, relacionada con el uso de las palabras en
un contexto particular. Así, la investigación en WSD debe tener una visión más
consistente con la teoría lingüística [Ide98]. Además, se debe explotar la visión
complementaria de la lingüística del corpus, fundada en grandes cantidades de
texto, que aportan datos concretos sobre las características individuales de las
palabras por desambiguar.
Los corpora constituyen una fuente de conocimiento lingüístico valioso para la
tarea de WSD, insuficientemente explotada. En este caso, la desambiguación
se realiza mediante un algoritmo que no usa la información explícita de una
fuente léxica, sino que adquiere conocimiento sobre los sentidos de las
palabras a partir de un corpus. Si cada palabra del corpus tiene una etiqueta
con información sintáctica y semántica, tenemos un sistema supervisado (se
necesita un corpus de entrenamiento), mientras que los métodos automáticos,
no necesitan ningún proceso de aprendizaje ya que se basan sólo en el
conocimiento proporcionado por una base de datos léxica como WordNet.
______________________________________________________________________
___________________________________________________________________ 17
Los métodos automáticos desarrollados para desambiguar el sentido de las
palabras son muy diversos. Existen estudios que presentan una clasificación
detallada [Ide98] o que exponen los problemas de evaluación de dichos
métodos [Resnik00]. Asimismo, recientemente se han presentado algunas tesis
doctorales sobre WSD que revisan el estado actual de esta área de
investigación [Nica04] [Molina04] [Montoyo02].
Una clasificación común de las aproximaciones a WSD es en dos categorías
muy generales: métodos basados en conocimiento (knowledge-based methods)
y métodos basados en corpus (corpus-based methods). Los primeros hacen
uso del conocimiento adquirido en forma de diccionarios, tesauros, lexicones,
ontologías, etc. Podemos decir que este conocimiento es preexistente al
proceso de desambiguación y, en la mayoría de los casos, adquirido de forma
manual. Los segundos extraen el conocimiento de grandes cantidades de
ejemplos (de un corpus) mediante métodos estadísticos y aprendizaje
automático. Cuando esos ejemplos están anotados previamente con la etiqueta
correcta (el sentido, en nuestro caso), se dice que son métodos de aprendizaje
supervisado, y no supervisado cuando no existe tal anotación. Dado el gran
número de métodos y soluciones propuestos actualmente, la clasificación suele
simplificarse y se habla de métodos supervisados y no supervisados, esto es,
únicamente si necesitan de un corpus anotado o no. En los siguientes dos sub-
apartados se presentan algunas aproximaciones supervisadas y no
supervisadas.
______________________________________________________________________
___________________________________________________________________ 18
2.3.1 Sistemas Supervisados Existen distintas aproximaciones estadísticas que calculan la probabilidad de
de asignar a una palabra determinado sentido, según el contexto en el que
aparezca. La mayoría de los sistemas supervisados basan su aprendizaje en
el corpus etiquetado semánticamente llamado SemCor.
SemCor (SEMantic COncoRdance) [Miller94] fue construido sobre un
fragmento del corpus Brown y de la novela The Red Badge of Courage de
Stephen Craig, dentro del proyecto WordNet, tiene aproximadamente 350.000
palabras y cada palabra está etiquetada con un concepto de WordNet. SemCor
es el único corpus libremente disponible con todas las palabras de clase abierta
etiquetadas. Este etiquetado posibilita la evaluación de los algoritmos de DSA
para todas las palabras. Sin embargo, aunque cubre un gran número de
palabras, contiene un conjunto muy bajo de ejemplos para cada una.
Dentro de las aproximaciones aplicadas a WSD tenemos, el modelo de máxima
entropía [Suárez02a], este sistema adquiere conocimiento de un corpus
etiquetado. Posteriormente este conocimiento es representado en varios
combinaciones de características, las cuales son analizadas, para ver cual es
la mejor, por un conjunto de clasificadores, los cuales “votan” y eligen al mejor
conjunto de características. Otra aproximación aplicada a WSD, es basada en
los modelos de ocultos de Markov y WordNet [Molina02], donde, primeramente
representan la información a desambiguar utilizando modelos clásicos de
unígramas y bíg ramas, después incorporan la información de las etiquetas
POS, esta información es utilizada como vocabulario de entrada con la finalidad
de generar conocimiento. Este conocimiento se ve plasmado en un conjunto de
etiquetas que les permitirá mejorar las prestaciones del sistema de
desambiguación, el cual es visto como un problema de etiquetado.
Existen además trabajos que investigan en la posibilidad de utilizar corpora
bilingües como datos de aprendizaje. La principal ventaja de estas
aproximaciones es que los corpora no necesitan estar etiquetados
semánticamente. Por otra parte, es necesario utilizar algún algoritmo que
______________________________________________________________________
___________________________________________________________________ 19
permita alinear palabra a palabra las oraciones de las dos lenguas (algoritmo
de alineación). El uso de un corpus bilingüe para WSD se fundamenta en la
idea de que una palabra ambigua en una lengua puede tener traducciones
diferentes en otra lengua, según el sentido de la palabra. Por ejemplo, la
palabra inglesa bar puede traducirse en español como bar (local para consumir
bebidas) o como barra (pieza alargada y cilíndrica).
Para desambiguar la palabra en inglés puede utilizarse como fuente de
conocimiento sus traducciones al español en un corpus alineado.
Recientemente, algunas aproximaciones se han evaluado sobre tareas de
Senseval y, aunque no superan a las aproximaciones supervisadas, los
resultados ofrecidos son prometedores si se tienen en cuenta las dificultades
para llevar a cabo la experimentación en de traducciones automáticas, por
ejemplo [Diab02] presenta un método basado en un corpus paralelo, el objetivo
es lograr un etiquetamiento a gran escala de palabras en un lenguaje, usando
recursos lingüísticos en otra lengua y para ello crean corporas artificiales de
traslación.
______________________________________________________________________
___________________________________________________________________ 20
2.3.2 Sistemas no supervisados
La escasez de corpora etiquetados semánticamente es gran problema. Las
aproximaciones basadas en conocimiento tienen la ventaja de no requerir
procesos de entrenamiento, además no necesitan etiquetado manual. Estos
métodos generalmente utilizan la información que se encuentra almacenada en
algún recurso (diccionarios, tesauros o bases de datos léxicas).
El uso de diccionarios electrónicos se inició con los trabajos de [Lesk86]. Lesk,
creó una base de conocimiento que asoció con cada sentido en un diccionario.
La desambiguación se llevaba a cabo seleccionando el sentido de la palabra
que tenía mayor número de traslapes en las palabras vecinas del contexto. El
método logró entre un 50 y un 70 % de palabras desambiguadas correctamente .
Este método es muy sensible a la redacción exacta de cada definición y ha
sido usado como base para los trabajos posteriores que se han realizado en el
área.
Posteriormente, otros autores han desarrollado otras aproximaciones utilizando
herramientas distintas, tales como el diccionario LDOCE5 (Longman Dictionary
of Comtemporary English) [Wilks90]. El funcionamiento básico de estos
métodos consiste en medir la similitud entre el contexto en que aparece una
palabra y sus definiciones en el diccionario. Una aproximación muy interesante
es la de [Montoyo02], el cual basa su sistema en el uso de conocimiento
lingüístico (información léxica y morfológica) y del conocimiento a partir de las
relaciones léxicas y semánticas de un recurso externo (WordNet) pero lo hace
no dependiente del dominio y de la lengua.
Un tesauro clasifica las palabras dentro de categorías. Los sistemas basados
en tesauros parten de la idea de que una palabra que está clasificada en
distintas categorías presenta sentidos diferentes en cada una de las categorías.
Estos sistemas necesitan conocer el contexto en el que aparece una palabra
para poder clasificarla correctamente. Por ejemplo [Yarowsky92] utilizó el
5 http://www.longman.com/ldoce/
______________________________________________________________________
___________________________________________________________________ 21
tesauro Roget6 del inglés y hace la extracción del contexto a partir de las
definiciones de las palabras a desambiguar presentes en una enciclopedia.
Los trabajos de [Rada89] y [Aguirre96] propusieron fórmulas de distancia
conceptual en las que se tiene en cuenta básicamente la longitud del camino
entre dos conceptos según las relaciones de hipónimia en WordNet. Mientras
que [Sussna93] introdujo una medida ponderada según el tipo de relación
(sinonimia, hipónimia, etc.). Aguirre y Rigau extendieron la fórmula de la
distancia conceptual, introduciendo la noción de densidad conceptual que
indica la cercanía entre dos palabras en una jerarquía conceptual estructurada.
En esta fórmula se tiene en cuenta la distancia entre conceptos de la jerarquía,
la altura de la sub-jerarquía por debajo del concepto y el número de conceptos
presentes en la sub-jerarquía, el cálculo de la densidad conceptual es realizado
aplicando la formula:
∑∑
−
=
−
== 1
0
1
0),( h
ii
m
ii
nhyp
nhypmcDC
donde c es el synset raíz de la sub-jerarquía , m es el número de sentidos de
la palabra a desambiguar, h la altura de la sub-jerarquía y nhyp el número
medio de hipónimos por cada nodo (synset) de la sub-jerarquía.
En la aproximación propuesta en [Rosso03] se considera sólo los synsets
relevantes, es decir, aquellos nodos terminales de los caminos del nombre a
desambiguar y de los sustantivos de su contexto, y por los cuales hay que
calcular la densidad. Se refieren a estas particiones como aglomeraciones;
además se introduce una fórmula diferente para el cálculo de la densidad
conceptual que está basada en el número m de synsets dividido por el número
total nh de synsets de la aglomeración. Se aprovecha además la información
disponible en WordNet respecto a la frecuencia de aparición en SemCor, con la
finalidad de mejorar los resultados del sistema. El cálculo es realizado usando:
f
nhMMfnhmDC log)(),,( α=
6 http://poets.notredame.ac.jp/Roget/
______________________________________________________________________
___________________________________________________________________ 22
donde a es una constante (empíricamente igual a 0.25) y f es un entero (entre 1
y 25) que representa la información sobre la frecuencia, (donde 1 representa el
sentido mas frecuente, 2 el segundo más frecuente, etc.). En el caso de
obtener la misma densidad por diferentes aglomeraciones, se incluye el factor
αM para dar un mayor peso a las aglomeraciones con un número mayor de
synsets relevantes. Con la finalidad de clarificar las expresiones, presentamos
un ejemplo para la palabra brake, los sentidos de WordNet para esta palabra
son:
1. brake -- (a restraint used to slow or stop a vehicle) 2. brake -- (any of various ferns of the genus Pteris having pinnately compound leaves and including several popular houseplants) 3. bracken, pasture brake, brake, Pteridium aquilinum -- (large coarse fern often several feet high; essentially weed ferns; cosmopolitan) 4. brake -- (an area thickly overgrown usually with one kind of plant)
y los hipónimos para cada sentido 4 se muestran a continuación: brake => brush, brushwood, coppice, copse, thicket => vegetation, flora => collection, aggregation, accumulation, assemblage => group, grouping En la figura 3 se muestra la representación de las aglomeraciones, de los
synsets relevantes para los 4 sentidos, además se muestra el valor de
densidad conceptual obtenido, así como los valores utilizados.
Figura 3.- Representación de los synsets para break
Subjerarquía sentido 1: M=9, nh=21 CD=90.10*(9/21)log 1=1.25
Subjerarquía sentido 2: M=1, nh=1, CD=1
Subjerarquía sentido 3: M=1, nh=1, CD=1
Sub jerarquía sentido 4: M=1, nh=5 CD=10.10*(1/5)log 4=0.07
______________________________________________________________________
___________________________________________________________________ 23
2.4 La competición Senseval
Dada la variedad de métodos de WSD y las notables diferencias en los
resultados publicados, debido principalmente a los diferentes conjuntos de
evaluación utilizados, la comparación se hace extremadamente difícil. Existe
actualmente un foro, en el que se puede establecer qué métodos son los más
adecuados para la desambiguación léxica, este foro es SENSEVAL, un evento
que aspira a ser marco de encuentro de la comunidad de WSD donde se
pueden evaluar y comparar los sistemas de desambiguación que participan en
un ejercicio controlado.
En 1997, bajo la supervisión del grupo SIGLEX (Special Interest Group of the
Association for Computational Linguistics), se sentaron las bases de una
competición libre y voluntaria, denominada Senseval7 (SENSe EVALuation),
con el propósito de explorar los aspectos científicos y técnicos de la
desambiguación léxica de manera automática y así poder establecer bases
objetivas para la evaluación de estos sistemas.
2.4.1. Senseval-1
En esta primera edición, se optó por la tarea de WSD limitada a un conjunto
restringido de palabras, o sea la variante lexical sample. Como fuente de
referencia para el inventario de sentidos, se ha elegido la base de datos léxica
HECTOR8. Además, para los sistemas cuya salida consistía en sentidos del
WordNet, se ha asegurado el enlace (mapping), entre los sentidos de WordNet
y de HECTOR.
De cara a la controversia sobre si separar el etiquetado morfo -sintáctico (POS
tagging) de WSD, generalmente se separaron ambas tareas: la clase de la
palabra (nombre, verbo, adjetivo, adverbio) formaba parte de la entrada del
7 http://www.senseval.org/senseval3 8 proyecto de “Oxford University Press” para etiquetar 300 lemas (200,000 instancias) de textos extraídos del “British Nacional Corpus”
______________________________________________________________________
___________________________________________________________________ 24
sistema de desambiguación. A cada ocurrencia por desambiguar se le añadió
una etiqueta sobre la clase: -n (nombre), -v (verbo), -a (adjetivo) o -p (para
'categoría no provista'). Los dos tipos de datos, entradas léxicas en el
diccionario e instancias en el corpus etiquetadas a mano, estaban destinados a
cubrir las necesidades de ambas clases de sistemas de WSD participantes en
la competencia: los sistemas basados en el conocimiento y sistemas basados
en corpus. Estos datos se suministraron a los sistemas en tres fases sucesivas
para:
- la adaptación de los sistemas al formato y estilo del ejercicio;
- el entrenamiento y
- la evaluación respectivamente.
La evaluación se realizó teniendo en cuenta tres niveles de granularidad:
1) granularidad fina, donde han contado sólo las etiquetas exactas,
idénticas con las respuestas de control;
2) granularidad gruesa, donde las etiquetas de sub-sentidos se han
asimilado a las de sentidos, con lo cual se ha restado importancia a la
identificación de los sub-sentidos, y se ha valorado tan sólo la anotación
a nivel de sentido. Por ejemplo palabras que disponen de un sentido
superordinado funcional completo, a modo de hiperónimo: cuchillo, ‘de
cubertería’, ‘de caza’, y ‘general, de tipo indefinido’;
3) granularidad mixta, llevando parte y parte de los anteriores.
En la competición para el inglés, participaron dieciocho sistemas, muy distintos
en cuanto a los datos de entrada y a la metodología seguida. Para la
comparación, fueron divididos en dos categorías: supervisados y no
supervisados. Algunos de los sistemas no supervisados eran flexibles, con
posibilidad de transformarse, en mayor o menor grado, en supervisados. Otras
lenguas implicadas en la competición fueron, además del inglés, el francés y el
italiano, reunidas en un ejercicio paralelo, Romanseval.
Las medidas de evaluación utilizadas fueron precisión y recall. Estas medidas
se basan en la teoría de la probabilidad y muestran sus resultados como
relaciones simples del tipo “eventos favorables a…” entre “el total de eventos
que…”. La precisión nos da una relación entre el número de palabras
______________________________________________________________________
___________________________________________________________________ 25
desambigüadas correctamente y el número de palabras desambigüadas.
Mientas que el recall nos muestra una relación entre el número de palabras
desambigüadas correctamente y el número total de palabras, esto es:
donde :
α Es el número de palabras desambiguadas correctamente.
λ Es el número de palabras desambiguadas.
η Es el número total de palabras.
Se logró un éxito notable para el etiquetado manual de los sentidos, de hasta
un 95%; el nivel actual de WSD para granularidad fina, con datos de
entrenamiento disponibles, es del 75% (o incluso de hasta el 80%). En este
último caso, se observa que los sistemas supervisados muestran resultados
considerablemente mejores que los que los no supervisados. Los sistemas no
supervisados pensados para ser tratados en técnicas supervisadas, o bien para
apoyarse en ejemplos del diccionario si no hay datos disponibles en el corpus
de entrenamiento, obtuvieron mejores resultados en la variante supervisada.
Todo ello demuestra que, si se usan datos para entrenamiento, el resultado es
mucho mejor. Para los sustantivos, los mejores resultados se sitúan por debajo
del 80%; para los verbos, los mejores resultados alcanzan un 70%; para los
adjetivos o categoría indeterminada, los mejores resultados oscilan entre el 70
y el 80%.
λα
=ecisiónPrηα
=callRe
______________________________________________________________________
___________________________________________________________________ 26
2.4.2. Senseval-2
La segunda edición se reali zó en 2001, sobre bases algo diferentes. Esta vez el
objetivo era evaluar los problemas de los sistemas de WSD respecto de
diferentes tipos de palabras, diferentes variedades de lenguaje y diferentes
lenguas.
Para esta edición se definieron tres tareas:
1) léxico no restringido (all-words): etiquetar la mayoría de las palabras
de clase abierta de una muestra de texto;
2) inventario limitado de palabras (lexical sample): para un pequeño
conjunto de palabras seleccionadas, etiquetar varias instancias suyas en
breves fragmentos de texto;
3) traducción (translation): como en el caso precedente, con la diferencia
de que las palabras se definen de acuerdo con su traducción.
Uno de los propósitos de esta edición fue el promover la participación de
nuevas lenguas, con lo cual, los 93 sistemas participantes han representado
sistemas en los siguientes 12 idiomas, clasificados por la tarea de participación:
1) checo, holandés, inglés, estonio;
2) español, inglés, italiano, japonés, koreano, sueco, vasco;
3) japonés.
Los tipos de datos proporcionados han variado ligeramente frente a Senseval-1:
a) un lexicón con correspondencias (mappings) entre palabras y sentidos,
con la posibilidad de información suplementaria para explicar, definir o
distinguir los sentidos (p.e. WordNet);
b) un corpus de texto o muestras de texto etiquetadas a mano, como gold
standard, que se podía dividir opcionalmente en corpus de entrenamiento
y corpus de prueba (test);
c) una jerarquía o agrupamiento de sentidos (opcionales), para permitir
distinciones finas o gruesas en el cálculo (scoring) de las respuestas.
Una importante novedad con respecto a la edición anterior, fue el uso del
WordNet 1.7, y del EuroWordNet, en sus versiones para el castellano,
______________________________________________________________________
___________________________________________________________________ 27
italiano y estonio, como lexicón de referencia para el inventario de
sentidos.
En Senseval-2 se ha usado la modalidad de evaluación aplicando la evaluación
de granularidad fina para todos los sistemas. Si hubo disponible una jerarquía o
un agrupamiento de sentidos, se ha aplicado también la evaluación de
granularidad gruesa. Para las jerarquías de sentido, se ha usado además una
evaluación de granularidad mixta.
Los resultados de Senseval-2, en su conjunto, representan un retroceso frente
a Senseval-1, para sustantivos y adjetivos, en media con un 14% [Kilgarriff01].
Este retroceso se atribuye al uso del WordNet: en su elaboración, se ha dado
prioridad a la construcción de los synsets frente al análisis coherente de los
diferentes significados de una palabra, mientras que WSD necesita unas
distinciones de sentido claras y bien motivadas. Se acordó que esta cuestión
debe constituir la base de investigaciones futuras en WSD. Además se añade
como causa la cantidad inferior de material de entrenamiento y la dificultad
superior de las palabras de test.
Senseval-2 abrió nuevas vías en la investigación de WSD y de la polisemia, en
una relación dialéctica. Partiendo de la constatación de que los sistemas
basados en aprendizaje supervisado obtienen los mejores resultados, dos
focos de interés son el diseño de métodos para la obtención de corpus
etiquetados a gran escala y la selección de los atributos en relación con el tipo
de polisemia a tratar. Se espera que el análisis del impacto que un conjunto de
atributos y algoritmos han tenido sobre la desambiguación de diferentes
palabras permita identificar tipos de polisemia. La comparación entre los
resultados de las dos ediciones ha puesto de manifiesto la necesidad de
identificar unos criterios y una metodología rigurosamente para la elaboración
de los inventarios de sentidos que se toman como punto de referencia en WSD.
En la tabla 4 se muestra un resumen de los resultados obtenidos en la
competición Senseval- 2.
______________________________________________________________________
___________________________________________________________________ 28
Tabla 4.- Resumen de algunos de los sistemas participantes en la tarea english all-words de Senseval-2. Sistema Precisión Recall
Sistemas supervisados SMUaw 69.0% 69.0% CNTS-Antwerp 63.6% 63.6% Sinequa-LIA 61.8% 61.8% UCLA-gchao2 47.5% 45.4% BCU-ehu-dlist-all 57.2% 29.1% Sistemas no supervisados UNED-AW-U2 57.5% 56.9% CL research-DIMAP 41.6% 45.1% Univ. Sains Malaysia-2 36.0% 36.0% IRST 74.8% 35.7% Univ. Sheffield 44.0% 20.0% Univ. Sussex-sel-ospd 56.5% 16.9% IIT 2 32.8% 38.0%
El sistema SMUaw [Mihalcea01] fue el que consiguió los mejores resultados
en Senseval-2 en la tarea all-words del inglés. El método, consiste en un
proceso iterativo en el cual se combinan las fuentes de conocimiento WordNet
y SemCor 9 y se aplican un conjunto de heurísticas. Este proceso permite
desambiguar con una precisión elevada (92%) el 55% de los nombres y los
verbos. Para el resto de palabras se asigna el primer sentido en WordNet.
9 http://www.cs.unt.edu/~rada/downloads.html
______________________________________________________________________
___________________________________________________________________ 29
2.4.3. Senseval-3
La tercera edición de Senseval se ha desarrollado en 2004 en el marco de la
conferencia de la Association of Computational Linguistics (ACL) de Barcelona.
Respecto a las ediciones anteriores, Senseval-3 aporta una serie de
novedades, ante todo en cuanto a las tareas. Así, se han incorporado las
tareas de adquisición automática de subcategorización, inventario multilingüe
de palabras, WSD de glosas de WordNet, papeles semánticos y formas lógicas.
La tarea de adquisición automática de subcategorización supone la evaluación
de los sistemas de WSD en el contexto de este proceso. La tarea se ha
organizado, en inglés, para 30 verbos altamente frecuentes y polisémicos, cada
verbo con unas 1000 ocurrencias.
La tarea multilingüe de inventario limitado de palabras (multilingual lexical
sample) ha tenido como objetivo crear un marco para la evaluación de sistemas
de traducción automática. En vez de usar el inventario de sentidos de un
diccionario, se usan las traducciones de las palabras por desambiguar en una
segunda lengua. Los contextos son en inglés y las etiquetas de las palabras
por desambiguar son sus traducciones a una segunda lengua. Se han elegido
palabras con diferentes grados de ambigüedad interlingüe. La tarea se ha
organizado para dos pares de idiomas, inglés - francés e inglés - hindi, con
aproximadamente cincuenta palabras por desambiguar en cada caso.
La desambiguación de las glosas de WordNet se ha desarrollado usando el
etiquetado manual de glosas realizado dentro de los proyectos WordNet 2.0 y
Extended WordNet como corpus de entrenamiento y de prueba. Extended
WordNet consiste en el etiquetado de las glosas de WordNet 1.7 con
información sintáctica, formas lógicas y sentidos. La anotación semántica se
realizó mediante un procedimiento semiautomático que no garantiza la correcta
anotación, pero que clasifica las palabras según el grado de acuerdo entre
anotadores. En total se etiquetaron 564,748 instancias (440,758 nombres,
44,469 verbos, 70,748 adjetivos y 8,516 adverbios). La tarea se ha concebido
______________________________________________________________________
___________________________________________________________________ 30
como all-words, esto es, debían desambiguar todas las palabras de contenido
léxico de las glosas: nombres, adjetivos, verbos, adverbios.
Además, el ejercicio Senseval se ha abierto hacia otras lenguas (como el chino
y el rumano) en la tarea de WSD para inventario limitado, mientras que para el
italiano se ha organizado por primera vez la tarea para inventario ilimitado.
Como novedad también, por primera vez se han coordinado (parcialmente) las
tareas de inventario limitado en varias lenguas; así, se han elegido diez
palabras comunes para el catalán, el español, el inglés, el italiano, el rumano y
el vasco.
En la tabla 5 se muestra un resumen que muestra los resultados obtenidos por
algunos de los sistemas participantes. Cabe resaltar que el sistema con los
mejores resultados, el sistema GAMBL-AW-S, es un sistema esta basado en
un enfoque evolutivo [Decadt03] en el que cada palabra es calificada, utilizando
aprendizaje basado en memoria, para hacer una selección de características,
las cuales son almacenadas con una clasificación en cascada, con lo que se
optimiza tanto el acceso al contexto local de características, como la salida al
usar identificadores por palabra.
Tabla 5.- Resumen de los sistemas participantes en la tarea english all-words de Senseval-3.
Sistema Precisión Recall GAMBL-AW-S 65.1% 65.1% SenseLearner-S 65.1% 64.2% Koc UNiversity-S 64.8% 63.9% R2D2:English-all-words
62.6% 62.6%
Meaning-allwords-S 62.5% 62.3% Meaning-simple-S 61.15 61.0% LCCaw 61.4% 60.6% Upv-shmm-eaw-S 61.6% 60.5% Upv-inige-CIAOSENSO-eaw-U
60.8% 45.1%
Upv.unige-CIAOSENSO2-eaw-U
58.1% 48.0%
______________________________________________________________________
___________________________________________________________________ 31
Respecto a la edición anterior de Senseval, el progreso de la calidad de los
sistemas no supervisados es de 25,6% frente al 8,7% en el caso de los
sistemas supervisados. A la vez, esto significa la reducción drástica de la
distancia entre los sistemas supervisados y los sistemas no supervisados, de
24,1% en Senseval-2 a sólo 7,2% en Senseval-3.
La evolución comentada indica que el enfoque no supervisado es una línea de
investigación con un potencial todavía por explorar, mientras que el enfoque
supervisado parece haber encontrado cierto tope. Significativamente, los
primeros catorce sistemas supervisados en la clasificación (de los 37
participantes) ocupan un intervalo de sólo 2%.
______________________________________________________________________
___________________________________________________________________ 32
2.5 Minería de texto en la Web
Con la denominada sociedad de la información día a día se multiplica la
cantidad de datos almacenados lo cual no supone un aumento de nuestro
conocimiento ya que la dificultad de procesarlos con los métodos clásicos
aumenta. Para superar este problema, en los últimos años han surgido una
serie de técnicas que facilitan el procesamiento avanzado de datos y que
permiten realizar un análisis en profundidad de los mismos en forma
automática. La idea clave es que los datos contienen más información oculta
de la que se ve a simple vista.
La minería de datos puede definirse como la extracción no trivial de información
implícita, previamente desconocida y potencialmente útil, a partir de los datos
[Frawley92]. Y se compone de un conjunto de técnicas de análisis que permiten:
- extraer patrones, tendencias y regularidades para descubrir y
comprender mejor los datos.
- extraer patrones y tendencias para predecir comportamientos futuros.
Debido al gran volumen de datos este análisis ya no puede ser manual, por lo
que se han de buscar los mecanismos, preferentemente automáticos, que
faciliten esta tarea. La minería de datos se diferencia del resto de las
herramientas en que no transforma y facilita el acceso a la información, para
que el usuario la analice más fácilmente, si no que la minería de datos analiza
los datos. En este orden de ideas podemos decir que la minería de datos es
una etapa del proceso de extracción de conocimiento a partir de datos. Este
proceso consta de varias partes:
- preparación de datos
o selección
o limpieza
o transformación
- minería de datos
- evaluación
- difusión y uso de modelos.
______________________________________________________________________
___________________________________________________________________ 33
Recordemos que la información reduce nuestra incertidumbre, sobre algún
aspecto de la realidad, y nos permite tomas mejores decisiones. La minería de
la Web por otro lado se refiere al proceso global de descubrir información o
conocimiento potencialmente útil y previamente desconocido a partir de datos
de la Web. Para realizar esta tarea, se utilizan técnicas de distintas áreas como
son: búsquedas WWW, bases de datos, minería de datos y procesamiento de
lenguaje natural entre otros.
La minería de la Web se puede estructurar en las siguientes fases:
- Descubrimiento de recursos: localización de documentos relevantes o
no usuales en la red. Esta es la función de índices buscadores que
extraen contenido en palabras, zona del documento e idioma y los
índices temáticos los cuales clasifican los documentos.
- Extracción de información: extracción de determinada información, ya
sea por ejemplo: HTML, XML, texto plano, ps o PDF entre otros.
- Generalización: descubrimiento de patrones generales a partir de sitios
Web individuales (clustering, asociaciones entre documentos);
- Análisis, validación e interpretación de los patrones.
Básicamente la minería de la Web se enfoca en el uso de técnicas de minería
de datos para descubrir y extraer automáticamente información de documentos
y servicios de la Web [Etzioni96]. La minería de la Web se puede clasificar en
tres áreas principales:
- Uso de minería de la Web (Web usage mining): se intenta extraer
información (hábitos, preferencias de los usuarios o contenidos y
relevancia de documentos) a partir de las sesiones y comportamiento
de los usuarios y navegantes, esto es, permite encontrar acceso a
patrones de sitios Web;
- Minería estructurada de la Web (Web estructure mining): se intenta
descubrir un modelo a partir de la topología de enlaces de la red.
Este modelo puede ser útil para clasificar o agrupar documentos.
- Minería del contenido de la Web (Web content mining): permite
encontrar información usual de documentos Web. Se puede clasificar
a su vez en:
______________________________________________________________________
___________________________________________________________________ 34
o Text mining: si los documentos son en texto plano;
o Hypertext mining: si los documentos contienen enlaces a otros
documentos o a sí mismos;
o Markup mining: si los documentos son estructurados, esto es,
con marcas;
o Multimedia mining: si los documentos contienen imágenes,
audio o video.
Son varias las investigaciones que se han realizado usando la minería de la
Web como herramienta, por Ejemplo [Mihalcea04] expone las principales líneas
de investigación referentes a la explotación de la Web como recurso lingüístico
en sistemas WSD. Además [Celina03] ha usado la Web para enriquecer
corpora etiquetados, que después faciliten la tarea de WSD. Por otro lado
[Baeza04] presenta los retos que implica el usar técnicas efectivas de
procesamiento de lenguaje natural en sistemas de recuperación de información
usando áreas de intersección de ambos campos, como son extracción de
información (information extractrion) y búsqueda de respuestas (question
answering), usando la semántica de la Web. El presente trabajo utilizamos la
Web como corpus para la extracción de relaciones interesantes entre palabras
haciendo minería del contenido de la Web, en nuestro caso utilizamos Google 10,
como motor de búsqueda, aunque en que en investigaciones recientes llevadas
a cabo para estudiar la posibilidad de usar la Web para desambiguar
sustantivos precedidos de un adjetivo [Rosso05] parecen mostrar que los
resultados no dependen mucho del motor de búsqueda utilizado, en la figura 4
se muestra un grafico comparativo entre 3 motores de búsqueda, las medidas
de precisión y recall se calculan como se menciono en el apartado 2.4
Figura 4.- comparación entre diferentes motores de búsqueda [Rosso05]
10 www.google.com
______________________________________________________________________
___________________________________________________________________ 35
2.6 La Web como corpus
El uso de los corpora como fuente de información está relacionado con la
evolución de la investigación empírica en lingüística. Se puede hablar de
análisis manual de textos ya a finales del siglo XIX, pero en lingüística se
empiezan a usar los corpora a mediados del siglo XX. Los corpora se tratan
como fuente de ejemplos y facilitan el desarrollo de los modelos numéricos del
lenguaje. El vínculo estrecho con los métodos empíricos explica su período de
declive alrededor de los años sesenta. El trabajo basado en corpus resucita en
los años ochenta, debido precisamente a la aparición de los corpora de
grandes dimensiones en soporte electrónico.
Los corpora son colecciones de textos accesibles por ordenador, construidas
para servir una determinada función, y según unos criterios explícitos de
acuerdo con un determinado objetivo. Debido a que ofrecen conjuntos amplios
de ejemplos para un determinado hecho lingüístico, los corpus permiten el
desarrollo de modelos estadísticos del lenguaje y, en consecuencia, el uso de
métodos empíricos.
El uso de la Web como corpus ha tenido gran interés en fechas recientes
principalmente por sus aplicaciones y tareas en el área de PLN [Kilgarriff03]. La
Web es un medio para acceder de manera rápida y fácil a una gran variedad de
información almacenada en formato electrónico en diferentes partes del mundo.
El rápido crecimiento y expansión de la Web se debe al constante crecimiento
de esta información y presenta nuevos retos, tales como el contar con mejores
métodos de acceso y análisis de la información que permitan realizar tareas
como: encontrar información relevante, extraer información potencial usando
conocimiento o aprender acerca de las preferencias de los usuarios [Kosala00].
La minería de la Web, que hemos abordado en el apartado anterior, es un área
de investigación que se enfoca a la solución de estos problemas. La Web es
inmensa y contiene cientos de billones de palabras de texto que pueden ser
usadas para muchas áreas de investigación del lenguaje ; además es gratis y
disponible con un clic del ratón.
______________________________________________________________________
___________________________________________________________________ 36
Las ciencias y tecnologías del lenguaje que usan la Web como fuente de datos
han incrementado, además se encuentra disponible en una gran variedad de
lenguajes. Tenemos entonces en la Web, un corpus dinámico, que día a día
crece y que pone a nuestra disposición una gran variedad de documentos en
una gran diversidad de idiomas que podemos usar para encontrar ejemplos de
contexto de uso común de prácticamente cualquier palabra.
A pesar del incremento de uso de la Web, sigue siendo común usar recursos
lingüísticos, para tareas de PLN. Entre estos corpora están: el corpus Brown 11,
CLEF12, TREC13 y el BNC14 (British National Corpus). En nuestro caso, además
de usar la Web como corpus, hemos utilizado también los corpora CLEF y
TREC, como describiremos en el capítulo cuatro de esta memoria, para que se
pueda apreciar la potencialidad de la Web en la tarea del descubrimiento de
patrones léxicos significativos con respecto al sentido de una palabra.
En las investigaciones en PLN es importante el uso de corpora para extraer
modelos de lenguaje: una lista de palabras o combinaciones de palabras
significativas que permitan saber cuales palabras están relacionadas, cual es
usada con cual otra o cuales de ellas son de un determinado dominio.
El tamaño de la Web en julio de 1999 se estimaba en 56 millones de
direcciones, 125 millones en enero del 2001 y 172 en enero del 2003, se puede
apreciar una enorme crecimiento de más del 300% en poco menos de 5 años.
En 1999, se encontraron 800 millones de páginas Web indexadas disponibles;
si estimamos que el tamaño de una página Web en promedio es de entre 7 y 8
Kilobytes de texto sin formato, tendremos entonces cerca de 6 Terabytes de
texto disponible en 1999 y aproximadamente 30 terabytes en el 2003. Con
estas cifras, claramente la Web es un corpus inmenso, por la cantidad de
información que está a nuestra disposición.
11 http://clwww.essex.ac.uk/w3c/corpus_ling/content/corpora/list/private/brown/brown.html 12 http://clef-qa.itc.it/2004/resources.html 13 http://trec.nist.gov 14 www.natcorp.ox.ac.uk/
______________________________________________________________________
___________________________________________________________________ 37
Una clasificación, respecto al tipo y tamaño de archivos, de la Web es
presentada en [Mihalcea04], esta clasificación se muestra en la figura 5.
Composición de la Web
Java0.1%
Texto (txt o rtf)0.1%
Microsoft Powerpoint
0.8%
Ejecutables1.4%
Audio2.6%
Comprimidos3.7%
Adobe (pdf)9,2%
Tipo de archivos no listados
20,0%
Otro tipo de archivos
3,2%
Peliculas/animaciones
4,3%
PHP13,0%
HTM/HTML17,9%
Imágenes23,3%
Microsoft Excel0.0%
Microsoft Word0.4%
Figura 5.- Composición de la Web.
Como se puede apreciar en la composición de la Web predominan las
imágenes y los archivos HTML, que son dos de los tipos de archivos mas
utilizados en la elaboración de páginas Web.
Además, la Web es multilingüe, ya que aproximadamente: 71% de las páginas
están escritas en el idioma inglés, 6.8% en japonés, 5.1% en alemán, 1.8% en
francés, 1.5% en chino, 1.1% en español, 0.9% en italiano, y el 0.7% en sueco,
el restante 11.1% está repartido en otros idiomas y dialectos con porcentajes
de presencia menores, en número de páginas escritas, que en sueco
[Kilgarriff03].
______________________________________________________________________
___________________________________________________________________ 38
En la tabla 6 se muestra el número aproximado de palabras que se
encontraban disponibles en varios lenguajes, indexadas por Altavista 15 en
marzo del 2001, la mayor cantidad de palabras están disponibles para el idioma
inglés con mas de 76 billones de palabras, pero como se puede apreciar, 8
idiomas mas rebasan el billón de palabras. Tabla 6. - Número estimado de páginas Web, indexadas por Altavista [Kilgarriff03]
Lenguaje Tamaño Web Lenguaje Tamaño Web
Albanes 10,332,000 Finlandés 326,379,000
Galés 14,993,000 Danés 346,945,000
Lituano 35,426,000 Húngaro 457,522,000
Vasco 55,340,000 Checo 520,181,000
Latín 55,943,000 Noruego 609,934,000
Rumano 86,392,000 Sueco 1,003,075,000
Irlandés 88,283,000 Holandés 1,063,012,000
Estonio 98,066,000 Portugués 1,333,664,000
Esloveno 119,153,000 Italiano 1,845,026,000
Croata 136,073,000 Español 2,658,631,000
Turco 187,356,000 Francés 3,836,874,000
Catalán 203,592,000 Alemán 7,035,850,000
Polaco 322,283,000 Inglés 76,598,718,000
En cuanto al aumento de ocurrencias de frases específicas, que es nuestro
interés, en la tabla 7 se muestra el crecimiento de ocurrencias en la Web en
tres años distintos de algunas secuencias, y se compara con las ocurrencias
encontradas en el corpus BNC de las mismas secuencias de palabras. Por
ejemplo, la secuencia “vital organ” en el corpus BNC (formado por 100 millones
de palabras) se encuentra 46 veces, mientras que el la Web, en el año 1998
ocurrió 7371 veces, en 2001 ocurrió 28829 veces y en 2003 un total de 35 819
veces que es mucho mayor (más de 750 veces) que el número de ocurrencias
encontradas en el BNC, y nos da una clara idea del crecimiento y potencial de
la Web en su uso como corpus. De hecho en los experimentos realizados en el
presente trabajo de investigación, que se detallan en el capítulo cuatro, hubo
palabras de las cuales no se encontró ni una sola ocurrencia en los corpus
CLEF y TREC: en estos casos sólo se realizaron los experimentos con el
corpus formado a partir de la Web. 15 www.altavista.com
______________________________________________________________________
___________________________________________________________________ 39
Tabla 7. - Frecuencias de frases en inglés en el corpus BNC y en la Web Altavista [Kilgarriff03]
Secuencia BNC Web
(100 M) 1998 2001 2003
medical treatment 414 46,064 627,522 1,539,367
prostate cancer 39 40,772 518,393 1,478,366
deep breath 732 54,550 170,921 868,631
acrylic paint 30 7,208 43,181 151,525
perfect balance 38 9,735 35,494 355,538
electromagnetic radiation 39 17,297 69,286 258,186
powerful force 71 17,391 52,710 249,940
concrete pipe 10 3,360 21,477 43,267
upholstery fabric 6 3,157 8,019 82,633
vital organ 46 7,371 28,829 35,819
Sin embargo la Web tiene varios aspectos negativos entre ellos el que es muy
heterogénea y desorganizada, además existe mucha información basura o con
etiquetas que dificultan su procesamiento. Aunado a que no se puede estar
seguro de que todo lo encontrado este correcto, ya que nadie lo revisa. Pero
gracias a la redundancia de la Web la información correcta suele prevalecer.
El uso de la Web en investigaciones es relativamente reciente, por ejemplo
[Mihalcea99] usa la Web para identificar frecuencias de sentido de palabras,
como una entrada a un sistema de desambiguación léxica. [Resnik00] muestra
el corpus paralelo, donde utiliza la Web para “complementar” un corpus finito.
El centro de investigación de la Web, CIW 16 , tiene como objetivo principal
realizar investigación básica en problemas relacionados con la Web, dentro de
los aspectos que manejan de manera específica se encuentra la minería de la
Web y la extracción de datos de la Web. En investigaciones recientes llevadas
a cabo en el CIW, se ha estado estudiando el gran potencial el uso de la Web
en actividades del PLN, entre estas actividades se encuentra el uso de la Web
como corpus en WSD [Baeza04].
16 http://www.ciw.cl/
______________________________________________________________________
___________________________________________________________________ 40
Capítulo 3. Descubrimiento de patrones léxicos en la Web 3.1 Introducción En este capítulo se presenta la metodología propuesta para la extracción de los
patrones léxicos usando la redundancia de la Web como corpus. En la sección
3.2 se hace un planteamiento de la idea general de la metodología, desde
proporcionar una palabra polisémica, hasta obtener como salida un conjunto de
asociaciones y secuencias léxicas vinculadas de manera significativa con
alguno de los sentidos de WordNet de la palabra proporcionada. Se menciona
la conformación del corpus a partir de la Web, sin embargo esta se muestra a
detalle en el capítulo 4.
El conjunto de palabras seleccionado como significativo debe superar filtros de
fuerza y dispersión. La medida de fuerza, se detalla en el apartado 3.3, es una
medida basada en frecuencia y nos permite discriminar aquellas palabras de
contexto que no sean recurrentes. Las medidas de dispersión se detallan en el
apartado 3.4 y nos permiten, primero ver que las palabras seleccionadas
formen parte del contexto de todos los sinónimos que componen al sentido y
segundo que estén sólo en sentido de la palabra polisémica.
En el apartado 3.5 hablamos de las asociaciones léxicas tanto simples como
compuestas, que las distingue y como se obtienen y algunos de sus principales
usos. Terminamos el capítulo con la metodología propuesta para la obtención
de secuencias ininterrumpidas de palabras. Estas tienen la característica de
empezar o terminar con la palabra polisémica.
______________________________________________________________________
___________________________________________________________________ 41
3.2 La metodología propuesta
En el lenguaje natural hay muchas combinaciones de palabras que co-ocurren
con frecuencia y corresponden a un uso particular de una palabra o de un
sentido de una frase. Estas combinaciones se pueden presentar como una
secuencia ininterrumpida de palabras, en este caso llamadas secuencias
simplemente, o puede ser que las palabras de la combinación no ocurran de
manera contigua en el contexto, llamadas en este caso asociaciones.
Tanto las secuencias como las asociaciones son comunes en todos los idiomas
y tipos de escritura o incluso áreas técnicas o contextos específicos. La
probabilidad de ocurrencia de una secuencia o asociación es diferente a la
probabilidad de ocurrencia de las palabras que la componen, esto es, las
palabras que forman una secuencia o asociación no son tomadas como si
fueran variables independientes. Estas características se deben tener en
cuenta a la hora de desarrollar técnicas estadísticas para recuperar e identificar
secuencias y asociaciones en un corpus.
En este trabajo de investigación presentamos una metodología que permite,
para una palabra dada en inglés, encontrar:
• asociaciones léxicas simples, esto es, una palabra vinculada a otra en
su contexto;
• asociaciones léxicas compuestas, un conjunto de dos o más palabras
vinculadas a otra en su contexto;
• secuencias de palabras, secuencias ininterrumpidas de palabras en un
contexto.
La palabra dada debe ser polisémica y existir en la base de datos léxica
WordNet [Miller95]. Esta base de datos se usa como recurso léxico de
conocimiento externo, ya que combina las características de los diccionarios y
de los tesauros con relaciones semánticas como sinonimia, hiperonimia e
hiponimia, que en la sección 2.2 se describe con detalle.
______________________________________________________________________
___________________________________________________________________ 42
La metodología propuesta consta de los siguientes pasos:
1.- para una palabra polisémica dada en inglés, obtenemos sus sentidos en
WordNet;
2.- para cada sentido obtenemos su conjunto de sinónimos (synsets);
3.- usando como patrón de búsqueda en la Web cada sinónimo, y dado un
motor de búsqueda (por ejemplo Google), bajamos ejemplos de uso común
(snippets), con la finalidad de construir un corpus por sentido de WordNet;
4.- el corpus es construido tomando 5 palabras de contexto a la derecha y 5
palabras a la izquierda del sinónimo. Los contextos se separan, además de por
su ubicación derecha e izquierda, por sinónimo y por sentido con etiquetas para
facilitar su recuperación posterior. El corpus formado es común tanto para la
obtención de las secuencias ininterrumpidas como para las asociaciones
léxicas.
5.- encontramos todas las secuencias o asociaciones significativas, según sea
el caso, que ocurren en cada corpus por sentido.
Para llevar a cabo el paso 5, básicamente seleccionamos las secuencias o
asociaciones más relevantes al sentido correspondiente con los siguientes
criterios:
A) Fuerza.- una secuencia o asociación es relevante si es frecuente,
esto es si ocurre un número de veces mayor a un valor de umbral o de
corte determinado previamente;
B) Dispersión local.- una secuencia o asociación es relevante si aparece
en el contexto de todos los sinónimos que componen al sentido
correspondiente.
C) Dispersión externa.- una secuencia o asociación es relevante si
aparece sólo en uno de los sentidos de la palabra polisémica dada.
En el capítulo 4 se detalla la construcción del corpus. La medida de fuerza se
detalla en el apartado 3.2, mientras que las medidas de dispersión están
comprendidas en la sección 3.3 .
______________________________________________________________________
___________________________________________________________________ 43
3.3 Medida de fuerza
La minería de datos en corpus es esencial para la extracción de características
como son las asociaciones y secuencias léxicas entre palabras. La medida de
fuerza ayuda a eliminar las combinaciones de palabras que no son frecuentes
en el contexto de algún sentido de WordNet. Básicamente se toman las
palabras de contexto de alguno de los sinónimos que componen al sentido,
como se muestra en la figura 6. Sentido i-esimo ={sinónimo 1……. sinónimo n}
Wi5 W i4 W i3 W i2 W i1 Sinónimo1 W d1 W d2 W d3 W d4 W d5 .
.
.
Wi5 W i4 W i3 W i2 W i1 Sinónimon W d1 W d2 W d3 W d4 W d5
Figura 6.- Palabras de contexto tomadas en torno al sinónimo.
Se lleva un conteo de la ocurrencia de cada una de las palabras de contexto y
se obtienen sus estadísticos, en base a estos se determina el conjunto de
palabras que superan la medida de fuerza, esta medida de fuerza es realizada
como en [Smadja93] y esta definida por:
1
_
≥−σ
ff
donde:
f es la frecuencia de ocurrencia de la palabra en cuestión;
_f es la frecuencia promedio y
σ es la desviación estándar.
El umbral o frecuencia de corte está definido en un valor igual a la suma de la
frecuencia promedio y la desviación estándar y es la frecuencia mínima que
deben tener las palabras para ser consideradas significativas. Con esta medida
aseguramos que la extracción sólo de aquellas ocurrencias que aparecen de
manera recurrente en los contextos del sentido de WordNet, eliminando todas
las palabras que pudieran aparecer de manera casual. Como salida de esta
______________________________________________________________________
___________________________________________________________________ 44
medida tenemos un conjunto de palabras vinculadas a un sinónimo, como se
muestra en la figura 7.
Figura 7.- Salida de la medida de fuerza.
3.4 Medidas de dispersión
El descubrimiento de asociaciones y secuencias se hace a partir de un corpus
formado de la Web, aunque en el capítulo 4 presentamos resultados utilizando
además el corpus CLEF, a manera de tener una comparación entre los corpora
y presentar la bondad de la metodología propuesta en su independencia del
corpus así como del idioma.
Las medidas de dispersión nos ayudan a encontrar aquellas palabras de
contexto que son utilizadas de manera común con un determinado sentido. En
los dos sub-apartados siguientes describimos dos tipos de medidas de
dispersión: la dispersión local, en la cual buscamos que las palabras que
superaron la medida de fuerza se encuentren además en el contexto de todos
los sinónimos que componen el sentido correspondiente. Con esta medida
aseguramos que esas palabras, al estar en el contexto de todos los sinónimos,
estén vinculadas fuertemente con el sentido. Y la dispersión externa en la cual
buscamos aquellas palabras (patrones léxicos), que además de haber pasado
la medida de fuerza y la de dispersión local pertenezcan a un sólo sentido. Esto
es, son eliminadas aquellas palabras que aparecen en más de un sentido. Con
estas medidas extraemos los patrones léxicos vinculados a un y solo un
sentido de WordNet de la palabra polisémica dada.
Sentido i Con junto
de Palabras
______________________________________________________________________
___________________________________________________________________ 45
.
.
.
3.4.1 Dispersión local
Dada una palabra polisémica, para encontrar el conjunto de secuencias y
asociaciones que sean representativas de cada uno de los sentidos de
WordNet de la palabra dada, es deseable que, además de haber pasado el
filtro anterior basado en la frecuencia, estén en el contexto de todos los
sinónimos que componen al sentido y esto es justamente lo que hace la
medida de la dispersión local; permite descartar aquellas palabras que no están
en el contexto de todos los sinónimos que componen al sentido de WordNet.
En este trabajo la medida fue tomada de manera binaria, esto es, sólo se
consideraron aquellas palabras que aparecían en el contexto de todos lo
sinónimos que componen al sentido, como se ilustra en la figura 8.
Sentido i-esimo ={sinónimo 1……. sinónimo n}
Figura 8.- Dispersión local
Al ser esta una medida binaria, recuperamos aquellas palabras que son muy
representativas de un sentido, ya que deben formar parte del contexto de todos
los sinónimos. Esto hace que la medida sea muy rígida y podemos estar
dejando fuera del análisis palabras que, aunque no se encuentren en el
contexto de todos los sinónimos, sean “interesantes” para el sentido. Es por
esto que para las actividades futuras (capítulo 5) se tiene pensado implementar
una ponderación que le de peso a las ocurrencias de cada sinónimo, aun y que
no aparezca en el contexto de todos los sinónimos del sentido, para de esta
manera asignar una probabilidad a la ocurrencia de dicha palabra en el
contexto de los sinónimos que componen el sentido. Por ejemplo, si un sentido
se compone de tres sinónimos, al ponderar esta medida, podríamos recuperar
palabras que estuvieran en el contexto de solo dos o incluso uno de los
sinónimos, con la ponderación correspondiente, que componen al sentido.
Sinónimo n
Sinónimo 1 Conjunto
de Palabras
______________________________________________________________________
___________________________________________________________________ 46
3.4.2. Dispersión externa
Como resultado de salida de la medida anterior tenemos un conjunto de
palabras por sentido que además de haber superado la medida de fuerza se
encuentran en el contexto de todos los sinónimos. Con la medida de dispersión
externa lo que buscamos es que el conjunto de palabras forme parte solo de
uno de los sentidos. Esto es, la dispersión externa nos permite la
discriminación de uno de sus sentidos con respecto a los demás, es decir, son
descartadas todas aquellas palabras que aparecen en más de un sentido.
Esta medida es utilizada para extraer sólo aquellas palabras que se encuentran
fuertemente ligadas al sentido de WordNet correspondiente. Como salida del
sistema, después de las tres medidas, tendríamos un conjunto de palabras
vinculadas de manera significativa a cada uno de los sentidos de WordNet de
la palabra polisémica dada, como se ilustra en la figura 9.
Palabra polisémica ={Sentido 1,…., Sentido n}
.
.
.
Figura 9.- Palabras vinculadas a los sentidos de WordNet.
En esta medida también seria deseable implementar una medida que nos
permita ponderar aquellas palabras que aparecen en más de un sentido y ver,
por ejemplo , en cual sentido aparece con mayor frecuencia, para a partir de
esta información discernir por un determinado sentido. En los apartados
siguientes se muestra la metodología usada para obtener tanto para las
secuencias como para las asociaciones las cuales utilizan las medidas de
fuerza y de dispersión mencionadas.
Sentido 1
Sentido n
Conjunto de
Palabras
Conjunto de
Palabras
______________________________________________________________________
___________________________________________________________________ 47
3.5 Asociaciones léxicas
Dentro de las técnicas y herramientas con que cuenta el PLN se encuentran
aquellas que nos permiten explorar y extraer las características lingüísticas del
texto. Un punto clave para entender el texto es comprender el significado de las
palabras así como de las asociaciones entre ellas. En este capítulo
presentamos la metodología que nos permite extraer las asociaciones léxicas
entre palabras. Básicamente extraemos las asociaciones léxicas en torno a un
sentido de WordNet de una palabra polisémica. En los dos subaparatados
siguientes se presenta la metodología utilizada para extraer las asociaciones
léxicas simples, entendidas estas como la asociación de una palabra a otra en
su contexto, y las asociaciones léxicas compuestas, entendidas estas como la
asociación de dos o mas palabras asociadas a otra en su contexto,
respectivamente.
3.5.1 Asociaciones léxicas simples
La técnica de minería de texto en corpus es muy importante para poder extraer
ciertas “características”, como pueden considerarse las asociaciones léxicas,
entre palabras. En este apartado presentamos la metodología utilizada en el
algoritmo implementado para extraer las asociaciones léxicas simples de
manera automática.
Pala la obtención de las asociaciones léxicas simples, de una palabra
polisémica, se parte de un corpus formado a partir de la Web usando como
patrón de búsqueda los sinónimos de cada uno de los sentidos de WordNet de
la palabra dada. Se forma un corpus por cada sentido de WordNet. En el
corpus, cada línea representa un ejemplo de contexto de uso de alguno de los
sinónimos que componen al sentido. En el capitulo 4 se describe la formación
del corpus así como su estructura.
______________________________________________________________________
___________________________________________________________________ 48
Las palabras de contexto de cada sinónimo se van introduciendo en una tabla
hash, básicamente para cada palabra encontrada en el contexto (5 palabras a
la izquierda y 5 palabras a la derecha del sinónimo) se hace la pregunta ¿existe
en la tabla? Si la respuesta es no, se incluye y se inicializa el valor de
frecuencia en uno, mientras que si la respuesta es si se incrementa su
frecuencia en uno. De esta manera recorremos todo el corpus .
Después de recorrer el corpus, tenemos una tabla con todas las palabras de
contexto de los sinónimos, así como la frecuencia de cada una de ellas. De
esta tabla resultante debemos seleccionar aquellas palabras de contexto que
superan la medida de fuerza y las medidas de dispersión descritas en los
apartados 3.3 y 4.4 respectivamente. Cabe mencionar que las palabras que se
encuentran en la tabla no es condición que se encuentren de manera contigua
al sinónimo o entre ellas, su posición dentro del contexto es variable dentro de
la ventana definida, de esta manera encontramos aquellas palabras que se
encuentran vinculadas de manera significativa con el sentido.
Como se ilustra en la figura 10, la salida de nuestro sistema para este apartado
es un conjunto de palabras vinculadas de manera significativa con un sentido
de WordNet. Estas palabras pueden estar en una posición variable con
respecto al sentido en una ventana de tamaño 10, es decir 5 palabras a la
izquierda y 5 palabras a al derecha .
Figura 10.- Salida del sistema
Por ejemplo, los sentidos en WordNet para la palabra instance, son los
siguientes: 1. case, instance, example -- (an occurrence of something)
2. example, illustration, instance, representative -- (an item of information that is representative
of a type)
Palabras significativas Sentido i
______________________________________________________________________
___________________________________________________________________ 49
Debemos encontrar palabras que se encuentren en el contexto de todos los
sinónimos de cada sentido y como podemos observar en este caso example e
intance pertenecen a los dos sentidos, el papel que tienen aquí las medidas de
dispersión es fundamental ya que, por un lado debemos encontrar un conjunto
de palabras que estén en el contexto de case, instance y example, pero por
otro lado debemos encontrar otro conjunto diferente de palabras que se
encuentren en el contexto de example, illustration, instance y representative
que componen al sentido 2.
En el capítulo 4 se muestra la relación completa de palabras que superaron las
tres medidas para los dos sentidos de instance, algunas de ellas, para el
sentido 1, son: database y make, mientras que para el sentido 2 tenemos a:
Secretary y Judicial. Estas palabras las encontramos en expresiones de uso
común, tales como: database instance y make the instance; las cuales
pertenecen al sentido 1 de instance “una ocurrencia de algo”, mientras que
instance of the secretary, instance of judicial activism corresponden al sentido
2 de instance “un artículo de información que es representativo de un tipo”.
Como se puede observar, no es requisito que las palabras significativas
encontradas para el caso de las asociaciones léxicas simples aparezcan de
manera contigua en el contexto.
______________________________________________________________________
___________________________________________________________________ 50
3.5.2 Asociaciones léxicas compuestas
El descubrimiento de conocimiento en corpus o grandes bases de datos es
parte importante de lo que hoy se ha dado en llamar minería de datos. Existen
tres problemas fundamentales a resolver en este campo: Clasificación,
Búsqueda de Reglas de Asociación y Búsqueda de Secuencias [Frawley92].
Mientras la mayor parte de los trabajos se han dedicado a resolver el primer
problema, en 1994 Agrawal y Srikant presentaron el novedoso algoritmo
“APriori” [Agrawal94] para resolver el segundo problema. El algoritmo ha sido
aplicado a la búsqueda de asociaciones entre los productos comprados en un
supermercado, lo cual podía utilizarse para la toma de decisiones en cuanto a
la ubicación más conveniente como estrategia de mercado a seguir con el fin
de aumentar las ventas. El objetivo en todo algoritmo de búsqueda de reglas de
asociación es encontrar todas las reglas que satisfacen con la condición de
confidencia y soporte mínimos dada por el usuario, esto es necesario ya que de
otra manera la búsqueda se haría exhaustiva, encontrándose al final un
número tan grande de reglas generadas que podrían colapsar al sistema.
Cuando se desea realizar la búsqueda en grandes bases de datos como
sucede en minería de datos, se debe minimizar la cantidad de tiempo que se
emplea en acceder las mismas, ya que por lo general las operaciones de
acceso a disco son las más lentas del proceso. Un algoritmo como APriori
satisface estos requerimientos y de hecho se ha convertido en referencia
obligada en esta área. El objetivo del algoritmo es encontrar todos los
conjuntos frecuentes de ítems. La idea se basa en que si un conjunto de ítems
cumple con la condición de soporte mínimo, entonces todo subconjunto de este
también la cumplirá. Una vez obtenido un conjunto de ítems se revisa que
todos los subconjuntos de este, medidos en la iteración anterior, cumplan con
la condición de mínimo soporte . Si se encuentra alguno que no la cumple se
puede concluir, "a priori", que dicho conjunto no la cumplirá y por tanto no es
necesario medirlo. Esto evita mucha medición innecesaria, optimizando de esta
manera el tiempo total de acceso a la base de datos.
______________________________________________________________________
___________________________________________________________________ 51
Para el descubrimiento de asociaciones léxicas compuestas, por sentido de
WordNet, se adaptó el uso del algoritmo “a priori” de minería de texto en la
Web y en particular a nuestra problemática. La idea básicamente es a partir de
asociaciones simples construir asociaciones compuestas del tipo (sentido-i ->
palabra-x...palabra-y) aplicando las mismas medidas de fuerza y dispersión que
para las asociaciones léxicas simples. El objetivo es identificar además cuáles
palabras suelen presentarse con otras en el mismo contexto.
Para esta tarea, una vez obtenidas las asociaciones léxicas simples, volvemos
a leer el corpus, pero ahora identificamos aquellas líneas de contexto que
contienen a alguna de las palabras obtenidas como asociaciones léxicas
simples. Una vez identificada la línea que la contiene, se toman las palabras de
contexto y se incluyen en una tabla, de manera que al final tenemos una tabla
que contiene las palabras que acompañan en el contexto a las asociaciones
léxicas simples, así como su frecuencia. A este conjunto de palabras se les
aplican las medidas de fuerza y dispersión descritas en los apartados 3.3 y 4.4
respectivamente.
Las palabras obtenidas como asociaciones léxicas compuestas, ocupan una
posición variable dentro del contexto, es decir, no es condición que aparezcan
de manera contigua o en el mismo orden de aparición, lo que encontramos es
la ocurrencia de una palabra en el contexto de otra, que en un futuro nos
permitan obtener conclusiones del tipo “el 60% de las veces que aparece la
palabra x, aparece también la palabra y” en el contexto de un sentido de
WordNet determinado de una palabra polisémica.
______________________________________________________________________
___________________________________________________________________ 52
3.6 Secuencias
El uso de secuencias de palabras es común en prácticamente todos los
idiomas, dialectos o incluso áreas especificas del conocimiento. La presencia
de una secuencia ininterrumpida de palabras implica o sugiere la ocurrencia de
las demás palabras que componen a la secuencia. Esto hace que tengan un
gran potencial para las representaciones computacionales ya que por un lado
encontramos varias formas de análisis futuro que pueden ser fácilmente
recuperadas y por otro lado, el contar con expresiones de uso común del
lenguaje que nos permitan su incorporación en actividades del PLN, para
facilitar tareas como la desambiguación léxica de palabras.
Existen sistemas desarrollados que permiten hacer el análisis entre secuencias
ininterrumpidas de palabras, como el N-Gram Statistics Package1. Este sistema
permite el análisis de n-gramas en un corpus, tales como el cómputo de n-
gramas frecuentes y varias medidas estadísticas que permiten tener una
relación de la asociación entre dos o más palabras como información mutua y
ocurrencia. El algoritmo Xtract [Smadja93], realiza una medida de cohesión
entre palabras y permite identificar n-gramas contiguos frecuentes usando la
técnica explicada en [Choueka83]. Las secuencias ininterrumpidas de palabras
(también llamadas colocaciones) son una solución parcial al problema de la
desambiguación léxica de palabras, en este sentido existen métodos como el
desarrollado por [Smrz01] que considera las secuencias como grupos léxicos
unidos (agrupaciones) de palabras, donde la presencia de una o más palabras
de la secuencia implica o sugiere el resto de la misma. Este conocimiento
puede ser utilizado, por ejemplo, para determinar la probabilidad de ocurrencia
de un sentido entre varios sentidos atribuibles a una palabra polisémica,
analizando su contexto.
La importancia de localizar las secuencias ininterrumpidas de palabras por
sentido de WordNet está en poder usar esta información para obtener patrones
1 http://www.d.umn.edu/~tpederse/code.html
______________________________________________________________________
___________________________________________________________________ 53
léxicos. A su vez, los patrones léxicos encontrados nos permitirán saber la
probabilidad de ocurrencia de un sentido dependiendo del contexto así como
su posible integración en sistemas de desambiguación léxica.
Para la obtención de las secuencias ininterrumpidas de palabras, se hace de
manera automática un proceso iterativo que va cambiando el tamaño de
ventana, esto es, el número de palabras que se toman a la izquierda y de
derecha del sinónimo, de uno a cinco. Para cada tamaño de ventana el proceso
es el siguiente, se toma la palabra o palabras respetando su ubicación respecto
al sinónimo, es decir si esta a la izquierda o a la derecha. Todas las secuencias
ininterrumpidas empiezan o terminan con el sinónimo. Al final tenemos un
conjunto de tablas que nos muestra las secuencias de contexto a la izquierda y
derechas del sinónimo para los diferentes tamaños de ventana. Para cada una
se obtienen sus estadísticos.
Al igual que para las asociaciones léxicas, simples y compuestas, las
secuencias ininterrumpidas resultantes son filtradas y recuperamos sólo
aquellas que son significativas al sentido i-esimo de WordNet correspondiente.
Nos enfocamos al descubrimiento de secuencias ininterrumpidas, que
empiecen o terminen con alguno de los sinónimos que componen el sentido de
WordNet de la palabra polisémica que queremos desambiguar.
______________________________________________________________________
___________________________________________________________________ 54
Capítulo 4
Experimentación y resultados obtenidos
4.1 Introducción
En este capitulo presentamos los patrones léxicos obtenidos para dos palabras
polisémicas: instance y peak. Estas palabras se eligieron debido que tienen
varios sinónimos por sentido y en el caso de peak, además tiene varios
sentidos.
En la sección 4.1 presentamos la estructura propuesta para la conformación del
corpus formado a partir de la Web. La idea principal es contar con un formato
que nos facilite la recuperación posterior de la información. Las asociaciones
léxicas simples y compuestas, así como las secuencias ininterrumpidas se
muestran en la sección 4.2 .
4.2 La estructura del corpus
El conocimiento lingüístico incluye información morfológica, sintáctica y
semántica que puede aplicarse en el proceso de recuperación de información,
para por ejemplo, expandir la búsqueda con términos relacionados (p.ej. con
sinónimos), con el objetivo final de obtener un mayor número de ejemplos de
contexto de uso de un sentido de WordNet de una palabra polisémica. Con
esta información podemos saber, por ejemplo, qué palabra es usada con
cualquier otra en el uso cotidiano del lenguaje natural. En esta tarea como en
muchas otras del PLN se facilitan usando un corpus. Por las ventajas
explicadas en el capítulo 2, acerca del tamaño y lenguajes disponibles en la
Web, en este trabajo hemos decidido utilizar la Web como corpus, aunque
______________________________________________________________________
___________________________________________________________________ 55
también hemos utilizado los corpora CLEF y TREC, para analizar y comparar
los resultados obtenidos y apreciar de esta manera la potencialidad de la Web
como corpus.
Para la formación del corpus partimos de un sustantivo, polisémico en inglés,
del cual obtenemos sus sentidos en WordNet y, por cada sentido, tomamos los
sinónimos que lo componen. Se quiere usar la Web como fuente de datos para
la elaboración del corpus por sentido de WordNet usando como patrón de
búsqueda en Google todos los sinónimos correspondientes a cada sentido. Por
cada sinónimo de WordNet se bajan en promedio 1000 snippets desde la Web,
cada uno de ellos con la siguiente estructura: <?xml version="1.0" encoding="UTF-8"?> <element id="8"> <title><b>Case</b> Western Reserve University</title> <snippet> Creative hands of <b>Case</b> artist have stitched messages from nature for Bonfoey Gallery<br> exhibit. <b>...</b> <b>Case's</b> accreditation self-study draft is open for comments. <b>...</b> </snippet><url>http://www.case.edu/</url> </element> Los snippets son filtrados, eliminando caracteres especiales como <b>,</b>,©,|,
etc, además se realiza un proceso de tokenización, descomposición de la frase
en palabras, por caracteres especiales, números y espacios en blanco de
cualquier tipo (espacio, tab, salto de línea, etc.). Las líneas que contienen a
alguno de los sinónimos que componen el sentido correspondiente son
detectadas y delimitadas por frases. En el caso del snippet mostrado, después
del filtrado quedaría de la siguiente manera:
Los snippets de todos los sinónimos que componen el sentido son
concatenados y almacenados en un archivo XML, por las ventajas que
presenta a la hora de recuperar la información para la búsqueda de secuencias
y asociaciones. La estructura del archivo se muestra en la figura 11.
case western reserve university creative hands of case artist have stitched messages from nature for Bonfoey Gallery exhibit case accreditation self study draft is open for comments
______________________________________________________________________
___________________________________________________________________ 56
Figura 11.- estructura del archivo XML de la palabra polisémica.
Como podemos observar en la estructura mostrada, se tienen las etiquetas
<palabra_ambigua>….</palabra_ambigua> que son las “etiquetas madre” o
“raíz”, de las cuales dependen todas las existentes dentro de la estructura y
que identifican a la palabra polisémica de la cual se quiere obtener sus
secuencias y asociaciones; el número de sentido, esta contenido entra las
etiquetas <palabra_sentido> …. </palabra_sentido>. Mientras que las etiquetas
<sinonimo>…..</sinonimo> encierran a los sinónimos de un sentido. Las
palabras de contexto del sinónimo se muestran entre las etiquetas
<izq>…</izq> y <der>…</der> que representan el contexto a la izquierda y
derecha respectivamente. Como se puede observar se limita a un tamaño de
ventana de 5 a cada lado del sinónimo.
El corpus por sentido de WordNet de la palabra polisémica es utilizado como
entrada para las siguientes 3 pasos de la metodología que fueron presentados
en el capítulo 3.
<?xml version="1.0" encoding="ISO8859-1"?> <palabra_ambigua id=”instance”> <palabra_sentido id=”instance” sense=”1”>
<sinonimo syn=”case”> <der>Western Reserve University </der>
<izq></izq> <der>artist have stitched messages from</der>
<izq>Creative hands of</izq> <der>accreditation self study draft is</der>
<izq></izq> . . </sinonimo> <sinonimo syn=”instance”>
. .
</sinonimo> <sinonimo syn=”example”>
. .
</sinonimo> . .
</palabra_sentido> <palabra_sentido id=”instance” sense=”2”>
. .
Palabra polisémica, de la cual se quieren obtener patrones léxicos
Sentidos en WordNet de la palabra polisémica.
Sinónimos que componen un sentido
______________________________________________________________________
___________________________________________________________________ 57
4.3 Análisis de los resultados preliminares
Presentamos en este apartado los resultados obtenidos aplicando la
metodología propuesta para los lexical samples: Intance y peak.
4.3.1 El caso de instance
Los sentidos de WordNet del sustantivo instance, son: 1. case, instance, example -- (an occurrence of something)
2. example, illustration, instance, representative -- (an item of information that is representative
of a type)
Usando como patrón de búsqueda en Google los sinónimos de cada sentido,
se bajaron snippets de la Web, para formar el corpus con la estructura
mostrada en el apartado 4.1. El número de snippets recolectados por sinónimo
fue 960 por sinónimo, en promedio, y se resume en la tabla 8. Tabal 8. - Número de snippets bajados de la Web para los sinónimos de Instance.
case 919 instance 924 example 983
illustration 987
representative 987
Con estos snippets se formaron 2 corpus, uno para cada sentido. El corpus
para el sentido 1 fue formado por la concatenación de 2826 snippets mientras
que el del sentido 2 se formo con 3881 snippets (tiene un sinónimo mas). En la
tabla 9 se muestra el resumen de los resultados obtenidos para el corpus
formado a partir de la Web para la palabra instance. El corpus del sentido 1 se
formó con 12,684 ejemplos de contexto de uso común encontrados en la Web,
mientras que el corpus del sentido 2 con 15,848 ejemplos de uso de los
sinónimos que componen el sentido.
______________________________________________________________________
___________________________________________________________________ 58
Tabla 9. - Resumen de estadísticas para Instance.
Sentido1 Sentido 2
Palabra: instance Web Web
Número de ejemplos de uso en el corpus 12684.0 15848.0
Número de palabras distintas 2831 3590
Media 4.5 4.4
Desviación estándar 7.3 7.5
Frecuencia de corte (media + d. estándar) 11.8 11.96
Número de palabras que superan medida 1 179 238
Número de palabras que superan medida 2 87 67
Número de palabras que superan medida 3 25 9
Como se puede apreciar, se encontraron 2831 palabras de contexto distintas
en los 12,684 ejemplos de uso para el sentido 1. De estas 179 superan la
frecuencia de umbral (frecuencia mayor a la frecuencia promedio mas la
desviación estándar). Las palabras que, además de haber superado la
frecuencia de umbral, se encuentran en el contexto de todos los sinónimos del
sentido 1 son 87. A manera de ejemplificar la medida de dispersión externa,
presentamos en la tabla 10, un conjunto de palabras comunes a los dos
sentidos de instance, estas palabras superaron la frecuencia de umbral. Sin
embargo como pertenecían a los dos sentidos al final fueron descartadas. Es
de resaltar el caso de “for” el cual, como se vera mas adelante, es recuperado
como secuencia ininterrumpida para el sentido 2 de instance. Tabla 10.- Palabras comunes antes de la medida de dispersión para instance.
All Here Page An Home Programs And How Project Application In Search Are Information See As Is Services By List Site Class More Source Description Name That Development Of The For On This From One Title group Or To
Al final tenemos 34 palabras que nos podrían ayudar a desambiguar la palabra
instance (25 para el sentido1 y 9 para el sentido 2), estas palabras se muestran
______________________________________________________________________
___________________________________________________________________ 59
en la tabla 11. El corpus que formamos a partir de la Web es pequeño, por el
número de snippets bajados. Sin embargo en pruebas realizadas con el corpus
CLEF encontramos 3,931 palabras distintas que además de superar la
frecuencia de umbral formaban parte del contexto de los sinónimos del sentido
1. Tabla 11.- Asociaciones léxicas simples para Instance
Sentido 1 Sentido 2 based java english case learning free code multiple government data net library date number link definition org members documents our resources example process section examples proposal software file server index use instance will It
En las asociaciones léxicas simples no es necesario que las palabras
significativas encontradas aparezcan de manera contigua a la palabra instance.
A manera de ejemplificar el uso de las palabras significativas asociadas con
instance, presentamos algunas oraciones de uso común. Con la intención de
reforzar la idea del uso de estas palabras en sistemas de desambiguación
léxica separamos los ejemplos por sentido. El primer sentido de instance se
relaciona con “la ocurrencia de algo”, mientras que el sentido 2 tiene que ver
con “un artículo de información que es representativo de un tipo”.
Sentido 1: …..another instance of the same process already running on the current machina…..
... Enforcing a rule that only one instance of process is running is an interesting task. ...
... instance of "second proposal for hierarchical resources"……
Each instance handles multiple VLANs that have the same Layer 2 topology. ...
... PRO: An excellent introduction to instance-based learning…
Sentido 2: ... ACTIVITY in this instance involves the use of government facilities and equipment for …
... 2 For instance, see House Committee on Government Reform, Minority Staff, Special...
______________________________________________________________________
___________________________________________________________________ 60
…. Another difference between instance members and class members is that class ….
….each section instance must be a source for at least one occurs and as an association….
Al ser los ejemplos presentados extractos de frases, aunado a que hablamos
de palabras ambiguas de por sí, se puede dar el caso de no discernir de
manera clara y concisa entre un sentido y otro. En este caso, bien cabría la
posibilidad de aumentar las palabras de contexto inmediato alrededor de la
palabra ambigua, instance en nuestro ejemplo , para tener una idea más clara
del sentido de la oración. Sin embargo, esta tarea no es fácil aun manualmente,
como comentario decir que en la competencia Senseval-2 hubo solo un 75% de
acuerdo entre anotadores humanos para el inglés.
Las asociaciones léxicas compuestas están basadas en reglas de asociación
de minería de datos. Los ejemplos clásicos de reglas de asociación son del
tipo “40% de las personas que realizaron compras en un supermercado
compraron pañales y 2% de estas compraron también cerveza”. Este tipo de
reglas son usadas para tomar decisiones que nos permitan por ejemplo
programar ofertas o incluso para colocar los productos en el supermercado, al
saber las preferencias de los clientes. En nuestro caso, debemos encontrar las
palabras que ocurren en el contexto de las palabras mostradas en la tabla 10,
no importando el orden en el que aparecen en el contexto, siempre que se
encuentren dentro del tamaño de ventana definido, en este caso de 10 (5
palabras a la izquierda y 5 a la derecha del sinónimo).
La idea con estas asociaciones es, en un futuro, ponderar de manera
probabilística la decisión de dar a una palabra polisémica un determinado
sentido, entre varios atribuibles, dependiendo de las palabras que tienen como
contexto, y así, poder obtener conclusiones del tipo “el 20% de las veces que
aparece based en el contexto de instance sentido 1 aparece también learning”.
En la tabla 12 se muestran las asociaciones léxicas compuestas para el sentido
1 de instance.
______________________________________________________________________
___________________________________________________________________ 61
Tabla 12.- Asociaciones léxicas compuestas para instance-1.
Learning use machine the multiple based learning learning based case algorithms or altro reasoning instance based will altro rising methods interest instance scenario number worst instance your proposal home supporting rates classifier case case studies the in instance the multiple based learning case example proposal source supporting a study documents a policy classifier java lang object
Podemos observar, por ejemplo, que learning tiene como asociaciones léxicas
compuestas a las palabras: machine, multiple, learning, based, algorithms, altro
e instance, en el sentido 1 de instance. Esto lo interpretamos como que cuando
aparece learning, en el contexto de intance, podemos además encontrar las
palabras obtenidas como asociaciones léxicas compuestas para la misma.
En la tabla 13 se muestran las asociaciones léxicas compuestas para el sentido
2 de instance. En estas tablas (12 y 13) podemos observar en la columna
izquierda algunas de las palabras obtenidas como asociaciones léxicas simples,
el hecho de que no estén todas se debe a que las palabras de contexto deben
superar la frecuencia de umbral, así las palabras que recuperamos, son
______________________________________________________________________
___________________________________________________________________ 62
aquellas que aparecen de manera recurrente en el contexto, sin importar su
ubicación en el mismo. Tabla 13.- Asociaciones léxicas compuestas para instance-2.
government mill stuart software ihnen erstklassige vektor layout fur and english instance library illustration
En la tabla 13 podemos ver por ejemplo, que goverment se encuentra asociado,
como asociación léxica compuesta, con mill y stuart, esto en el contexto de
instance sentido 2. Este tipo de conocimiento, como se puede apreciar, no
estaba explicito en las asociaciones léxicas simples y mucho menos en el
corpus y nos permite tener una idea clara de la ocurrencia de palabras en el
contexto de otras y así de decir que cuando aparece library en el contexto de
instance, es muy probable que aparezca además illustration, sin importar la
ubicación en el contexto de library ni de illustration, la única condición es que
estén ambas dentro del tamaño de ventana (10 en nuestro caso) definido.
En el caso de las secuencias ininterrumpidas de palabras en torno a los
sinónimos de instance, los resultados obtenidos para diferentes valores de
ventana (V) se muestran en la tabla 14, así como el número de secuencias
diferentes y el número de secuencias significativas para el corpus formado a
partir de la Web y para el corpus CLEF. Los valores negativos en la columna de
ventana representan en número de palabras tomadas a la izquierda.
______________________________________________________________________
___________________________________________________________________ 63
Tabla 14.- Secuencias ininterrumpidas para Instace en la Web y el CLEF.
Instance Sentido 1 Instance Sentido 2 Web CLEF Web CLEF V Diferentes Significativas Diferentes Significativas Diferentes Significativas Diferentes Significativas -5 13 3 1608 253 20 2 1608 253 -4 17 3 2476 344 29 4 2476 344 -3 20 3 3879 422 35 5 3879 693 -2 29 6 3829 693 60 12 4829 422 -1 62 14 5423 956 100 20 5433 1253 1 72 18 5843 1125 140 28 5332 1364 2 57 8 4510 796 89 18 4510 985 3 23 3 3344 999 61 9 3344 796 4 20 5 1874 289 40 6 1874 289 5 13 2 1306 111 33 5 1306 111
Podemos observar que el número de secuencias obtenidas en el corpus CLEF
es mucho mayor que las obtenidas con el corpus formado a partir de la Web.
Esto se debe a que el corpus CLEF es mucho mas grande, por lo que las
palabras ocurren con mayor frecuencia, sin embargo observamos que los
contextos de este corpus están mas limitado a un determinado grupo de
palabras de uso común. En experimentos realizados hubo palabras para las
que no encontramos una sola ocurrencia en el corpus CLEF. Esta comparación
nos deja clara la necesidad de aumentar el número de snippets bajados de la
Web para aumentar el tamaño del corpus y de esta menara tener mas ejemplos
de uso [Guzmán05b].
En la figura 12 se muestra la variación que existe en el número de secuencias
encontradas y el número de secuencias significativas al variar el tamaño de la
ventana (número de palabras que se toman a al izquierda y a la derecha del
sinónimo), para el corpus formado a partir de la Web de los sentidos de
instance. Como se puede observar el número de colocaciones, respecto al
tamaño de ventana, tiene una distribución casi normal.
______________________________________________________________________
___________________________________________________________________ 64
0102030405060
7080
-5 -4 -3 -2 -1 1 2 3 4 50
2040
60
80
100
120
140160
-5 -4 -3 -2 -1 1 2 3 4 5
Figura 12.- Relación entre las secuencias diferentes y las secuencias significativas de instance.
La correlación entre el número de secuencias y las secuencias significativas es
de 0.94. Este valor nos dice que en la medida en que aumentemos el número
de secuencias, aumentará el número de secuencias significativas, lo cual es de
esperar por la distribución que se presenta. Para una secuencia que ha
superado las medidas de fuerza y dispersión, a mayor frecuencia será más
significativa [Guzmán05a].
Las secuencias ininterrumpidas tienen la característica de empezar o terminar
con la palabra polisémica. La tabla 15 muestra las secuencias ininterrumpidas
a la izquierda de los dos sentidos de instance, esto es, las encontraremos en
expresiones de uso común tales como customers instance o graphic design
instance. Tabla 15.- Secuencias a la izquierda de instance
Las secuencias significativas a la derecha de instance, se muestran en la tabla
16. Estas secuencias las encontraremos en expresiones de uso común, tales
como instance design o instance studies case.
Secuencias Instance-2 Design Page layout Art Visual arts Bouchard Of the mouth Medical Proactive core component The Multimedia design gt Fanny bouchard Objectweb proactive core component Graphic design Illustration of the mouth
Secuencias instance-1
Customers Bottle Home Us party Name The bottle Party Studies customers Resources To the This The us party To In the bottle Tools
Sentido 1 Sentido 2
______________________________________________________________________
___________________________________________________________________ 65
Tabla 16.- Secuencias a la derecha de instance
Algunas expresiones de uso común, por sentido, para las secuencias
encontradas en las tablas 12 y 13 se muestran a continuación:
Sentido 1: ... To add a new database partition server to the instance TESTMPP on the instance-owning computer SHAYER, where the new database partition server is known as ... ... Choosing to add stopwords to the instance stoplist does not affect any documents…. ... The engineering activities vary with the technical complexity of the release, but in general include instance design activities, server build activities ... Sentido 2: ... the presence of given types of design instance configurations. ... ... Perhaps the most notorious instance of judicial activism is captured in the century-old Supreme Court case, Rector of the Holy Trinity Church v. United States. ... ... Different groups fill in different values for X - for instance government by the UN General Assembly, or North-South transfer taxes. ... En nuestro trabajo no hemos prescindido de las palabras de paro (stop words)
ya que algunas de estas juegan un papel importante en la asignación de un
sentido a una frase. Por ejemplo el caso de “for” la encontramos asociada de
manera significativa con el sentido 2 de instance y es usada en expresiones de
uso común como “for instance”; esta secuencia tiene un único sentido en
WordNet (su sentido hace referencia a un ejemplo) y se encuentra etiquetada
en el corpus semcor, en el cual aparece 21 veces, como lema con este sentido.
Mientras que instace aparece en el corpus semcor 22 veces como sustantivo,
18 con el sentido 1 y 4 con el sentido 2. Es claro que la cantidad de ejemplos
etiquetados son muy pocos y la necesidad de enriquecer los corpus es
evidente.
Secuencias instance-2 and a formal example with clients of the mouth in livres d enfants children for employees post a job is of the mouth illustration of the a formal example with a of a government by john stuart in the of the secretary general livres d enfants livres d enfants children books employees post a employees post a job and of judicial activism government by john stuart mill and fine art of the mouth illustration of of the secretary government by john
of next gt
Secuencias instance-1
design Code Edu western reserve index studies case Law studies catalogs studies studies in study western reserve university western studies catalogs resources
______________________________________________________________________
___________________________________________________________________ 66
4.3.1 El caso de Peak
La segunda palabra seleccionada para mostrar los resultados obtenidos con la
metodología propuesta es la palabra peak , los sentidos de WordNet de esta
palabra se muestran a continuación. 1. extremum, peak -- (the most extreme possible amount or value)
2. flower, prime, peak, heyday, bloom, blossom, efflorescence, flush -- (the period of greatest
prosperity or productivity)
3. acme, height, elevation, peak, pinnacle, summit, superlative, top -- (the highest level or
degree attainable)
4. peak, crown, crest, top, tip, summit -- (the top point of a mountain or hill)
5. point, tip, peak -- (a V shape)
6. vertex, peak, apex, acme -- (the highest point (of something)
7. bill, peak, eyeshade, visor, vizor -- (a brim that projects to the front to shade the eyes)
En promedio se bajaron 960 snippets de la Web por cada sinónimo,
aproximadamente el tiempo que se tarda en bajar los snippets de un sinónimo
y hacer el corpus con la estructura mostrada en el apartado 4.1 son 3 minutos.
En la tabla 16 se muestra el resumen de los resultados obtenidos para el
corpus formado a partir de la Web para peak. Se Eligio esta palabra por tener
7 sentidos y varios sinónimos por sentido, se puede apreciar en la tabla 17,
como se incrementa el número de ejemplos de uso en el corpus en proporción
directa al número de sinónimos que componen al sentido. Por ejemplo para el
sentido 1 (formado por 2 sinónimos) encontramos 7624 ejemplos de uso de los
sinónimos que componen al sentido 1, mientras que para los sentidos 2 y 3
(formado por 8 sinónimos cada uno) encontramos 42.066 y 49196
respectivamente. Tabla 17.- Resumen de estadísticas para peak .
palabra/sentido: peak S 1 S 2 S 3 S 4 S 5 S 6 S 7
Número de ejemplos de uso en el corpus 7624 42066 49196 26895 11684 32772 22279
Número de palabras distintas 2279 7881 8359 5770 3127 6202 5516
Media 3.3 5.3 5.9 4.7 3.7 5.3 4.04
Desviación estándar 4.9 10.9 10.1 9.1 6.6 8.2 7.75
Frecuencia de corte (media + d. estándar) 8.2 16.2 16 13.8 10.3 13.5 11.8
Número de palabras que superan medida 1 136 414 521 326 173 465 278
Número de palabras que superan medida 2 65 81 92 100 80 195 68
Número de palabras que superan medida 3 10 5 4 10 4 63 3
______________________________________________________________________
___________________________________________________________________ 67
Al ser mayor el número de ejemplo de uso, la cantidad de palabras que tienen
una frecuencia mayor que la frecuencia de umbral también es mayor. Sin
embargo cuando entra la medida de dispersión interna las proporciones
cambian, ya que debemos seleccionar ahora solo las palabras que forman
parte del contexto de todos los sinónimos, además de tener una frecuencia
mayor que el umbral. La medida de dispersión, por ser varios sentidos, hace
que el número de palabras asociadas de manera significativa a cada uno de los
sinónimos sea aun menor.
Con este ejemplo podemos por un lado ver como al aumentar el tamaño del
corpus, aumenta el número de ejemplos de contexto de uso de los sinónimos
que componen al sentido, lo que hace que aumente el número de palabras
diferentes de contexto así como el número de palabras que superan la medida
de frecuencia estipulada como umbral. Pero por otro lado nos sirve también
para apreciar como en la medida que el número de sinónimos que componen a
un sentido aumenta, disminuye el número de palabras comunes de contexto y
disminuye aun más el número de palabras vinculadas con los sinónimos de
manera significativa en la medida en que aumenta el numero de sentidos de la
palabra polisémica. En la tabla 18 se muestran las 99 palabras significativas
encontradas para los sentidos de peak. Tabla 18.- Asociaciones léxicas simples para peak .
Peak
sentido 1 sentido
2
sentido
3
sentido 4 sentido 5 sentido 6 sentido 7
if will america media jobs center industrial modified electronics high accessories
global most based university magazine call pacific provides virtual system der
seeking series great science en consulting parent edit studio usa bill
properties time die please district computer review industry price date
extremum sites main prices fax corp equipment version
framework do pages class been used club
conditions updated mail corporation personal support programs
networks community estate way communications books process
large college digital business performance its data
training sports profile pm engineering best full
download north day nov technical
public electronic set standard
line art und case
______________________________________________________________________
___________________________________________________________________ 68
Las asociaciones léxicas compuestas para los 7 sentidos de peak se muestran
en la tabla 19. Tabla 19.- Asociaciones léxicas compuestas para peak .
sentido 1 sentido 2 sentido 3 sentido 6 if series america center modified is postcard of co description seeking of center size control a vertex last of book consulting name properties barker business edit and mary hauptstr edit extremum flower sungen a extremum fairies deutschland been form cicely seinen has maximum time computer performance is reading security is in prime labs the probs the research performance and time services and mail family index training lecture of pages communications estimators for white acme minp is pages inc framework in yellow voice for freeware phone engineering a radio mail college large a e products feedback order set very digital trade for dvd electronics multicast inc home training player dvd performance digital studio estate tattoo
sentido 4 sentido 5 sentido 7 real parlor university jobs bill public daray of nov eyeshade members acme science rebecca fighting java support in suspending words lang company technology rating vizor classvertex legal and wells economy vertex support do batch in object apex at out page methods standard just magazine to class vertex disk tip crown class radio it of brim vertex in solskogen en and public standard music ven topic include products cover district visor reference yaesu national peak a pilot park click of vxa holiday activate lt case guide projection corporation study district of link north cottages timeline corporation carolina peak united news business seinen hauptstr consulting sungen deutschland und
______________________________________________________________________
___________________________________________________________________ 69
Capítulo 5 Conclusiones y trabajo futuro
5.1 Conclusiones
En este trabajo de investigación presentamos un método de extracción de
patrones léxicos que, para una palabra dada, nos permite encontrar
asociaciones y secuencias significativas relacionadas con uno de sus sentidos
de WordNet, a partir de un corpus formado de la Web. Los primeros
experimentos realizados muestran la potencialidad de la Web como corpus
lingüístico. Además, que la incorporación de los patrones léxicos extraídos en
sistemas de desambiguación es viable.
Nuestra principal contribución es la búsqueda en la Web de patrones léxicos
significativos a cada uno de los sentidos de WordNet de una palabra polisémica,
a través de criterios de filtrado que nos permiten obtener los conjuntos de
palabras asociadas, así como las secuencias ininterrumpidas de palabras. Los
resultados preliminares presentados en este trabajo de investigación son para
sustantivos en inglés, sin embargo, la metodología puede ser aplicada a las
otras categorías morfosintácticas, así como a otros idiomas, siempre que en
estos idiomas exista una base de datos léxica, como WordNet para el inglés,
que nos permita saber los sentidos atribuibles a una palabras polisémica.
La metodología presentada, además, se puede aplicar a corpora finitos. En la
sección 4.3. se muestran las secuencias ininterrumpidas de palabras para la
palabra instance, obtenidas tanto del corpus de la Web como con el corpus
CLEF. La comparación nos deja clara la necesidad de aumentar el tamaño del
corpus de la Web, esto es, colectar más ejemplos de contextos de uso de los
sinónimos de la palabra polisémica en la Web. Una idea clara del potencial de
la Web como recurso lingüístico en la búsqueda de secuencias se muestra en
la tabla 7, en la cual se presenta el número de ocurrencias encontradas en un
corpus finito y en la Web, de secuencias ininterrumpidas, en tres años distintos.
Presentamos a continuación el estado actual de la investigación seguido de las
actividades futuras.
______________________________________________________________________
___________________________________________________________________ 70
5.2 Estado actual de la investigación
Hasta el momento, se han desarrollado las siguientes tres etapas del trabajo de
investigación.
Etapa 1.- Descubrimiento de asociaciones léxicas simples por sentido.
Para esta actividad se eligió un conjunto de 14 palabras polisémicas y se
implementaron los algoritmos que permiten descubrir asociaciones léxicas
simples por sentido usando la Web como corpus . Esta tarea se realizó usado
una ventana de tamaño 10 (5 y 5 alrededor del sinónimo). La salida del
algoritmo es un conjunto de palabras asociadas de manera significativa al
sinónimo correspondiente, estas asociaciones son del tipo (sentido i è palabra
x).
Las palabras seleccionadas como significativas superan tres medidas que nos
permiten filtrar las palabras menos significativas al sinónimo, estas medidas
son:
-Fuerza (un patrón léxico es candidato a ser relevante si supera la frecuencia
de umbral o de corte mayor a la frecuencia promedio más la desviación
estándar).
-Dispersión local (las palabras que superan la medida anterior, deben además
estar en el contexto de todos los sinónimos que componen al sentido
correspondiente).
-Dispersión externa (una palabra es relevante si aparece sólo en un sentido,
esto es, son descartadas todas aquellas palabras que aparecen en más de un
sentido.
Con estas medidas hemos intentado extraer aquellos patrones léxicos que se
encuentran fuertemente ligadas al sentido de WordNet correspondiente.
Se realizaron además experimentos usando los corpora CLEF y TREC para
algunas palabras, con la idea de tener un parámetro de comparación entre
______________________________________________________________________
___________________________________________________________________ 71
ellos. Así como con la Web para investigar la viabilidad y pertenencia de la
misma.
Etapa 2.- Descubrimiento de asociaciones léxicas compuestas por sentido
En esta etapa, se instrumentó el algoritmo “a priori” de data mining, y se adaptó
su uso a la Web y en particular a nuestra problemática. El objetivo de esta
etapa es descubrir asociaciones léxicas compuestas, del tipo (sentido-i ->
palabra-x...palabra-y), partiendo de asociaciones léxicas simples y aplicando
las medidas de fuerza y dispersión descritas. Se realizaron experimentos
usando tanto el corpus formado a partir de la Web, como los corpora CLEF y
TREC usando técnicas de minería de datos para extraer las asociaciones
léxicas compuestas. La idea básicamente es a partir de asociaciones simples
construir asociaciones compuestas aplicando las mismas medidas de fuerza y
dispersión tanto para la Web como para el CLEF o TREC.
Etapa 3.- Descubrimiento de secuencias léxicas por sentido.
En los experimentos realizados se tomó un tamaño de ventana de 1 a 5, esto
es el número de palabras que se toman a la derecha y a la izquierda del
sinónimo. Todas las secuencias ininterrumpidas de palabras deben empezar o
terminar con el sinónimo. Empezamos tomando una palabra a la izquierda y
una a la derecha y así de manera sucesiva hasta 5. Al igual que las etapas 1 y
2, las secuencias ininterrumpidas son filtradas para quedarnos sólo con las
secuencias que son significativas al sentido en cuestión aplicando las mismas
medidas de fuerza y dispersión. Se hicieron experimentos para el corpus
formado a partir de la Web como para los corpora CLEF y TREC.
______________________________________________________________________
___________________________________________________________________ 72
5.3 Actividades futuras
Actualmente, la medida de dispersión interna, es muy rígida ya que filtra las
palabras que no estén en el contexto de todos los sinónimos que componen al
sentido, independientemente de su frecuencia, lo que tal vez ocasione que
patrones léxicos significativos queden fuera del análisis. Por esta razón es
deseable implementar una ponderación que le de peso a las ocurrencias de
palabras de contexto de cada sinónimo basada en la frecuencia, aun y que no
aparezca en el contexto de todos los sinónimos del sentido. De esta manera se
podría asignar un valor probabilístico al discernir por un sentido, entre varios
sentidos atribuibles a una palabra polisémica, en función del peso del contexto
de los sinónimos que lo componen. Otra acción deseable es el utilizar la
metodología presentada por un lado a las demás categorías morfosintácticas y
por el otro aplicarla en otra lengua, por ejemplo el castellano, en la cual
podamos usar como recurso léxico externo EuroWordNet.
Se quiere además, integrar los patrones léxicos descubiertos con técnicas de
minería, en sistemas de desambiguación léxica, por ejemplo incluyéndolos en
el sistema basado en densidad conceptual con la idea de enriquecer el
contexto de las palabras a desambiguar.
A continuación se presenta un desglose de las actividades por etapa:
Etapa 4.- incremento del tamaño del corpus, colectando más ejemplos de la
Web. El objetivo es bajar más ejemplos de contextos de uso común de los
sinónimos que componen los sentidos, para poder, de esta forma identificar los
contextos usados con cada uno de ellos.
Etapa 5.- Aplicación de la metodología presentada en la extracción de patrones
léxicos para otras categorías morfosintácticas. El objetivo es recuperar
patrones léxicos pero no sólo para sustantivos, si no incluir además adjetivos,
verbos y adverbios.
______________________________________________________________________
___________________________________________________________________ 73
Etapa 6.- Aplicar la mitología a las palabras de la tarea lexical sample de
Senseval-3. El objetivo es obtener asociaciones y secuencias para este
conjunto de palabras tanto del corpus formado a partir de la Web como de los
corpora CLEF y TREC.
Etapa 7.- Integración de los patrones léxicos encontrados en varios sistemas
de desambiguación léxica. El objetivo tratar de mejorar las prestaciones que
ofrecen los sistemas de desambiguación de tanto supervisados como no
supervisados usando los patrones léxicos descubiertos.
Etapa 8.- Descubrir asociaciones y secuencias pero de las otras categorías
morfosintácticas e integrar dichos patrones léxicos en sistemas de
desambiguación del sentido de las palabras. El objetivo es repetir las etapas 2,
3 y 7 e integrar los patrones léxicos obtenidos en sistemas de desambiguación
del sentido de las palabras, tanto supervisados como no supervisados, y ver en
que porcentaje aumentan sus prestaciones al usar los patrones léxicos
obtenidos.
Etapa 9.- Descubrir asociaciones y secuencias entre synsets, utilizando sólo
textos etiquetados semánticamente . El objetivo es encontrar reglas de
asociación entre synsets y probar el impacto de nuevas conexiones semánticas
en el desempeño del método de densidad conceptual.
Etapa 10.- Enriquecimiento del corpus de entrenamiento con los patrones
obtenidos para los lexical sample en la etapa 7. el objetivo es comparar las
prestaciones (precisión y recall) de algunos de los métodos supervisados
(Bayes, modelos ocultos de Markov, vector machina, árboles de decisión, etc.)
entrenados con el corpus enriquecido.
Etapa 11.- Aplicación de la metodología propuesta a otros idiomas (por ejemplo
el castellano). El objetivo es encontrar patrones léxicos para palabras
polisémicas en castellano, usando EuroWordNet como recurso de
conocimiento externo y utilizar los patrones léxicos obtenidos con sistemas de
______________________________________________________________________
___________________________________________________________________ 74
desambiguación léxica y hacer un análisis del comportamiento de sus
prestaciones.
5.4 Cronograma
Cronograma 2005 2006 2007
Etaopa/mes Feb
Mar
Abr
May
Jun
Jul
Ago
Sep
Oct
Nov
Dic
Ene
Feb
Mar
Abr
May
Jun
Jul
Ago
Sep
Oct
Nov
Dic
Ene
Feb
Etapa 1
Etapa 2
Etapa 3
Etapa 4
Etapa 5
Etapa 6
Etapa 7
Etapa 8
Etapa 9
Etapa 10
Lectura Tesis
______________________________________________________________________
___________________________________________________________________ 75
Referencias
[Agrawal94] Agrawal R. y Srikant R., Fast algorithms for mining
association rules, VLDB-94, 1994.
[Aguirre96] Aguirre E. y Rigau G., A Proposal for Word Sense
Disambiguation using Conceptual Distance, Recents
advances in natural language processing, 1996.
[Baeza04] Baeza-Yates R., Challenges in the interaction of information
retrieval and natural lenguaje processing, CICLing, Mexico,
2004.
[Cavagliá01] Cavagliá G. y Kilgarriff A., Corpora from the Web,
Procedings 4th Annual CLUCK Colloquium, pp. 120-124,
2001.
[Celina03] Celina S., Gonzalo J. y Verdejo F., Automatic association of
web directories with word senses, Computacional
Linguistics, Volume 29, Number 3, pp.485-502, 2003.
[Choueka83] Choueka, Y., Klein, S. T., y Neuwitz, E. Automatic retrieval
of frequent idiomatic and collocational expressions in large
corpus, Association for Literary and Linguistic Computing
Journal 4(1):34–38, 1983.
[Decadt03] Decadt B., Hoste V., Daelemans W.: GAMBL, Genetic
Algorithm Optimization of Memory Based WSD, 3th
International conference, SENSEVAL-3, Barcelona España,
2004.
[Diab02] Diab M. y Resnik P., An unsupervised method for word
sense tagging using parallel corpora, Proc. 40th Annual
Meeting of the association for computational linguistics,
2002.
[Etzioni96] Etzioni O., The World Wide Web: Quagmire or Gold Mine?,
Communications of the ACM, Vol.39, No.11, pp. 65-68,
1996.
[Frawley92] Frawley W. y Piatesky-Shapiro G., Knowledge Discovery in
Databases: An Overview, AI Magazine, pag. 213-228, 1992.
______________________________________________________________________
___________________________________________________________________ 76
[Guzmán05a] Guzmán Cabrera R., Montes-y-Gomez M., Rosso P.,
Searching the Web for word sense collocations, IADIS
international conference, Algarve, Portugal, Febrero, 2005
[Guzmán05b] Guzmán Cabrera R., Rosso P., Montes-y-Gomez M.,
Gomez-Soriano J.M., Mining the Web for word sense
discrimination, Information and communication technologies
international symposium, Tetuan, Marruecos, Junio, 2005
[Ide98] Ide N. y Véronis J., Introduction to the Special Issue on
Word Sense Disambiguation: The State of the Art,
Computational Linguistics. Special Issue on Word Sense
Disambiguation, 24(1), 1 -40, 1998.
[Kilgarriff97] Kilgarriff A., I Don´t Believe in Word Senses, Computers
and the Humanities, 31(2),1997.
[Kilgarriff01] Kilgarriff A. y Palmer M., Introduction to the Special Issue
on SENSEVAL, Computers and the Humanities, 34 (1-2),
2001.
[Kilgarriff03] Kilgarriff A. y Greffenstette G., Introduction to the Special
Issue on Web as Corpus, Computational Linguistics 29(3),
pp.1-15, 2003.
[Kosala00] Kosala R. y Blockeel H., Web mining research: a survey,
SIG KDD Explorations, Vol. 2, pp. 1-15,2000.
[Lesk86] Lesk M.: Automatic sense disambiguation using machine-
readable directories: how to tell a pine cone from an ice
cream cone, Proc. SIGDOC conference, Canada, 1986.
[Mihalcea99] Mihalcea R. y Moldovan D., Automatic Acquisition of Sense
Tagged Corpora, Proceedings of Flairs '99, 1999.
[Mihalcea01] Mihalcea R. y Moldovan D.: A highly accurate bootstrapping
algorithm for word sense disambiguation, International
journal on artificial intelligence tools, 10(1-2), pp 5 -21, 2001.
[Mihalcea04] Mihalcea R., Making Sense Out of the Web, Workshop on
Lexical Resources and the Web for Word Sense
Disambiguation, IBERAMIA, Mexico, 2004.
[Miller 94] Miller, G.A., M. Chodorow, S. Landes, C. Leacock y R.G.
Thomas (1994), “Using a semantic concordance for sense
______________________________________________________________________
___________________________________________________________________ 77
identification”, en Proceedings of the ARPA Workshop on
Human Language Technology, 240-243, Plainsboro, NJ
[Miller95] Miller A., Wordnet: A lexical Database for English,
Comunications of the ACM, 38 (11): 39-41, 1995.
[Molina02] Molina A., Pla F., Segarra E., Moreno L.: Word sense
disambiguation using statistical models and wordnet, Proc.
3ed International conference on language resources and
evaluation, LREC2002, España, 2002.
[Molina04] Molina A., Desambiguación en procesamiento del lenguaje
natural mediante técnicas de aprendizaje automático, Tesis
doctoral, Dep. Sistemas Informáticos y Computación,
Universidad Politécnica de Valencia, 2004
[Montes00] Montes-y-Gómez M., López-López A. y Gelbukh A.,
Information Retrieval with Conceptual Graph Matching, 11th
International Conference on Database and Expert Systems
Applications DEXA 2000, Springer-Verlag, 2000.
[Montes02] Montes y Gómez M., Minería de Texto empleando la
Semejanza entre Estructuras Semánticas, Tesis Doctoral,
Centro de investigación en computación (CIC), Instituto
Politécnico Nacional (IPN), México, 2002.
[Montoyo00] Montoyo A., Método basado en marcas de especificidad
para WSD, Procesamiento del Lenguaje Natural, 24, 2000.
[Montoyo02] Montoyo A., Desambiguación léxica mediante marcas de
especificidad, Tesis Doctoral. Dep. de Lenguajes y
sistemas informáticos, Universidad de Alicante, 2002.
[Nica04] Nica M.L, El conocimiento lingüístico en la desambiguación
semántica automática, Tesis Doctoral, Facultad de filología
Departamento de Lingüística General, Universidad de
Barcelona, 2004.
[Pustejovsky96] Pustejovsky, J. y Boguraev B., Introduction: Lexical
Semantics in Context, Lexical Semantics: The Problem of
Polysemy, Oxford University Press, Oxford, 1996.
______________________________________________________________________
___________________________________________________________________ 78
[Rada89] Rada R., Mili H., Bicknell E., Blettner M.: Development an
application of metric on semantic nets. IEEE transantions
on systems, man and cibernetics, 19(1):17-30, 1989.
[Resnik00] Resnik P. y Yarowsky D., Distinguishing Systems and
Distinguishing Senses: New Evaluation Methods for Word
Sense Disambiguation, Natural Language Engineering 5(2),
113-133, 2000.
[Rosso03] Rosso P., Masulli F., Buscaldi D., Pla F., Molina A.:
Automatic noun sense disambiguation, Proc. CICLing 2003.
Lecture Notes in Computer Science, Apringer-Verlag, pp
275-278, 2003.
[Rosso05] Rosso P., Montes y Gomez M., Buscaldi D., Two web-
based approaches for noun sense disambiguation., CICLing,
pp 261-273, 2005.
[Smadja93] Smadja F., Retrieving collocations from text: Xtract,
Computational Linguistics. 7(4),143–177, 1993.
[Smrz01] Smrz P., Finding Semantically Related Words in Large
Corpora, FIMU Report Series:Masaryk University, 2001.
[Suárez02] Suárez A. y Palomar M., A maximum entropy-based word
sense disambiguation system, Proc. International
conference on computational linguistics (COLING-02),
Taipei, Taiwan, 2002.
[Sussna93] Sussna M.: Word sense disambiguation for free text
indexing using a massive semantic network, Proc. 2nd
International conference on information and knowledge
management, Airlington, Virginia, 1993.
[Véronis98] Véronis J., A study of polysemy judgements and inter-
annotator agreement, Programme and advanced papers of
the Senseval workshop, 1998.
[Véronis02] Véronis J., Sense tagging: does it make sense?, ACL-
Workshop on Word Sense Disambiguation, 2002.
[Volk01] Volk M.: Exploiting the WWW as a corpus to resolve PP
attachment ambiguities, Proc. Corpus Linguistics, Lancaster,
2001.
______________________________________________________________________
___________________________________________________________________ 79
[Volk02] Volk M., Using the web as a corpus for linguistic research,
publications of the Department of General Linguistics,
University of Tartu, 2002.
[Weaver55] Weaver, W., Translation, Machine Translation of
Languages, John Wiley & Sons, 15-23, 1955.
[Wilks90] Wilks Y., Fass D., Cheng-Ming Gou, McDonald J.E., Plate
T., Slator B.: Providing machine tractable dictionary tools,
Semantics and the lexicon MIT Press, 1990.
[Yarowsky92] Yarowsky D., Word sense disambiguation using statistical
models of Roget´s categories trained on large corpora, Proc.
14th international conference on computational linguistics,
COLING, France, 1992.