aprendizaje computacional: valoraciones personales sobre métodos de etiquetado gramatical de la...

Aprendizaje Computacional

Priscill Smilce OrueEscuela Técnica Superior de Ingeniería Informática,

Universidad de Málaga,Málaga - España

17 de febrero de 2012

Introducción

El Procesamiento del Lenguaje Natural (NLP - Natural Language Pro-cessing) es un enfoque computacional del análisis textual que está basado enun conjunto de teorías y tecnologías. La definición presentada por Liddy [7]establece que el Procesamiento del Lenguaje Natural es un rango de técnicascomputacionales teóricas para el análisis y representación de textos natura-les en uno o más niveles de análisis lingüísticos, con el propósito de lograrun procesamiento análogo al ser humano, para un rango de tareas y apli-caciones. Dentro del campo del PLN, una de las áreas de mayor desarrolloes el etiquetado gramatical, el cual constituye el tema principal del presentetrabajo.

Este reporte describe aspectos relacionados al etiquetado gramatical, mé-todos más comunes y su aplicación a la lengua española. Además, partiendode los conceptos presentados, se incluye una valoración personal sobre la si-tuación actual y perspectivas en el futuro cercano del etiquetado de partesdel habla. Para la realización de este trabajo, la composición se llevó a cabocon el editor LATEXy se consultaron diversas fuentes secundarias, con el finde ofrecer la información mas actualizada posible.

1. Conceptos de etiquetado gramatical

Los orígenes del Procesamiento del Lenguaje Natural se basan en variasdisciplinas. Liddy[7] afirma que los campos clave que aportaron sus conceptospara formar dicha área del conocimiento son:

1

Lingüística (enfoque en modelos formales y estructurales del lenguaje);por este motivo, el área de Procesamiento del Lenguaje Natural eraoriginalmente conocido como Lingüística Computacional.

Ciencias de la computación: dedicado al desarrollo de representacionesinternas de datos y procesamiento eficiente de dichas estructuras

Psicología cognitiva: ve al uso del lenguaje como una ventana a procesoscognitivos humanos, y tiene el objetivo de modelar el uso del lenguajeen una forma psicológicamente plausible.

Dentro del Procesamiento del Lenguaje Natural, el etiquetado gramatical(o partes de la oración) forma parte de un proceso llamado «Extracción dela Información» (EI). La EI se lleva a cabo con textos escritos y su objetivoprincipal es identificar la información útil dentro de un campo de interés defi-nido. Una vez identificada dicha información, se lo representa en un modelo.En la Figura 1 se observan las actividades llevadas a cabo para completardcho proceso [11].

Figura 1: Proceso de la Extracción de la Informacion

En la Figura 1, el etiquetado gramatical (en inglés Part-of-speech tag-ging) es una fase en el que el texto es dividido en unidades elementales yse vinculan a etiquetas que «describen su morfología y/o función gramaticalen el texto»[11]. En otras palabras, el etiquetado gramatical es un proce-so en donde los tokens son secuencialmente etiquetados con nomenclaturasintáctica, tales como «verbo» o «gerundio» o «conjunción subordinada».Un etiquetador puede ser entrenado y compilado para generar modelos, queluego son evaluados y refinados para uso posterior [2].

2

Para comprender el concepto del etiquetado gramatical, se presenta elsiguiente ejemplo [5]. Se tienen dos reglas gramaticales como:

DT SUSTANTIVO (equivalente a determinante mas sustantivo)

ADJ SUSTANTIVO (equivalente a adjetivo mas sustantivo)

Estas dos reglas pueden ser aplicadas para el etiquetado gramatical de se-cuencias de entrada, omitiendo toda la información lógica y léxica de cadauna de las palabras etiquetadas:

una hermosa montañaDT ADJ SUSTANTIVO

Cuadro 1: Etiquetado Gramatical

2. Métodos para el etiquetado gramatical

A partir del concepto definido del etiquetado gramatical, esta secciónpresenta tres de los métodos empleados para el mismo. En el proceso deExtracción de la Información, el etiquetado gramatical es un análisis léxi-co que explota al máximo la información contenida, usando únicamente lainformación léxica de la muestra de texto. Para lograr esto se necesita deun proceso de entrenamiento que se basa en «identificar y anotar todos losdatos deseados de un conjunto de documentos relevantes» [11].

Los primeros etiquetadores consistían en reglas construídas a mano paraasignar las etiquetas basándose en los patrones de las palabras y las eti-quetas asignadas a palabras que los precedían, pero su contenido léxico erarestringido, primariamente para excepciones a las reglas. Más adelante, lasCadenas Ocultas de Markov (HMM - del inglés Hidden Markov Model) fue-ron importadas de los estudios de reconocimiento de la voz y aplicados aletiquetado gramatical; tales cadenas fueron desarrolladas hasta convertirseen el estándar de la materia [1].

2.1. Etiquetadores basados en reglas

En los etiquetadores basados en reglas, un conjunto de etiquetas sonasignados a palabras sobre la base de análisis léxicos y morfológicos, y luegodichas tiquetas son eliminadas de acuerdo a reglas contextuales (patrón-acción); por ejemplo: «la palabra actual no es un verbo si la palabra pre-cedente es un determinante»[1]. Es el enfoque más antiguo que utiliza re-

3

glas escritas a mano para el etiquetado. Los etiquetadores basados en reglasdependen de los diccionarios para obtener las etiquetas para cada palabracandidata al etiquetado. Las reglas escritas a mano son usadas para iden-tificar la cetiqeuta correcta cuando una palabra tiene más de una etiquetaposible. La disambiguación es hecha mediante el análisis de característicaslingüísticas de cada palabra, su palabra predecesora y otros aspectos [8].

Una crítica a este tipo de etiquetadores es la cantidad de esfuerzo nece-sario para escribir reglas de desambiguación, pero su rendimiento es mejorque el etiquetador HMM, según estudios informales [1]. Las reglas puedenser reglas de patrones contextuales compiladas en un autómata de estadosfinitos que están intersectados con representaciones de oraciones lexicamenteambiguas. TAGGIT es el primer etiquetador basado en reglas que emplea unconjunto de 71 eitquetas y 3300 de reglas de desambiguación. Estas reglasdesambiguaron el 77% de un millón de palabras contenidas en el corpus dela Universidad de Brown [8].

2.2. Etiquetadores de aprendizaje basados en transforma-ción

El etiquetador de aprendizaje basado en transformación (TBL - del inglésTransformation-Based Learning) arranca con un estado inicial, y requiere uncorpus de entrenamiento correctamente anotado, para el proceso de apren-dizaje. El proceso iterativo de aprendizaje adquiere una lista ordenada dereglas o transformaciones que corrige los errores del estado inicial. En cadaiteración, la transformación que logró el mayor beneficio es seleccionado. Du-rante el proceso de aprendizaje, las plantillas de transformaciones permitidaslimitan el espacio de búsqueda para posibles reglas de transformación. Lastransformaciones propuestas son formadas por la instanciación de las planti-llas de transformación en el contexto de etiquetas erróneas. El algoritmo deaprendizaje se detiene cuando no se puede mejorar el estado actual de losdatos de entrenamiento o cuando un umbral prescrito es alcanzado [6].

La salida de un TBL es una secuencia ordenada de transformacionescomo: Tagi ->Tagj in context C.

Un aprendiente típico basado en transformaciones tiene un anotador deestado inicial, un conjunto de transformaciones y una función objetivo. Elanotador es un programa que asigna etiquetas a cada palabra de un texto.Puede ser uno que asigna etiquetas en forma aleatoria o siguiendo un modelode Markov. Usualmente asigna cada palabra con su etiqueta más probable,tal como está indicado en el corpus. Por ejemplo, «walk» sería inicialmenteetiquetado como un verbo. Considere la siguiente oración: «The rabbit runs»

4

Un etiquetador TBL puede identificar facilmente que «rabbit» es un sustan-tivo si se cumple la regla: si la etiqueta previa es un artículo, la siguienteetiqueta es un verbo [8].

Las ventajas de este tipo de etiquetado son que se necesitan a priori deun pequeño número de reglas simples para iniciar el proceso. Cuando dichasreglas son aprendidas los procesos de desarrollo y depurado son más simples.Además la lista de transformación puede ser compilada en una máquina deestados finitos, resultando en un etiquetador más rápido. Las desventajasson que este método no ofrece probabilidades de etiquetado y que el tiempode entrenamiento es largo, particularmente en cuerpos extensos, que soncomunes en el Procesamiento del Lenguaje Natural [8].

2.3. Cadenas ocultas de Markov - HMM

En las cadenas ocultas de Markov, HMM, se suponen que dos secuenciasde símbolos, una visible y otra oculta, existen. Los símbolos visibles repre-sentan los símbolos observados en la muestra y su dependencia se basa enlos últimos símbolos de la secuencia oculta. La secuencia oculta no es obser-vable en forma directa, define el estado actual del modelo y «la transición alsiguiente estado sólo depende del estado anterior» [10].

Al aplicar las HMM en el contexto del etiquetado gramatical, Abney [1]menciona las probabilidades de transición y de emisión. Las probabilidadesde transición son las probabilidades de una etiqueta a partir de una etiquetaprevia. Las probabilidades de emisión son las probabilidades de una palabraa partir de una etiqueta. La probabilidad de una secuencia gramatical par-ticular mas una oración es el producto de las probabilidades de transición yemisión. Consideremos el ejemplo 2 en inglés:

Figura 2: Ejemplo aplicando HMM

Dos ventajas de los etiquetadores basados en modelos HMM son su exac-titud y el hecho que pueden ser entrenados con texto no registrado. Sinembargo, es importante considerar que si se entrena un etiquetador HMM

5

sin código hecho a mano, tendrá éxito en encontrar un modelo cuya apro-ximación (cross-entropy) será baja. Entonces, la salida tendrá poca relacióncon las asignaciones de etiqueta que se desean obtener como salida. Paraobtener un buen rendimiento, se requiere una buena cantidad de materialpreparado manualmente [1].

3. Métodos para el etiquetado gramatical de mues-tras en Español

Varios son los estudios de etiquetado gramatical aplicados a la lengua Es-pañola. En esta sección se presentan tres métodos con diferentes aplicacionesa la misma lengua. Las mismas son: la Gramática de dependencias basadaen patrones de etiquetas, aplicado a la generación de formalisimos grama-ticales; Grafos de Sufijos de Predicción Multiatributos (MPSG - del ingésMultiattribute Prediction Suffix Graphs), aplicado al etiquetado de palabrascon diferentes funciones; y el Etiquetador de Español Simple, que sirve parala detección y corrección de errores de acentuación.

3.1. Gramática de dependencias basada en patrones de eti-quetas

Más que una herramienta de etiquetado gramatical de la lengua española,la Gramática de dependencias basada en patrones de etiquetas consiste en unformalismo gramatical. Su objetivo es escribir gramaticas de dependencias apartir de los patrones PoS (del inglés Part-of-Speech) que contienen informa-ción léxica y morfológica. Partiendo de las gramáticas escritas aplicando esteformalismo, «un compilador genera analizadores sintácticos robustos basa-dos en expresiones regulares» para el español. De esta forma, los analizadorescreados identifican dependencias que pueden servir para mejorar las aplica-ciones de Procesamiento del Lenguaje Natural [5]. Una gramática escrita coneste método tiene un conjunto de reglas dependientes del contexto. El objeti-vo de cada regla es identificar una relación nucleo-dependiente «por medio depatrones de etiquetas morfosintácticas asociadas a información morfológicay léxica». Las reglas tienen dos partes: el patrón de etiquetas y el nombrede la relación nucleodependiente. Por ejemplo:

DobjR: VERB [DT]? [ADJ]* NOUN

Los dos puntos sirven para separar el patrón de etiquetas, que está a laderecha, del nombre de la dependencia, DobjR. Ambos, el nombre de las

6

dependencias con el de las etiquetas morfosintácticas se declaran en ficherosaparte. Estos son los elementos esenciales de una regla. Por otra parte, se pue-den especificar dichas reglas mediante el uso de estructuras tipo «atributo-valor, provistas de información morfológica y léxica, asi como operacionestales como concordancia, recursividad, herencia», etc; todas especificadas enficheros externos y vinculados a los ficheros de la reglas [5].

3.2. Grafo de sufijos de predicción multiatributos

La lengua española tiene palabras que cumplen con más de una fun-ción dentro del esquema gramatical. Por este motivo, es importante diseñaretiquetadores que además de identificar los categorías gramaticales de unapalabra, también sean capaces de distinguir que categoría gramatical corres-ponde a una palabra, dado su entorno de ocurrencia. El Grafo de sufijos depredicción multiatributos (MPSG - del inglés Multiattribute Prediction SuffixGraphs) combina tres enfoques para lograr el cometido de la distinción decategorías gramaticales de palabras con más de una función [9]:

Un etiquetador de palabras simple basado en árboles de decisión

Un etiquetador grmaatical basado en el modelo de aprendizaje MPSG

Una estructura de etiquetas

La base de esta herramienta es la conjunción de los tres elementos para mejo-rar el rendimiento del etiquetador gramatical, que permiten etiquetar corpuslimitados, pero con gran cantidad de funciones, como ocurre con el español.La ventaja de trabajar con etiquetadores de palabras basados en árboles dedecision es que no se necesita elaborar lexicones que solamente enumeranposibles etiquetas. Además, el MPSG toma sus características de las cade-nas de Markov multiatributo, en donde un estado MPSG es equivalente a unestado Markov, lo cual consiste en una expansión de los trabajos originalescon cadenas de Markov [9].

3.3. Etiquetador de español simple

Las herramientas anteriores consideraban la separación morfo-sintácticade las unidades de la lengua española. Este etiquetador detecta y corrigeerrores de acentuación de la lengua española. La omisión del acento gráficoes uno de los errores más comunes de la redacción escrita en español. Elproblema consiste en que si dicha omisión cambia la categoría gramatical de

7

una palabra, entonces habrá un error en el etiquetado y su posterior procesa-miento. La herramienta propuesta se basa en heurísticas que determinan uncontexto lineal y un pequeño conjunto de palabras que difieren solamente dela marca del acento. La idea es aplicar a numerosos sustantivos o adjetivoscomo la palabra número que se convierte en un verbo personal cuando carecedel acento gráfico [4].

El algoritmo, dado un sustantivo o un adjetivo, puede determinar si lascuatro palabras contextuales a su alrededor son apropiadas para el mismo.Luego se aplican los conceptos de verificadores de estilo que en lugar deverificar la situación actual en el texto, se forma una hipótesis acerca de unposible error en el texto, y a continuación se comprueba esta hipótesis. Sila hipótesis es razonable, se reporta un error. El algoritmo analiza el texto.Cada palabra se busca en dos listas: una lista de palabras acentuadas y lalista automáticamente compilada de sus contrapartes no acentuadas. Lascaracterísticas de la palabra encontrada, género y número, son tomadas dela lista. Suponga que la palabra analizada es ω0, las palabras inmediatas enel contexto linear serán, ω − 1, ω1, ω2, de manera que el orden será: ω − 1,ω0, ω1, ω2 [4].

A partir de los datos obtenidos, el trabajo del algoritmo depende en quelista fue encontrada la palabra. Si fue encontrada en la lista de acentuadas,se considera un sustantivo o adjetivo y se verifica la propiedad en el contex-to inmediato. Si la palabra fue encontrada en la lista de no-acentuados, selo considera un verbo. Como el algoritmo tiene limitaciones en el contextoverbal, haciendo las correspondientes pruebas de hipótesis[4].

4. Valoraciones personales

Partiendo de los conceptos presentados en este trabajo, se detallan lasvaloraciones personales con respecto al tema tratado. En primer lugar, esimportante destacar que el concepto principal de este estudio ha sido eletiquetado gramatical de unidades morfo sintácticas en textos escritos. Cadauno de los métodos presentados presenta sus ventajas y desventajas a la horade asignar una etiqueta con funciones gramaticales a una palabra de entrada.

Para entender mejor la posición actual del Procesamiento del LenguajeNatural y su perspectiva futura, es importante recordar las característicasdel lenguaje humano. La distinción del lenguaje humano de otros sistemasde comunicación se inician en los procesos de producción y percepción, asícomo de otros aspectos más abstractos como las conexiones arbitrarias entresonido y significado o la abilidad de crear nuevos mensajes. Particularmente,

8

la creatividad es un aspecto que influye directamente en la calidad de losetiquetadores gramaticales.

El lenguaje humano crea o presta nuevas palabras cuando la ocasión lorequiera. Es inherentemente flexible y se adapta a nuevas circunstancias ynuevas cosas para expresar. Chomsky, en la década de 1950, mencionó quelos lenguajes son modificados para suplir una forma gramatical y su voca-bulario. La noción de creatividad fue usada para vincular teorías asociativasal argumentar que en principio, conexiones de estímulo-respuesta no puedenexplicar totalmente las nuevas oraciones. El secreto de la creatividad es elsistema gramatical a través de las cuales nuevas aseveraciones pueden serproducidas y comprendidas [3]. Además, la constante evolución tecnológicahace que nuevas palabras ingresen al vocabulario de un idioma.

Considerando la capacidad creativa del lenguaje humano, la creación yuso de nuevas palabras en teoría no afectaría al rendimiento de los etique-tadores. Cada vez que se introduce un nuevo vocabulario, directamente seentrena al etiquetador. Sin embargo, el problema principal radicaría en elpréstamo de palabras de un idioma a otro. Los extranjerismos deben sertratados teniendo en cuenta alguna clasificación en etiquetadores de más deun idioma. Por ejemplo, la palabra software está en inglés, pero también selo usa en su forma original en el español. Entonces, ¿cómo un etiquetadordistinguiría a que idioma pertenece una palabra?, ¿puede un etiquetadorcontener, además de información morfo-sintáctica, datos sobre el origen dela palabra?

Con respecto al etiquetado gramatical en general, se recurren a árboles,estructuras y modelos matemáticos para hacer el tratamiento de palabras. Alcomparar su rendimiento, se han obtenido valores altos y competitivos entresí. Sin embargo, un tema en común en los reportes de los métodos consultadoses el tratamiento del ruido. El ruido, concepto mencionado por Triviño [9]en el modelo MPSG y afecta a otros métodos que requieran entrenamiento,consiste en emplear etiquetas con errores durante en proceso de aprendizajedel modelo. En los métodos estudiados no se presenta un mecanismo detratamiento de errores, porque se considera a priori que las etiquetas soncorrectas, por lo que todo el proceso sigue su curso normal hasta hallar losresultados no esperados.

Resumiendo, los extranjerismos y el ruido son aspectos que necesitanmayor investigación en el área de etiquetado de palabras. Con lograr unavance con estos puntos, se lograrán etiquetadores gramaticales más exactos.Además, una vez lograda la exactitud, se pueden trabajar con otros métodosque incorporen mayor eficacia y eficiencia, en términos de tiempo y calidadde aprendizaje del corpus de entrenamiento.

9

Conclusión

Este trabajo ha presentado un estudio sobre los etiquetadores gramatica-les. Primeramente se definió el concepto de etiquetadores gramaticales dentrodel contexto de la Extracción de la Información. A continuación se presen-taron tres métodos de etiquetado gramatical. Debido a las característicaspropias del español, se detallaron tres herramientas aplicadas en el etiqueta-do gramatical. Finalmente, considerando toda la base teórica explicada, seincluyó una valoración personal sobre el tema.

El etiquetado gramatical (en inglés Part-of-speech tagging) es una fase enel que la entrada es dividida en partes bàsicas y se vinculan a etiquetas quedescriben su morfología y/o función gramatical en el texto. Existen variosmodelos matemático-lingüísticos que llevan a cabo esta tarea. Cada una deellas tiene sus ventajas y desventajas. Sin embargo, como se describió en lavaloración personal, dos puntos deben ser considerados en el momento dediseñar futuros etiquetadores gramaticales: la existencia de extranjerismosen etiquetadores multilingües y el tratamiento del ruido (entrenamiento conetiquetas erróneas).

Referencias

[1] Steven Abney. Part-of-speech tagging and partial parsing. Corpus-BasedMethods in Language and Speech., 1996.

[2] Alias-i. Lingpipe 4.1.0. Sitio Web; accedido 15-Feb-2012.

[3] Vivian Cook. Senses of language, 1997. Sitio Web; accedido 16-Feb-2012.

[4] S. N. Galicia-Haro, I. A. Bolshakov, and A. F. Gelbukh. A simple spa-nish part of speech tagger for detection and correction of accentuationerror. pages 219–222, 1999. Online; accedido 15-Feb-2012.

[5] Pablo Gamallo Otero and Gonzalo Gonzalez Sanchez. Una gramaticade dependencias basada en patrones de etiquetas. Procesamiento delLenguaje Natural,, 34(43):315–323, 2009.

[6] Burcu Karagol-Ayan, David Doermann, , and Amy Weinberg. Adaptivetransformation-based learning for improving dictionary tagging. ACLAnthology: A Digital Archive of Research Papers in Computational Lin-guistics, 2012. Documento Web; accedido 16-feb-2012.

10

[7] Elizabeth D. Liddy. Natural Language Processing. Encyclopedia ofLibrary and Information Science, 2da edition, 2001.

[8] Natural Language Processing. Rule-based parts-of-speech tagging, De-cember 2009. Sitio Web; accedido 16-Feb-2012.

[9] José L. Triviño and Rafael Morales-Bueno. Using multiattribute predic-tion suffix-graphs for spanish part-of-speech tagging. Articulo CampusVirtual.

[10] Jose Luis Triviño. Modelos de aprendizaje para el estudio de sequenciasde simbolos. PhD thesis, University of Málaga, Mayo 2003. MaterialCampus Virtual.

[11] Luis Villaseñor, Aurelio Lopez, Manuel Montes, and Claudia Vazquez.Tratamiento automático de textos en español. Red de Revistas Científi-cas de América Latina y el Caribe, España y Portugal, 22(038):145–166,Diciembre 2003.

11

aprendizaje computacional: valoraciones personales sobre métodos de etiquetado gramatical de la...

Documents