-
UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO
AUTOMATIZACIÓN DEL ANÁLISIS SINTÁCTICO PARA EL ESPAÑOL AMERICANO CON EL FIN DE CREAR UN TREEBANK ESTANDARIZADO
Tesis sometida a la consideración de la Comisión del Progran1a de Estudios de Posgrado
en Con1putación e Informática para optar al grado y título de Maestría Académica
en Con1putación e Informática
M.INOR SANDÍ SALAZAR
Ciudad Universitaria "Rodrigo Facio", Costa Rica
2017
-
DEDICA TO RIA
A mi Padre Celestial, quien ha sido fortaleza y soporte durante mi vida, fuente de sabiduría, verdad y pasión. Nada sucede si sus manos no obran a favor del que en su Nombre espera y actúa.
A Don Alejandro García, padre, amigo, maestro y compañero en las buenas y en las malas, descubridor de talentos y oportunidades. Quien creyó en mí cuando más lo necesitaba, y me demostró el poder de la lealtad.
A mi esposa, refugio y flor cuyo aroma siempre hace brotar una sonrisa, incluso en los momentos más duros de la vida. Su solidaridad y fe han sido fuente de inspiración.
A mi mamá, quien en cada caminata en aquellos senderos polvorientos de Curridabat a fines de los setentas me inculcó la perseverancia y la disciplina.
A mi papá, quien hubiera disfrutado este logro como suyo, después de tantas noches de oración.
ii
-
AGRADECIMIENTOS
A mi Padre, por el don de la vida y la pasión por investigar.
A Don Alejandro García, por haber soportado integralmente este proyecto desde sus inicios.
A mi esposa, por las horas de investigación que demandaron una paciente espera.
A mis padres, por depositar sus esfuerzos para que alcanzara estos caminos.
Al Comité de Tesis, por su sabia labor de dirección en este proceso de investigación.
A Gonzalo, por su respaldo como jefe y amigo en las etapas más críticas de la investigación.
A mis profesores de español, Zelmira Ortiz de Chaves y Rafael Eligio Rodríguez, quienes me inculcaron su amor por la lengua española.
111
-
"Esta tesis fue aceptada por la Comisión del Programa de Estudios de Posgrado en Computación e Lnformática de la Universidad de Costa Rica, como requisito parcial para optar al grado y título de Maestría Académica en Computación e Informática."
Dr. Vladimir Lara Villagrán Representante del Decano
Sistema de Estud ios de Posgrado
Asesor
\
Jp4µ;:3f;_'> Msc. Edgar Casasola Murillo
Asesor
Representante del Director P rograma de Posgrado
Estudiante
iv
-
TABLA DE CONTENIDO
DEDICATORJA
AGRADECIMIENTOS
RESUMEN
LISTA DE CUADROS
LISTA DE FIGURAS
1. INTRODUCCIÓN l. l. Antecedentes
1.2. Planteamiento del problema
1.3. Objetivos de la investigación
1.3.1. Objetivo general 1.3 .2. Objetivos específicos
1.4. Justificación
2. MARCO TEÓRJCO 2.1. Niveles de análisis del lenguaje natural
2.1.1. Fonética 2.1.2. Fonología 2.1.3. Morfología 2.1.4. Sintaxis 2.1.5. Semántica 2.1.6. Pragmática
2.2. Fundamentos de las teorías gramaticales contemporáneas
2.2.1. Gramática de dependencias 2.2.1.1. Papel de las palabras 2.2.1.2. Dependencias 2.2.1.3. Nudos 2.2.1.4. Valencias 2.2.1.5. Gramática 2.2.1.6. Representación gráfica 2.2.2. Gramática generativa.
2.3. Gramática Léxico-Funcional (LFG)
2.3. l. Generalidades 2.3 .2. Estructuras para la representación de la oración 2.3 .2.1. Estructura constituyente (estructura-e) 2.3.2.2. Estructura funcional (estructura-f)
2.4. Análisis estructural de la oración
2.4.1. Distinción entre oración y frase 2.4.2. La frase 2.4.3. La oración
2.5. Componentes básicos de fa oración
2.5. l. Sujeto (S) 2.5.2. Predicado (P)
2.6. Clasificación de oraciones
V
ll
iii
IX
X
X
1 1
6
9
9 9 9
14 14
14 15 15 15 16 16 17
17 17 17 18 19 19 20 20 22
22 23 23 24 25
25 25 26 26
26 27 28
-
2.6 .1. Clasificación según su estructura interna 2.6.2. Clasificación según la presencia del sujeto 2.6.3. Clasificación según la naturaleza del verbo 2.6.4. Clasificación según el tipo de voz
2. 7. Sintagmas
2.7.1. Definición 2.7.2. Características 2.7.3. Tipos de sintagmas 2.7.3.1. Sintagma nominal (SN) 2.7.3.2. Sintagma adjetivo (SAdj) 2.7.3.3. Sintagma verbal (SV) 2.7.3.4. Sintagma adverbial (SAdv) 2.7 .3 .5. Sintagma preposicional (SPrep)
2. 8. Categorías de las palabras en la oración
2.8.1. Sustantivo o nombre 2.8.2. Adjetivo 2.8.3. Determinante 2.8.4. Verbo 2.8.5. Adverbio 2.8.6. Pronombre 2.8.7. Conjunción 2.8.8. Preposición 2.8 .9. Interjección
2.9. Accidentes gramaticales en los componentes de la oración
2.9 .1. Persona 2.9.2. Género 2.9.3. Número 2.9.4. Grado 2.9 .5. Tiempo 2.9.6. Aspecto 2.9.7. Modo 2.9.8. Voz
2.1 O. j\lforfemas
2.10.1. Definición 2.1 O .2. Clasificación 2.10.3. La importancia de los morfemas para la sintaxis
2.11. Relaciones de dependencia
2.11.1. Sujeto (Suj) 2.11.2. Complemento directo (CD) 2.11.3. Complemento indirecto (CI) 2.11.4. Complemento predicativo (CP) 2.11.5. Complemento de régimen (CR) 2.11.6. Complemento circunstancial (CC) 2.11.7. Complemento agente (CA) 2.11.8. Atributo (A)
2.12. Etiquetado de categorías gramaticales y relaciones de dependencia
2.12.1. Etiquetado de las categorías gramaticales 2.12.2. Etiquetado de las relaciones de dependencia
vi
28 29 29 30 30
30 31 31 32 32 33 33 33 34
34 34 35 36 36 37 37 38 38 38
39 39 39 40 40 41 41 42 42
42 42 43 43
43 44 45 45 46 46 47 47 48
48 49
-
2. 13. Representaciones gráficas de estructuras sintácticas
2.13. l. Paréntesis etiquetados 2.13.2. Llaves 2.13 .3. Árboles sintácticos
2.14. Treebanks
2.14.1. Concepto 2.14.2. Utilidad de los treebanks 2.14.3. Tipos de treebanks 2.14.4. Diferencias entre treebanky corpus 2.14.5. Treebanks utilizados para el idioma español 2.14.6. Representación computacional de un treebank
2. 15. Dependencias universales
2.15 .1. Concepto 2.15 .2. Principios de diseño 2.15.1. Elementos computacionales utilizados
2. 16. Análisis sintáctico desde la óptica computacional
2.16 .1. Analizador sintáctico 2.16.2. Requerimientos de un analizador sintáctico 2.16.3. Tipos de analizadores sintácticos 2.16.3 .1. Analizadores sintácticos según reglas 2.16.3 .2. Analizadores sintácticos probabilísticos
2. 17. Resumen
3. METODOLOGÍA 3.J. Diseño metodológico
50
50 51 51 52
52 52 53 53 53 54 55
56 56 56 60
60 61 62 62 63 65
66 66
3. l. l. Actividad metodológica 1: Identificar y caracterizar textos anotados para el español 66 3 .1.2. Actividad metodológica 2: Establecer la equivalencia entre anotaciones 66 3.1.3. Actividad metodológica 3: Proponer un modelo de creación automática de un treebank
67 3.1.4. Actividad metodológica 4: Evaluar en qué proporción puede ser automatizado el proceso de creación de un treebank 68 3.1.4.1. Métricas para evaluación de treebanks 69
3.2. Enfoque 70
3.3. Fuentes de información 70
3 .3. l. Artículos y libros del área de la Lingüística Computacional 70 3 .3 .2. Fuentes para el estudio de la gramática de la lengua española 71 3 .3 .3. Artículos y sitio oficial en Internet sobre las dependencias universales 71 3.3.4. Treebanks y corpus obtenidos 71 3.3.5. Herramientas computacionales empleadas 71
3.4. Objetos 72
3.5. Alcances y limitaciones 72
3.5.1. Alcances 72 3 .5 .2. Limitaciones 73
vii
-
4. RESULTADOS 74 4.1. Etapa 1: Identificar mediante búsqueda literaria varios c01pus y treebanks utilizados para
el idioma espcn?ol 74
4.1.1. Seleccionar mediante búsqueda literaria al menos cinco corpus utilizados para el idioma español 74 4.1.2. Determinar cuáles características de estos corpus son relevantes para la investigación.74 4.1.3. Crear un cuadro comparativo con las características de los corpus encontrados. 76 4.1.4. Seleccionar el corpus que más se ajuste a los propósitos de la investigación. 76
4.2. Etapa 2: Establecer la equivalencia entre anotaciones 78
4.2.1. Representar las reglas de equivalencia para la información morfológica de treebanks y co1pus de la muestra. 78 4.2.2. Representar las reglas de equivalencia para la información sintáctica de los treebanks de la muestra 81
4.3. Etapa 3: Proponer un modelo de creación automática de un treebank 82
4.3.1. Diagrama de clases y descripción general de clases y métodos desarrollados 82 4.3 .2. Algoritmo para la identificación de oraciones simples 84 4.3 .3. Algoritmo para el análisis sintáctico de oraciones 85 4.3.4. Implementación de reglas gramaticales para identificar la función sintáctica 86 4.3.5. Ejemplos de oraciones analizadas exitosamente 87 4.3.6. Medición de la eficiencia del modelo propuesto 88
4.4. Etapa 4: Evaluar en qué proporción puede ser automatizado el proceso de creación de un
~~~ ~
4.4.1. Información general sobre el proceso para evaluar el treebank 89 4.4.2. Evaluación general del treebank según las métricas definidas 92 4.4.3. Evaluación de acuerdo con las categorías gramaticales 95 4.4.4. Evaluación de acuerdo con las funciones sintácticas 97
5. CONCLUSIONES
6. INVESTIGACIÓN FUTURA 6.1.1. Trabajos futuros para investigaciones en Computación 6.1.2. Trabajos futuros para investigaciones en Lingüística
7.ANEXOA
8.ANEXOB
9. REFERENCIAS BIBLIOGRÁFICAS
viii
100
107 107 107
109
115
121
-
RESUMEN
Esta investigación se orienta hacia el análisis de textos que han sido etiquetados morfológicamente. Estos textos son analizados por lingüistas para asignar a cada palabra su función sintáctica en la oración a la que pertenecen.
Este proceso generalmente es manual. Cada oración es analizada elemento por elemento hasta completar su análisis y proseguir con otra. Cuando la cantidad de oraciones es grande, el tiempo invertido por los lingüistas es considerable, pudiendo absorber espacios requeridos por el investigador para otras tareas.
Las investigaciones en procesamiento de lenguaje natural buscan automatizar parcial o totalmente los análisis morfosintácticos. Cada equipo de expertos ha generado su propio etiquetado de categorías gramaticales y funciones sintácticas, siguiendo una corriente de análisis del lenguaje natural. Dos de ellas son la gramática generativa y la gramática de dependencias.
Un alto porcentaje de las investigaciones mencionadas se ha hecho para lenguas como el inglés, alemán y chino, por citar algunas. El análisis para el español se inició después, enfatizándose las investigaciones en su variante peninsular y no en la americana.
En los últimos años surgió una tendencia en la que varias investigaciones han desarrollado etiquetados morfosintácticos para estandarizar el análisis con formatos universales. Dicho de otra forma, pueden emplearse para analizar varias lenguas con un mismo formato.
Esta tesis recopila información sobre algunos textos analizados en español para determinar sus características y ofrecer un posible punto de partida para posteriores investigaciones. Se incluye un inventario de etiquetados morfosintácticos usados en estos textos anotados, para hallar semejanzas y diferencias entre estos. El fin es comparar estos formatos, para determinar el más útil a la hora de estandarizar los análisis.
También se examinan conjuntos de oraciones en español cuyas palabras poseen un sistema de etiquetado utilizado previamente para análisis de textos en diferentes lenguas. Esto se hace mediante un módulo automático de extracción, un módulo de análisis sintáctico que utiliza reglas gramaticales con un etiquetado universal y un módulo de almacenamiento en disco.
Para validar los resultados obtenidos en el proceso descrito se eligieron métricas conocidas en el área de la Computación Lingüística. Estas métricas comparan los textos anotados creados por la aplicación implementada con sus originales, para validar su eficacia.
Finalmente, se presentan las conclusiones obtenidas luego de la investigación, así como trabajos futuros a partir de las áreas de mejora encontradas.
ix
-
LISTA DE CUADROS Cuadro 1 Soporte existente a la tecnología lingiiística para el Español (Melero et al, 2012) ......................... 11 Cuadro 2 Algunos analizadores sintácticos 'open source ' ............................................................................... 12 Cuadro 3 Conjunto de reglas definidas para una gramática de dependencias ............................................... 20 Cuadro 4 Conjunto de reglas definidas para una gramática LFG .................................................................. 23 Cuadro 5 Subconjunto de etiquetados para categorías de palabras ................................................................ 49 Cuadro 6 Subconjunto de etiquetados para relaciones de dependencia ........................................................ .49 Cuadro 7 Estructura de un archivo conformato CoNLL-X (HajiC, 2009) ....................................................... 55 Cuadro 8 Información mo1fológica de las dependencias universales (Nivre, 2015) ........................................ 57 Cuadro 9 Información sintáctica de las dependencias universales (J,livre, 2015) ............................................ 58 Cuadro JO Estructura de un archivo confonnato CoNLL-U ........................................................................... 59 Cuadro 11 Estructura de una oración empleando elformato CoNLL-U ......................................................... 59 Cuadro 12 Representación de una gramática libre de contexto ...................................................................... 62 Cuadro 13 Cuadro comparativo de corpus y treebanks seleccionados ........................................................... 76 Cuadro 14 Cuadro comparativo de anotaciones morfológicas presentes en los corpus y treebanks seleccionados para esta investigación .............................................................................................................. 79 Cuadro 15 Cuadro comparativo de anotaciones sintácticas presentes en los treebanks seleccionados para esta investigación .............................................................................................................................................. 81 Cuadro 16 Descripción general de las clases desarrolladas durante la investigación ................................... 84 Cuadro 17 Diez ejemplos de oraciones analizadas con 100% de eficacia ...................................................... 88 Cuadro 18 Tiempos de ejecución del modelo propuesto por módulo .............................................................. 89 Cuadro 19 Ejemplo de la estructura y contenido del archivo analysis-result.txt ............................................ 90 Cuadro 20 Porcentajes de acierto del treebank según las métricas definidas en la metodología ................... 93 Cuadro 21 Resultados de la evaluación del treebank según categorías gramaticales .................................... 95 Cuadro 22 Resultados de la evaluación del treebank segúnfanciones sintácticas ......................................... 98 Cuadro 23 Oración activa, con 1 elemento y 1 verbo .................................................................................. 115 Cuadro 24 Oración activa, con 4 palabras y sujeto tácito ............................................................................ 115 Cuadro 25 Oración activa, con 8 elementos, sujeto y el verbo copulativo ser .............................................. 115 Cuadro 26 Oración pasiva, con 11 elementos y la combinación verbo ser más participio ........................... ] 16 Cuadro 2 7 Oración pasiva sin sujeto, con 11 elementos ............................................................................... 116 Cuadro 28 Oración con el pronombre 'se' sin sujeto, con 14 elementos ...................................................... 117 Cuadro 29 Oración activa, con 18 elementos, sujeto y verbo en presente perfecto ..................................... 117 Cuadro 30 Oración activa, con 21 elementos, sujeto, ................................................................................... 118 Cuadro 31 Oración activa, con 27 elementos, sujeto y verbo transitivo ....................................................... 118 Cuadro 32 Oración activa, con 32 elementos, sujeto y verbo transitivo ....................................................... 119
LISTA DE FIGURAS Figura 1 La oración "Él come un sandwich" analizada en inglés y ji·ancés . .................................................... 5 Figura 2 Oración analizada en finés siguiendo el etiquetado de las dependencias universales ........................ 5 Figura 3 Árbol de constituyentes (Chomsky) y árbol de dependencias (Tesniere) para la oración ................... 7 Figura 4 Árbol de dependencias con ejemplos de palabras regentes y regidas ............................................... 18 Figura 5 Árbol de dependencias para el enunciado "Yo leo la oración simple" ............................................. 20 Figura 6 Árbol de constituyentes para el enunciado "Yo leo la oración simple" ............................................ 21 Figura 7 Estructura-e generada a partir de las reglas definidas ..................................................................... 24 Figura 8 Estructura.¡ correspondiente al enunciado 'Yo leo la oración' ....................................................... 25 Figura 9 Representación de una oración utilizando llaves .............................................................................. 5 J Figura 1 O Representación de una oración utilizando un árbol sintáctico ........................................................ 51 Figura 11 Ubicación del analizador sintáctico en un compilador (Aho et al., 2006) ...................................... 60 Figura 12 Ubicación del analizador sintáctico en el proceso de creación de un treebank ............................. 61 Figura 13 Representación de un analizador sintáctico basado en reglas ....................................................... 63 Figura 14 Diseño de un analizador sintáctico probabilístico ......................................................................... 64 Figura 15 Proceso sugerido para analizar sintácticamente un corpus anotado moifológicamente ................ 68 Figura 16 Diagrama de clases para la propuesta del modelo de creación automática de 201 treebank ......... 83
X
-
Figura 17 Proceso sugerido para seleccionar oraciones simples de un treebank ........................................... 85 Figura 18 Algoritmo para el análisis sintáctico de una oración ...................................................................... 85 Figura 19 Algoritmo para asignar a cada palabra su función sintáctica ........................................................ 86 Figura 20 Algoritmo para definir lafimción de un determinante .................................................................... 86 Figura 21 Ejemplo de análisis del verbo ser .................................................................................................... 87 Figura 22 Ejemplo de análisis del pronombre le .............................................................................................. 87 Figura 23 Cálculo de las métricas generales para el treebank ........................................................................ 91 Figura 24 Cálculo de las métricas según lafanción sintáctica ........................................................................ 91 Figura 25 Cálculo de las métricas según la categoría gramatical ................................................................... 92 Figura 26 Cálculo de las métricas por oración ................................................................................................ 92 Figura 27 Porcentajes de acierto del treebank según las métricas definidas en la metodología .................... 94 Figura 28 Fragmentos del código de detección de sujetos ............................................................................ ] 09 Figura 29 Fragmentos del código de detección de raíces oracionales para el caso del verbo ser ............... 11 O Figura 30 Fragmentos del código de detección de raíces oracionales ......................................................... 111 Figura 31 Fragmentos del código de detección de complementos agentes ................................................... 112 Figura 32 Fragmentos del código de detección de raíces oracionales ......................................................... 112 Figura 33 Fragmentos del código para analizar adposiciones ..................................................................... 113 Figura 34 Fragmentos del código para el análisis de determinantes ........................................................... 114
xi
-
l. INTRODUCCIÓN Esta sección ofrece, en fonna general, los antecedentes del campo en el que esta investigación
se desarrolla. Luego, se describen el planteamiento del problema, la pregunta de
investigación, sus objetivos. Finalmente, se incluye Ja justificación para este proceso
invesligativo.
l. l. Antecedentes
Desde los días del teólogo medieval del siglo XIII, Roger Bacon, ha existido interés en la
noción de una gramática universal que abarque la mayor cantidad de lenguajes. Nolan y
Hirsch (1902) recogen una frase de Bacon en la que afitmó que " .. . en su sustancia, Ja
gramática es una y la misma en todos los lenguajes, aún si esta accidentalmente varía" (pág.
xxv).
Este fervor se ha mantenido constante hasta la época moderna. Lucian Tcsniere introdujo la
noción de árbol sintáctico de dependencia (Tesnicre, 1959) y Noah Chomsky desarrolló otros
conceptos teóricos en el área de la lingüística que resultaron claves para el desarrollo de
herramientas computacionales que colaboraran en la automatización del anál isis de los textos,
más específicamente sobre la teoria de gramáticas libres de contexto (Chomsky, 1957). De
acuerdo con Aho, Lam, Scthi y Ullman (2006), los lenguajes de programación Fortran y
Algol, desarrollados entre 1959 y 1960, utilizaron esta teoría para la implementación de su
sintaxis. De esa fecha en adelante, prácticamente la mayoría de compiladores para lenguajes
de programación han tomado la gramática libre de contexto como parte de su estructura.
En la época actual, los esfuerzos in iciales por crear textos anotados se remontan a la segunda
mitad de la década de los años 60, cuando se completó el primer treebank1, el cual es
conocido como "Brown C01pus" y recopiló alrededor de un mi llón de palabras del inglés de
la época (Kuccra y Francis, 1967). Paralelamente, se dieron esfuerzos para crear herramientas
1 Segón Joakim Nivre, un treebank es un corpus anotado lingOisticamente que además de información morfológica incluye otros tipos de etiquetas, resultado de un analisis gramatical. (Nivre, 2008)
-
computacionales que colaboraran en la creación de textos anotados. Por ejemplo, en 1970 se
creó el lenguaje de programación Prolog, cuyo propósito estaba dirigido a la creación de
gramáticas (Nadkarni, Ohno-Machado y Chapman, 2011). Es importante destacar que
durante los años setenta los analizadores sintácticos para lenguaje natural eran creados
mediante la utilización de reglas. Sin embargo, los autores citados anteriormente indican que
en los años ochenta se dio la creación del análisis sintáctico probabilístico.
Aunque al inicio de los años noventa se crearon varios treebanks para la lengua inglesa el
más influyente surgió en 1993. Como resultado de las investigaciones realizadas en la
Universidad de Pennsylvania se desarrolló un treebank basado en el inglés americano, con
poco más de 4.5 millones de palabras. Este treebank llegó a ser un modelo debido a que
incorporó el etiquetado para las anotaciones de las partes del lenguaje2, y más de la mitad de
su contenido incluía el esqueleto de una estructura sintáctica (Marcus, Marcinkiewicz, y
Santorini, 1993). Es conocido como Penn TreeBank y parte de su información fue tomada
del Brown Corpus.
Pocos años después se desarrollaron algunas guías que consideraron como provisionales para
añadir información sintáctica además de las anotaciones morfosintácticas, como por ejemplo,
símbolos para indicar las relaciones de dependencia entre palabras. Similarmente, se señaló
la intención de que este formato de anotación sintáctica fuese útil para diversos idiomas, entre
ellos inglés, holandés, alemán, finés, sueco, francés, español e italiano. Estas guías son
conocidas hoy como EAGLES, y se consideran el primer paso para crear etiquetados útiles
en diversos idiomas (Leech, Barnett y Kahrel, 1996). En (1) se presenta una oración
etiquetada morfológicamente según EAGLES.
(1) Yo
PPICSNO
leo la
VMIPJSO DAOFSO
oración simple
NCFSOOO AQOCSOO Fp
Entre la segunda mitad de los años 90 y el inicio de este siglo surgieron algunos treebanks
para español que fueron base para otros que surgieron posteriormente. En 1997 la
2 En inglés, las anotaciones del lenguaje son conocidas como POS (Part of Speech)
2
-
Universidad Pompeu Fabra inició el desarrollo del treebank que posteriormente llegó a ser
conocido como IULA (Santasusagna, Tomer, Vivaldi, Castellví e Yzaguirre, 1998).
Montserrat Civit y Antonia Martí presentaron en el año 2002 el corpus CLiC-TALP, el cual
contiene un millón de palabras (Civit y Maiií, 2002). Posteriormente, como resultado de las
propuestas de esa investigación las autoras tomaron un conjunto de cien mil palabras de este
corpus para crear un treebank que es conocido como 3LB (Civit y Martí, 2004). Los datos
generados para 3LB permitieron el desarrollo posterior de otro treebank conocido como
Áncora, el cual posee la particularidad de orientarse hacia el español y el catalán (Taulé,
Martí, y Recasens, 2008).
Durante este período, se desarrollaron investigaciones en la Universidad de Stanford que
culminaron con la presentación de un analizador sintáctico3 (De Mameffe, MacCartney y
Manning, 2006). Igualmente se presentó por parte de Sabine Buchholz y Erwin Marsi (2006)
un formato para el almacenamiento de treebanks para trece idiomas útil para representar la
información morfosintáctica.
El analizador sintáctico previamente implementado por De Mameffe (2006) es la base para
la representación de dependencias basada en árboles sintácticos, la cual toma como
fundamento el marco teórico de la gramática léxico funcional propuesta por J oan Bresnan, al
asumir las funciones sintácticas propuestas por esta teoría (Bresnan, 2001 ). Sin embargo, este
trabajo de De Mameffe presenta 48 tipos de relaciones de dependencia que pueden
presentarse en una oración, siguiendo con algunas variantes el esquema de representación de
dependencias propuesto por Tesniere (1959). De Mameffe completó su trabajo en el año
2008 (De Mameffe y Manning, 2008). Ese mismo año Daniel Zeman se orientó a trabajar en
la creación de una herramienta de conversión entre diferentes tipos de etiquetado sintáctico
para diversos lenguajes (Zeman, 2008).
En los inicios de la segunda década del siglo XXI, Slav Petrov y su equipo propusieron un
etiquetado universal, junto con un conjunto de relaciones entre diversos tipos de etiquetado
3 Analizador sintáctico es un programa que analiza un texto siguiendo un conjunto de instrucciones programadas que interpretan las reglas de la gramática y la información contenida en el léxico. (Villayandre, 2011)
3
-
hacia este formato universal, logrando un etiquetado capaz de ser utilizado en 22 diferentes
idiomas y 25 treebanks. Para el idioma español, Petrov y su equipo seleccionaron los
treebanks Ancora y Cast3LB, anteriormente mencionados. (Petrov, Das y McDonald, 2011)
En la Universidad de Costa Rica, dada la poca cantidad de treebanks que se han desarrollado
para el español, se creó el treebank IPROCOLDI a partir de documentos cuyo contenido se
basaba en discursos presidenciales costarricenses, entre el siglo XIX y el XX (Jara Murillo,
2013). Dicho en otras palabras, es un treebank creado para el español de Costa Rica.
El año 2013 fue prolífico para el procesamiento de lenguaje natural, ya que los resultados de
varias investigaciones se presentaron:
• Ryan McDonald presentó su primera propuesta de un treebank universal, cuyo
etiquetado es capaz de aplicarse a seis idiomas: alemán, inglés, sueco, español, francés
y coreano; facilitando el análisis sintáctico multilingüístico (McDonald, Nivre,
Quirmbach-Brundage, Goldberg, Das, Ganchev, y Lee, 2013). Muchos elementos de
esta propuesta se basan en los postulados desarrollados por el equipo de De Marneffe
en 2006 y 2008.
•Se propuso por parte de Tsarfaty (2013) una extensión de las dependencias de Stanford
que unifica la anotación de las relaciones sintáctica y morfológica, además de ofrecer
dos formas para predecir en forma automática estas anotaciones desde texto sin
procesar.
• Cristina Bosco y otros investigadores asociados implementaron la primera versión de
un treebank para la lengua italiana utilizando las dependencias de Stanford a partir de
un proceso de transformación que tomó como fuentes dos treebanks con etiquetados
distintos que requirieron una armonización entre sí, utilizando varios patrones de
conversión que se agruparon en dos clases. (Bosco, Montemagni, y Simi, 2013)
Recientemente, De Marneffe presentó una mejora de la representación de dependencias de
Stanford con la finalidad de enfatizar en la teoría de la gramática funcional sobre la cual
descansa este diseño, así como la habilidad de ser aplicada en diferentes lenguajes. (De
4
-
Mameffe, Dozat, Silveira, Haverinen, Ginter, Nivre y Manning, 2014)
En el año 2015 Joakim Nivre y otr4os investigadores presentaron la primera versión de las
dependencias universales, cuyo propósito es crear guías generales para una anotación
gramatical consistente entre diversos lenguajes naturales, así como el desarrollo de un
analizador sintáctico multilingüístico que ayude al avance de las investigaciones de
procesamiento del lenguaje natural. Para lograr su objetivo, las dependencias universales
tomaron elementos de las dependencias universales de Stanf ord, extendieron el conjunto de
etiquetados definidos por Petrov, adoptaron un subconjunto del inventario definido por
Zeman y una versión revisada del formato CoNLL-X, llamada por este grupo CoNLL-U.
(Nivre, 2015). La figura 1 ilustra el uso de las dependencias universales para el inglés y el
francés.
. ..... rd obj h'o.___
• • • lll • .... • ~.·----~. ,,.--. t-· ---- ...
JI mange un sandwich
lll ll:lll • 11 ,,;-J--,, ,,,,_.., __ .,,.,.... ---. --. "'
He eats a sand1¡1;id-1 , Figura 1 La oración "Él come un sandwich" analizada en inglés y francés (Dobj: Direct Object)
Igualmente, en el mismo año Sampo Pyysalo y su equipo asociado lograron la creación de
un treebank totalmente compatible con las dependencias universales para el idioma finés, a
partir de otros treebanks que seguían el formato del Turk:u Dependency Treebank (TDT) y el
FinnTreebank 1. Para este fin se desarrolló un proceso de transformación desde estas fuentes
hacia el etiquetado definido por las dependencias universales. (Pyysalo, Kanerva, Missila,
Itse han elle
Laippala y Gin ter, 2015). La figura 2 presenta una oración resultante de este análisis.
Figura 2 Oración analizada en finés según el etiquetado de las dependencias universales (Pyysalo et al.)
5
-
Sin embargo, este avance en la creación de analizadores sintácticos y treebanks se ha dado
en idiomas diferentes al español. Además, cuando se ha dado algún desarrollo para nuestra
lengua materna, en su mayoría ha sido por parte de personas con conocimiento no nativo del
mismo. Señalan Lloberes, Castellón y Padró (201 O) específicamente la existencia de pocos
analizadores sintácticos orientados hacia la representación de dependencias en español; con
el agravante que, de estos pocos, un porcentaje bajo son de tipo 'open source '. Por ejemplo,
mencionan los casos de MaltParser, Diluct y Freeling. Otra situación recalcada es que de
estos analizadores sintácticos 'open source' solamente Freeling utiliza reglas basadas en
conocimiento lingüístico, pero no emplea los postulados mencionados por Nivre (2015). En
el caso de IPROCOLDI, treebank que se construyó a partir de un análisis de discursos
presidenciales costarricenses, existen dos particularidades: a pesar de emplear reglas
lingüísticas, utiliza una estructura sintagmática y su etiquetado no es el de las dependencias
universales, sino EAGLES.
Esta tendencia general que orienta las investigaciones hacia el español de la Península Ibérica
tiende a descartar las variantes sintácticas del español americano. Con respecto a las
diferencias entre español americano y español peninsular, pueden mencionarse el uso
diferenciado de pronombres clíticos incluyendo sus combinaciones y creación de locuciones.
En este campo el trabajo de Charles Kany es pionero (Kany, 1951). En (2) se ilustran las
diferencias entre las variantes americana (2.a) y peninsular (2.b) en cuanto al uso de
pronombres clíticos.
(2) a. Ella estaba con sus amigos. Recibió una carta y se las leyó a ellos.
b. Ella estaba con sus amigos. Recibió una carta y se la leyó a ellos.
Por las razones mencionadas anteriormente, a la fecha no se conoce la existencia de treebanks
orientados específicamente hacia el español americano, o que incluyan algunos de sus rasgos,
que empleen dependencias universales.
1.2. Planteamiento del problema
El estado del arte muestra un interés en el análisis morfológico y sintáctico de textos en
diversos idiomas, cuyo inicio data desde la década de los años sesenta del siglo anterior. Los
progresos en el área de la Lingüística Computacional en estos procesos de análisis se han
6
-
visto afectados en forma directa por los avances en el hardware y software que han sucedido
paralelamente en la misma época, puesto que los nuevos recursos disponibles abrieron
oportunidades para validar e implementar las teorías lingüísticas que surgieron.
La lingüística moderna postula los análisis de textos desde dos perspectivas: la estructuralista,
propuesta por Tesniere, y la generativa, cuyo máximo representante es Chomsky. Esto ha
incidido directamente en un fenómeno de diversificación en la forma que las oraciones de
dichos textos se analizan, causando divergencias importantes. Igualmente, entre las múltiples
investigaciones que siguen alguna de estas dos perspectivas existen diferencias en cuanto a
la codificación empleada para anotar las características morfológicas y sintácticas de los
textos, así como los corpus y treebanks generados, sin hacer a un lado las representaciones
gráficas para su comprensión. Lo anterior incrementa las divergencias entre las estructuras
planteadas y los análisis que emergen de ellas. Es importante considerar también que existen
aproximaciones que toman elementos de ambas perspectivas, para crear su propia
interpretación. La figura 3 presenta una oración analizada desde ambas perspectivas.
Figura 3 Árbol de constituyentes (Chomsky) y árbol de dependencias (Tesniere) para la oración "Los niños pequeños estudian pocas horas" (Raro y Gelbuck, 2007)
o estudian
A) Árbol de constituyentes B) Árbol de dependencias
Otro hecho que incrementa la diversidad en los análisis de textos es el avance dispar de las
investigaciones si se considera la lengua. Posiblemente, la lengua inglesa ha sido la más
analizada tanto en morfología como en sintaxis, así como en la generación de sus etiquetados;
al igual que el alemán y el chino. Con respecto al español puede afirmarse que la cantidad de
investigaciones es considerablemente menor, y que en buen grado se han aplicado algoritmos
7
-
creados para otro idioma. Ello implica que hay una carencia de herramientas que surjan desde
las características propias la lengua, causando una automatización dispar del proceso de
análisis sintáctico. Aunado al hecho anterior, la existencia de variantes en la sintaxis entre el
español peninsular y americano es un foco desde el que se generan ciertas diferencias en
cuanto al análisis oracional.
En medio de la existencia de distintas corrientes para el análisis de oraciones y sus
representaciones que han emergido de la Lingüística Computacional, ha surgido en los años
recientes una corriente interesada en desarrollar herramientas y formatos de anotación que
permitan tomar los elementos morfológicos, sintácticos y semánticos que puedan
considerarse como comunes en la mayor cantidad de lenguajes naturales posibles,
procurando ofrecer nuevas oportunidades para el aprendizaje de un nuevo idioma, así como
mejoras a modelos existentes. Este esfuerzo también abarca la creación de nuevos esquemas
para la traducción de textos, además de abrir el espacio para sinergizar los descubrimientos
o avances de investigaciones que vienen de diferentes perspectivas de análisis.
Las investigaciones que siguen esta línea de pensamiento han incentivado la creación de
treebanks con propuestas para la representación estándar de dependencias capaces de
soportar adecuadamente múltiples idiomas. Dichos treebanks han sido alimentados a partir
de corpus y otros treebanks reconocidos, los cuales han sido sometidos a procesos de
estandarización de su etiquetado morfológico y sintáctico que tienden a ser semiautomáticos
o se basan en conversiones manuales generadas por lingüistas; sin importar a cuál de las
perspectivas lingüísticas pertenezcan.
Finalmente, es notable la escasez de herramientas para crear treebanks para el español, así
como su orientación probabilística en su mayoría. Los pocos existentes que se basan en reglas
de conocimiento lingüístico no tratan con las dependencias universales ni se orientan hacia
el español americano. El hecho anterior es explicable debido a que la mayoría de las
investigaciones han sido realizadas en Europa, asumiendo la variante del español peninsular
como estándar de facto.
8
-
A partir de los antecedentes en el área de la Lingüística Computacional y del planteamiento
del problema anteriormente presentado, esta investigación propone como pregunta de
investigación: "¿es posible automatizar el proceso de creación de un treebank en español
americano utilizando dependencias universales reduciendo la intervención de anotadores
humanos?"
1.3. Objetivos de la investigación
Luego de presentar la pregunta de investigación que surge de los antecedentes y la
descripción del problema, se definen acá el objetivo general y los objetivos específicos para
esta investigación.
1.3.1. Objetivo general
Automatizar el proceso de creación de un treebank en español americano reduciendo la
intervención de anotadores humanos y utilizando dependencias universales.
1.3 .2. Objetivos específicos
• Identificar y caracterizar textos anotados existentes para el español.
• Establecer la equivalencia de las anotaciones de estos textos anotados con un modelo
estándar de representación de dependencias.
• Proponer un modelo de creación automática de un treebank a partir de corpus
existentes en español americano.
• Evaluar en qué proporción puede ser automatizado el proceso de creación de un
treebank en español americano que utilice un modelo estándar de representación de
dependencias; a partir de textos anotados existentes.
A continuación se presentan los hechos que justifican esta investigación.
1.4. Justificación
Uno de los objetivos o tareas más comunes en cualquier área de las Ciencias de la
Computación es la automatización de procesos que se realizan en forma manual y requieren
una fuerte inversión en tiempo, debido al nivel de detalle, así como de experticia requerida
para su correcta ejecución. Además, se procura que estos procesos puedan ser reproducidos
9
-
utilizando los datos existentes en el entorno donde se implementen, a la vez que se mantengan
las definiciones requeridas y sus respectivas codificaciones para asegurar su replicación en
otros lugares. La Lingüística Computacional es un ejemplo de ello.
Partiendo de allí, a través de esta investigación se daría la aplicación de enfoques teóricos
utilizados en la Lingüística Computacionalcon la finalidad de ofrecer una propuesta para la
implementación de un proceso que logre la mayor automatización del análisis sintáctico a
partir de un corpus generado desde texto en español, con el objetivo de generar un treebank
que emplee una representación estándar de dependencias. Esto con el fin de que pueda ser
reconocida por diversas herramientas con la mayor cantidad de eficacia y exactitud posible.
Son diversas las razones por las cuales lo descrito en el párrafo anterior contiene una
relevancia en la época actual. Una de ellas se relaciona con el creciente interés que el español
está adquiriendo en esta época. Según datos actualizados, al menos el ocho por ciento de los
documentos presentes en Internet fueron generados utilizando el español (Instituto Cervantes,
2015). Este crecimiento en la creación de documentos en la Internet, así como en otros
medios de comunicación genera una enorme oportunidad de investigar cómo el idioma
actualmente adquiere nuevos rasgos o léxico, así como agrega la dificultad de procesar esta
información debido a su volumen en constante crecimiento.
La investigación también aportaría una forma en la cual se incrementaría la capacidad de
procesamiento de textos, a la vez que ofrecería a los lingüistas la oportunidad de poseer una
herramienta que apoye su trabajo al automatizarlo y permita emplear el tiempo que se libere
para otras investigaciones o tópicos relacionados. El idioma español, aunque ha sido objeto
de análisis en diversos campos de la lingüística computacional, mantiene un rezago en cuanto
a la abundancia de proyectos de investigación cuando se le compara con otros idiomas,
especialmente el inglés.
El cuadro que se presenta a continuación, tomado del análisis de Melero, Cardús, Moreno,
Rehm, de Smedt, y Uszkoreit (2012), ofrece el grado de avance con respecto a recursos y
tecnologías orientadas al análisis de la lengua española en una época reciente, tales como
10
-
sistemas de reconocimiento de texto y voz, análisis y generación de textos. Dicho trabajo se
orienta al impacto que la era digital ha hecho en los idiomas europeos, por lo que su énfasis
es hacia el español de la Península Ibérica.
Cuadro 1 Soporte existente a la tecnología lingüística para el Español (Melero et al, 2012) Categorización: 1 - Excelente, 2 - Bueno, 3 - Moderado, 4 - Fragmentario, 5 - Escaso
"O "O ce Q.l
"O ce ce ¡... ce :9 :9 ;::l
¡... ;g ......, ;::l ......, ';; ¡... "O e< Q.l ce :.o ce u ..o 2 ·a u o u Q.l ......,
"' o if.J
Reconocimiento de voz 2 3 4 2 2
Síntesis de voz 3 3 4 4 4
Análisis gramatical 3 3 4 4 4.5
Análisis semántico 1.5 2 3 2 2.5
Generación de texto o o o o o Traducción automática 3 2 2 2 2
Corpus textuales 3 3 4 4.5 4.5
Corpus de discurso 4 2 4 4 3
Corpus paralelos 2 4 2 2 3
Recursos léxicos 3.5 3 4.5 3 3
Gramáticas 1 4 5 2 2
El cuadro 1 ilustra el avance de las tecnologías existentes así como la existencia de de corpus,
recursos léxicos y gramáticas, al igual que la madurez y la sostenibilidad de herramientas
para análisis de textos ofrece una oportunidad para desarrollar herramientas que permitan el
avance de otras investigaciones, puesto que la categorización muestra que el progreso
alcanzado tiende a ser calificado como moderado o fragmentario,
En forma más puntual, en los antecedentes se indica la escasez de analizadores sintácticos
'open source ', que estén orientados hacia relaciones de dependencia. La mayoría de ellos se
crearon siguiendo un enfoque probabilístico. Solamente Freeling se orienta hacia relaciones_
de dependencia para el español empleando reglas lingüísticas, con la particularidad que estas
relaciones se generan a partir de un árbol de constituyentes. Este panorama abre un espacio
11
4
4
4.5
2.5
o 2
4.5
3
3
3
2
-
para aportar una herramienta que llene esta área. El siguiente cuadro muestra algunos de los
analizadores sintácticos 'open so urce' existentes.
Cuadro 2 Algunos analizadores sintácticos 'open source'
Basado Español Dep.
12
Nombre Probabilistico en reglas Sintagmas Dependencias Etiquetado América Universales Freeling Si Si Si Si EAGLES No No OpenNLP Si No Si No Penn Tree No No
CoreNLP Si No Si No Penn Tree No No
NLTK Si Opcional Si Si Configurable No No
SharpNLP No Si Si No Penn Tree No No
Diluct Sí No No Sí EAGLES No No
Otro motivo por el que este trabajo es importante surge de la diversidad de corpus y treebanks
existentes para un mismo idioma, lo que genera incompatibilidades o discrepancias capaces
de retrasar la extensión del conocimiento, al no poder representarlo de forma comprensible
para todas las partes. El aporte que esta investigación ofrece sería el de utilizar un módulo de
conversión de sistemas de codificación que puede generar valores equivalentes en un modelo
de representación de dependencias que pueda ser utilizado por diversas herramientas,
creando puentes de colaboración entre equipos que empleen formatos diferentes.
Dado que muchos algoritmos para interpretar la opinión de la mayoría se basan en
información sintáctica y morfológica, una herramienta que procese automáticamente un
corpus anotado morfológicamente y genere como resultado un treebank facilitaría a otros
crear mecanismos para la interpretación de opiniones que puedan utilizarse en distintos
lenguajes, permitiendo que cada investigador se oriente a trabajar en las características
específicas de cada idioma, ya que los aspectos comunes han sido trabajados previamente.
En resumen, esta propuesta de tesis procura implementar en un proceso automatizado la
extracción de oraciones desde un corpus anotado morfológicamente el cual se analice
sintácticamente y genere un treebank con un etiquetado morfológico y sintáctico para una
representación estándar de dependencias a partir de un analizador sintáctico basado en reglas.
Su fin es, entre otros aspectos, investigaciones posteriores que se orienten a interpretar la
-
opinión de la mayoría, posibiliten búsquedas más inteligentes, condensen la información,
ofrezcan un apoyo para el trabajo de los expertos en lingüística para validar teorías y brindar
oportunidades para procesos de traducción automática; además de incrementar la cantidad y
disponibilidad de herramientas para el análisis de textos, sin olvidar el aporte en cuanto a
posibilitar que investigaciones de diversas perspectivas y etiquetados puedan intercambiar el
conocimiento que ha sido adquirido a lo largo los años. Esta contribución ayudaría en la
aceleración del progreso en la Lingüística Computacional, para el español americano.
13
-
2. MARCO TEÓRICO
Para una mejor comprensión, el desarrollo de este marco teórico iniciará con una breve
descripción de los niveles de análisis del lenguaje, continuando con las teorías gramaticales
y su pertinencia para esta investigación. Seguidamente se incluye una breve mención del
análisis estructural de la oración, así como de sus componentes básicos y los sintagmas que
se generan a partir de los mismos.
Luego, se tratarán en forma general las relaciones de dependencia, para continuar con el
etiquetado de funciones y relaciones. Finalmente, se abarcarán los conceptos de treebank y
dependencias universales.
2.1. Niveles de análisis del lenguaje natural
Los seres humanos de acuerdo con su necesidad de comunicación han desarrollado distintos
sistemas por los cuales han logrado transmitir sus mensajes a otros individuos, así como
heredar a sus descendientes la riqueza de su aprendizaje.
Con el transcurso de las épocas se ha pretendido analizar estos sistemas de comunicación,
para descubrir cómo el texto generado puede ser analizado con la finalidad no solamente de
comprender, sino de descubrir patrones no vistos anteriormente. De acuerdo con Briscoe
(2011), el lenguaje natural puede analizarse en varias áreas.
2.1.1. Fonética
La fonética se orienta hacia el estudio de las propiedades articulatorias de los sonidos que se
emplean en la construcción del lenguaje. Seguidamente (3) ilustra tres palabra analizadas
fonéticamente.
(3) a. pata [p á ta]
b. capa [k áp a]
c. hambre [á m b re]
14
-
2.1.2. Fonología
La fonología se relaciona con la utilización de los sonidos en un idioma específico. La cantidad de
sonidos, así como los que se emplean en un idioma varía con respecto a otro. Se presenta un caso
de transcripción fonémica para "abraza" según el español americano ( 4.a) y el español
peninsular (4.b)
( 4) a. / ab.rása/
b. /ab.rá8a/
2.1.3. Morfología
Las palabras pueden ser descompuestas en elementos que utilizan conceptos más básicos.
Dichos componentes son llamados morfemas. Por esta razón el conjunto de investigaciones
sobre los componentes de las palabras es conocida como morfología. En la sección 2.9 se
tratarán con más profundidad las cualidades de estos elementos constitutivos de las palabras.
Es importante indicar que una oración está compuesta por diversos tipos o categorías de
palabras. Normalmente se consideran como categorías de palabras los sustantivos, el adjetivo,
los determinantes, los verbos, los adverbios, los pronombres, las preposiciones, las
conjunciones y las interjecciones. Más adelante se analizarán con detalle.
En (5) se muestra una oración analizada morfológicamente, según la categoría a la que
pertenece cada elemento léxico.
(5) Yo leo la oración simple
Pronombre Verbo Determinante Nombre Adjetivo Puntuación
Común
2.1.4. Sintaxis
El ámbito de la oración es tratado por la sintaxis, que puede ser definida como la rama de la
lingüística que" ... se encarga de estudiar y analizar cómo se combinan las palabras y cuál es
la función que las diversas agrupaciones de palabras desempeñan en el seno de la oración"
(Acebo,2011,pág. 8)
15
-
Es importante destacar que la sintaxis analiza elementos dentro de la oración que son
definidos como sintagmas, los cuales están en un espacio intermedio entre la oración y las
palabras. Posteriormente los sintagmas serán tratados con más amplitud en la sección 2.6.
En el caso de (6) se muestra una oración analizada sintácticamente según su función.
( 6) Y o leo la oración simple
Sujeto Raíz
2.1.5. Semántica
Determinante Objeto
directo
Modificador Puntuación
adjetival
La semántica se orienta hacia la forma en que los elementos morfológicos y sintácticos se
unen para formar el significado de una oración. En (7) se muestra un caso de análisis
semántico
(7) Yo leo la oración simple
Y o, es decir, la persona que habla, expresa que ejecuta en el presente el acto de leer
un conjunto de unos pocos elementos léxicos que se relacionan entre sí. Dicho
conjunto es simple, es decir, sencillo.
2.1.6. Pragmática
La pragmática trata con el uso del idioma en contexto, que incluye el contexto lingüístico y
situacional. Por ejemplo, una oración que gramaticalmente es una pregunta puede ser referida
en el contexto como una orden o lenguaje figurado. Las oraciones en (8) pueden analizarse
pragmáticamente:
(8) Yo leo la oración simple
Ayer también la leí
Un caso de análisis pragmático es el hallazgo de una relación en las oraciones presentes en
(8) entre los elementos léxicos "oración" y "la". Específicamente, el término "la" es
conocido como anáfora (referencia posterior) y el vocablo "oración" es denominado
antecedente (primera mención del término).
16
-
Esta investigación considerará solamente la morfología y la sintaxis, obviando las demás
áreas del lenguaje natural.
2.2. Fundamentos de las teorías gramaticales contemporáneas
La gramática, como parte del estudio del lenguaje, es analizada desde diferentes ópticas por
parte de los investigadores. Ello conlleva a la definición de teorías que procuran explicar los
fenómenos relacionados con las palabras, sus características y las relaciones con otros
vocablos en el contexto de la oración. Según Haro y Gelbuck (2007), existen dos enfoques
que a lo largo del tiempo se han presentado como opuestos: el desarrollado por Tesniere, de
origen europeo y el propuesto por Chomsky, formulado en los Estados Unidos. A
continuación, se presentan algunos rasgos generales de estas propuestas.
2.2. l. Gramática de dependencias
Este enfoque tiene sus raíces en el trabajo del francés Lucien Tesniere (1959), quien en su
libro "Élemenis de syntaxe structural" presenta los fundamentos de su teoría, los cuales se
mencionan en forma resumida a continuación.
2.2. l. l. Papel de las palabras
El enfoque de dependencias parte de la noción de palabra, al afirmar que una oración o frase
está compuesta por elementos léxicos relacionados entre sí, siguiendo las reglas definidas
por el lenguaje. Igualmente, las palabras pertenecen a una categoría gramatical y poseen una
función determinada. Tesniere afirma que la categoría gramatical es estática, mientras que la
función es dinámica, ya que puede variar según la oración. Puede referirse a las secciones
2.8, 2.9 y 2.11 para leer acerca de las categorías gramaticales y las funciones sintácticas.
2.2.1.2. Dependencias
Según Tesniere, toda oración puede representarse jerárquicamente, mediante relaciones
denominadas 'dependencias'. Una dependencia puede ser definida como una relación entre
dos palabras que pertenecen a una misma oración. Una de las palabras se distingue como
subordinada o dependiente y la otra como regente. En la oración (9) se presenta un caso de
regente y regido.
17
-
(9) Yo leo
Regido Regente
Una palabra regente puede poseer varias subordinadas. En cambio, cada palabra subordinada
tiene solamente un término regente. Otro aspecto importante es que una palabra regente
puede ser subordinada a la vez.
La regencia de una palabra sobre otra se define según su categoría gramatical. Por ejemplo,
un verbo es regente del sustantivo y del pronombre. El sustantivo es regente para los
detenninantes y adjetivos; mientras que los adjetivos rigen adverbios. Estos últimos solo
rigen adverbios. La figura 4 ejemplifica dicha situación.
Figura 4 Árbol de dependencias con ejemplos de palabras regentes y regidas (Raro y Gelbuck, 2007)
estudinn
horas
los pequeños pocas
La figura 4 muestra cómo el determinante "los" y el adjetivo "pequeños" son regidos por el
sustantivo "niños'', el que a su vez es regido por el verbo "estudian". Dicho en forma diferente,
se relacionan entre sí9
2.2.1.3. Nudos
Un nudo es una palabra que tiene varios términos que dependen de ella. Los nudos son
denominados según la categoría gramatical a la que la palabra pertenezca. En la figura 4,
"niños" y "horas" son nudos sustantivales.
18
-
Toda oración posee un nudo principal. Generalmente es el verbo, aunque existen casos en
los que un sustantivo puede tomar ese papel. En la figura 4, el nudo principal es el verbo
"estudian".
Finalmente, las palabras que tienen la capacidad de ser nudos son llamadas constitutivas. Las
demás son conocidas como subordinadas.
2.2.1.4. Valencias
Este concepto se relaciona generalmente con verbos. Una valencia es el número de sujetos y
objetos que un verbo necesita para generar una oración gramaticalmente correcta.
Generalmente son el sujeto, el complemento directo y el complemento indirecto según su
perspectiva. La sección 2.11 amplía estos últimos conceptos. En la oración de la figura 4, la
valencia del verbo "estudian" es 1, ya que el verbo sólo requiere del sujeto "niños".
2.2.1.5. Gramática
Algunos estudiosos, años después de la mue1ie de Tesniere, desarrollaron una definición de
gramática para esta teoría. Debusmann (2000) presenta una síntesis de sus componentes de
una gramática:
• Un conjunto de reglas (R) que operan sobre símbolos auxiliares.
• Un conjunto de símbolos terminales (L), que son palabras.
• Un conjunto de símbolos auxiliares (C), correspondientes a las categorías
gramaticales.
• Una función de asignación (F), por la que se asigna a cada símbolo terminal el
símbolo auxiliar correspondiente. F puede ser definido como F: L -> C.
Las reglas que operan bajo esta teoría poseen las siguientes cualidades. Asumiendo que p es
una palabra subordinada de otra x, se dice que:
• x (p1, .. ., *, ... , pk), donde p1 ... pk dependen de x.
• X(*): x es un nodo izquierdo.
• * (x): x es el nodo raíz. • * indica la posición del nudo.
19
-
Para la oración 'Yo leo la oración simple', las reglas pueden ser definidas como se presema
a continuación en el cuadro 5:
Cuadro 3 Conjunto de reglas definidas para una gramática de dependencias (EJaborado por el investigador)
R""la Exolicación V (Pr, •, N) El pronombre y el nombre se subordinan al verbo. El verbo es la ralz. Pr(*) Un pronombre puede re;:irse a si mismo N uede regirse a si mismo ~jJ·) El adietivo ouede .....,;rse a si mismo
Estas reglas son empleadas por los lingüistas para crear sus representaciones gráficas, las
cuales se presentan a continuación.
2.2.1.6. Representación gráfica
Gráficamente la oración analizada según esta corriente se representa mediante un árbol
generado a partir de la gramática especificada anteriormente. La figura 5 ilustra e l diseño del
árbol de dependencias para la oración "Yo leo la oración simple".
leo
--~· ~ ~
Yo oración
la simple
Figura 5 Áf'hol de depend encias para el enunciado "Yo leo la oraci(n1 sin1ple1• (elaborado por l:I Investigador)
2.2.2. Gramática generativa.
La gramática generativa tiene como su principal representante a Noarn Chomsky, que luego
de varios escritos presentó un conjunto de ideas que se consideran postulados fundamentales
de esta corriente (Chomsky, 1957). Básicamente, Chomsky indica que todo lenguaje (L)
20
-
existente requiere una gramática (G) a partir de la cual se deriva. Dicha gramática está
compuesta por:
• Un conjunto de palabras terminales (:L) que son parte de L.
• Un conjunto de palabras no terminales, que representan las funciones sintácticas.
• Un grupo de reglas (R) que permiten crear un conjunto de oraciones o frases que
siguen las secuencias de estas reglas. A estas oraciones se les considera corno válidas.
Una regla puede contener otras reglas, permitiendo así la recursividad, de forma que
cada oración puede ser subdividida y organizada en frases, facilitando su
representación corno árboles. En dichos árboles cada nodo es una agrupación de
palabras que cumplen una función sintáctica.
• Es importante señalar que la gramática generativa considera a una oración corno
válida si esta puede, además de ser representada, ser creada a partir del grupo de
reglas que se ha definido para ella.
Un ejemplo de árbol generado según la fonnulación de Chornsky, que en ocas10nes es
llamado árbol de constituyentes, es presentado en la figura 6. Se utiliza la oración de la figura
5.
o
SN
V
N
1
1'l
1 Yo leo la oración simple_
Figura 6 Árbol de constituyentes para el enunciado "Yo leo la oración simple" (elaborado por el investigador)
21
-
Con el tiempo, de esta formulación de Chomsky se derivaron varias corrientes que se
independizaron. Esta investigación se limitará a presentar la gramática léxico.:funcional
(LFG por sus siglas en inglés). En la siguiente sección se presentan algunos detalles que la
caracterizan.
2.3. Gramática Léxico-Funcional (LFG)
Las teorías propuestas por Chomsky y Tesniere para el análisis del lenguaje resultaron
fundamentales para la Lingüística Computacional, ya que sus postulados se tomaron como
base por teorías que surgieron conforme pasaron los años. En esta investigación nos
centraremos en la gramática léxico-funcional.
2.3 .1. Generalidades
La gramática léxico funcional surgió en los años setenta, en medio de controversias
suscitadas en el marco de la corriente generativa de Chomsky, ya que se estaban explorando
nuevas aproximaciones. Según Dalrymple (2001), las investigaciones que condujeron a la
formulación de esta teoría iniciaron con la búsqueda de mejores representaciones para las
estructuras de la oración, que culminaron con los trabajos de Joan Bresnan, quien, junto a
Ronald Kaplan, presentaron los fundamentos de esta teoría (Kaplan y Bresnan, 1982). Gómez
Guinovart (2001) señala que LFG tiene como meta crear una representación lo más formal
posible del lenguaje humano, que pueda ser reproducida en forma computacional y precisa.
Algunos elementos de esta teoría son:
• La creencia en que la estructura oracional sigue principios universales, sin importar
el idioma en que se formule, aceptando las particularidades de cada lengua
(Dalymple, 2001)
• El énfasis en las relaciones existentes entre palabras a través del verbo en vez de
considerar transformaciones sintácticas. (Kaplan, 1995)
• La existencia de un léxico, el cual es un conjunto de palabras que pertenecen a un
idioma o lenguaje. Cada término posee particularidades específicas. En las secciones
2.8 en adelante se amplía sobre estas particularidades.
• Se asume la existencia de un conjunto de reglas que representan la gramática a partir
de la cual todas las oraciones consideradas válidas para un lenguaje son generadas.
22
-
Cualquier otra oración que se aparte de las estructuras definidas por las reglas es
inválida (Kaplan y Bresnan, 1982). Algunas investigaciones las denominan reglas
léxicas. Un ejemplo de estas reglas puede observarse en el cuadro 4.
Cuadro 4 Conjunto de reglas definidas para una gramática LFG (elaborado por el
investigador)
Regla Explicación O -7 SN SV Una oración se compone de un sintagma nominal (SN) y otro verbal (SV) SN -7 DetN SN puede incluir un determinante y un nombre SN-7 P SN puede incluir pronombre SV-7 V SV puede contener un verbo SV-7 V SN SV puede ser la combinación de un verbo y un SN
Además, LFG emplea dos formas para representar el análisis de la oración. En las próximas
subsecciones se incluye una definición concisa de ambas.
2.3 .2. Estructuras para la representación de la oración
Como toda teoría, la gramática léxico funcional posee estructuras por las cuales representa
sus postulados. De acuerdo con Kaplan (1995) la teoría define dos niveles de representación
sintáctica para una oración, que en este caso son la estructura constituyente (estructura-e) y
la estructura funcional ( estructura-f)
2.3 .2.1. Estructura constituyente (estructura-e)
En forma concreta, Bresnan y Kaplan (1982) afirman que la estructura-e es una
representación convencional de una oración en forma de árbol, en la que se indica el orden
de las palabras y frases en la oración; definiéndose en términos de categorías sintácticas. Esta
estructura se genera a partir de reglas definidas previamente. En la figura 1 puede observarse
el conjunto de reglas creadas para el enunciado "Yo leo la oración".
La figura 7 muestra la estructura-e resultante de aplicar las reglas definidas previamente para
la gramática que aplicará a la oración previamente indicada.
23
-
SN
V
J:.l
1 N
1 Yo leo oración
Figura 7 Estructura-e generada a partir de las reglas definidas (elaborado por el investigador)
2.3.2.2. Estructura funcional (estructura-±)
La estructura-f se orienta a codificar y representar las funciones sintácticas, a la vez que
contiene cierta información semántica. Puede contener otras estructuras-f como parte de su
constitución.
La información contenida en una estructura-f se representa mediante pares ordenados tipo
(atributo, valor), que son representados como se indica en la figura 8, utilizando la oración
empleada como ejemplo anteriormente.
24
-
PRED
TIBMPO
SUJ
OBJ
'leer '
PRESENlE
PRED
NüNI
PER
SPEC
PRED
Nll1vI
PER
Yo
SING
la
oración
SING
3
Figura 8 Estructura-f correspondiente al enunciado 'Yo leo la oración.' (elaborado por el investigador)
Para una mejor comprensión de este tipo de estructuras, las siguientes secciones explican los
conceptos involucrados.
2.4. Análisis estructural de la oración
Seguidamente se presentan definiciones y conceptos relacionados con la estructura de la
oración y de su análisis.
2.4.1. Distinción entre oración y frase
Antes de profundizar en definiciones morfológicas y sintácticas se hace primordial un alto
en el camino para distinguir dos estructuras gramaticales de suma importancia que serán
consideradas durante esta investigación: la oración y la frase. A continuación, se enfocarán
los conceptos de sujeto y predicado.
2.4.2. La frase
Según Vergara y Liessem (2013) la frase es un conjunto de palabras que expresan una idea
completa, pero no forman una oración, debido a la ausencia de verbo. Ejemplos de frases se
encuentran en (1 O):
25
-
(1 O) a. ¡Por Dios!
b. ¡Epa!
c. ¡Una taza de café!
2.4.3. La oración
Continuando el pensamiento esgrimido por Vergara y Liessem (2013), la oración puede
conceptuarse como una estructura de palabras que transmiten un pensamiento completo y
que contiene un verbo que indica la acción realizada, como puede observarse en (11)
(11) a. La luna brilla con esplendor.
b. La mañana tenía un cielo azul.
c. Los escritores pensaron que sus libros serían comprados por muchas personas.
2.5. Componentes básicos de la oración
Como estructura gramatical, la oración puede ser subdividida en dos unidades sintácticas: el
sujeto y el predicado, que son complementarias entre sí.
2.5.1. Sujeto (S)
Se define al sujeto como la parte de la oración en la que se dice algo de una persona o de un
ser inanimado (Renau, 2010), tal como se presenta en (12).
(12) a. La noche es azul.
s b. El dinosaurio corre tras su presa.
s c. La Edad Media dio paso al Renacimiento.
s
Más adelante se definirán las cualidades sintácticas del sujeto. Sólo se afirmará que
sintácticamente existen ocasiones en las que el sujeto de una oración puede estar ausente pero
implícitamente se sabe de él. Cuando este hecho se presenta al sujeto se le conoce como
"tácito" (13.b y 13.c):
26
-
(13) a. María se encontró veinte mil colones. (En este caso, el sujeto es explícito)
s b. Después, se compró un par de zapatos nuevos. (Sujeto tácito: María)
c. Con el vuelto, regresó a su casa. (Sujeto tácito: María)
En la segunda y tercera oración del ejemplo, puede notarse cómo el sujeto no se presenta
pero se reconoce por el contexto que es María.
2.5.2. Predicado (P)
Con respecto al predicado, Gil (1980) afirma que éste es aquel grupo estructurado de palabras
que ayudan a expresar la información que se comunica del sujeto. Si bien ya se afirmó que
una oración puede no tener sujeto, el predicado siempre estará presente.
Utilizando los ejemplos de orac10nes para los que se identificó el sujeto, se resalta su
predicado en (14).
(14) a. La noche es azul.
p
b. El dinosaurio corre tras su presa.
p
c. La Universidad abrió nuevas carreras en el área de Computación.
p
Generalmente, en la lengua española esta estructura de la oración sigue la secuencia Sujeto-
Verbo-Predicado (SVP), aunque en ocasiones puede ordenarse siguiendo las tendencias
Verbo-Predicado-Sujeto (VP S) o Predicado-Verbo-Sujeto (PVS), aunque este último uso es
prácticamente inexistente. En (15) se ilustran estos ordenamientos.
(15) a. El rey decidió clausurar el evento.
s V p b. Decidió el rey clausurar el evento.
V s p c. Clausurar el evento decidió el rey.
p V s
27
-
Finalmente, es necesario indicar que la secuencia SVP es conocida como la forma canónica
de la oración para la lengua española.
2.6. Clasificación de oraciones
De acuerdo con la gramática española, las oraciones pueden ser clasificadas de diversas
formas. Algunas de ellas son:
2.6.1. Clasificación según su estructura interna
Las oraciones pueden ser clasificadas de diversas maneras. Una de ellas es según la cantidad
de verbos existentes en ellas. Se le llama oración simple a aquella que tiene un verbo en su
estructura, y por tanto, un sujeto y un predicado. Ejemplos de oraciones simples se muestran
en (16):
(16) a. Esta pintura posee gran calidad
s V p b. Las nuevas computadoras tienen grandes mejoras en su rendimiento.
s V p c. El sol alegra el canto de las aves.
S V P
La oración que posee más de dos verbos es llamada oración compuesta (17).
(17) a. Esta pintura posee gran calidad y su autor merece reconocimiento.
s V p s V p
b. El precio es muy alto porque los materiales son los mejores.
s V p s V p c. La luna refleja en el agua el canto del amor que clama.
s V p V
28
-
2.6.2. Clasificación según la presencia del sujeto
Existen oraciones para las cuales el sujeto puede ser identificado o deducido, ya que el idioma
español permite que el mismo pueda hallarse implícito. Para estos casos la oración es
conocida como bimembre (18):
(18) a. La luna adorna la oscura noche azul.
s V p b. La pelota de fútbol costó poco dinero.
S V P
c. El violinista interpretó magistralmente la melodía.
s V p
El otro caso es cuando un sujeto no se puede identificar del todo. Acá la oración es
denominada unimembre o impersonal. Se diferencia del sujeto tácito ya que este puede
deducirse, mientras que en este caso no es posible (19):
(19) a. Es imposible de describir.
V p
b. Llaman a la puerta.
V p
2.6.3. Clasificación según la naturaleza del verbo
Toda oración tiene un verbo principal por el cual la oración puede ser clasificada. Este verbo
según la gramática puede ser copulativo o predicativo.
Los verbos copulativos de acuerdo a la gramática española son ser, estar y parecer. Las
oraciones que los contengan son llamadas copulativas. Un par de ejemplos son:
(20) a. El perro es azul.
S V P
b. La luna está sobre el árbol.
s V p c. La casa parece un castillo medieval.
s V p
29
-
Todos los demás verbos se califican como predicativos, lo cual es motivo para llamar a este
tipo de oraciones predicativas. Casos de este tipo de oraciones son:
(21) a. La marca de la vida se encuentra en todo niño.
s V p b. Las manzanas poseen cualidades curativas.
s V p c. El árbol posee hojas amarillas.
S V P
2.6.4. Clasificación según el tipo de voz
Los verbos predicativos pueden tomar dos modalidades. Una de ellas es en la que el sujeto
realiza la acción. Para este caso la oración es denominada oración activa (22).
(22) a. Juan Antonio escribió un libro.
b. Pedro llamó a su jefe.
c. Los niños prepararon su tarea justo a tiempo.
Existen situaciones en las que el sujeto no ejecuta la acción, sino que es el receptor de la
acción. Para estos casos la oración se considera como pasiva (23). En dicho caso, las
oraciones anteriores pueden ser reescritas así:
(23) a. El libro fue escrito por Juan Antonio.
b. El jefe fue llamado por Pedro
c. La tarea fue preparada a tiempo por los niños.
2.7. Sintagmas
Las oraciones, para su estudio, son segmentadas en componentes de menor tamaño, que
pueden ser sintagmas, palabras o morfemas. En esta sección se trata la definición, las
características y tipos de sintagmas.
2. 7 .1. Definición
De acuerdo con Acebo (2011), puede afirmarse que un sintagma es un conjunto de palabras
que cumplen o desempeñan una función sintáctica específica dentro del contexto de la
oración. Ejemplos de sintagmas se encuentran en la siguiente oración:
30
-
(23) El último náufrago soportó el mal tiempo en el mar Negro.
Sintagmal Sintagma2 Sintagma3 Sintagma4
2. 7.2. Características
Según Orlando, Montenegro, Polakof, Hipogrosso, Lepre, y Costa (2011), los sintagmas
muestran ciertas características:
•
•
•
Pueden estructurarse en forma jerárquica .
Pueden subdividirse en otros sintagmas o en palabras .
Una de las palabras que los componen hace el papel de núcleo. Su importancia radica
en que este núcleo transmite al sintagma sus propias características. Un par de
ejemplos se incluyen a continuación (24). Los sintagmas se muestran en negrita y el
núcleo además está subrayado.
(24) a. Estoy muy seguro.
Núc.
b. El fervor infantil se derramará en la playa azul.
Núc.
• Los sintagmas poseen constituyentes, que son palabras relacionadas con el núcleo
(25). Aquellas que el núcleo requiera por causa de las reglas sintácticas son llamadas
complementos. Las que pueden estar presentes o no se reconocen como
modificadores. Para ampliar estos conceptos se amplían los ejemplos anteriores.
(25) a. Estoy muy seguro.
Mod Núc.
b. El fervor infantil se derramará en la playa azul.
Co Núc. Mod
2.7.3. Tipos de sintagmas
Como se indicó en el punto anterior, los sintagmas absorben las cualidades sintácticas de su
núcleo. Por dicha razón, salvo las conjunciones, los determinantes y las interjecciones, las
31
-
demás categorías de palabras pueden ser el núcleo de un sintagma. A excepción de los
pronombres, que son un sintagma por sí mismo, los sintagmas pueden clasificarse como:
2.7.3.1. Sintagma nominal (SN)
Se considera sintagma nominal a todo aquel cuyo núcleo sea un sustantivo o nombre. En
algunos casos la función de núcleo puede ser ejecutada por un infinitivo, una frase
sustantivada o bien un pronombre (Renau, 201 O).
Los sintagmas nominales pueden tener complementos, como adjetivos, adverbios, participios
y otros sustantivos, por citar algunos. Es importante destacar que todo sustantivo que
complemente al núcleo es conocido como aposición, aunque esta definición también aplica
para cualquier nombre que modifique a otro sustantivo. Ejemplos de sintagmas nominales se
hallan en (26):
(26) a. Un dato interesante surgió repentinamente.
SN
b. La discusión alcanzó límites insospechados.
SN SN
2.7.3.2. Sintagma adjetivo (SAdj)
Un sintagma adjetivo es el que posee un adjetivo como núcleo (27). Puede tener
modificadores como adverbios, o bien complementos como prepos1c10nes o sintagmas
preposicionales. (Acerbo, 2011)
Generalmente los modificadores se anteponen al núcleo, mientras que los complementos son
posteriores al mismo.
(27). a. Alejandro ha comprado un libro blanco.
SAdj
b. Estoy muy seguro de la respuesta proporcionada.
SAdj
32
-
2.7.3.3. Sintagma verbal (SV)
Como su nombre sugiere, el sintagma verbal se caracteriza por tener un verbo como núcleo.
La necesidad de complementos depende del tipo de verbo que sea el núcleo. (Renau, 2010)
Los complementos del núcleo de este tipo de sintagma se clasifican en argumentos y adjuntos.
Los argumentos requieren estar presentes, mientras que los adjuntos son opcionales. A
continuación, se presenta un caso de sintagma verbal (28):
(28) a. Mi madre lee laboriosamente.
sv b. El perro corre anunciando la llegada de la luna.
sv
2.7.3.4. Sintagma adverbial (SAdv)
El sintagma adverbial (SAdv) se identifica porque su núcleo es un adverbio. Ocasionalmente,
este núcleo puede ser modificado por otro adverbio de cantidad o grado y rara vez tiene
complementos (29):
(29) a. Mi madre lee muy rápidamente
SAdv
b. El verbo fue interpretado posteriormente con furia.
SAdv
2.7.3.5. Sintagma preposicional (SPrep)
Los sintagmas preposicionales se caracterizan porque su primera palabra es una preposición,
y salvo la preposición 'según', se componen de más de una palabra (30). Pueden ser
complementados por un nombre o sintagma nominal, o bien por una oración.
(3 O) a. Mi madre lee con los lentes.
SPrep
b. El pueblo celebró tras la decisión.
SPrep
33
-
2.8. Categorías de las palabras en la oración
Luego de haber definido en forma concisa los sintagmas, se hace imprescindible referirse a
las categorías de las palabras existentes en el idioma español, ya que contienen información
morfológica importante para analizar una oración en forma sintáctica. Seguidamente se hace
una descripción general de cada una de ellas, incluyendo una breve presentación de sus
clasificaciones.
2.8.1. Sustantivo o nombre
Para RAE (201 O), el sustantivo o nombre es el tipo de palabra que se caracteriza por
identificar personas, animales, cosas concretas o imaginarias, colectivos, materias, hechos,
cualidades o sucesos (31)
(31) Pan, agua, luz, Pedro, música, España.
Generalmente los sustantivos son clasificados como comunes y propios.
•
•
Los sustantivos comunes tienen como virtud que categorizan o clasifican cosas,
animales o personas siguiendo características que permiten dicha agrupación y hacen
distintivas a estas palabras. Algunos sustantivos comunes del ejemplo anterior son:
pan, agua, luz y música.
Los sustantivos propios no informan acerca de los rasgos o cualidades, sino que se
encargan de identificar un ser o cosa. Se incluyen en este apartado nombres de
personas, lugares, cuerpos celestiales, festividades, asociaciones, por citar algunos.
Algunos casos de nombres propios presentes en el ejemplo anterior son: Pedro,
España.
2.8.2. Adjetivo
Los adjetivos son palabras que se caracterizan por clasificar al sustantivo. Según Gil (1980)
son en su naturaleza completamente dependientes de los sustantivos, ya que siempre se
piensan en relación con estos.
Aunque la gramática tradicional distingue entre adjetivos calificativos y determinativos, para
efectos de esta investigación solamente se considerarán los calificativos, puesto que los
34
-
determinativos se analizarán en otra categoría de palabra a la que se denominará dete1minante
y será contemplada en la siguiente sección.
El adjetivo es todo aquel vocablo que contiene en sí la cualidad de indicar algón rasgo, virtud
o característica que está presente en el sustantivo al que califica (32).
(32) Azul, grande, inteligente, sabio, transparente, redondo, rojo.
2.8.3. Determinante
Segón Renau (2010) y Acerbo (2011), el determinante es la clase de palabra que especifica
a un nombre común o a la categoría que desempeñe la función de sustant ivo o nombre (33).
Su presencia indica que el nombre a continuación es comón, mientras que su ausencia indica
que el sustantivo es un nombre propio.
(33) a El perro corrió velozmente.
Del
b. La canción se interpretó.
Det
c. Los amigos conversan.
Dct
d. Una mujer estaba presente.
Det
Los determinantes pueden ser agrupados segón su función como:
• Identificadores, que son todas aquellas palabras con la capacidad de indicar el
sustantivo al cual se hace referencia o bien su cercanía o lejanía. En otros casos
relacionan al nombre con su poseedor. En esta categoría se incluyen el articulo
determinado (34.a), el determinante demostrativo (34.b) y el determinante posesivo
(34.c).
(34) a. Artículos determinados: El, la, los, las
b. Artículos demostrativos: Este, esta, ese, esa, aquel, aquella, estos, estas
c. Determinante posesivo: mi, mío , tu, tuyo, nuestro, nuestros
35
-
• Cuantificadores, que permiten reconocer la cantidad de unidades presentes en la
oración, o bien indicar en forma general si son uno o varios. Entre ellos se pueden
mencionar el artículo indeterminado (35.a) y los numerales (35.b).
(35) a. Artículo indeterminado:
b. Numerales:
un, una, unos, unas
diez, siete, vigésimo
2.8.4. Verbo
Para RAE (201 O), los verbos en lugar de representar personas u objetos, tienen la posibilidad
de transmitir la acción, el proceso o el estado que experimenta el sujeto de la oración (36).
(3 6) Piensa, camina, es, parece, ilumina, logra, permanece.
Los verbos pueden ser organizados siguiendo diferentes criterios. En este documento se sigue
la siguiente clasificación:
•
•
Verbos predicativos, que son aquellos que seleccionan al sujeto y sus complementos,
además de hacer manifiesta la participación del mismo en un evento o una serie de
los mismos.
Verbos copulativos, cuyo valor radica en enlazar al sujeto de la oración con un
complemento que se denomina atributo, el cual le da significado a la oración. En la
lengua española los verbos copulativos son ser, estar y parecer.
Es importante señalar que, según otra clasificación, los verbos pueden categorizarse como:
• Verbos plenos, con significado completo y con la capacidad de tener complementos.
• Verbos auxiliares, que junto con el verbo que es núcleo del predicado se combinan
para crear tiempos compuestos. Un ejemplo de verbo auxiliar es haber. En algunos
casos, los verbos ser y estar cumplen este papel.
2.8.5. Adverbio
Según RAE (201 O), el adverbio es la categoría gramatical de palabra que puede modificar
verbos, adjetivos y adjetivos. Son palabras que salvo algunos casos son invariables. Dicho
de otra forma, son palabras que no cambian (37).
(3 7) Donde, mucho, nunca, quizás, amable, razonable.
36
-
Los adverbios pueden ser agrupados de diversas maneras. Por simplicidad, se toma la
clasificación por el modo de significar:
• Adverbios de base léxica, donde se unen todos aquellos que tienen un significado por
sí mismo. De la lista de ejemplos anterior, amable y razonable encajan en esta
categoría.
• Adverbios pronominales, que toman su significado del contexto en que se emplean.
De los ejemplos previamente mencionados pueden citarse: donde, mucho, nunca,
quizás.
2.8.6. Pronombre
Un pronombre es un tipo de palabra que se caracteriza por no tener un significado léxico
inherente (38). Su significado lo toma del contexto lingüístico. (Acerbo, 2011)
(38) Yo, tú, él, ella.
Una forma de clasificar los pronombres es de acuerdo a la posibilidad de comportarse como
determinantes o no (Renau, 2010):
• Los pronombres que