... · 2020. 4. 27. · de etiquetado utilizado previamente para análisis

Transcript

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO

AUTOMATIZACIÓN DEL ANÁLISIS SINTÁCTICO PARA EL ESPAÑOL AMERICANO CON EL FIN DE CREAR UN TREEBANK ESTANDARIZADO

Tesis sometida a la consideración de la Comisión del Progran1a de Estudios de Posgrado

en Con1putación e Informática para optar al grado y título de Maestría Académica

en Con1putación e Informática

M.INOR SANDÍ SALAZAR

Ciudad Universitaria "Rodrigo Facio", Costa Rica

2017
DEDICA TO RIA

A mi Padre Celestial, quien ha sido fortaleza y soporte durante mi vida, fuente de sabiduría, verdad y pasión. Nada sucede si sus manos no obran a favor del que en su Nombre espera y actúa.

A Don Alejandro García, padre, amigo, maestro y compañero en las buenas y en las malas, descubridor de talentos y oportunidades. Quien creyó en mí cuando más lo necesitaba, y me demostró el poder de la lealtad.

A mi esposa, refugio y flor cuyo aroma siempre hace brotar una sonrisa, incluso en los momentos más duros de la vida. Su solidaridad y fe han sido fuente de inspiración.

A mi mamá, quien en cada caminata en aquellos senderos polvorientos de Curridabat a fines de los setentas me inculcó la perseverancia y la disciplina.

A mi papá, quien hubiera disfrutado este logro como suyo, después de tantas noches de oración.

ii
AGRADECIMIENTOS

A mi Padre, por el don de la vida y la pasión por investigar.

A Don Alejandro García, por haber soportado integralmente este proyecto desde sus inicios.

A mi esposa, por las horas de investigación que demandaron una paciente espera.

A mis padres, por depositar sus esfuerzos para que alcanzara estos caminos.

Al Comité de Tesis, por su sabia labor de dirección en este proceso de investigación.

A Gonzalo, por su respaldo como jefe y amigo en las etapas más críticas de la investigación.

A mis profesores de español, Zelmira Ortiz de Chaves y Rafael Eligio Rodríguez, quienes me inculcaron su amor por la lengua española.

111
"Esta tesis fue aceptada por la Comisión del Programa de Estudios de Posgrado en Computación e Lnformática de la Universidad de Costa Rica, como requisito parcial para optar al grado y título de Maestría Académica en Computación e Informática."

Dr. Vladimir Lara Villagrán Representante del Decano

Sistema de Estud ios de Posgrado

Asesor

\

Jp4µ;:3f;_'> Msc. Edgar Casasola Murillo

Asesor

Representante del Director P rograma de Posgrado

Estudiante

iv
TABLA DE CONTENIDO

DEDICATORJA

AGRADECIMIENTOS

RESUMEN

LISTA DE CUADROS

LISTA DE FIGURAS

1. INTRODUCCIÓN l. l. Antecedentes

1.2. Planteamiento del problema

1.3. Objetivos de la investigación

1.3.1. Objetivo general 1.3 .2. Objetivos específicos

1.4. Justificación

2. MARCO TEÓRJCO 2.1. Niveles de análisis del lenguaje natural

2.1.1. Fonética 2.1.2. Fonología 2.1.3. Morfología 2.1.4. Sintaxis 2.1.5. Semántica 2.1.6. Pragmática

2.2. Fundamentos de las teorías gramaticales contemporáneas

2.2.1. Gramática de dependencias 2.2.1.1. Papel de las palabras 2.2.1.2. Dependencias 2.2.1.3. Nudos 2.2.1.4. Valencias 2.2.1.5. Gramática 2.2.1.6. Representación gráfica 2.2.2. Gramática generativa.

2.3. Gramática Léxico-Funcional (LFG)

2.3. l. Generalidades 2.3 .2. Estructuras para la representación de la oración 2.3 .2.1. Estructura constituyente (estructura-e) 2.3.2.2. Estructura funcional (estructura-f)

2.4. Análisis estructural de la oración

2.4.1. Distinción entre oración y frase 2.4.2. La frase 2.4.3. La oración

2.5. Componentes básicos de fa oración

2.5. l. Sujeto (S) 2.5.2. Predicado (P)

2.6. Clasificación de oraciones

V

ll

iii

IX

X

X

1 1

6

9

9 9 9

14 14

14 15 15 15 16 16 17

17 17 17 18 19 19 20 20 22

22 23 23 24 25

25 25 26 26

26 27 28
2.6 .1. Clasificación según su estructura interna 2.6.2. Clasificación según la presencia del sujeto 2.6.3. Clasificación según la naturaleza del verbo 2.6.4. Clasificación según el tipo de voz

2. 7. Sintagmas

2.7.1. Definición 2.7.2. Características 2.7.3. Tipos de sintagmas 2.7.3.1. Sintagma nominal (SN) 2.7.3.2. Sintagma adjetivo (SAdj) 2.7.3.3. Sintagma verbal (SV) 2.7.3.4. Sintagma adverbial (SAdv) 2.7 .3 .5. Sintagma preposicional (SPrep)

2. 8. Categorías de las palabras en la oración

2.8.1. Sustantivo o nombre 2.8.2. Adjetivo 2.8.3. Determinante 2.8.4. Verbo 2.8.5. Adverbio 2.8.6. Pronombre 2.8.7. Conjunción 2.8.8. Preposición 2.8 .9. Interjección

2.9. Accidentes gramaticales en los componentes de la oración

2.9 .1. Persona 2.9.2. Género 2.9.3. Número 2.9.4. Grado 2.9 .5. Tiempo 2.9.6. Aspecto 2.9.7. Modo 2.9.8. Voz

2.1 O. j\lforfemas

2.10.1. Definición 2.1 O .2. Clasificación 2.10.3. La importancia de los morfemas para la sintaxis

2.11. Relaciones de dependencia

2.11.1. Sujeto (Suj) 2.11.2. Complemento directo (CD) 2.11.3. Complemento indirecto (CI) 2.11.4. Complemento predicativo (CP) 2.11.5. Complemento de régimen (CR) 2.11.6. Complemento circunstancial (CC) 2.11.7. Complemento agente (CA) 2.11.8. Atributo (A)

2.12. Etiquetado de categorías gramaticales y relaciones de dependencia

2.12.1. Etiquetado de las categorías gramaticales 2.12.2. Etiquetado de las relaciones de dependencia

vi

28 29 29 30 30

30 31 31 32 32 33 33 33 34

34 34 35 36 36 37 37 38 38 38

39 39 39 40 40 41 41 42 42

42 42 43 43

43 44 45 45 46 46 47 47 48

48 49
2. 13. Representaciones gráficas de estructuras sintácticas

2.13. l. Paréntesis etiquetados 2.13.2. Llaves 2.13 .3. Árboles sintácticos

2.14. Treebanks

2.14.1. Concepto 2.14.2. Utilidad de los treebanks 2.14.3. Tipos de treebanks 2.14.4. Diferencias entre treebanky corpus 2.14.5. Treebanks utilizados para el idioma español 2.14.6. Representación computacional de un treebank

2. 15. Dependencias universales

2.15 .1. Concepto 2.15 .2. Principios de diseño 2.15.1. Elementos computacionales utilizados

2. 16. Análisis sintáctico desde la óptica computacional

2.16 .1. Analizador sintáctico 2.16.2. Requerimientos de un analizador sintáctico 2.16.3. Tipos de analizadores sintácticos 2.16.3 .1. Analizadores sintácticos según reglas 2.16.3 .2. Analizadores sintácticos probabilísticos

2. 17. Resumen

3. METODOLOGÍA 3.J. Diseño metodológico

50

50 51 51 52

52 52 53 53 53 54 55

56 56 56 60

60 61 62 62 63 65

66 66

3. l. l. Actividad metodológica 1: Identificar y caracterizar textos anotados para el español 66 3 .1.2. Actividad metodológica 2: Establecer la equivalencia entre anotaciones 66 3.1.3. Actividad metodológica 3: Proponer un modelo de creación automática de un treebank

67 3.1.4. Actividad metodológica 4: Evaluar en qué proporción puede ser automatizado el proceso de creación de un treebank 68 3.1.4.1. Métricas para evaluación de treebanks 69

3.2. Enfoque 70

3.3. Fuentes de información 70

3 .3. l. Artículos y libros del área de la Lingüística Computacional 70 3 .3 .2. Fuentes para el estudio de la gramática de la lengua española 71 3 .3 .3. Artículos y sitio oficial en Internet sobre las dependencias universales 71 3.3.4. Treebanks y corpus obtenidos 71 3.3.5. Herramientas computacionales empleadas 71

3.4. Objetos 72

3.5. Alcances y limitaciones 72

3.5.1. Alcances 72 3 .5 .2. Limitaciones 73

vii
4. RESULTADOS 74 4.1. Etapa 1: Identificar mediante búsqueda literaria varios c01pus y treebanks utilizados para

el idioma espcn?ol 74

4.1.1. Seleccionar mediante búsqueda literaria al menos cinco corpus utilizados para el idioma español 74 4.1.2. Determinar cuáles características de estos corpus son relevantes para la investigación.74 4.1.3. Crear un cuadro comparativo con las características de los corpus encontrados. 76 4.1.4. Seleccionar el corpus que más se ajuste a los propósitos de la investigación. 76

4.2. Etapa 2: Establecer la equivalencia entre anotaciones 78

4.2.1. Representar las reglas de equivalencia para la información morfológica de treebanks y co1pus de la muestra. 78 4.2.2. Representar las reglas de equivalencia para la información sintáctica de los treebanks de la muestra 81

4.3. Etapa 3: Proponer un modelo de creación automática de un treebank 82

4.3.1. Diagrama de clases y descripción general de clases y métodos desarrollados 82 4.3 .2. Algoritmo para la identificación de oraciones simples 84 4.3 .3. Algoritmo para el análisis sintáctico de oraciones 85 4.3.4. Implementación de reglas gramaticales para identificar la función sintáctica 86 4.3.5. Ejemplos de oraciones analizadas exitosamente 87 4.3.6. Medición de la eficiencia del modelo propuesto 88

4.4. Etapa 4: Evaluar en qué proporción puede ser automatizado el proceso de creación de un

~~~ ~

4.4.1. Información general sobre el proceso para evaluar el treebank 89 4.4.2. Evaluación general del treebank según las métricas definidas 92 4.4.3. Evaluación de acuerdo con las categorías gramaticales 95 4.4.4. Evaluación de acuerdo con las funciones sintácticas 97

5. CONCLUSIONES

6. INVESTIGACIÓN FUTURA 6.1.1. Trabajos futuros para investigaciones en Computación 6.1.2. Trabajos futuros para investigaciones en Lingüística

7.ANEXOA

8.ANEXOB

9. REFERENCIAS BIBLIOGRÁFICAS

viii

100

107 107 107

109

115

121
RESUMEN

Esta investigación se orienta hacia el análisis de textos que han sido etiquetados morfológicamente. Estos textos son analizados por lingüistas para asignar a cada palabra su función sintáctica en la oración a la que pertenecen.

Este proceso generalmente es manual. Cada oración es analizada elemento por elemento hasta completar su análisis y proseguir con otra. Cuando la cantidad de oraciones es grande, el tiempo invertido por los lingüistas es considerable, pudiendo absorber espacios requeridos por el investigador para otras tareas.

Las investigaciones en procesamiento de lenguaje natural buscan automatizar parcial o totalmente los análisis morfosintácticos. Cada equipo de expertos ha generado su propio etiquetado de categorías gramaticales y funciones sintácticas, siguiendo una corriente de análisis del lenguaje natural. Dos de ellas son la gramática generativa y la gramática de dependencias.

Un alto porcentaje de las investigaciones mencionadas se ha hecho para lenguas como el inglés, alemán y chino, por citar algunas. El análisis para el español se inició después, enfatizándose las investigaciones en su variante peninsular y no en la americana.

En los últimos años surgió una tendencia en la que varias investigaciones han desarrollado etiquetados morfosintácticos para estandarizar el análisis con formatos universales. Dicho de otra forma, pueden emplearse para analizar varias lenguas con un mismo formato.

Esta tesis recopila información sobre algunos textos analizados en español para determinar sus características y ofrecer un posible punto de partida para posteriores investigaciones. Se incluye un inventario de etiquetados morfosintácticos usados en estos textos anotados, para hallar semejanzas y diferencias entre estos. El fin es comparar estos formatos, para determinar el más útil a la hora de estandarizar los análisis.

También se examinan conjuntos de oraciones en español cuyas palabras poseen un sistema de etiquetado utilizado previamente para análisis de textos en diferentes lenguas. Esto se hace mediante un módulo automático de extracción, un módulo de análisis sintáctico que utiliza reglas gramaticales con un etiquetado universal y un módulo de almacenamiento en disco.

Para validar los resultados obtenidos en el proceso descrito se eligieron métricas conocidas en el área de la Computación Lingüística. Estas métricas comparan los textos anotados creados por la aplicación implementada con sus originales, para validar su eficacia.

Finalmente, se presentan las conclusiones obtenidas luego de la investigación, así como trabajos futuros a partir de las áreas de mejora encontradas.

ix
LISTA DE CUADROS Cuadro 1 Soporte existente a la tecnología lingiiística para el Español (Melero et al, 2012) ......................... 11 Cuadro 2 Algunos analizadores sintácticos 'open source ' ............................................................................... 12 Cuadro 3 Conjunto de reglas definidas para una gramática de dependencias ............................................... 20 Cuadro 4 Conjunto de reglas definidas para una gramática LFG .................................................................. 23 Cuadro 5 Subconjunto de etiquetados para categorías de palabras ................................................................ 49 Cuadro 6 Subconjunto de etiquetados para relaciones de dependencia ........................................................ .49 Cuadro 7 Estructura de un archivo conformato CoNLL-X (HajiC, 2009) ....................................................... 55 Cuadro 8 Información mo1fológica de las dependencias universales (Nivre, 2015) ........................................ 57 Cuadro 9 Información sintáctica de las dependencias universales (J,livre, 2015) ............................................ 58 Cuadro JO Estructura de un archivo confonnato CoNLL-U ........................................................................... 59 Cuadro 11 Estructura de una oración empleando elformato CoNLL-U ......................................................... 59 Cuadro 12 Representación de una gramática libre de contexto ...................................................................... 62 Cuadro 13 Cuadro comparativo de corpus y treebanks seleccionados ........................................................... 76 Cuadro 14 Cuadro comparativo de anotaciones morfológicas presentes en los corpus y treebanks seleccionados para esta investigación .............................................................................................................. 79 Cuadro 15 Cuadro comparativo de anotaciones sintácticas presentes en los treebanks seleccionados para esta investigación .............................................................................................................................................. 81 Cuadro 16 Descripción general de las clases desarrolladas durante la investigación ................................... 84 Cuadro 17 Diez ejemplos de oraciones analizadas con 100% de eficacia ...................................................... 88 Cuadro 18 Tiempos de ejecución del modelo propuesto por módulo .............................................................. 89 Cuadro 19 Ejemplo de la estructura y contenido del archivo analysis-result.txt ............................................ 90 Cuadro 20 Porcentajes de acierto del treebank según las métricas definidas en la metodología ................... 93 Cuadro 21 Resultados de la evaluación del treebank según categorías gramaticales .................................... 95 Cuadro 22 Resultados de la evaluación del treebank segúnfanciones sintácticas ......................................... 98 Cuadro 23 Oración activa, con 1 elemento y 1 verbo .................................................................................. 115 Cuadro 24 Oración activa, con 4 palabras y sujeto tácito ............................................................................ 115 Cuadro 25 Oración activa, con 8 elementos, sujeto y el verbo copulativo ser .............................................. 115 Cuadro 26 Oración pasiva, con 11 elementos y la combinación verbo ser más participio ........................... ] 16 Cuadro 2 7 Oración pasiva sin sujeto, con 11 elementos ............................................................................... 116 Cuadro 28 Oración con el pronombre 'se' sin sujeto, con 14 elementos ...................................................... 117 Cuadro 29 Oración activa, con 18 elementos, sujeto y verbo en presente perfecto ..................................... 117 Cuadro 30 Oración activa, con 21 elementos, sujeto, ................................................................................... 118 Cuadro 31 Oración activa, con 27 elementos, sujeto y verbo transitivo ....................................................... 118 Cuadro 32 Oración activa, con 32 elementos, sujeto y verbo transitivo ....................................................... 119

LISTA DE FIGURAS Figura 1 La oración "Él come un sandwich" analizada en inglés y ji·ancés . .................................................... 5 Figura 2 Oración analizada en finés siguiendo el etiquetado de las dependencias universales ........................ 5 Figura 3 Árbol de constituyentes (Chomsky) y árbol de dependencias (Tesniere) para la oración ................... 7 Figura 4 Árbol de dependencias con ejemplos de palabras regentes y regidas ............................................... 18 Figura 5 Árbol de dependencias para el enunciado "Yo leo la oración simple" ............................................. 20 Figura 6 Árbol de constituyentes para el enunciado "Yo leo la oración simple" ............................................ 21 Figura 7 Estructura-e generada a partir de las reglas definidas ..................................................................... 24 Figura 8 Estructura.¡ correspondiente al enunciado 'Yo leo la oración' ....................................................... 25 Figura 9 Representación de una oración utilizando llaves .............................................................................. 5 J Figura 1 O Representación de una oración utilizando un árbol sintáctico ........................................................ 51 Figura 11 Ubicación del analizador sintáctico en un compilador (Aho et al., 2006) ...................................... 60 Figura 12 Ubicación del analizador sintáctico en el proceso de creación de un treebank ............................. 61 Figura 13 Representación de un analizador sintáctico basado en reglas ....................................................... 63 Figura 14 Diseño de un analizador sintáctico probabilístico ......................................................................... 64 Figura 15 Proceso sugerido para analizar sintácticamente un corpus anotado moifológicamente ................ 68 Figura 16 Diagrama de clases para la propuesta del modelo de creación automática de 201 treebank ......... 83

X
Figura 17 Proceso sugerido para seleccionar oraciones simples de un treebank ........................................... 85 Figura 18 Algoritmo para el análisis sintáctico de una oración ...................................................................... 85 Figura 19 Algoritmo para asignar a cada palabra su función sintáctica ........................................................ 86 Figura 20 Algoritmo para definir lafimción de un determinante .................................................................... 86 Figura 21 Ejemplo de análisis del verbo ser .................................................................................................... 87 Figura 22 Ejemplo de análisis del pronombre le .............................................................................................. 87 Figura 23 Cálculo de las métricas generales para el treebank ........................................................................ 91 Figura 24 Cálculo de las métricas según lafanción sintáctica ........................................................................ 91 Figura 25 Cálculo de las métricas según la categoría gramatical ................................................................... 92 Figura 26 Cálculo de las métricas por oración ................................................................................................ 92 Figura 27 Porcentajes de acierto del treebank según las métricas definidas en la metodología .................... 94 Figura 28 Fragmentos del código de detección de sujetos ............................................................................ ] 09 Figura 29 Fragmentos del código de detección de raíces oracionales para el caso del verbo ser ............... 11 O Figura 30 Fragmentos del código de detección de raíces oracionales ......................................................... 111 Figura 31 Fragmentos del código de detección de complementos agentes ................................................... 112 Figura 32 Fragmentos del código de detección de raíces oracionales ......................................................... 112 Figura 33 Fragmentos del código para analizar adposiciones ..................................................................... 113 Figura 34 Fragmentos del código para el análisis de determinantes ........................................................... 114

xi
l. INTRODUCCIÓN Esta sección ofrece, en fonna general, los antecedentes del campo en el que esta investigación

se desarrolla. Luego, se describen el planteamiento del problema, la pregunta de

investigación, sus objetivos. Finalmente, se incluye Ja justificación para este proceso

invesligativo.

l. l. Antecedentes

Desde los días del teólogo medieval del siglo XIII, Roger Bacon, ha existido interés en la

noción de una gramática universal que abarque la mayor cantidad de lenguajes. Nolan y

Hirsch (1902) recogen una frase de Bacon en la que afitmó que " .. . en su sustancia, Ja

gramática es una y la misma en todos los lenguajes, aún si esta accidentalmente varía" (pág.

xxv).

Este fervor se ha mantenido constante hasta la época moderna. Lucian Tcsniere introdujo la

noción de árbol sintáctico de dependencia (Tesnicre, 1959) y Noah Chomsky desarrolló otros

conceptos teóricos en el área de la lingüística que resultaron claves para el desarrollo de

herramientas computacionales que colaboraran en la automatización del anál isis de los textos,

más específicamente sobre la teoria de gramáticas libres de contexto (Chomsky, 1957). De

acuerdo con Aho, Lam, Scthi y Ullman (2006), los lenguajes de programación Fortran y

Algol, desarrollados entre 1959 y 1960, utilizaron esta teoría para la implementación de su

sintaxis. De esa fecha en adelante, prácticamente la mayoría de compiladores para lenguajes

de programación han tomado la gramática libre de contexto como parte de su estructura.

En la época actual, los esfuerzos in iciales por crear textos anotados se remontan a la segunda

mitad de la década de los años 60, cuando se completó el primer treebank1, el cual es

conocido como "Brown C01pus" y recopiló alrededor de un mi llón de palabras del inglés de

la época (Kuccra y Francis, 1967). Paralelamente, se dieron esfuerzos para crear herramientas

1 Segón Joakim Nivre, un treebank es un corpus anotado lingOisticamente que además de información morfológica incluye otros tipos de etiquetas, resultado de un analisis gramatical. (Nivre, 2008)
computacionales que colaboraran en la creación de textos anotados. Por ejemplo, en 1970 se

creó el lenguaje de programación Prolog, cuyo propósito estaba dirigido a la creación de

gramáticas (Nadkarni, Ohno-Machado y Chapman, 2011). Es importante destacar que

durante los años setenta los analizadores sintácticos para lenguaje natural eran creados

mediante la utilización de reglas. Sin embargo, los autores citados anteriormente indican que

en los años ochenta se dio la creación del análisis sintáctico probabilístico.

Aunque al inicio de los años noventa se crearon varios treebanks para la lengua inglesa el

más influyente surgió en 1993. Como resultado de las investigaciones realizadas en la

Universidad de Pennsylvania se desarrolló un treebank basado en el inglés americano, con

poco más de 4.5 millones de palabras. Este treebank llegó a ser un modelo debido a que

incorporó el etiquetado para las anotaciones de las partes del lenguaje2, y más de la mitad de

su contenido incluía el esqueleto de una estructura sintáctica (Marcus, Marcinkiewicz, y

Santorini, 1993). Es conocido como Penn TreeBank y parte de su información fue tomada

del Brown Corpus.

Pocos años después se desarrollaron algunas guías que consideraron como provisionales para

añadir información sintáctica además de las anotaciones morfosintácticas, como por ejemplo,

símbolos para indicar las relaciones de dependencia entre palabras. Similarmente, se señaló

la intención de que este formato de anotación sintáctica fuese útil para diversos idiomas, entre

ellos inglés, holandés, alemán, finés, sueco, francés, español e italiano. Estas guías son

conocidas hoy como EAGLES, y se consideran el primer paso para crear etiquetados útiles

en diversos idiomas (Leech, Barnett y Kahrel, 1996). En (1) se presenta una oración

etiquetada morfológicamente según EAGLES.

(1) Yo

PPICSNO

leo la

VMIPJSO DAOFSO

oración simple

NCFSOOO AQOCSOO Fp

Entre la segunda mitad de los años 90 y el inicio de este siglo surgieron algunos treebanks

para español que fueron base para otros que surgieron posteriormente. En 1997 la

2 En inglés, las anotaciones del lenguaje son conocidas como POS (Part of Speech)

2
Universidad Pompeu Fabra inició el desarrollo del treebank que posteriormente llegó a ser

conocido como IULA (Santasusagna, Tomer, Vivaldi, Castellví e Yzaguirre, 1998).

Montserrat Civit y Antonia Martí presentaron en el año 2002 el corpus CLiC-TALP, el cual

contiene un millón de palabras (Civit y Maiií, 2002). Posteriormente, como resultado de las

propuestas de esa investigación las autoras tomaron un conjunto de cien mil palabras de este

corpus para crear un treebank que es conocido como 3LB (Civit y Martí, 2004). Los datos

generados para 3LB permitieron el desarrollo posterior de otro treebank conocido como

Áncora, el cual posee la particularidad de orientarse hacia el español y el catalán (Taulé,

Martí, y Recasens, 2008).

Durante este período, se desarrollaron investigaciones en la Universidad de Stanford que

culminaron con la presentación de un analizador sintáctico3 (De Mameffe, MacCartney y

Manning, 2006). Igualmente se presentó por parte de Sabine Buchholz y Erwin Marsi (2006)

un formato para el almacenamiento de treebanks para trece idiomas útil para representar la

información morfosintáctica.

El analizador sintáctico previamente implementado por De Mameffe (2006) es la base para

la representación de dependencias basada en árboles sintácticos, la cual toma como

fundamento el marco teórico de la gramática léxico funcional propuesta por J oan Bresnan, al

asumir las funciones sintácticas propuestas por esta teoría (Bresnan, 2001 ). Sin embargo, este

trabajo de De Mameffe presenta 48 tipos de relaciones de dependencia que pueden

presentarse en una oración, siguiendo con algunas variantes el esquema de representación de

dependencias propuesto por Tesniere (1959). De Mameffe completó su trabajo en el año

2008 (De Mameffe y Manning, 2008). Ese mismo año Daniel Zeman se orientó a trabajar en

la creación de una herramienta de conversión entre diferentes tipos de etiquetado sintáctico

para diversos lenguajes (Zeman, 2008).

En los inicios de la segunda década del siglo XXI, Slav Petrov y su equipo propusieron un

etiquetado universal, junto con un conjunto de relaciones entre diversos tipos de etiquetado

3 Analizador sintáctico es un programa que analiza un texto siguiendo un conjunto de instrucciones programadas que interpretan las reglas de la gramática y la información contenida en el léxico. (Villayandre, 2011)

3
hacia este formato universal, logrando un etiquetado capaz de ser utilizado en 22 diferentes

idiomas y 25 treebanks. Para el idioma español, Petrov y su equipo seleccionaron los

treebanks Ancora y Cast3LB, anteriormente mencionados. (Petrov, Das y McDonald, 2011)

En la Universidad de Costa Rica, dada la poca cantidad de treebanks que se han desarrollado

para el español, se creó el treebank IPROCOLDI a partir de documentos cuyo contenido se

basaba en discursos presidenciales costarricenses, entre el siglo XIX y el XX (Jara Murillo,

2013). Dicho en otras palabras, es un treebank creado para el español de Costa Rica.

El año 2013 fue prolífico para el procesamiento de lenguaje natural, ya que los resultados de

varias investigaciones se presentaron:

• Ryan McDonald presentó su primera propuesta de un treebank universal, cuyo

etiquetado es capaz de aplicarse a seis idiomas: alemán, inglés, sueco, español, francés

y coreano; facilitando el análisis sintáctico multilingüístico (McDonald, Nivre,

Quirmbach-Brundage, Goldberg, Das, Ganchev, y Lee, 2013). Muchos elementos de

esta propuesta se basan en los postulados desarrollados por el equipo de De Marneffe

en 2006 y 2008.

•Se propuso por parte de Tsarfaty (2013) una extensión de las dependencias de Stanford

que unifica la anotación de las relaciones sintáctica y morfológica, además de ofrecer

dos formas para predecir en forma automática estas anotaciones desde texto sin

procesar.

• Cristina Bosco y otros investigadores asociados implementaron la primera versión de

un treebank para la lengua italiana utilizando las dependencias de Stanford a partir de

un proceso de transformación que tomó como fuentes dos treebanks con etiquetados

distintos que requirieron una armonización entre sí, utilizando varios patrones de

conversión que se agruparon en dos clases. (Bosco, Montemagni, y Simi, 2013)

Recientemente, De Marneffe presentó una mejora de la representación de dependencias de

Stanford con la finalidad de enfatizar en la teoría de la gramática funcional sobre la cual

descansa este diseño, así como la habilidad de ser aplicada en diferentes lenguajes. (De

4
Mameffe, Dozat, Silveira, Haverinen, Ginter, Nivre y Manning, 2014)

En el año 2015 Joakim Nivre y otr4os investigadores presentaron la primera versión de las

dependencias universales, cuyo propósito es crear guías generales para una anotación

gramatical consistente entre diversos lenguajes naturales, así como el desarrollo de un

analizador sintáctico multilingüístico que ayude al avance de las investigaciones de

procesamiento del lenguaje natural. Para lograr su objetivo, las dependencias universales

tomaron elementos de las dependencias universales de Stanf ord, extendieron el conjunto de

etiquetados definidos por Petrov, adoptaron un subconjunto del inventario definido por

Zeman y una versión revisada del formato CoNLL-X, llamada por este grupo CoNLL-U.

(Nivre, 2015). La figura 1 ilustra el uso de las dependencias universales para el inglés y el

francés.

. ..... rd obj h'o.___

• • • lll • .... • ~.·----~. ,,.--. t-· ---- ...

JI mange un sandwich

lll ll:lll • 11 ,,;-J--,, ,,,,_.., __ .,,.,.... ---. --. "'

He eats a sand1¡1;id-1 , Figura 1 La oración "Él come un sandwich" analizada en inglés y francés (Dobj: Direct Object)

Igualmente, en el mismo año Sampo Pyysalo y su equipo asociado lograron la creación de

un treebank totalmente compatible con las dependencias universales para el idioma finés, a

partir de otros treebanks que seguían el formato del Turk:u Dependency Treebank (TDT) y el

FinnTreebank 1. Para este fin se desarrolló un proceso de transformación desde estas fuentes

hacia el etiquetado definido por las dependencias universales. (Pyysalo, Kanerva, Missila,

Itse han elle

Laippala y Gin ter, 2015). La figura 2 presenta una oración resultante de este análisis.

Figura 2 Oración analizada en finés según el etiquetado de las dependencias universales (Pyysalo et al.)

5
Sin embargo, este avance en la creación de analizadores sintácticos y treebanks se ha dado

en idiomas diferentes al español. Además, cuando se ha dado algún desarrollo para nuestra

lengua materna, en su mayoría ha sido por parte de personas con conocimiento no nativo del

mismo. Señalan Lloberes, Castellón y Padró (201 O) específicamente la existencia de pocos

analizadores sintácticos orientados hacia la representación de dependencias en español; con

el agravante que, de estos pocos, un porcentaje bajo son de tipo 'open source '. Por ejemplo,

mencionan los casos de MaltParser, Diluct y Freeling. Otra situación recalcada es que de

estos analizadores sintácticos 'open source' solamente Freeling utiliza reglas basadas en

conocimiento lingüístico, pero no emplea los postulados mencionados por Nivre (2015). En

el caso de IPROCOLDI, treebank que se construyó a partir de un análisis de discursos

presidenciales costarricenses, existen dos particularidades: a pesar de emplear reglas

lingüísticas, utiliza una estructura sintagmática y su etiquetado no es el de las dependencias

universales, sino EAGLES.

Esta tendencia general que orienta las investigaciones hacia el español de la Península Ibérica

tiende a descartar las variantes sintácticas del español americano. Con respecto a las

diferencias entre español americano y español peninsular, pueden mencionarse el uso

diferenciado de pronombres clíticos incluyendo sus combinaciones y creación de locuciones.

En este campo el trabajo de Charles Kany es pionero (Kany, 1951). En (2) se ilustran las

diferencias entre las variantes americana (2.a) y peninsular (2.b) en cuanto al uso de

pronombres clíticos.

(2) a. Ella estaba con sus amigos. Recibió una carta y se las leyó a ellos.

b. Ella estaba con sus amigos. Recibió una carta y se la leyó a ellos.

Por las razones mencionadas anteriormente, a la fecha no se conoce la existencia de treebanks

orientados específicamente hacia el español americano, o que incluyan algunos de sus rasgos,

que empleen dependencias universales.

1.2. Planteamiento del problema

El estado del arte muestra un interés en el análisis morfológico y sintáctico de textos en

diversos idiomas, cuyo inicio data desde la década de los años sesenta del siglo anterior. Los

progresos en el área de la Lingüística Computacional en estos procesos de análisis se han

6
visto afectados en forma directa por los avances en el hardware y software que han sucedido

paralelamente en la misma época, puesto que los nuevos recursos disponibles abrieron

oportunidades para validar e implementar las teorías lingüísticas que surgieron.

La lingüística moderna postula los análisis de textos desde dos perspectivas: la estructuralista,

propuesta por Tesniere, y la generativa, cuyo máximo representante es Chomsky. Esto ha

incidido directamente en un fenómeno de diversificación en la forma que las oraciones de

dichos textos se analizan, causando divergencias importantes. Igualmente, entre las múltiples

investigaciones que siguen alguna de estas dos perspectivas existen diferencias en cuanto a

la codificación empleada para anotar las características morfológicas y sintácticas de los

textos, así como los corpus y treebanks generados, sin hacer a un lado las representaciones

gráficas para su comprensión. Lo anterior incrementa las divergencias entre las estructuras

planteadas y los análisis que emergen de ellas. Es importante considerar también que existen

aproximaciones que toman elementos de ambas perspectivas, para crear su propia

interpretación. La figura 3 presenta una oración analizada desde ambas perspectivas.

Figura 3 Árbol de constituyentes (Chomsky) y árbol de dependencias (Tesniere) para la oración "Los niños pequeños estudian pocas horas" (Raro y Gelbuck, 2007)

o estudian

A) Árbol de constituyentes B) Árbol de dependencias

Otro hecho que incrementa la diversidad en los análisis de textos es el avance dispar de las

investigaciones si se considera la lengua. Posiblemente, la lengua inglesa ha sido la más

analizada tanto en morfología como en sintaxis, así como en la generación de sus etiquetados;

al igual que el alemán y el chino. Con respecto al español puede afirmarse que la cantidad de

investigaciones es considerablemente menor, y que en buen grado se han aplicado algoritmos

7
creados para otro idioma. Ello implica que hay una carencia de herramientas que surjan desde

las características propias la lengua, causando una automatización dispar del proceso de

análisis sintáctico. Aunado al hecho anterior, la existencia de variantes en la sintaxis entre el

español peninsular y americano es un foco desde el que se generan ciertas diferencias en

cuanto al análisis oracional.

En medio de la existencia de distintas corrientes para el análisis de oraciones y sus

representaciones que han emergido de la Lingüística Computacional, ha surgido en los años

recientes una corriente interesada en desarrollar herramientas y formatos de anotación que

permitan tomar los elementos morfológicos, sintácticos y semánticos que puedan

considerarse como comunes en la mayor cantidad de lenguajes naturales posibles,

procurando ofrecer nuevas oportunidades para el aprendizaje de un nuevo idioma, así como

mejoras a modelos existentes. Este esfuerzo también abarca la creación de nuevos esquemas

para la traducción de textos, además de abrir el espacio para sinergizar los descubrimientos

o avances de investigaciones que vienen de diferentes perspectivas de análisis.

Las investigaciones que siguen esta línea de pensamiento han incentivado la creación de

treebanks con propuestas para la representación estándar de dependencias capaces de

soportar adecuadamente múltiples idiomas. Dichos treebanks han sido alimentados a partir

de corpus y otros treebanks reconocidos, los cuales han sido sometidos a procesos de

estandarización de su etiquetado morfológico y sintáctico que tienden a ser semiautomáticos

o se basan en conversiones manuales generadas por lingüistas; sin importar a cuál de las

perspectivas lingüísticas pertenezcan.

Finalmente, es notable la escasez de herramientas para crear treebanks para el español, así

como su orientación probabilística en su mayoría. Los pocos existentes que se basan en reglas

de conocimiento lingüístico no tratan con las dependencias universales ni se orientan hacia

el español americano. El hecho anterior es explicable debido a que la mayoría de las

investigaciones han sido realizadas en Europa, asumiendo la variante del español peninsular

como estándar de facto.

8
A partir de los antecedentes en el área de la Lingüística Computacional y del planteamiento

del problema anteriormente presentado, esta investigación propone como pregunta de

investigación: "¿es posible automatizar el proceso de creación de un treebank en español

americano utilizando dependencias universales reduciendo la intervención de anotadores

humanos?"

1.3. Objetivos de la investigación

Luego de presentar la pregunta de investigación que surge de los antecedentes y la

descripción del problema, se definen acá el objetivo general y los objetivos específicos para

esta investigación.

1.3.1. Objetivo general

Automatizar el proceso de creación de un treebank en español americano reduciendo la

intervención de anotadores humanos y utilizando dependencias universales.

1.3 .2. Objetivos específicos

• Identificar y caracterizar textos anotados existentes para el español.

• Establecer la equivalencia de las anotaciones de estos textos anotados con un modelo

estándar de representación de dependencias.

• Proponer un modelo de creación automática de un treebank a partir de corpus

existentes en español americano.

• Evaluar en qué proporción puede ser automatizado el proceso de creación de un

treebank en español americano que utilice un modelo estándar de representación de

dependencias; a partir de textos anotados existentes.

A continuación se presentan los hechos que justifican esta investigación.

1.4. Justificación

Uno de los objetivos o tareas más comunes en cualquier área de las Ciencias de la

Computación es la automatización de procesos que se realizan en forma manual y requieren

una fuerte inversión en tiempo, debido al nivel de detalle, así como de experticia requerida

para su correcta ejecución. Además, se procura que estos procesos puedan ser reproducidos

9
utilizando los datos existentes en el entorno donde se implementen, a la vez que se mantengan

las definiciones requeridas y sus respectivas codificaciones para asegurar su replicación en

otros lugares. La Lingüística Computacional es un ejemplo de ello.

Partiendo de allí, a través de esta investigación se daría la aplicación de enfoques teóricos

utilizados en la Lingüística Computacionalcon la finalidad de ofrecer una propuesta para la

implementación de un proceso que logre la mayor automatización del análisis sintáctico a

partir de un corpus generado desde texto en español, con el objetivo de generar un treebank

que emplee una representación estándar de dependencias. Esto con el fin de que pueda ser

reconocida por diversas herramientas con la mayor cantidad de eficacia y exactitud posible.

Son diversas las razones por las cuales lo descrito en el párrafo anterior contiene una

relevancia en la época actual. Una de ellas se relaciona con el creciente interés que el español

está adquiriendo en esta época. Según datos actualizados, al menos el ocho por ciento de los

documentos presentes en Internet fueron generados utilizando el español (Instituto Cervantes,

2015). Este crecimiento en la creación de documentos en la Internet, así como en otros

medios de comunicación genera una enorme oportunidad de investigar cómo el idioma

actualmente adquiere nuevos rasgos o léxico, así como agrega la dificultad de procesar esta

información debido a su volumen en constante crecimiento.

La investigación también aportaría una forma en la cual se incrementaría la capacidad de

procesamiento de textos, a la vez que ofrecería a los lingüistas la oportunidad de poseer una

herramienta que apoye su trabajo al automatizarlo y permita emplear el tiempo que se libere

para otras investigaciones o tópicos relacionados. El idioma español, aunque ha sido objeto

de análisis en diversos campos de la lingüística computacional, mantiene un rezago en cuanto

a la abundancia de proyectos de investigación cuando se le compara con otros idiomas,

especialmente el inglés.

El cuadro que se presenta a continuación, tomado del análisis de Melero, Cardús, Moreno,

Rehm, de Smedt, y Uszkoreit (2012), ofrece el grado de avance con respecto a recursos y

tecnologías orientadas al análisis de la lengua española en una época reciente, tales como

10
sistemas de reconocimiento de texto y voz, análisis y generación de textos. Dicho trabajo se

orienta al impacto que la era digital ha hecho en los idiomas europeos, por lo que su énfasis

es hacia el español de la Península Ibérica.

Cuadro 1 Soporte existente a la tecnología lingüística para el Español (Melero et al, 2012) Categorización: 1 - Excelente, 2 - Bueno, 3 - Moderado, 4 - Fragmentario, 5 - Escaso

"O "O ce Q.l

"O ce ce ¡... ce :9 :9 ;::l

¡... ;g ......, ;::l ......, ';; ¡... "O e< Q.l ce :.o ce u ..o 2 ·a u o u Q.l ......,

"' o if.J

Reconocimiento de voz 2 3 4 2 2

Síntesis de voz 3 3 4 4 4

Análisis gramatical 3 3 4 4 4.5

Análisis semántico 1.5 2 3 2 2.5

Generación de texto o o o o o Traducción automática 3 2 2 2 2

Corpus textuales 3 3 4 4.5 4.5

Corpus de discurso 4 2 4 4 3

Corpus paralelos 2 4 2 2 3

Recursos léxicos 3.5 3 4.5 3 3

Gramáticas 1 4 5 2 2

El cuadro 1 ilustra el avance de las tecnologías existentes así como la existencia de de corpus,

recursos léxicos y gramáticas, al igual que la madurez y la sostenibilidad de herramientas

para análisis de textos ofrece una oportunidad para desarrollar herramientas que permitan el

avance de otras investigaciones, puesto que la categorización muestra que el progreso

alcanzado tiende a ser calificado como moderado o fragmentario,

En forma más puntual, en los antecedentes se indica la escasez de analizadores sintácticos

'open source ', que estén orientados hacia relaciones de dependencia. La mayoría de ellos se

crearon siguiendo un enfoque probabilístico. Solamente Freeling se orienta hacia relaciones_

de dependencia para el español empleando reglas lingüísticas, con la particularidad que estas

relaciones se generan a partir de un árbol de constituyentes. Este panorama abre un espacio

11

4

4

4.5

2.5

o 2

4.5

3

3

3

2
para aportar una herramienta que llene esta área. El siguiente cuadro muestra algunos de los

analizadores sintácticos 'open so urce' existentes.

Cuadro 2 Algunos analizadores sintácticos 'open source'

Basado Español Dep.

12

Nombre Probabilistico en reglas Sintagmas Dependencias Etiquetado América Universales Freeling Si Si Si Si EAGLES No No OpenNLP Si No Si No Penn Tree No No

CoreNLP Si No Si No Penn Tree No No

NLTK Si Opcional Si Si Configurable No No

SharpNLP No Si Si No Penn Tree No No

Diluct Sí No No Sí EAGLES No No

Otro motivo por el que este trabajo es importante surge de la diversidad de corpus y treebanks

existentes para un mismo idioma, lo que genera incompatibilidades o discrepancias capaces

de retrasar la extensión del conocimiento, al no poder representarlo de forma comprensible

para todas las partes. El aporte que esta investigación ofrece sería el de utilizar un módulo de

conversión de sistemas de codificación que puede generar valores equivalentes en un modelo

de representación de dependencias que pueda ser utilizado por diversas herramientas,

creando puentes de colaboración entre equipos que empleen formatos diferentes.

Dado que muchos algoritmos para interpretar la opinión de la mayoría se basan en

información sintáctica y morfológica, una herramienta que procese automáticamente un

corpus anotado morfológicamente y genere como resultado un treebank facilitaría a otros

crear mecanismos para la interpretación de opiniones que puedan utilizarse en distintos

lenguajes, permitiendo que cada investigador se oriente a trabajar en las características

específicas de cada idioma, ya que los aspectos comunes han sido trabajados previamente.

En resumen, esta propuesta de tesis procura implementar en un proceso automatizado la

extracción de oraciones desde un corpus anotado morfológicamente el cual se analice

sintácticamente y genere un treebank con un etiquetado morfológico y sintáctico para una

representación estándar de dependencias a partir de un analizador sintáctico basado en reglas.

Su fin es, entre otros aspectos, investigaciones posteriores que se orienten a interpretar la
opinión de la mayoría, posibiliten búsquedas más inteligentes, condensen la información,

ofrezcan un apoyo para el trabajo de los expertos en lingüística para validar teorías y brindar

oportunidades para procesos de traducción automática; además de incrementar la cantidad y

disponibilidad de herramientas para el análisis de textos, sin olvidar el aporte en cuanto a

posibilitar que investigaciones de diversas perspectivas y etiquetados puedan intercambiar el

conocimiento que ha sido adquirido a lo largo los años. Esta contribución ayudaría en la

aceleración del progreso en la Lingüística Computacional, para el español americano.

13
2. MARCO TEÓRICO

Para una mejor comprensión, el desarrollo de este marco teórico iniciará con una breve

descripción de los niveles de análisis del lenguaje, continuando con las teorías gramaticales

y su pertinencia para esta investigación. Seguidamente se incluye una breve mención del

análisis estructural de la oración, así como de sus componentes básicos y los sintagmas que

se generan a partir de los mismos.

Luego, se tratarán en forma general las relaciones de dependencia, para continuar con el

etiquetado de funciones y relaciones. Finalmente, se abarcarán los conceptos de treebank y

dependencias universales.

2.1. Niveles de análisis del lenguaje natural

Los seres humanos de acuerdo con su necesidad de comunicación han desarrollado distintos

sistemas por los cuales han logrado transmitir sus mensajes a otros individuos, así como

heredar a sus descendientes la riqueza de su aprendizaje.

Con el transcurso de las épocas se ha pretendido analizar estos sistemas de comunicación,

para descubrir cómo el texto generado puede ser analizado con la finalidad no solamente de

comprender, sino de descubrir patrones no vistos anteriormente. De acuerdo con Briscoe

(2011), el lenguaje natural puede analizarse en varias áreas.

2.1.1. Fonética

La fonética se orienta hacia el estudio de las propiedades articulatorias de los sonidos que se

emplean en la construcción del lenguaje. Seguidamente (3) ilustra tres palabra analizadas

fonéticamente.

(3) a. pata [p á ta]

b. capa [k áp a]

c. hambre [á m b re]

14
2.1.2. Fonología

La fonología se relaciona con la utilización de los sonidos en un idioma específico. La cantidad de

sonidos, así como los que se emplean en un idioma varía con respecto a otro. Se presenta un caso

de transcripción fonémica para "abraza" según el español americano ( 4.a) y el español

peninsular (4.b)

( 4) a. / ab.rása/

b. /ab.rá8a/

2.1.3. Morfología

Las palabras pueden ser descompuestas en elementos que utilizan conceptos más básicos.

Dichos componentes son llamados morfemas. Por esta razón el conjunto de investigaciones

sobre los componentes de las palabras es conocida como morfología. En la sección 2.9 se

tratarán con más profundidad las cualidades de estos elementos constitutivos de las palabras.

Es importante indicar que una oración está compuesta por diversos tipos o categorías de

palabras. Normalmente se consideran como categorías de palabras los sustantivos, el adjetivo,

los determinantes, los verbos, los adverbios, los pronombres, las preposiciones, las

conjunciones y las interjecciones. Más adelante se analizarán con detalle.

En (5) se muestra una oración analizada morfológicamente, según la categoría a la que

pertenece cada elemento léxico.

(5) Yo leo la oración simple

Pronombre Verbo Determinante Nombre Adjetivo Puntuación

Común

2.1.4. Sintaxis

El ámbito de la oración es tratado por la sintaxis, que puede ser definida como la rama de la

lingüística que" ... se encarga de estudiar y analizar cómo se combinan las palabras y cuál es

la función que las diversas agrupaciones de palabras desempeñan en el seno de la oración"

(Acebo,2011,pág. 8)

15
Es importante destacar que la sintaxis analiza elementos dentro de la oración que son

definidos como sintagmas, los cuales están en un espacio intermedio entre la oración y las

palabras. Posteriormente los sintagmas serán tratados con más amplitud en la sección 2.6.

En el caso de (6) se muestra una oración analizada sintácticamente según su función.

( 6) Y o leo la oración simple

Sujeto Raíz

2.1.5. Semántica

Determinante Objeto

directo

Modificador Puntuación

adjetival

La semántica se orienta hacia la forma en que los elementos morfológicos y sintácticos se

unen para formar el significado de una oración. En (7) se muestra un caso de análisis

semántico

(7) Yo leo la oración simple

Y o, es decir, la persona que habla, expresa que ejecuta en el presente el acto de leer

un conjunto de unos pocos elementos léxicos que se relacionan entre sí. Dicho

conjunto es simple, es decir, sencillo.

2.1.6. Pragmática

La pragmática trata con el uso del idioma en contexto, que incluye el contexto lingüístico y

situacional. Por ejemplo, una oración que gramaticalmente es una pregunta puede ser referida

en el contexto como una orden o lenguaje figurado. Las oraciones en (8) pueden analizarse

pragmáticamente:

(8) Yo leo la oración simple

Ayer también la leí

Un caso de análisis pragmático es el hallazgo de una relación en las oraciones presentes en

(8) entre los elementos léxicos "oración" y "la". Específicamente, el término "la" es

conocido como anáfora (referencia posterior) y el vocablo "oración" es denominado

antecedente (primera mención del término).

16
Esta investigación considerará solamente la morfología y la sintaxis, obviando las demás

áreas del lenguaje natural.

2.2. Fundamentos de las teorías gramaticales contemporáneas

La gramática, como parte del estudio del lenguaje, es analizada desde diferentes ópticas por

parte de los investigadores. Ello conlleva a la definición de teorías que procuran explicar los

fenómenos relacionados con las palabras, sus características y las relaciones con otros

vocablos en el contexto de la oración. Según Haro y Gelbuck (2007), existen dos enfoques

que a lo largo del tiempo se han presentado como opuestos: el desarrollado por Tesniere, de

origen europeo y el propuesto por Chomsky, formulado en los Estados Unidos. A

continuación, se presentan algunos rasgos generales de estas propuestas.

2.2. l. Gramática de dependencias

Este enfoque tiene sus raíces en el trabajo del francés Lucien Tesniere (1959), quien en su

libro "Élemenis de syntaxe structural" presenta los fundamentos de su teoría, los cuales se

mencionan en forma resumida a continuación.

2.2. l. l. Papel de las palabras

El enfoque de dependencias parte de la noción de palabra, al afirmar que una oración o frase

está compuesta por elementos léxicos relacionados entre sí, siguiendo las reglas definidas

por el lenguaje. Igualmente, las palabras pertenecen a una categoría gramatical y poseen una

función determinada. Tesniere afirma que la categoría gramatical es estática, mientras que la

función es dinámica, ya que puede variar según la oración. Puede referirse a las secciones

2.8, 2.9 y 2.11 para leer acerca de las categorías gramaticales y las funciones sintácticas.

2.2.1.2. Dependencias

Según Tesniere, toda oración puede representarse jerárquicamente, mediante relaciones

denominadas 'dependencias'. Una dependencia puede ser definida como una relación entre

dos palabras que pertenecen a una misma oración. Una de las palabras se distingue como

subordinada o dependiente y la otra como regente. En la oración (9) se presenta un caso de

regente y regido.

17
(9) Yo leo

Regido Regente

Una palabra regente puede poseer varias subordinadas. En cambio, cada palabra subordinada

tiene solamente un término regente. Otro aspecto importante es que una palabra regente

puede ser subordinada a la vez.

La regencia de una palabra sobre otra se define según su categoría gramatical. Por ejemplo,

un verbo es regente del sustantivo y del pronombre. El sustantivo es regente para los

detenninantes y adjetivos; mientras que los adjetivos rigen adverbios. Estos últimos solo

rigen adverbios. La figura 4 ejemplifica dicha situación.

Figura 4 Árbol de dependencias con ejemplos de palabras regentes y regidas (Raro y Gelbuck, 2007)

estudinn

horas

los pequeños pocas

La figura 4 muestra cómo el determinante "los" y el adjetivo "pequeños" son regidos por el

sustantivo "niños'', el que a su vez es regido por el verbo "estudian". Dicho en forma diferente,

se relacionan entre sí9

2.2.1.3. Nudos

Un nudo es una palabra que tiene varios términos que dependen de ella. Los nudos son

denominados según la categoría gramatical a la que la palabra pertenezca. En la figura 4,

"niños" y "horas" son nudos sustantivales.

18
Toda oración posee un nudo principal. Generalmente es el verbo, aunque existen casos en

los que un sustantivo puede tomar ese papel. En la figura 4, el nudo principal es el verbo

"estudian".

Finalmente, las palabras que tienen la capacidad de ser nudos son llamadas constitutivas. Las

demás son conocidas como subordinadas.

2.2.1.4. Valencias

Este concepto se relaciona generalmente con verbos. Una valencia es el número de sujetos y

objetos que un verbo necesita para generar una oración gramaticalmente correcta.

Generalmente son el sujeto, el complemento directo y el complemento indirecto según su

perspectiva. La sección 2.11 amplía estos últimos conceptos. En la oración de la figura 4, la

valencia del verbo "estudian" es 1, ya que el verbo sólo requiere del sujeto "niños".

2.2.1.5. Gramática

Algunos estudiosos, años después de la mue1ie de Tesniere, desarrollaron una definición de

gramática para esta teoría. Debusmann (2000) presenta una síntesis de sus componentes de

una gramática:

• Un conjunto de reglas (R) que operan sobre símbolos auxiliares.

• Un conjunto de símbolos terminales (L), que son palabras.

• Un conjunto de símbolos auxiliares (C), correspondientes a las categorías

gramaticales.

• Una función de asignación (F), por la que se asigna a cada símbolo terminal el

símbolo auxiliar correspondiente. F puede ser definido como F: L -> C.

Las reglas que operan bajo esta teoría poseen las siguientes cualidades. Asumiendo que p es

una palabra subordinada de otra x, se dice que:

• x (p1, .. ., *, ... , pk), donde p1 ... pk dependen de x.

• X(*): x es un nodo izquierdo.

• * (x): x es el nodo raíz. • * indica la posición del nudo.

19
Para la oración 'Yo leo la oración simple', las reglas pueden ser definidas como se presema

a continuación en el cuadro 5:

Cuadro 3 Conjunto de reglas definidas para una gramática de dependencias (EJaborado por el investigador)

R""la Exolicación V (Pr, •, N) El pronombre y el nombre se subordinan al verbo. El verbo es la ralz. Pr(*) Un pronombre puede re;:irse a si mismo N uede regirse a si mismo ~jJ·) El adietivo ouede .....,;rse a si mismo

Estas reglas son empleadas por los lingüistas para crear sus representaciones gráficas, las

cuales se presentan a continuación.

2.2.1.6. Representación gráfica

Gráficamente la oración analizada según esta corriente se representa mediante un árbol

generado a partir de la gramática especificada anteriormente. La figura 5 ilustra e l diseño del

árbol de dependencias para la oración "Yo leo la oración simple".

leo

--~· ~ ~

Yo oración

la simple

Figura 5 Áf'hol de depend encias para el enunciado "Yo leo la oraci(n1 sin1ple1• (elaborado por l:I Investigador)

2.2.2. Gramática generativa.

La gramática generativa tiene como su principal representante a Noarn Chomsky, que luego

de varios escritos presentó un conjunto de ideas que se consideran postulados fundamentales

de esta corriente (Chomsky, 1957). Básicamente, Chomsky indica que todo lenguaje (L)

20
existente requiere una gramática (G) a partir de la cual se deriva. Dicha gramática está

compuesta por:

• Un conjunto de palabras terminales (:L) que son parte de L.

• Un conjunto de palabras no terminales, que representan las funciones sintácticas.

• Un grupo de reglas (R) que permiten crear un conjunto de oraciones o frases que

siguen las secuencias de estas reglas. A estas oraciones se les considera corno válidas.

Una regla puede contener otras reglas, permitiendo así la recursividad, de forma que

cada oración puede ser subdividida y organizada en frases, facilitando su

representación corno árboles. En dichos árboles cada nodo es una agrupación de

palabras que cumplen una función sintáctica.

• Es importante señalar que la gramática generativa considera a una oración corno

válida si esta puede, además de ser representada, ser creada a partir del grupo de

reglas que se ha definido para ella.

Un ejemplo de árbol generado según la fonnulación de Chornsky, que en ocas10nes es

llamado árbol de constituyentes, es presentado en la figura 6. Se utiliza la oración de la figura

5.

o

SN

V

N

1

1'l

1 Yo leo la oración simple_

Figura 6 Árbol de constituyentes para el enunciado "Yo leo la oración simple" (elaborado por el investigador)

21
Con el tiempo, de esta formulación de Chomsky se derivaron varias corrientes que se

independizaron. Esta investigación se limitará a presentar la gramática léxico.:funcional

(LFG por sus siglas en inglés). En la siguiente sección se presentan algunos detalles que la

caracterizan.

2.3. Gramática Léxico-Funcional (LFG)

Las teorías propuestas por Chomsky y Tesniere para el análisis del lenguaje resultaron

fundamentales para la Lingüística Computacional, ya que sus postulados se tomaron como

base por teorías que surgieron conforme pasaron los años. En esta investigación nos

centraremos en la gramática léxico-funcional.

2.3 .1. Generalidades

La gramática léxico funcional surgió en los años setenta, en medio de controversias

suscitadas en el marco de la corriente generativa de Chomsky, ya que se estaban explorando

nuevas aproximaciones. Según Dalrymple (2001), las investigaciones que condujeron a la

formulación de esta teoría iniciaron con la búsqueda de mejores representaciones para las

estructuras de la oración, que culminaron con los trabajos de Joan Bresnan, quien, junto a

Ronald Kaplan, presentaron los fundamentos de esta teoría (Kaplan y Bresnan, 1982). Gómez

Guinovart (2001) señala que LFG tiene como meta crear una representación lo más formal

posible del lenguaje humano, que pueda ser reproducida en forma computacional y precisa.

Algunos elementos de esta teoría son:

• La creencia en que la estructura oracional sigue principios universales, sin importar

el idioma en que se formule, aceptando las particularidades de cada lengua

(Dalymple, 2001)

• El énfasis en las relaciones existentes entre palabras a través del verbo en vez de

considerar transformaciones sintácticas. (Kaplan, 1995)

• La existencia de un léxico, el cual es un conjunto de palabras que pertenecen a un

idioma o lenguaje. Cada término posee particularidades específicas. En las secciones

2.8 en adelante se amplía sobre estas particularidades.

• Se asume la existencia de un conjunto de reglas que representan la gramática a partir

de la cual todas las oraciones consideradas válidas para un lenguaje son generadas.

22
Cualquier otra oración que se aparte de las estructuras definidas por las reglas es

inválida (Kaplan y Bresnan, 1982). Algunas investigaciones las denominan reglas

léxicas. Un ejemplo de estas reglas puede observarse en el cuadro 4.

Cuadro 4 Conjunto de reglas definidas para una gramática LFG (elaborado por el

investigador)

Regla Explicación O -7 SN SV Una oración se compone de un sintagma nominal (SN) y otro verbal (SV) SN -7 DetN SN puede incluir un determinante y un nombre SN-7 P SN puede incluir pronombre SV-7 V SV puede contener un verbo SV-7 V SN SV puede ser la combinación de un verbo y un SN

Además, LFG emplea dos formas para representar el análisis de la oración. En las próximas

subsecciones se incluye una definición concisa de ambas.

2.3 .2. Estructuras para la representación de la oración

Como toda teoría, la gramática léxico funcional posee estructuras por las cuales representa

sus postulados. De acuerdo con Kaplan (1995) la teoría define dos niveles de representación

sintáctica para una oración, que en este caso son la estructura constituyente (estructura-e) y

la estructura funcional ( estructura-f)

2.3 .2.1. Estructura constituyente (estructura-e)

En forma concreta, Bresnan y Kaplan (1982) afirman que la estructura-e es una

representación convencional de una oración en forma de árbol, en la que se indica el orden

de las palabras y frases en la oración; definiéndose en términos de categorías sintácticas. Esta

estructura se genera a partir de reglas definidas previamente. En la figura 1 puede observarse

el conjunto de reglas creadas para el enunciado "Yo leo la oración".

La figura 7 muestra la estructura-e resultante de aplicar las reglas definidas previamente para

la gramática que aplicará a la oración previamente indicada.

23
SN

V

J:.l

1 N

1 Yo leo oración

Figura 7 Estructura-e generada a partir de las reglas definidas (elaborado por el investigador)

2.3.2.2. Estructura funcional (estructura-±)

La estructura-f se orienta a codificar y representar las funciones sintácticas, a la vez que

contiene cierta información semántica. Puede contener otras estructuras-f como parte de su

constitución.

La información contenida en una estructura-f se representa mediante pares ordenados tipo

(atributo, valor), que son representados como se indica en la figura 8, utilizando la oración

empleada como ejemplo anteriormente.

24
PRED

TIBMPO

SUJ

OBJ

'leer '

PRESENlE

PRED

NüNI

PER

SPEC

PRED

Nll1vI

PER

Yo

SING

la

oración

SING

3

Figura 8 Estructura-f correspondiente al enunciado 'Yo leo la oración.' (elaborado por el investigador)

Para una mejor comprensión de este tipo de estructuras, las siguientes secciones explican los

conceptos involucrados.

2.4. Análisis estructural de la oración

Seguidamente se presentan definiciones y conceptos relacionados con la estructura de la

oración y de su análisis.

2.4.1. Distinción entre oración y frase

Antes de profundizar en definiciones morfológicas y sintácticas se hace primordial un alto

en el camino para distinguir dos estructuras gramaticales de suma importancia que serán

consideradas durante esta investigación: la oración y la frase. A continuación, se enfocarán

los conceptos de sujeto y predicado.

2.4.2. La frase

Según Vergara y Liessem (2013) la frase es un conjunto de palabras que expresan una idea

completa, pero no forman una oración, debido a la ausencia de verbo. Ejemplos de frases se

encuentran en (1 O):

25
(1 O) a. ¡Por Dios!

b. ¡Epa!

c. ¡Una taza de café!

2.4.3. La oración

Continuando el pensamiento esgrimido por Vergara y Liessem (2013), la oración puede

conceptuarse como una estructura de palabras que transmiten un pensamiento completo y

que contiene un verbo que indica la acción realizada, como puede observarse en (11)

(11) a. La luna brilla con esplendor.

b. La mañana tenía un cielo azul.

c. Los escritores pensaron que sus libros serían comprados por muchas personas.

2.5. Componentes básicos de la oración

Como estructura gramatical, la oración puede ser subdividida en dos unidades sintácticas: el

sujeto y el predicado, que son complementarias entre sí.

2.5.1. Sujeto (S)

Se define al sujeto como la parte de la oración en la que se dice algo de una persona o de un

ser inanimado (Renau, 2010), tal como se presenta en (12).

(12) a. La noche es azul.

s b. El dinosaurio corre tras su presa.

s c. La Edad Media dio paso al Renacimiento.

s

Más adelante se definirán las cualidades sintácticas del sujeto. Sólo se afirmará que

sintácticamente existen ocasiones en las que el sujeto de una oración puede estar ausente pero

implícitamente se sabe de él. Cuando este hecho se presenta al sujeto se le conoce como

"tácito" (13.b y 13.c):

26
(13) a. María se encontró veinte mil colones. (En este caso, el sujeto es explícito)

s b. Después, se compró un par de zapatos nuevos. (Sujeto tácito: María)

c. Con el vuelto, regresó a su casa. (Sujeto tácito: María)

En la segunda y tercera oración del ejemplo, puede notarse cómo el sujeto no se presenta

pero se reconoce por el contexto que es María.

2.5.2. Predicado (P)

Con respecto al predicado, Gil (1980) afirma que éste es aquel grupo estructurado de palabras

que ayudan a expresar la información que se comunica del sujeto. Si bien ya se afirmó que

una oración puede no tener sujeto, el predicado siempre estará presente.

Utilizando los ejemplos de orac10nes para los que se identificó el sujeto, se resalta su

predicado en (14).

(14) a. La noche es azul.

p

b. El dinosaurio corre tras su presa.

p

c. La Universidad abrió nuevas carreras en el área de Computación.

p

Generalmente, en la lengua española esta estructura de la oración sigue la secuencia Sujeto-

Verbo-Predicado (SVP), aunque en ocasiones puede ordenarse siguiendo las tendencias

Verbo-Predicado-Sujeto (VP S) o Predicado-Verbo-Sujeto (PVS), aunque este último uso es

prácticamente inexistente. En (15) se ilustran estos ordenamientos.

(15) a. El rey decidió clausurar el evento.

s V p b. Decidió el rey clausurar el evento.

V s p c. Clausurar el evento decidió el rey.

p V s

27
Finalmente, es necesario indicar que la secuencia SVP es conocida como la forma canónica

de la oración para la lengua española.

2.6. Clasificación de oraciones

De acuerdo con la gramática española, las oraciones pueden ser clasificadas de diversas

formas. Algunas de ellas son:

2.6.1. Clasificación según su estructura interna

Las oraciones pueden ser clasificadas de diversas maneras. Una de ellas es según la cantidad

de verbos existentes en ellas. Se le llama oración simple a aquella que tiene un verbo en su

estructura, y por tanto, un sujeto y un predicado. Ejemplos de oraciones simples se muestran

en (16):

(16) a. Esta pintura posee gran calidad

s V p b. Las nuevas computadoras tienen grandes mejoras en su rendimiento.

s V p c. El sol alegra el canto de las aves.

S V P

La oración que posee más de dos verbos es llamada oración compuesta (17).

(17) a. Esta pintura posee gran calidad y su autor merece reconocimiento.

s V p s V p

b. El precio es muy alto porque los materiales son los mejores.

s V p s V p c. La luna refleja en el agua el canto del amor que clama.

s V p V

28
2.6.2. Clasificación según la presencia del sujeto

Existen oraciones para las cuales el sujeto puede ser identificado o deducido, ya que el idioma

español permite que el mismo pueda hallarse implícito. Para estos casos la oración es

conocida como bimembre (18):

(18) a. La luna adorna la oscura noche azul.

s V p b. La pelota de fútbol costó poco dinero.

S V P

c. El violinista interpretó magistralmente la melodía.

s V p

El otro caso es cuando un sujeto no se puede identificar del todo. Acá la oración es

denominada unimembre o impersonal. Se diferencia del sujeto tácito ya que este puede

deducirse, mientras que en este caso no es posible (19):

(19) a. Es imposible de describir.

V p

b. Llaman a la puerta.

V p

2.6.3. Clasificación según la naturaleza del verbo

Toda oración tiene un verbo principal por el cual la oración puede ser clasificada. Este verbo

según la gramática puede ser copulativo o predicativo.

Los verbos copulativos de acuerdo a la gramática española son ser, estar y parecer. Las

oraciones que los contengan son llamadas copulativas. Un par de ejemplos son:

(20) a. El perro es azul.

S V P

b. La luna está sobre el árbol.

s V p c. La casa parece un castillo medieval.

s V p

29
Todos los demás verbos se califican como predicativos, lo cual es motivo para llamar a este

tipo de oraciones predicativas. Casos de este tipo de oraciones son:

(21) a. La marca de la vida se encuentra en todo niño.

s V p b. Las manzanas poseen cualidades curativas.

s V p c. El árbol posee hojas amarillas.

S V P

2.6.4. Clasificación según el tipo de voz

Los verbos predicativos pueden tomar dos modalidades. Una de ellas es en la que el sujeto

realiza la acción. Para este caso la oración es denominada oración activa (22).

(22) a. Juan Antonio escribió un libro.

b. Pedro llamó a su jefe.

c. Los niños prepararon su tarea justo a tiempo.

Existen situaciones en las que el sujeto no ejecuta la acción, sino que es el receptor de la

acción. Para estos casos la oración se considera como pasiva (23). En dicho caso, las

oraciones anteriores pueden ser reescritas así:

(23) a. El libro fue escrito por Juan Antonio.

b. El jefe fue llamado por Pedro

c. La tarea fue preparada a tiempo por los niños.

2.7. Sintagmas

Las oraciones, para su estudio, son segmentadas en componentes de menor tamaño, que

pueden ser sintagmas, palabras o morfemas. En esta sección se trata la definición, las

características y tipos de sintagmas.

2. 7 .1. Definición

De acuerdo con Acebo (2011), puede afirmarse que un sintagma es un conjunto de palabras

que cumplen o desempeñan una función sintáctica específica dentro del contexto de la

oración. Ejemplos de sintagmas se encuentran en la siguiente oración:

30
(23) El último náufrago soportó el mal tiempo en el mar Negro.

Sintagmal Sintagma2 Sintagma3 Sintagma4

2. 7.2. Características

Según Orlando, Montenegro, Polakof, Hipogrosso, Lepre, y Costa (2011), los sintagmas

muestran ciertas características:

•

•

•

Pueden estructurarse en forma jerárquica .

Pueden subdividirse en otros sintagmas o en palabras .

Una de las palabras que los componen hace el papel de núcleo. Su importancia radica

en que este núcleo transmite al sintagma sus propias características. Un par de

ejemplos se incluyen a continuación (24). Los sintagmas se muestran en negrita y el

núcleo además está subrayado.

(24) a. Estoy muy seguro.

Núc.

b. El fervor infantil se derramará en la playa azul.

Núc.

• Los sintagmas poseen constituyentes, que son palabras relacionadas con el núcleo

(25). Aquellas que el núcleo requiera por causa de las reglas sintácticas son llamadas

complementos. Las que pueden estar presentes o no se reconocen como

modificadores. Para ampliar estos conceptos se amplían los ejemplos anteriores.

(25) a. Estoy muy seguro.

Mod Núc.

b. El fervor infantil se derramará en la playa azul.

Co Núc. Mod

2.7.3. Tipos de sintagmas

Como se indicó en el punto anterior, los sintagmas absorben las cualidades sintácticas de su

núcleo. Por dicha razón, salvo las conjunciones, los determinantes y las interjecciones, las

31
demás categorías de palabras pueden ser el núcleo de un sintagma. A excepción de los

pronombres, que son un sintagma por sí mismo, los sintagmas pueden clasificarse como:

2.7.3.1. Sintagma nominal (SN)

Se considera sintagma nominal a todo aquel cuyo núcleo sea un sustantivo o nombre. En

algunos casos la función de núcleo puede ser ejecutada por un infinitivo, una frase

sustantivada o bien un pronombre (Renau, 201 O).

Los sintagmas nominales pueden tener complementos, como adjetivos, adverbios, participios

y otros sustantivos, por citar algunos. Es importante destacar que todo sustantivo que

complemente al núcleo es conocido como aposición, aunque esta definición también aplica

para cualquier nombre que modifique a otro sustantivo. Ejemplos de sintagmas nominales se

hallan en (26):

(26) a. Un dato interesante surgió repentinamente.

SN

b. La discusión alcanzó límites insospechados.

SN SN

2.7.3.2. Sintagma adjetivo (SAdj)

Un sintagma adjetivo es el que posee un adjetivo como núcleo (27). Puede tener

modificadores como adverbios, o bien complementos como prepos1c10nes o sintagmas

preposicionales. (Acerbo, 2011)

Generalmente los modificadores se anteponen al núcleo, mientras que los complementos son

posteriores al mismo.

(27). a. Alejandro ha comprado un libro blanco.

SAdj

b. Estoy muy seguro de la respuesta proporcionada.

SAdj

32
2.7.3.3. Sintagma verbal (SV)

Como su nombre sugiere, el sintagma verbal se caracteriza por tener un verbo como núcleo.

La necesidad de complementos depende del tipo de verbo que sea el núcleo. (Renau, 2010)

Los complementos del núcleo de este tipo de sintagma se clasifican en argumentos y adjuntos.

Los argumentos requieren estar presentes, mientras que los adjuntos son opcionales. A

continuación, se presenta un caso de sintagma verbal (28):

(28) a. Mi madre lee laboriosamente.

sv b. El perro corre anunciando la llegada de la luna.

sv

2.7.3.4. Sintagma adverbial (SAdv)

El sintagma adverbial (SAdv) se identifica porque su núcleo es un adverbio. Ocasionalmente,

este núcleo puede ser modificado por otro adverbio de cantidad o grado y rara vez tiene

complementos (29):

(29) a. Mi madre lee muy rápidamente

SAdv

b. El verbo fue interpretado posteriormente con furia.

SAdv

2.7.3.5. Sintagma preposicional (SPrep)

Los sintagmas preposicionales se caracterizan porque su primera palabra es una preposición,

y salvo la preposición 'según', se componen de más de una palabra (30). Pueden ser

complementados por un nombre o sintagma nominal, o bien por una oración.

(3 O) a. Mi madre lee con los lentes.

SPrep

b. El pueblo celebró tras la decisión.

SPrep

33
2.8. Categorías de las palabras en la oración

Luego de haber definido en forma concisa los sintagmas, se hace imprescindible referirse a

las categorías de las palabras existentes en el idioma español, ya que contienen información

morfológica importante para analizar una oración en forma sintáctica. Seguidamente se hace

una descripción general de cada una de ellas, incluyendo una breve presentación de sus

clasificaciones.

2.8.1. Sustantivo o nombre

Para RAE (201 O), el sustantivo o nombre es el tipo de palabra que se caracteriza por

identificar personas, animales, cosas concretas o imaginarias, colectivos, materias, hechos,

cualidades o sucesos (31)

(31) Pan, agua, luz, Pedro, música, España.

Generalmente los sustantivos son clasificados como comunes y propios.

•

•

Los sustantivos comunes tienen como virtud que categorizan o clasifican cosas,

animales o personas siguiendo características que permiten dicha agrupación y hacen

distintivas a estas palabras. Algunos sustantivos comunes del ejemplo anterior son:

pan, agua, luz y música.

Los sustantivos propios no informan acerca de los rasgos o cualidades, sino que se

encargan de identificar un ser o cosa. Se incluyen en este apartado nombres de

personas, lugares, cuerpos celestiales, festividades, asociaciones, por citar algunos.

Algunos casos de nombres propios presentes en el ejemplo anterior son: Pedro,

España.

2.8.2. Adjetivo

Los adjetivos son palabras que se caracterizan por clasificar al sustantivo. Según Gil (1980)

son en su naturaleza completamente dependientes de los sustantivos, ya que siempre se

piensan en relación con estos.

Aunque la gramática tradicional distingue entre adjetivos calificativos y determinativos, para

efectos de esta investigación solamente se considerarán los calificativos, puesto que los

34
determinativos se analizarán en otra categoría de palabra a la que se denominará dete1minante

y será contemplada en la siguiente sección.

El adjetivo es todo aquel vocablo que contiene en sí la cualidad de indicar algón rasgo, virtud

o característica que está presente en el sustantivo al que califica (32).

(32) Azul, grande, inteligente, sabio, transparente, redondo, rojo.

2.8.3. Determinante

Segón Renau (2010) y Acerbo (2011), el determinante es la clase de palabra que especifica

a un nombre común o a la categoría que desempeñe la función de sustant ivo o nombre (33).

Su presencia indica que el nombre a continuación es comón, mientras que su ausencia indica

que el sustantivo es un nombre propio.

(33) a El perro corrió velozmente.

Del

b. La canción se interpretó.

Det

c. Los amigos conversan.

Dct

d. Una mujer estaba presente.

Det

Los determinantes pueden ser agrupados segón su función como:

• Identificadores, que son todas aquellas palabras con la capacidad de indicar el

sustantivo al cual se hace referencia o bien su cercanía o lejanía. En otros casos

relacionan al nombre con su poseedor. En esta categoría se incluyen el articulo

determinado (34.a), el determinante demostrativo (34.b) y el determinante posesivo

(34.c).

(34) a. Artículos determinados: El, la, los, las

b. Artículos demostrativos: Este, esta, ese, esa, aquel, aquella, estos, estas

c. Determinante posesivo: mi, mío , tu, tuyo, nuestro, nuestros

35
• Cuantificadores, que permiten reconocer la cantidad de unidades presentes en la

oración, o bien indicar en forma general si son uno o varios. Entre ellos se pueden

mencionar el artículo indeterminado (35.a) y los numerales (35.b).

(35) a. Artículo indeterminado:

b. Numerales:

un, una, unos, unas

diez, siete, vigésimo

2.8.4. Verbo

Para RAE (201 O), los verbos en lugar de representar personas u objetos, tienen la posibilidad

de transmitir la acción, el proceso o el estado que experimenta el sujeto de la oración (36).

(3 6) Piensa, camina, es, parece, ilumina, logra, permanece.

Los verbos pueden ser organizados siguiendo diferentes criterios. En este documento se sigue

la siguiente clasificación:

•

•

Verbos predicativos, que son aquellos que seleccionan al sujeto y sus complementos,

además de hacer manifiesta la participación del mismo en un evento o una serie de

los mismos.

Verbos copulativos, cuyo valor radica en enlazar al sujeto de la oración con un

complemento que se denomina atributo, el cual le da significado a la oración. En la

lengua española los verbos copulativos son ser, estar y parecer.

Es importante señalar que, según otra clasificación, los verbos pueden categorizarse como:

• Verbos plenos, con significado completo y con la capacidad de tener complementos.

• Verbos auxiliares, que junto con el verbo que es núcleo del predicado se combinan

para crear tiempos compuestos. Un ejemplo de verbo auxiliar es haber. En algunos

casos, los verbos ser y estar cumplen este papel.

2.8.5. Adverbio

Según RAE (201 O), el adverbio es la categoría gramatical de palabra que puede modificar

verbos, adjetivos y adjetivos. Son palabras que salvo algunos casos son invariables. Dicho

de otra forma, son palabras que no cambian (37).

(3 7) Donde, mucho, nunca, quizás, amable, razonable.

36
Los adverbios pueden ser agrupados de diversas maneras. Por simplicidad, se toma la

clasificación por el modo de significar:

• Adverbios de base léxica, donde se unen todos aquellos que tienen un significado por

sí mismo. De la lista de ejemplos anterior, amable y razonable encajan en esta

categoría.

• Adverbios pronominales, que toman su significado del contexto en que se emplean.

De los ejemplos previamente mencionados pueden citarse: donde, mucho, nunca,

quizás.

2.8.6. Pronombre

Un pronombre es un tipo de palabra que se caracteriza por no tener un significado léxico

inherente (38). Su significado lo toma del contexto lingüístico. (Acerbo, 2011)

(38) Yo, tú, él, ella.

Una forma de clasificar los pronombres es de acuerdo a la posibilidad de comportarse como

determinantes o no (Renau, 2010):

• Los pronombres que

Top Related

ARTURO ECHEVERRIA LORIA - repositorio.sibdi.ucr.ac.cr:8080

Codex Etiquetado

de Do J - repositorio.sibdi.ucr.ac.cr:8080

ETIQUETADO AMBIENTAL

GUIDO ARGUELLO CORRALES - repositorio.sibdi.ucr.ac.cr:8080

RIMA ROTHE DE V ALLBONA - repositorio.sibdi.ucr.ac.cr:8080

y de 2015 - repositorio.sibdi.ucr.ac.cr:8080

CATÁLOGO BLOQUEO Y ETIQUETADO - Equimiseg y herramien… · CATÁLOGO BLOQUEO Y ETIQUETADO IMPORTADOS. CATÁLOGO BLOQUEO Y ETIQUETADO IMPORTADOS. CATÁLOGO Bloqueo y Etiquetado DANGER