libro de resúmenes del primer congreso internacional de...

Libro de Resúmenes del Primer Congreso Internacional de Lingüística Computacional y de Corpus

17 al 19 de mayo de 2017, Casa Cuervo Urisarri, Sede Académica del

Instituto Caro y Cuervo

Bogotá D.C., Colombia

Organizadores:

Instituto Caro y Cuervo

The North American Chapter of the Association for Computational

Linguistics

Red Colombiana de Lingüística Computacional y de Corpus

Universidad de Antioquia

Universidad del Valle

Universidad Distrital Francisco José de Caldas

Universidad Manuela Beltrán

Primer Congreso Internacional de Lingüística Computacional y de Corpus

PRESENTACIÓN

El congreso se realizó con el objetivo de plantear un espacio de encuentro,

discusión y divulgación en torno a las investigaciones y desarrollos que se

están llevando a cabo sobre la lingüística computacional y de corpus.

También, para fortalecer el posicionamiento de redes académicas y el

desarrollo de investigaciones interinstitucionales en estas áreas. En último

lugar, se esperaba identificar las futuras directrices de investigación y ser

un marco propicio para introducir a las personas interesadas en estos campos

del conocimiento.


CONTENIDO

PRESENTACIÓN ......................................................................................................... 2

PARTE I: ....................................................................................................................... 5

PONENCIAS CENTRALES ........................................................................................ 5

Why size alone is not enough: The importance of historical, genre-based, and

dialectal variation in language .................................................................................... 6

Un sistema informático para el manejo de corpus lingüísticos y su aplicación para

CORDIAM, el Corpus diacrónico y diatópico del español de América ..................... 7

With a little help from NLP: My Language Technology applications with impact on

society ......................................................................................................................... 8

PARTE II:...................................................................................................................... 9

PONENCIAS ................................................................................................................. 9

Análisis de movidas retóricas de resúmenes de artículos de investigación en cuatro

revistas colombianas ................................................................................................. 10

Analogía entre el metabolismo y el lenguaje natural ................................................ 12

Banco de Herramientas TNT: una plataforma para el procesamiento de corpus y

otras herramientas ..................................................................................................... 14

Base de datos CORHA: Corpus de Habla Atípica. ................................................... 15

Conectores reformulativos en textos académicos de estudiantes universitarios:

análisis en un corpus simple ..................................................................................... 16

Corpus lingüístico del español de la Antioquia histórica a través de documentación

de archivo .................................................................................................................. 17

Corpus multimodal para el análisis de técnicas de interpretación de segmentos

textuales con sentido figurado de español a la Lengua de Señas Colombiana ......... 18

Creación automática de un Corpus Farmacéutico a partir de Datos Abiertos .......... 19

Desarrollo y validación de Colombian Beliefs about Language Teaching and

Learning Inventory (COBALTALI) ......................................................................... 21

Desarrollo de una herramienta de evaluación de estándares de calidad pedagógica de

recursos de aprendizaje de lenguas asistido por la World Wide Web........................ 22

Elaboración de diccionarios especializados a través de MediaWiki: el caso del

Diccionario Académico de la Medicina (DIACME), desde sus ediciones impresas

hasta el formato electrónico ...................................................................................... 23

El comportamiento sintáctico y semántico del término ‘ideología de género’ en

artículos de 2 periódicos, uno nacional y otro local .................................................. 24


Extracción semiautomática de relaciones semánticas en la combinación verbo y

preposición en la lengua castellana ........................................................................... 25

Hacia la anotación y etiquetado de un corpus sociolingüístico: Preseea-Medellín .. 26

Hacía la construcción de una plataforma para corpus de diferentes fuentes y registros

.................................................................................................................................. 28

Hacia la constitución de un dispositivo informático basado en corpus para la

enseñanza del español como lengua extranjera ......................................................... 29

Integración de corpus y ontología a partir de los datos abiertos relacionados con el

conflicto armado colombiano ................................................................................... 31

Intention Detection in Question-Answering Systems in the Specific Domain of E-

government ............................................................................................................... 33

Lingüística computacional y modelación semántica en el derecho informático en

Colombia ................................................................................................................... 34

Lingüística de corpus y enseñanza de lenguas extranjeras: hacia la construcción de

un corpus de aprendices en Colombia....................................................................... 38

Machine Learning-Oriented Definition of Linguistic Features for Document-Level

Sentiment Analysis in Spanish .................................................................................. 39

Metodología de construcción de un corpus paralelo español-inglés de artículos de

investigación en Ciencias de la Salud publicados en una revista colombiana .......... 41

Modelo de procesamiento de historias clínicas electrónicas de pacientes con artritis

reumatoide para la obtención de variables relevantes ............................................... 43

Moving WordNet 3.0 and its resources to a graph database: G-WordNet ................ 45

Procesamiento informático de los materiales del Atlas Lingüístico-Etnográfico de

Colombia: modelamiento de la base de datos espacial ............................................. 46

Proyecto « DICO CULTUREL »: análisis lingüístico-cultural comparativo de los

comercios de Francia y Colombia ............................................................................. 47

Rediseño del corpus de las sexualidades en México a través de las herramientas de

GECO ........................................................................................................................ 48

Una aplicación ontoterminológica a un corpus de la gastronomía tradicional en

Costa Rica ................................................................................................................. 50

VOT (Voice Onset Time) en hablantes del español con la enfermedad de Parkinson

.................................................................................................................................. 52


PARTE I:

PONENCIAS CENTRALES


Why size alone is not enough: The importance of historical, genre-based,

and dialectal variation in language

Mark Davies

Professor of Linguistics

Brigham Young University

"Super-mega-hyper-corpora" composed of billions of words of data are

becoming increasingly more common. These corpora provide incredibly rich

data for lexical analysis (especially via collocates), as well as low-frequency

syntactic and morphological phenomena.

And yet… these gargantuan corpora are often just one huge “blob” of data.

There is no way to know whether a word or phrase or syntactic construction is

formal or informal, whether it is limited primarily to a particular dialect, or

whether it is increasing or decreasing in frequency over time. In a certain sense,

these huge, undifferentiated blobs of data go against everything that linguists

care about, in terms of language variation and change.

In this presentation, I suggest that – with the right type of corpora (including the

right kind of underlying architecture and user-level interface) we can “have our

cake and eat it too”.

I will present many examples from very large corpora that we have created at

BYU, which are (in many cases) 10-100 times as large as comparable corpora.

But these corpora also allow users to look at language variation and change in

ways that are not possible with corpora only allow simplistic searches of easily-

obtainable “blobs” of data from online newspapers and web pages.


Un sistema informático para el manejo de corpus lingüísticos y su

aplicación para CORDIAM, el Corpus diacrónico y diatópico del español

de América

Alexander Gelbukh

Jefe del Laboratorio de Procesamiento del Lenguaje Natural, Centro de

Investigación en Computación, Instituto Politécnico Nacional, México

En esta charla se presenta el sistema informático para el manejo de un corpus

lingüístico desarrollado para el Corpus diacrónico y diatópico del español de

América (CORDIAM) y potencialmente aplicable a otros corpus con propósitos

similares. El buscador es orientado a los usuarios lingüistas, facilitándoles

búsquedas de ejemplos y el análisis de los resultados. El diseño del sistema

refleja la experiencia de cinco años de su uso por los lingüistas. Como resultado

de colaboración de 28 grupos de 11 países, el corpus CORDIAM actualmente

contiene más de cinco mil textos con más de 4 millones de palabras,

clasificados en documentos, prensa y literatura. Es abierto a todo público

interesado en la dirección www.CORDIAM.org.


With a little help from NLP: My Language Technology applications with

impact on society

Ruslan Mitkov

University of Wolverhampton

The talk will present three original methodologies developed by the speaker,

underpinning implemented Language Technology tools which are already

having an impact on the following areas of society: e-learning, translation and

interpreting and care for people with language disabilities.

The first part of the presentation will introduce an original methodology and

tool for generating multiple-choice tests from electronic textbooks. The

application draws on a variety of Natural Language Processing (NLP)

techniques which include term extraction, semantic computing and sentence

transformation. The presentation will include an evaluation of the tool which

demonstrates that generation of multiple-choice tests items with the help of this

tool is almost four times faster than manual construction and the quality of the

test items is not compromised. This application benefits e-learning users (both

teachers and students) and is an example of how NLP can have a positive

societal impact, in which the speaker passionately believes.

The talk will go on to outline two other original recent projects which are also

related to the application of NLP beyond academia. First, a project, whose

objective is to develop next-generation translation memory tools for translators

and, in the near future, for interpreters, will be briefly presented. Finally, an

original methodology and system will be outlined which helps users with

autism to read and better understand texts.


PARTE II:

PONENCIAS


Análisis de movidas retóricas de resúmenes de artículos de investigación en

cuatro revistas colombianas

Nubia Lucía Muñetón* e Irina Kostina**

*Estudiante de Maestría en Estudios Interlingüísticos e Interculturales,


**PhD en Lingüística Aplicada, profesora de la Escuela de Ciencias del

Lenguaje, Universidad del Valle Sección: Lingüística Aplicada

Resumen

El resumen es una de las partes importantes de un artículo de investigación

debido a que representa el contenido de todo el texto de manera condensada.

Igualmente, debe reflejar los cinco aspectos de un estudio, tales como:

introducción, objetivo, metodología y resultados/conclusiones, así llamadas

movidas retóricas (Swales, 2009). Sin embargo, muchos resúmenes no las

tienen, lo que afecta la cohesión del texto. Además, usualmente deben ser

escritos en español e inglés. Los estudios revisados muestran que la traducción

de resúmenes no siempre cumple los parámetros de precisión, aceptabilidad y

legibilidad. Esta comunicación tiene por objetivo presentar los resultados

preliminares del análisis de las movidas retóricas de resúmenes en español y su

correspondencia en inglés para confirmar si cumplen con la estructura del

modelo del resumen. Es un estudio descriptivo, basado en producto que sigue

un enfoque mixto, cuantitativo y cualitativo. El corpus paralelo fue elaborado

con 103 resúmenes, recopilados de cuatro revistas especializadas colombianas y

alineados en español e inglés con ayuda de la herramienta virtual You Align. Se

realizó el análisis textual-pragmático comparativo de resúmenes para observar,

por un lado, si estos cumplen con las normas internacionales propuestas por

cada revista y, por el otro lado, verificar si las movidas retóricas de resúmenes

en español coinciden con las de inglés. Se encontró que no todos los resúmenes

siguen las normas internacionales, como tampoco cumplen con las normas

exigidas por el comité editorial de cada revista; también se pudo evidenciar que

las inconsistencias identificadas modifican la información que el autor pretende

comunicar en el artículo de investigación. Estos hallazgos revelan la necesidad

de crear propuestas de metodologías on line orientadas a la capacitación de los

investigadores y/o profesionales que publican trabajos científicos en las revistas

especializadas.


Palabras clave: movidas retóricas, resúmenes de artículos de investigación,

calidad de traducción, corpus paralelo


Analogía entre el metabolismo y el lenguaje natural

Carlos Manuel Estévez-Bretón Riveros

* Ph.D.(c) Universidad Nacional de Colombia

Luis Fernando Niño** V Liliana López***

** Ph.D. Facultad de Ingeniería, Universidad Nacional de Colombia

*** Ph.D. Facultad de Ciencias, Universidad Nacional de Colombia

Sección: Procesamiento de Lenguaje Natural

Resumen

El metabolismo es el conjunto de reacciones bioquímicas que ocurren en un

organismo vivo y le proveen de energía para sus procesos vitales y para

sintetizar nuevo material orgánico; este ha sido estudiado tradicionalmente por

la bioquímica y su principal forma de representarlo para tales fines son los

grafos y las redes.

Este trabajo plantea la posibilidad de estudiar el metabolismo desde una

representación diferente que permita explorar aspectos funcionales del mismo

al despojarse de la representación topológica. Se planteó una analogía

lingüística [1], [4] entre el dominio de la bioquímica y el de la lingüística con el

fin de poder tratar al metabolismo como un texto y aplicar métodos del área de

la inteligencia artificial.

Particularmente, se aplicó “Latent Dirichlet Allocation, LDA” [2], [3], un

método de análisis semántico latente, para encontrar “temas latentes” dentro del

domino bioquímico.

Como resultado de este trabajo se logró el planteamiento de una analogía

lingüística entre los dominios mencionados, temas latentes con significado

biológico, distribución de metabolitos similar a un lenguaje natural.

Palabras Clave: LDA; Analogía Lingüística, Metabolismo, Semántica Latente,

Bioquímica

Referencias

[1] Victorri, Bernard. 2007. “Analogy between Language and Biology: A

Functional Approach.” Cognitive Processing 8: 11–19. doi:10.1007/s10339-

006-0156-5.

[2] Blei, David M, Andrew Y Ng, and Michael I Jordan. 2003. “Latent


Dirichlet Allocation.” Journal of Machine Learning Research 3: 993–1022.

[3] Yao, Limin, David Mimno, and Andrew McCallum. 2009. “Efficient

Methods for Topic Model Inference on Streaming Document Collections.” In

Proceedings of the 15th ACM SIGKDD International Conference on

Knowledge Discovery and Data Mining - KDD ’09, 937. New York, New

York, USA: ACM Press.

[4] Sereno, M I. 1991. “Four Analogies between Biological and

Cultural/linguistic Evolution.” Journal of Theoretical Biology 151: 467–507.


Banco de Herramientas TNT: una plataforma para el procesamiento de

corpus y otras herramientas

Gabriel Quiroz*, Antonio Tamayo*, Diego Burgos**, Felipe Zuluaga*,

Pedro Patiño*, Alejandro Arroyave* y Gustavo Zapata*

*Universidad de Antioquia

**Universidad Wake Forest

El CorpusTNT es el primer corpus multilingüe colombiano y latinoamericano

para textos especializados creado para realizar investigación en LSP,

principalmente. El proyecto está diseñado para crear una infraestructura que

permita compilar textos de diversos campos para investigar las características

de los LSP en español, inglés y francés, principalmente. La plataforma del

Banco de Herramientas TNT se compone de las siguientes herramientas: BC-

Term, CorpusTNT, TNTagger, TNTvalidate y TNTDico (fuente de

diccionarios). Se presentará el diseño y puesta en funcionamiento de estas

herramientas así como los recursos textuales y sus características. La mayoría

de estas herramientas son de uso libre para la comunidad académica.

Palabras clave: corpus, etiquetador, validador, diccionario, lingüística de

corpus, herramientas.


Base de datos CORHA: Corpus de Habla Atípica.

Maryluz Camargo Mendoza*

*Universidad Nacional de Colombia

Sección: Lingüística de corpus

Resumen

Este trabajo tiene como objetivo presentar la base de datos denominada

“CORHA” que contiene datos en audio de hablantes nativos del español con

diferentes enfermedades de origen neurológico que afectan el habla, entre ellas

Esclerosis Lateral Amiotrófica, enfermedad de Parkinson, enfermedad de

Huntington, Miastenia Gravis y Parálisis Bulbar. Los datos se tomaron

siguiendo protocolos que garantizaron su calidad técnica a través del uso de

grabadoras de audio y micrófonos profesionales. La base de datos cuenta con

información de dos tipos, una con tareas de fonación sostenida, lectura de

textos, habla espontánea y diadococinesis; y otra con tareas experimentales de

lectura de palabras y pseudopalabras. De la primera se cuenta con datos de 18

participantes, 7 mujeres y 11 hombres; y de la segunda con datos de 17

participantes, 7 mujeres y 10 hombres y sus respectivos controles pareados por

edad y género, para un total de 52 muestras, 35 de habla atípica y 17 de habla

típica. Esta base de datos, la primera en Colombia en contener datos de

personas con diferentes condiciones neurológicas, se convierte en un recurso de

interés para lingüistas, ingenieros, neurólogos, fonoaudiólogos, entre otros, con

el cual se pueden emprender estudios que describan las características acústicas

del habla atípica del español colombiano, se lleven a cabo experimientos para

detectar marcadores acústicos de la progresión de las enfermedades y se

generen estrategias terapéuticas que promuevan la comunicación en las

personas con desórdenes del habla de origen neurológico.

Palabras clave: corpus, desórdenes neurológicos, habla atípica, base de datos.


Conectores reformulativos en textos académicos de estudiantes

universitarios: análisis en un corpus simple

Róbinson Grajales Alzate* y Lirian Astrid Ciro*

*Universidad del Valle

Sección: Lingüística aplicada

Resumen

En esta ponencia se presenta una caracterización y descripción de algunos tipos

de conectores reformulativos en textos argumentativos de estudiantes de la

Licenciatura en Lenguas Extranjeras de la Universidad del Valle. Nos

centraremos en la reformulación como un mecanismo que permite la

construcción de un marco de referencia a partir del cual el escritor puede situar

determinada idea y hacerla más clara y precisa ante sus posibles lectores. Para

el análisis, partimos de 66 textos argumentativos, redactados por igual número

de estudiantes. Estos textos han sido compilados y analizados con el programa

TLCorpus, con el cual hemos construido un corpus simple. Además, se

compararon los resultados con un corpus de contraste conformado por textos

argumentativos de escritores expertos, con el fin de observar las estrategias que

emplean los dos grupos en la reformulación. Al respecto, uno de los principales

hallazgos es que los escritores expertos emplean más variedad de recursos e

introducen menos paráfrasis que los escritores novatos. Consideramos que un

estudio de este tipo es pertinente, por cuanto analizar los conectores

reformulativos que emplean los estudiantes universitarios en sus textos revela

los mecanismos que estos utilizan para afianzar el conocimiento académico.

Finalmente, consideramos que los corpus textuales son de gran utilidad en la

enseñanza de la escritura, puesto que permiten, por ejemplo, análisis de errores

y caracterización del léxico empleado por los estudiantes.

Palabras clave: escritura académica, conectores reformulativos, corpus simple,

reformulación.


Corpus lingüístico del español de la Antioquia histórica a través de

documentación de archivo

Liliana Estefanía Ospina Giraldo*

Laura María Correa Lopera*

*Estudiante de pregrado en Letras: Filología hispánica

Semillero Español Histórico de Antioquia

Universidad de Antioquia


Esta ponencia mostrará el trabajo del Semillero Español Histórico de Antioquia

como una iniciativa estudiantil de investigación de la Universidad de Antioquia,

facultad de comunicaciones, que busca responder a la pregunta ¿Cómo se

hablaba el español antes del siglo XX en la Antioquia histórica? Para esto, se

basa en la metodología de la Red internacional CHARTA "CORPUS

HISPÁNICO Y AMERICANO EN LA RED" y adscritos a dicha Red trabaja

documentos de archivo en triple presentación, facsimilar, paleográfica y critica

con miras al estudio lingüístico especialmente desde el punto de vista

diacrónico. Actualmente se adelanta un estudio sobre la abreviación en el

subcorpus SEHA-A que contiene archivos notariales principalmente del

Archivo Histórico de Medellín que datan entre 1750-1816.

Palabras claves: corpus de ediciones, estudio diacrónico del español,

paleografía-edición crítica y análisis lingüístico


Corpus multimodal para el análisis de técnicas de interpretación de

segmentos textuales con sentido figurado de español a la Lengua de Señas

Colombiana

Lorenzo López Gómez* e Isabel Cristina Tenorio*

*Estudiante de la Maestría en Estudios Interlingüísticos e Interculturales de la


Sección: Lingüística de Corpus

Resumen

La interpretación de una lengua oral a una lengua de señas resulta tan compleja

como lo es la interpretación entre las lenguas orales. Para este caso, esta sería

una interpretación bimodal. Es importante que sea caracterizada como campo

específico dentro de los estudios de traducción (Barreto, 2010). El objetivo de

esta comunicación es describir el procedimiento de construcción de un corpus

multimodal que sirvió de base para el análisis de técnicas de interpretación de

segmentos textuales con sentido figurado y presentar los primeros hallazgos

que afectan la alineación de los segmentos en ambas lenguas. Para el diseño de

corpus paralelo se usaron los datos recogidos mediante grabaciones de las

clases de Tecnología en un colegio público de la ciudad de Cali. Por un lado, se

identificaron las expresiones con sentido figurado producidas en el discurso

oral del profesor del curso. Por otro lado, se identificó la correspondencia de

expresiones con sentido figurado en la lengua de señas colombiana señada por

una intérprete profesional. Para cortar y codificar los segmentos del discurso

oral en español y en lengua de señas se usó el programa Windows Movie

Maker. Se encontró que no todos los segmentos con sentido figurado en español

oral corresponden en tiempo real con la interpretación en lengua de señas,

aunque se trate de una interpretación simultánea. Al parecer este desfase se

presenta debido al uso de estrategia de interpretación, llamada decalage o

técnicas de interpretación como ampliación, reducción y elisión.

Palabras clave: Interpretación LSC, decalage, multimodal.


Creación automática de un Corpus Farmacéutico a partir de Datos

Abiertos

Cristian Bravo M.*, Sebastián Otálora L.* y Sonia Ordoñez **

*Estudiante de pregrado Universidad Distrital F.J.C, miembro del Grupo

GESDATOS

**Docente Universidad Distrital F.J.C; directora del Grupo de Investigación

GESDATOS


Resumen

A través de la web se publica una gran cantidad de información relacionada con

la industria farmacéutica, pero son pocas las herramientas que permiten realizar

análisis de forma automática. El área de la farmacéutica a nivel internacional y

en especial para el inglés, cuenta con una gran cantidad de herramientas léxicas

virtuales, como el DDI (Herrero-Zazo, Segura-Bedmar, Martínez, & Declerck,

2013), ADE (Gurulingappa et al., 2012), EU-ADR (van Mulligen et al., 2012),

entre otras, que soportan no solo la investigación sino el desarrollo de software,

mientras que, para el español son pocas y menos para las particularidades de un

país como Colombia.

Este trabajo presenta la generación de un corpus farmacéutico utilizando

los datos abiertos de medicamentos colombianos publicados mensualmente por

el Instituto Nacional de Vigilancia de Medicamentos y Alimentos de Colombia

(INVIMA). Se propone el desarrollo de un modelo que combina los conceptos

de corpus y ontología y se estructura, a través de un grafo multi-relacionado.

Dicho modelo se implementa en una base de datos orientada a grafos, pues

estás han demostrado gestionar este tipo estructuras y dado que están basadas

en una teoría matemática, permiten encontrar patrones y relaciones que de otra

forma no sería posible. Para la creación del corpus, se desarrolló un Crawler

con el objeto de descargar y controlar los documentos y a través de

procesamiento de texto y la algoritmia apropiada se almacenan en la base de

datos orientada a grafos (Neo4j).

Palabras clave: Corpus farmacéutico, datos abiertos Colombia, Crawler,

Procesamiento lenguaje natural, Neo4j


Referencias

Gurulingappa, H., Rajput, A. M., Roberts, A., Fluck, J., Hofmann-Apitius, M.,

& Toldo, L. (2012). Development of a benchmark corpus to support the

automatic extraction of drug-related adverse effects from medical case

reports. Journal of Biomedical Informatics, 45(5), 885–892.

http://doi.org/10.1016/j.jbi.2012.04.008

Herrero-Zazo, M., Segura-Bedmar, I., Martínez, P., & Declerck, T. (2013). The

DDI corpus: An annotated corpus with pharmacological substances and

drug-drug interactions. Journal of Biomedical Informatics, 46(5), 914–

920. http://doi.org/10.1016/j.jbi.2013.07.011

van Mulligen, E. M., Fourrier-Reglat, A., Gurwitz, D., Molokhia, M., Nieto, A.,

Trifiro, G., … Furlong, L. I. (2012). The EU-ADR corpus: Annotated

drugs, diseases, targets, and their relationships. Journal of Biomedical

Informatics, 45(5), 879–884. http://doi.org/10.1016/j.jbi.2012.04.004


Desarrollo y validación de Colombian Beliefs about Language Teaching

and Learning Inventory (COBALTALI)

José Marín Juanías*

*Docente Ocasional Universidad Nacional de Colombia y Universidad

Pedagógica Nacional


Resumen

El objetivo de este estudio, que hace parte de una tesis doctoral1, fue desarrollar

y validar un instrumento (COBALTALI) para examinar, de manera sistemática,

las creencias que estudiantes universitarios colombianos tienen acerca de la

enseñanza y el aprendizaje del inglés. Para este propósito se examinaron las

características psicométricas del COBALTALI en términos de validez de

constructo y de contenido y de confiabilidad en los aspectos de consistencia

interna y estabilidad. El diseño de la investigaciónse describe bajo dos

perspectivas: en cuanto a los tipos de datos se recurrió a métodos mixtos

(interrelacionando datos cualitativos y cuantitativos); en cuanto a los

procedimientos de análisis de datos, este estudio se basó en marcos estadísticos

e interpretativos, en los que análisis factoriales exploratorios y confirmatorios

jugaron un papel preponderante. Los resultados evidenciaron que el

COBALTALI es un instrumento multidimensional, constituido por 57 ítems o

creencias acerca de la enseñanza y aprendizaje del inglés, que presenta

propiedades adecuadas de validez de contenido y de constructo al igual que

estimaciones moderadas de confiabilidad de tipo consistencia interna y

estabilidad. En general, este estudio se configura como una contribución

importante frente a la ausencia de instrumentos de investigación validados para

estudiar las creencias de aprendizaje de idiomas en Colombia. Se espera que la

existencia del COBALTALI coadyuve a emprender futuras investigaciones en

otros escenarios educativos.

Palabras clave: COBALTALI, validación, confiabilidad, creencia, dimensión.

1 Marin, J. (2017). Colombian Students’ Beliefs about Language Teaching and Learning Inventory

(COBALTALI): Development, Validation and Results (tesis doctoral). Universidad Autónoma de

Madrid, Madrid, España.


Desarrollo de una herramienta de evaluación de estándares de calidad

pedagógica de recursos de aprendizaje de lenguas asistido por la World

Wide Web

Rafael Seiz Ortiz*

*Profesor titular de la Universitat Politècnica de València, España (Escuela

Técnica Superior de Ingeniería del Diseño, Departamento de Lingüística

Aplicada)

Sección: Lingüística Aplicada

Resumen

Actualmente, la World Wide Web es un entorno ampliamente utilizado para

complementar el aprendizaje de lenguas. Cada día surgen recursos educativos

nuevos, aunque no todos tienen en cuenta sólidos criterios de calidad

pedagógica. Por ello, al utilizar esos recursos en el proceso de enseñanza-

aprendizaje de lenguas, es conveniente realizar un análisis y evaluación

exhaustiva de los mismos desde un punto de vista pedagógico. Sin embargo, no

existen herramientas de evaluación de este tipo de recursos que recojan de una

manera exhaustiva los parámetros o estándares de calidad pedagógica que la

investigación especializada ha establecido a lo largo de años en diversos

campos, como el Aprendizaje de Lenguas Asistido por Ordenador, la Didáctica,

la Psicología Educativa o la Adquisición de Segundas Lenguas, entre otros. El

objetivo de esta investigación es proponer, tras una revisión de la bibliografía

relevante, una herramienta de análisis de recursos de aprendizaje de lenguas

basados en la Web consistente en una plantilla que recoge una serie de

estándares de calidad pedagógica y que puede utilizarse tanto para la evaluación

como para el diseño y desarrollo de dichos recursos educativos. En primer

lugar, se presenta el proceso seguido para la creación de la herramienta, así

como su justificación y posibilidades de aplicación práctica. Seguidamente, se

describe de forma resumida la herramienta, junto con sus características y

algunos de sus parámetros principales. A continuación, se lleva a cabo una

breve puesta en práctica de la herramienta con el análisis de unos pocos

recursos, a modo de ejemplo de su implementación. Finalmente, se resumen las

debilidades y fortalezas de la herramienta propuesta, así como posibles áreas de

investigación en el futuro con el objetivo de mejorar la misma.

Palabras clave: Evaluación pedagógica, World Wide Web, Aprendizaje de

Lenguas.


Elaboración de diccionarios especializados a través de MediaWiki: el caso

del Diccionario Académico de la Medicina (DIACME), desde sus ediciones

impresas hasta el formato electrónico

Julio Alexander Bernal Chávez* Wilmar Gentil López Barrios** *Investigador Instituto Caro y Cuervo

**Estudiante de Doctorado en lingüística, Universidad Massachusetts Amherst


Resumen

Los diccionarios impresos continúan migrando sus contenidos al formato

electrónico ya que este les permite almacenar una mayor cantidad de datos y

manejarlos con más facilidad, rapidez y eficiencia. La ponencia presentada

describe la evolución de las estructuras lexicográficas del Diccionario

Académico de la Medicina (DIACME) en su transición desde el formato

impreso al electrónico. Se presenta el software MediaWiki como una

herramienta potencial en la elaboración de diccionarios electrónicos

especializados, gracias a que permite organizar y jerarquizar la información de

una base de datos léxicos. En paralelo, se comparan la macroestructura,

microestructura, medioestructura, estructura de acceso y el marco estructural de

las ediciones impresas con la estructura que ofrece la MediaWiki a los

diccionarios especializados. Este trabajo descriptivo-comparativo resalta las

fortalezas de la MediaWiki y la presenta como una herramienta eficaz y de fácil

acceso para los lexicógrafos especializados; en esa medida, es una herramienta

que optimiza la actividad lexicográfica e incentiva la compilación de

diccionarios especializados con formato electrónico.

Referencias

Abel, A. (2012). Dictionary Writing Systems and Beyond. In Electronic

Lexicography (pp. 83–106). Oxford: Oxford University Press.

Almind, R. (2005). Designing Internet Dictionaries. Hermes, 34, 37–54.

Granger, S., & Paquot, M. (2012). Electronic Lexicography. Oxford: Oxford

University Press.

Hanks, P. (2012). Corpus evidence and electronic lexicography. In Electronic

Lexicography (pp. 57–82). Oxford: Oxford University Press.

Kunze, C., & Lemnitzer, L. (2007). Computer- lexikographie. Tübingen:

Gunter Narr Verlag.


El comportamiento sintáctico y semántico del término ‘ideología de género’

en artículos de 2 periódicos, uno nacional y otro local

Amparo Inés Huertas Sánchez*

*Profesora Universidad del Valle. Escuela de Ciencias del Lenguaje.

Sección: Lingüística Aplicada

Resumen

El objetivo de esta comunicación es presentar los resultados del estudio

contrastivo del comportamiento sintáctico y semántico del término “ideología

de género” en un corpus comparable constituido por artículos de El Espectador

de Bogotá y El País de Cali, en los meses de julio y agosto de 2016. El estudio

se basó en los postulados de la Teoría Comunicativa de Terminología (Cabré,

1999) y la Terminología Basada en Marcos (Faber y otros, 2012). Se partió de

los presupuestos (1) el término ‘género’ representa un concepto poliédrico

basado en un evento multidimensional, (2) al combinarse con otras palabras,

conforma unidades terminológicas que representan el evento complejo de

género y (3) la metodología basada en corpus permite explicitar el

comportamiento potencial, tanto semántico como sintáctico, de las unidades

especializadas, lo que implica la descripción exhaustiva de las relaciones

conceptuales así como de su potencial combinatorio. Los textos de corpus se

seleccionaron a partir de las palabras clave: ideología de género,comunidad

LGBTIy cartillas. La extracción de la información se hizo con la ayuda de

herramientas informáticas. Se identificaron las diferentes colocaciones del

término ‘ideología de género’ y sus frecuencias en ambos periódicos, se

determinaron los significados derivados de posiciones sintácticas del término en

contexto y se establecieron las relaciones conceptuales entre las unidades

terminológicas del marco semánticode género. El análisis combinó los enfoques

cualitativo y cuantitativo para describir la información obtenida. Los resultados

permiten establecer las similitudes y diferencias en la representación conceptual

de ideología de género en dos periódicos reconocidos con orientaciones

políticas diferentes, en el ámbito de la educación.

Palabras clave: ideología de género, comunidad LGTBI, cartillas.


Extracción semiautomática de relaciones semánticas en la combinación

verbo y preposición en la lengua castellana

Jason E. Angel* Carlos Mario Zapata** y Gerardo Urrego Giraldo*


**Universidad Nacional


Resumen

La naturaleza semántica de los verbos y las preposiciones, se suele emplear en

el análisis y comprensión del discurso. Algunos autores evidencian la existencia

de relaciones semánticas que influyen en la interpretación del texto y que

surgen al combinar el uso del verbo y la preposición en determinados contextos.

Sin embargo, en la lengua castellana, no se han obtenido resultados

concluyentes para muchos verbos puesto que las relaciones semánticas son

descritas manualmente y en muy pocos contextos. En este artículo se propone

un modelo computacional basado en reglas, que permite la identificación de

relaciones semánticas entre el verbo y la preposición. Este modelo se usa en la

interpretación del texto por computador y se ejemplifica con un corpus de

prensa colombiana.

Palabras clave: lingüística computacional, procesamiento del lenguaje natural,

semántica del verbo, semántica de la proposición, lingüística de corpus, prensa

colombiana.


Hacia la anotación y etiquetado de un corpus sociolingüístico: Preseea-

Medellín

Jorge Mauricio Molina Mejía*/**, María Claudia González Rátiva*, José

Luis Pemberty Tamayo*, Andrés Felipe Grajales Ramírez* y Alejandra

Bermúdez Cardona* *Corpus Ex Machina – Grupo de Estudios Sociolingüísticos, Universidad de

Antioquia **Laboratoire LIDILEM, Université Grenoble Alpes


Resumen

Nuestro proyecto se encuentra enmarcado en uno de mayor envergadura:

Preseea-Medellín; el cual ha producido un corpus de entrevistas orales y sus

respectivas transcripciones. Todos estos textos están organizados con criterios

sociolingüísticos, por lo que cuentan, además de su contenido, con una cantidad

de metadatos.

Partiendo de esto, nuestra labor consiste en tomar la versión escrita de ese

corpus y, por medio de herramientas computacionales, enriquecer la

información que consta en los textos con un etiquetado de carácter

morfosintáctico. El resultado será un corpus completamente codificado en

lenguaje XML, que, en una versión posterior del proyecto, se utilizará para la

elaboración de una herramienta que permita múltiples opciones de búsqueda,

explotación y trabajo con el corpus.

Nuestro propósito es, por lo tanto, explicar el acercamiento que hemos tenido al

trabajo con el corpus; experiencia dentro de la cual se han desarrollado temas

como: el carácter sociolingüístico de los textos y la eficiencia de las

herramientas para procesarlos.

En el primer tema, por ejemplo, surgen interrogantes como la pertinencia de

una normalización ortográfica de las transcripciones, atribuyéndoles una

cercanía a las grabaciones originales que depende más de un punto de vista

morfosintáctico que fonético; también ha sido un elemento destacable el

reconocimiento y el manejo de las unidades léxicas propias de la variedad de

español hablada en Medellín, entre otros.

Por otro lado, en cuanto a las herramientas informáticas hemos visto que;

precisamente por el esfuerzo que se dirige a la preservación de la integridad del

corpus, en cuanto a la variedad de la lengua que representa; se plantean


dificultades a la hora de procesar los textos con herramientas convencionales,

haciendo del proyecto un trabajo que permite un acercamiento más personal a la

información y, en definitiva, una oportunidad destacable para quienes nos

formamos como investigadores en la lingüística de corpus por medio de la

lingüística computacional.

Palabras clave: lingüística de corpus, corpus sociolingüístico, lingüística

computacional, XML, etiquetado morfosintáctico.


Hacía la construcción de una plataforma para corpus de diferentes fuentes

y registros

Julio Alexander Bernal Chávez,* Ruth Yanira Rubio López,* Lyda

Pineda,** y Andres Luna**

*Investigador(a) del Instituto Caro y Cuervo

**Ingenieros del Equipo de Sistemas del Instituto Caro y Cuervo, Ofician Tics.


Resumen

A lo largo de varias décadas de investigación, el Instituto Caro y Cuervo (ICC)

ha recopilado un acervo de datos sobre las lenguas de Colombia. Estos

materiales fueron almacenados en varios formatos y organizados de acuerdo

con diversos criterios y metodologías, por lo cual en muchos casos el acceso,

uso y salvaguarda de estos archivos es una tarea compleja. El proyecto tiene por

objetivo el desarrollo de un Sistema Gestor de Contenidos (SGC) para los

corpus del ICC. Para lograr este objetivo se deben tener en cuenta dos campos

de tratamiento: por un lado, la parte técnica relacionada con el desarrollo del

SGC; y, por otro lado, la parte de planteamiento metodológico que se vincula

con el diseño de protocolos y estrategias para que la información que se

encuentra en diversos formatos y metodologías tenga las características de un

corpus y pueda ser ingresada a la plataforma. La presente ponencia busca

presentar los avances del proceso de construcción del SGC, los requerimientos,

arquitectura y pasos para el desarrollo.

Palabras clave: plataforma, lingüística de corpus, base de datos, arquitectura.


Hacia la constitución de un dispositivo informático basado en corpus para

la enseñanza del español como lengua extranjera

Jorge Mauricio Molina*/ **, Mathieu Loisea**, Daniel Arango Rivera*,

Juan Esteban Barrera*, José Luis Pemberty* y Andrés Felipe Grajales* *Corpus Ex Machina – Grupo de Estudios Sociolingüísticos, Universidad de

Antioquia **Laboratoire LIDILEM, Université Grenoble Alpes


Resumen

Presentamos en esta comunicación DICEELE (Dispositivo Informático basado

en Corpus para la Enseñanza del Español como Lengua Extranjera), un

proyecto de investigación que se encuentra en la confluencia de varias

disciplinas: el Aprendizaje de Lenguas Asistido por Ordenador (ALAO), el

Procesamiento del Lenguaje Natural (PLN), la didáctica de lenguas extranjeras

y la Lingüística Textual. Este proyecto, fruto de un trabajo conjunto entre el

grupo Corpus Ex Machina (Universidad de Antioquia) y el laboratorio

LIDILEM (Université Grenoble Alpes), nace de la necesidad de proveer a los

aprendientes de español como lengua extranjera y a sus docentes de un

dispositivo informático didácticamente adaptado frente a sus necesidades.

Nuestro dispositivo de ingeniería pedagógica debería permitir un acercamiento

hacia el aprendizaje del español bajo una óptica diferente, que viene dada por el

enfoque de la lingüística textual. Es por ello que nuestro sistema se fundamenta

en un corpus de textos auténticos que serán anotados y etiquetados gracias a

herramientas para el PLN siguiendo las nociones planteadas por dicho enfoque

teórico; además, dicho sistema posee recursos y actividades pedagógicas que

pueden ser fácilmente utilizadas tanto por los profesores de ELE como por sus

aprendientes.

El corpus consta de 120 textos distribuidos según los niveles designados por el

MCER (Marco Común Europeo de Referencia) y posee las siguientes

características:

40 textos por nivel (B1, B2, C1).

Textos anotados y etiquetados morfosintácticamente (automático PLN).

Nociones lingüísticas anotadas manualmente (lenguaje XML).


DTD que contiene la gramática del corpus.

Finalmente, proponemos DICEELE como una herramienta para la enseñanza y

el aprendizaje del español destinada a aprendientes tanto extranjeros como

nacionales, cuya lengua materna tampoco es el español (comunidades indígenas

en Colombia), así como a sus docentes. La idea es la de ofrecerles a ambos

públicos una herramienta que, además de servir en los cursos presenciales,

pueda ser utilizada en autonomía guiada. Para ello, el sistema permite la

creación de secuencias didácticas de aprendizaje que utilizan el corpus antes

señalado.

Palabras clave: Aprendizaje de Lenguas Asistido por Ordenador, Lingüística

Computacional, Lingüística de Corpus, Lingüística Textual.


Integración de corpus y ontología a partir de los datos abiertos

relacionados con el conflicto armado colombiano

Angye Katherine Malagón *, Juan Manuel Pérez * y Sonia Ordoñez **

*Estudiante Universidad Distrital F.J.C ingeniería de sistemas, miembro grupo

GESDATOS.

**Docente Universidad Distrital F.J.C, director grupo investigación

GESDATOS


Resumen

A partir de los datos abiertos sobre la violencia en Colombia, publicados en el

sitio web del Centro Nacional de Memoria Histórica de Colombia , se creó un

corpus estructurado a través de un grafo dirigido, que consigna la información

relacionada con atentados, masacres, secuestros, minas, daño a bienes civiles,

civiles muertos en acciones bélicas, asesinatos selectivos y ataques a

poblaciones durante el periodo de 1970 al 2012 (Centro de Memoria Histórica,

2012), con el fin de realizar correlación de hechos. Para el diseño del corpus se

utilizaron conceptos propios de las ontologías con el fin de conseguir la mejor

representación de los términos relacionados con los sucesos del conflicto

armado colombiano. Una vez de definió el modelo que mejor representaba los

datos, se utilizaron técnicas propias de procesamiento de lenguaje natural para

extraer la información relevante de la recopilación de información,

posteriormente se almacenó en una base de datos orientada a grafos. La base de

datos permite gestionar grandes volúmenes de información y encontrar a través

de consultas, relaciones que son inmediatas como aquellas que no son obvias y

que puedan apoyar el proceso de construcción de memoria, necesario en el

proceso de paz que vive actualmente en el país.

Palabras clave: Construcción de memoria, corpus, ontología, base de datos

orientada a grafos, datos abiertos

Referencias

Centro de Memoria Histórica. (2012). Bases de datos ¡Basta ya! Retrieved from

http://www.centrodememoriahistorica.gov.co/micrositios/informeGeneral/bases

Datos.html

Historica, C. nacional de memoria. (2013). Basta ya. Journal of Chemical


Information and Modeling (Vol. 53).

http://doi.org/10.1017/CBO9781107415324.004


Intention Detection in Question-Answering Systems in the Specific Domain

of E-government

Adan Beltrán* y Sonia Ordoñez**

*Universidad Manuela Beltrán

**Universidad Distrital Francisco José de Caldas

Sección: Procesamiento de lenguaje natural

Abstract

One of the tasks in a Question-Answering systems (QAS) for electronic

government, consists in assigning or classifying the question to a predetermined

class and it represents the semantic category associated to the intention of the

question. This task is know as, Expected Answer Type (EAT) and the set of

classes is defined as taxonomy. Many taxonomies have been proposed, but

most not adjusts for QAS in the domain of electronic government, because in

the process of interaction of the citizens with applications (QAS for electronic

government), citizens seeking government-related issues. This paper, we

propose: a) to create a taxonomy, using detecting intentionality of the questions

through unsupervised methods; b) develop a software component that includes

the algorithm with better results in the previous point and c) Include this

component in the QAS for electronic government.

On the other hand, detection of intentionality is an issue that has been widely

explored for search engines, but for SQA there are few existing studies.

Application of unsupervised techniques (K-Means ++ and Unsupervised

Random Forest) is presented to automatically identify the different groups to

form categories of intentionality in each of the domains of government, as an

upgrade to QAS, initially developed for the Government domain in the

Colombian State in whose construction classification methods were used to find

the intention of the user and training corpus marked by experts. The application

of unsupervised techniques will allow easy extension to all domains of the

State, avoiding or minimizing the need of expert domain support for manual

construction of training corpus for the system. We found that the K-Means ++

(MI = 66%) responded better than the Unsupervised Random Forest (MI =

56%) method in the task of clustering.

Keywords: K-Means++, Unsupervised random forest, Intention detection,

Automatic detection of intentions, Intention detection in QAS, Expected

Answer Type (EAT)


Lingüística computacional y modelación semántica en el derecho

informático en Colombia

Juan Fernando Rojas Moreno* Julio Barón Velandia** Jorge Mario

Calvo**

*Estudiante Maestría Ciencias de la Información y las Comunicaciones,

Universidad Distrital Francisco José de Caldas

** Profesor Facultad de Ingeniería Universidad Distrital Francisco José de

Caldas

Sección: lingüística computacional

Resumen

Parte de la deficiencia que presentan las instituciones encargadas de impartir

justicia en Colombia, se debe al acelerado crecimiento de procesos judiciales, a

la dispersión física de los documentos y la gestión manual de los mismos. Las

tecnologías de apoyo informático con el que actualmente cuentan algunas

dependencias capturan en un bajo porcentaje el modelo semántico del dominio

jurídico. A nivel de representación de la información, el paso de un modelo

conceptual a una representación computacional en los actuales motores de bases

de datos relacionales, hace énfasis en la integridad de los datos, la indexación y

velocidad de acceso a registros, acosta de la perdida de semántica, haciendo que

las consultas contengan una gran cantidad de registros con un bajo grado de

pertinencia para el usuario experto en el ámbito jurídico.

Ésta propuesta presenta los elementos semánticos principales que conforman un

modelo que permite mejorar la pertinencia de los datos que se pueden obtener

como resultado de la búsqueda de información o acceso a la misma. Se

fundamenta en la capacidad de reutilizar representaciones conceptuales de

ontologías jurídicas generales y de dominio para ser incorporadas en la

especificación del modelo semántico del derecho informático en Colombia, con

el fin de establecer de manera dinámica y confiable inferencias sobre la

información legal que facilite la obtención de los recursos con alto grado de

pertinencia según las necesidades y perfiles de los actores involucrados.

Referencias

Ali, A. & Khan, M. A. (2010, October). Knowledge representation of Urdu text


using predicate logic. In 2010 6th International

Conference on Emerging Technologies (ICET), (pp. 293-298). IEEE.

Alonso, M. (1992). Conocimiento y bases de datos una propuesta de

integración inteligente [thesis]. Universidad de Cantabria: Santander, España.

Beekman, G. (1999). Introducción a la computación. Madrid, España: Pearson.

Citycorp. (2015). Semantic solutions for your enterprise. Retrieved from:

http://www.cyc.com/enterprise-solutions/solutions/

Cybertesis [web site] (2015). Retrieved from: http://cybertesis.unmsm.edu.pe/

Dentler, K., Cornet, R., Teije, A., & Keizer, N. (2011). Comparison of

reasoners for large ontologies in the OWL 2 EL Profile.

Semantic Web, 2(2), 71-87.

Díez, D. & Zúñiga, A. (2011). Implementación de un modelo de gestión del

conocimiento para empresas de servicios [thesis].

Cali, Colombia: Universidad ICESI.

Flores, I. (2011). Introducción al razonamiento sobre ontologías. Retrieved

from: file:///C:/Users/Jos%C3%A9%20Ignacio/

Downloads/nota-docencia-9.pdf

Floridi, L. (2004). Open problems in the philosophy of information.

Metaphilosophy, 35(4), 554-582.

Gangemi, A., Pisanelli, D., & Steve, G. (1998). Ontology integration:

Experiences with medical terminologies. In Formal ontology

in information systems [Vol. 46]. Amsterdam, The Netherlands: IOS.

Gruber, T. (1995). Toward principles for the design of ontologies used for

knowledge sharing. International Journal of Human

and Computer Studies. International journal of human-computer studies, 43(5),

907-928.

Hao, C. (2011). Research on knowledge model for ontology-based knowledge

base. In 2011 International Conference on

Business Computing and Global Informatization (BCGIN), (pp. 397-399).

IEEE.

Hendler, J. (2001). Agents and the semantic web. IEEE Intelligent Systems, 2,

30-37.

Holmes, D. & Stocking, R. (2009). Augmenting agent knowledge bases with

OWL ontologies. 2009 IEEE Aerospace Conference.

doi:10.1109/AERO.2009.4839651

Lahaba, N. & León, M. (2001). La gestión del conocimiento: una nueva

perspectiva en la gerencia de las organizaciones.

Acimed, 9(2), 121-126.

Lenat, D., & Guha, R. V. (1990). Cyc: A midterm report. AI magazine, 11(3),

32.


Márquez, S. (2007). La web semántica [thesis]. Universidad Politécnica de

Madrid, España.

Moldovan, D. I., & Rus, V. (2001, May). Transformation of wordNet glosses

into logic forms. In FLAIRS Conference Proceedings,

(pp. 459-463).. Retrieved from:

http://www.aaai.org/Papers/FLAIRS/2001/FLAIRS01-088.pdf

Mylopoulos, J., & Levesque, H. (1983). An overview of knowledge

representation. In GWAI-83 (pp. 143-157). Berlin-Heidelberg,

Germany: Springer.

Noy, N., & McGuinness, D. (2000). Ontology development 101: a guide to

creating your first ontology. Retrieved from:

http://liris.cnrs.fr/~amille/enseignements/Ecole_Centrale/What%20is%20an%2

0ontology%20and%20why%20we%20

need%20it.htm

Ono, K., Kawano, S., Fukazawa, Y., & Kadokura, T. (1992). A resolution

method from predicate logic specification into executable

code. In Proceedings of the Twenty-Fifth Hawaii International Conference on

System Sciences, 1992. (Vol. 2, pp.

480-487). IEEE.

Parnas, D. L. (1993). Predicate logic for software engineering. Software

Engineering, IEEE Transactions on, 19(9), 856-862.

Ramírez, S., Alonso, Y., Hernández, V., Arias, A., & La Rosa, D. (2010).

Comparando UML y OWL en la representación del

conocimiento: correspondencia sintáctica. Revista Española de Innovación,

Calidad e Ingeniería del Software, 6(3), 84-94

Repositorio Unilibre [web site] (2015). Retrieved from:

http://repository.unilibre.edu.co/handle/10901/1

Ruckhaus, E. (2005). Lógicas descriptivas y ontologías. Retrieved from:

http://ldc.usb.ve/~ruckhaus/materias/ci7453/clase51.

pdf

Shi, Z., Liu, Z., & Chen, J. (2010). Using logic rules for concept refinement

learning in first order logic. 2010 IEEE Fifth International

Conference on Bio-Inspired Computing: Theories and Applications (BIC-TA),

(pp. 444-448). IEEE.

Sinab [web site] (2015). Retrieved from: http://www.sinab.unal.edu.co/

Tayal, M., Raghuwansh, M., & Latesh, M. (2013). Knowledge representation:

predicate logic implementation using sentence-type

for Natural Languages. Circuits, Power and Computing Technologies

(ICCPCT), (pp. 1264-1269). IEEE.

Teseo [web site] (2015). Retrieved from:


https://www.educacion.gob.es/teseo/irGestionarConsulta.do

Universidad del Rosario (2011). Reglamento de trabajos de grado de la facultad

de jurisprudencia. Retrieved form: http://

www.urosario.edu.co/jurisprudencia/pregrados/documentos/Reglamento_de_tra

bajos_de_grado_Jurisprudencia.pdf

Wang, Y. (2010). Research on the construction of ontology-based criminology

knowledge base. 2nd IEEE International Conference

on Network Infrastructure and Digital Content.

Wang, Y. (2010). Research on the construction of ontology-based criminology

knowledge base. In 2010 2nd IEEE International

Conference on Network Infrastructure and Digital Content, (pp. 123-128).

IEEE.

Yoo, S., & Park, C. H. (1993). An inference browser to verify knowledge bases.

In Fifth International Conference on Tools with

Artificial Intelligence, 1993. TAI’93. Proceedings, (pp. 466-467). IEEE.


Lingüística de corpus y enseñanza de lenguas extranjeras: hacia la

construcción de un corpus de aprendices en Colombia

Victoria Pardo* Gabriel Quiroz*


A partir de una tesis doctoral en curso, se presentará la metodología y

descripción de un corpus de aprendices para el análisis de errores. El corpus

está compuesto de 600 composiciones de aprendices de nivel intermedio de

inglés de una universidad del caribe colombiano. Se presentará la forma de

selección de los sujetos, la recolección de las composiciones, sus datos

sociolingüísticos, la codificación y conversión de los archivos y el etiquetaje de

errores con base en el software UCLEditor de la Universidad de Lovaina, así

como los problemas de etiquetaje. Igualmente, se presentarán resultados del

análisis de errores del corpus con base en la clasificación de Granger (1997,

2003). Además de la recolección y el análisis del corpus, el trabajo pretende

mostrar cómo las teorías del input y las condiciones sociolingüísticas influyen

en el desempeño de los estudiantes de lenguas extranjeras.

Palabras clave: lingüística de corpus, enseñanza de lenguas extranjeras, corpus

de aprendices, análisis de errores.


Machine Learning-Oriented Definition of Linguistic Features for

Document-Level Sentiment Analysis in Spanish

Antonio Tamayo* Diego Burgos** y Gabriel Quiroz*


**Wake Forest University

Abstract

The automatic prediction of the course of action of agents involved in social or

economic trends is an imperative challenge nowadays [1]. However, it is a

difficult task due to the fact that stance or opinion is often spread throughout

long, complex documents, such as news articles. The bulk of works on

sentiment analysis so far have used a bag-of-words approach and deal with

short texts, such as tweets and product or movie reviews [2][3]. The present

work aims at automatically determining writer’s stance in financial news

articles. We intend to capture the semantics and stance of the text by encoding

linguistic features such as the attribute of copulative sentences and the predicate

of transitive sentences, among other characteristics. Under the assumption that

these features are informative enough to model the semantics of the article,

each predicate is disambiguated and assigned an opinion value using

SentiWordNet [4] and linguistic rules. The feature values are used to populate a

database that will be tested in a second stage of the study with two machine

learning algorithms, namely, support vector machines and random forest. In this

paper, the methodology and advances of this first stage are presented.

Keywords: Document-level Sentiment Analysis, sense disambiguation,

syntactic analysis, SentiWordNet, copulative sentences’ attribute, transitive

sentences’ predicate, SVM, Random Forest.

References:

[1]. Kalyanaraman, V., Kazi, S., Tondulkar, R., & Oswal, S. (2014, September).

Sentiment Analysis on News Articles for Stocks. In Modelling Symposium

(AMS), 2014 8th Asia (pp. 10-15). IEEE.

[2]. Liu, B. Sentiment analysis and opinion mining. Synthesis lectures on

human language technologies, 5(1), 1-167. (2012)


[3]. B. Pang, L. Lee, and S. Vaithyanathan, “Thumbs up? Sentiment

classification using machine learning techniques,” in Proceedings of the

Conference on Empirical Methods in Natural Language Processing (EMNLP),

pp. 79–86. (2002)

[4]. Baccianella, S., Esuli, A., & Sebastiani, F. (2010, May). SentiWordNet 3.0:

An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining. In

LREC (Vol. 10, pp. 2200-2204).


Metodología de construcción de un corpus paralelo español-inglés de

artículos de investigación en Ciencias de la Salud publicados en una revista

colombiana

Irina Kostina* Andrés Mauricio Veira**

*PhD en Lingüística Aplicada, profesora de la Escuela de Ciencias del

Lenguaje, Grupo de Investigación en Traducción y Terminología –

TRADUTERM. Universidad del Valle.

**Estudiante de la Maestría en Estudios Interlingüísticos e Interculturales.

Grupo de Investigación en Traducción y Terminología – TRADUTERM.

Universidad del Valle.


Resumen

El análisis comparativo de traducción de la terminología es fundamental para

procesos de adquisición de conocimiento en campos como: la traducción, la

comunicación especializada y la enseñanza de lenguas con propósitos

específicos. Para realizar el estudio descriptivo de la terminología de un

dominio especializado, se acude a la lingüística de corpus que proporciona la

metodología para trabajar con grandes cantidades de datos lingüísticos. No

obstante, cada estudio motivado por el corpus (corpus-driven) necesita la

elaboración de una metodología particular. El objetivo de la presente

comunicación escompartir la metodología diseñada para construir un corpus

paralelo, español-inglés, de artículos de investigación en Ciencias de la Salud

publicados en una revista científica colombiana, que posteriormente servirá

para el análisis comparativo léxico-gramatical y semántico de traducción de

unidades fraseológicas eventivas especializadas. Cada paso metodológico se

diseñó con programas informáticos de acceso libre, disponibles en la web

(AntConc, AntWordProfiler, AntFileConverter,I love PDF, You Align), y otros

programas de procesamiento de datos, usualmente disponibles en un

computador (Word, Excel, Notepad). Inicialmente, se describen las

herramientas informáticas que sirvieron para construir el corpus paralelo y,

después, las que ayudaron a procesar y analizar los datos. Finalmente, se

encontraron ventajas y dificultades en el uso de estas herramientas, como la

restricción para el almacenamiento de datos en línea. Por último, se llegó a la

conclusión de que el uso informado de las mismas ayuda a minimizar el tiempo,


permitiendo la recolección, organización, procesamiento y análisis de datos de

manera sistemática y eficaz.

Palabras clave: corpus paralelo especializado, programas informáticos,

alineación.


Modelo de procesamiento de historias clínicas electrónicas de pacientes con

artritis reumatoide para la obtención de variables relevantes

Andrés Cely Jiménez*

*Magister(c) Ingeniería de Sistemas y Computación, Universidad Nacional de

Colombia

Luis Fernando Niño V** y Gerardo Quintana***

**Ph.D., Facultad de Ingeniería, Universidad Nacional de Colombia

***MSc. M.D., Facultad de Medicina, Universidad Nacional de Colombia

Sección: Procesamiento de Lenguaje Natural

Resumen

El dominio biomédico ha utilizado las tecnologías de información como

herramientas para el almacenamiento de datos médicos en múltiples ambientes

tales como la gestión de registros médicos electrónicos, procesamiento de

imágenes diagnósticas, gestión de procesos administrativos, etc. Es en la

historia clínica electrónica donde se realiza el registro de la atención médica de

un paciente, de su tratamiento, evolución y finalización de su estancia

hospitalaria.

Experiencias como la realizada en la clínica Mayo[1] demuestra que es posible

realizar procesos de extracción de información en los registros médicos para la

obtención de información usada para el apoyo de la toma de decisiones. Tal

como plantea Kononenko[2] la construcción de herramientas médicas

complementarias pueden mejorar la eficiencia y los beneficios obtenidos en la

atención en salud mediante herramientas de aprendizaje maquinal y en este

caso, de la aplicación de herramientas de procesamiento de lenguaje natural.

Este modelo de proceso de extracción de información sobre historias clínicas

está basado en un conjunto de procesos de preparación y procesamiento del

texto; estas actividades permiten la obtención de las sentencias y de las palabras

existentes en el documento, y además la realización de un proceso de

etiquetado sobre los términos obtenidos utilizando UMLS ó Sistema de

lenguaje médico unificado para la identificación de los términos médicos y,

finalmente, la obtención de las variables relevantes.

Palabras clave: procesamiento de lenguaje natural, registros médicos


electrónicos, historia clínica, artritis, UMLS.

Referencias

[1]G. K. Savova, J. J. Masanz, P. V Ogren, J. Zheng, S. Sohn, K. C. Kipper-

Schuler, and C. G. Chute, “Mayo clinical Text Analysis and Knowledge

Extraction System (cTAKES): architecture, component evaluation and

applications.,” J. Am. Med. Informatics Assoc., vol. 17, no. 5, pp. 507–13, 2010

[2] I. Kononenko, “Machine learning for medical diagnosis: History, state of the

art and perspective.” Artificial Intelligence in Medicine, vol. 23, no. 1, pp. 89–

109, 2001.


Moving WordNet 3.0 and its resources to a graph database: G-WordNet

Sergio Jiménez*

George Dueñas*

*Investigadores del Instituto Caro y Cuervo

Sección: Lingüística computacional

Abstract

WordNet is a large lexical-semantic graph composed of nodes, which represent

lemmas, senses and synsets (i.e. set of synonym concepts), interconnected by

edges representing sematic relationships (i.e. antonymy, hypernymy, etc.)

Also, WordNet is among the most-used resources in the field of Natural

Language Processing. However, the WordNet and its equivalents are difficult to

build and intended mainly for read-only use. Alternatively, in collaborative

lexicons such as Wiktionary, an important number of authors contribute to a

more accurate view of the actual use of the language. In this scenario, both

WordNet and Wiktionary approaches have their pros and cons. On the one

hand, WordNet have a very rich semantic representation of the lexical units, but

its content is mainly oriented for machines, and its format is difficult to update

and query by humans. On the other hand, Wiktionary is easy to use and update

by humans, but its structure is not appropriated for computer applications and

resembles a classical printed dictionary lacking of explicit semantic

relationships.

In the last decade, the database research community has proposed the so called

graph-databases with the idea to improve the modeling of large and highly

interconnected data structures that cannot be stored and queried adequately with

current established technologies. For example, the web social graph contains

hundreds of millions of nodes representing people and billions of edges

representing “friend”, “like” and “follow” relationships. We believe that this

technology can help in the reconciliation of the dilemma between WordNet and

Wiktionary approaches.

For that, we moved WordNet 3.0 and all its sense-annotated corpora to a

popular freely available graph database engine, Neo4j. The proposed resource,

G-WordNet, is searchable and updatable in a query language intended not only

for technicians and specially designed for graph structures. This is a first step

towards a long term objective of building a large collaboratively

lexicographical resource with a rich semantic representation while usable and

updatable by humans and computers.


Procesamiento informático de los materiales del Atlas Lingüístico-

Etnográfico de Colombia: modelamiento de la base de datos espacial

Julio Alexander Bernal Chávez,* Johnatan Bonilla Huérfano,* Andrés

Cárdenas,** Luz Rocha** y Javier Fernández**

*Investigador Instituto Caro y Cuervo

**Grupo NIDE, Universidad Francisco José de Caldas

Sección: Lingüística de Corpus.

Resumen

Esta ponencia presenta la propuesta metodológica para el procesamiento

informático, digitalización y sistematización de los datos léxicos, etnográficos y

materiales suplementarios del Atlas Lingüístico Etnográfico de Colombia

ALEC en una base de datos espacial como resultado del ejercicio investigativo

del Grupo de Investigación de Lingüística de Corpus del ICC. En la primera

parte, se presenta un acercamiento descriptivo a los materiales que componen el

ALEC, en diálogo con generalidades conceptuales sobre el manejo de datos

espaciales, metadatos y el desarrollo de bases de datos espaciales con

posibilidades de aplicación específica para grupos de datos lingüísticos y

etnográficosde dimensión diatópica. La segunda parte expone la propuesta

metodológica que incluye los criterios tenidos en cuenta para el tránsito de la

información del soporte análogo a digital, la descripción de los metadatos para

la descripción y organización de la información y el modelamiento de la base

de datos espacial y, por último, a modo de discusión, se presentan las

posibilidades de uso y explotación de la base de datos espacial, en el estado

actual, del ALEC Interactivo hasta llegar a un SIG Sistema de Información

Geográfico.

Referencias

Guevara, J. A. (1992). Esquema metodológico para el diseño e implementación

de un sistema de información geográfico. Geographicalia, (29), 21-32.

Güting, R. H. (1994). An introduction to spatial database systems. The VLDB

Journal—The International Journal on Very Large Data Bases, 3(4), 357-399.

Hoch, S., & Hayes, J. J. (2010). Geolinguistics: The incorporation of

geographic information systems and science. The Geographical Bulletin, 51(1),

23.


Proyecto « DICO CULTUREL »: análisis lingüístico-cultural comparativo

de los comercios de Francia y Colombia

Olga Rocío Serrano*

*Docente investigador perteneciente al grupo de investigación Innovación

Pedagógica. Universidad ECCI, Bogotá, Colombia.


Resumen

Analizando numerosos diccionarios bilingües francés – español que se

encuentran en el mercado, constatamos que ninguno de ellos se centra

específicamente en el español de Colombia, sino más bien en el español de

España, o de manera muy general, en el español de Latinoamérica.

Es por tal motivo que decidimos llevar a cabo el proyecto de investigación

« Dico culturel » que se destina a un público que aprende el francés lengua

extranjera y que tiene como propósito crear un prototipo de diccionario

lingüístico y cultural con enfoque antropológico de divergencias parciales o

totales que existen entre el universo francés y colombiano.

Para tal efecto, hemos examinado numerosas fuentes en francés y hemos

seleccionado un conjunto de temáticas tales como la del medio ambiente, la

educación, el transporte, las fiestas y tradiciones, la familia, el alojamiento, la

alimentación, los comportamientos, entre muchos otros.

En esta ponencia, nos centramos en el tópico de los establecimientos

comerciales. Principiamos pues con la presentación de la lista de términos o

expresiones pertenecientes a esta temática obtenida gracias al análisis de obras

destinadas al aprendizaje de la lengua francesa. Describimos igualmente la

manera en la que procedimos para constituir nuestro corpus comparable francés

de Francia y español de Colombia por cada una de las entradas seleccionadas.

Luego, a partir de dicho corpus, analizamos las informaciones lingüísticas y

culturales que poseen marcadas divergencias culturales con enfoque

antropológico que fueron útiles para redactar nuestros artículos de diccionario.

Finalmente, mostramos algunos ejemplos de artículos de diccionario relativos a

los establecimientos comerciales.

Palabras claves: diccionario bilingüe y cultural, cultura antropológica,

contenidos lingüísticos, contenidos culturales antropológicos, establecimientos

comerciales.


Rediseño del corpus de las sexualidades en México a través de las

herramientas de GECO

Gerardo Sierra*, Julián Solórzano*, Jorge Lázaro**, Mariana Aguilar*,

Arturo Curiel*

* Grupo de Ingeniería Lingüística, Instituto de Ingeniería, Universidad

Nacional Autónoma de México (gsierram, jsolorzanos, maguilarc, acurield @

iingen.unam.mx)

** Benemérita Universidad Autónoma de Puebla

([email protected])


Resumen

GECO es una aplicación web gratuita destinada a la creación y gestión de

corpus que permite a los usuarios, de manera individual o de manera

colaborativa, subir documentos de texto y sus metadatos. Los documentos

subidos a GECO son convertidos automáticamente a texto plano y etiquetados

con el lema y la parte de la oración (POS) de cada palabra.

Una vez que los documentos están cargados y procesados, los usuarios pueden

disponer de ellos mediante la creación de proyectos (corpus) en la plataforma, a

fin de que puedan ser analizados y utilizados por otras herramientas de

procesamiento de textos, tales como el generador de concordancias y el

extractor terminológico. Finalmente, GECO permite a los usuarios la creación

de un portal web sencillo, por proyecto, orientado tanto a dar a conocer los

corpus al público en general, como a permitir a otros usuarios interactuar

directamente con los datos mediante las herramientas de GECO.

En este trabajo se presenta un caso de uso, en el que un corpus existente

(CSMX, Corpus de las Sexualidades en México) fue revisado, actualizado,

compilado y publicado por medio de esta plataforma. Se presenta desde el

diseño del corpus, su captura en el sistema, su procesamiento con las

herramientas de GECO, hasta la creación de un portal que funge como la web

del corpus, desde la cual el público puede conocer y trabajar con el mismo.


Referencias

Reyes-Careaga T., Medina A., Sierra G. (2011) “Un corpus para la

investigación en la extracción de términos y contextos definitorios: hacia un

diccionario de las sexualidades en México”. Debate Terminológico 7, pp. 24-

35.


Una aplicación ontoterminológica a un corpus de la gastronomía

tradicional en Costa Rica

Hazel Barahona Gamboa* Gerardo Sierra Martínez** Jorge Lázaro

Hernández***

*Pontificia UniversidadCatólica de Valparaíso, Chile

**Grupo de Ingeniería Lingüística, UNAM, México

***Universidad Autónoma de Puebla

Sección: Lingüística computacional

Resumen

En este trabajo se describe cómo interactúan, de forma coherente y exhaustiva,

la terminología y las ontologías y de la que se obtiene la aparición neológica

proveniente de la especificidad y funcionalidad de un corpus específico. Esta

investigación muestra que la ontología propuesta para este léxico gastronómico,

en esta región específica del mundo hispanohablante, da fe de categorías que no

existen ni en el Glosario de cocina popular costarricense (Sedó, 2008), ni en el

Diccionario de Costarriqueñismos (Quesada Pacheco, 2012). La omisión de

algunas de estas categorías muestra claramente que los términos han sido

organizados históricamente tomando en cuenta sólo el factor léxico, pero no la

organización conceptual. Por ejemplo, en la categoría Aderezos se encuentra

una subclase denominada Olores. Pues bien, este estudio lo que intenta es

poner en juego el “desacuerdo” entre hablantes y especialistas para mostrar que

es posible una reorganización de los términos de un área, en este caso de la

gastronomía, en aras de atender la organización conceptual que una cultura

tiene a propósito de sus ingredientes, preparaciones y sabores. Para la

comprensión entre las categorías ontológicas establecidas se debe tener en

cuenta que cada ingrediente es visto como un merónimo, puesto que es parte de

un todo que conforma un platillo en especial. Para esto se recopiló un corpus de

596 recetas y 4652 ingredientes para la representación ontológica. Cada clase

ontológica se definió por medio de su funcionalidad en las recetas, así como de

diccionarios gastronómicos. La arquitectura ontológica se formaliza por medio

de los postulados de Basic Formal Ontology (Smith, 2014) y se esquematiza

por medio de Protégé. Además, se emplean las teorías terminológicas de Cabré

(1992, 1999), Fedor de Diego (1995) y Roche (2007, 2009).

Palabras clave: ontoterminología, ontologías, terminología, corpus, lingüística


computacional.

Referencias

Cabré, M. T. 1992. La terminologia. La teoria, els mètodes, les aplicacions.

Barcelona: Les Naus d'Empúries.

Cabré, M.T. 1999. La terminología: representación y comunicación. Elementos

para una teoría de base comunicativa y otros artículos. Barcelona:

Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra.

Fedor de Diego, A. 1995. Terminología. Teoría y práctica. Maracay,

Venezuela: Unión Latina/ Ediciones de la Universidad Simón Bolívar.

Roche, C. 2007. “Le terme et le concept : fondements d’une ontoterminologie”.

TOTh 2007 (Terminology & Ontology: Theories and applications).

Annecy, France. pp 1-22

Roche, C.; Calberg-Challot, M.; Damas, L.; Rouard, P. 2009. Ontoterminology:

A new paradigm for terminology. International Conference on Knowledge

Engineering and Ontology Development. Madeira, Portugal. pp. 321-326.

Sedó, P. 2008. Glosario de cocina popular costarricense: descripción general

de alimentos, equipos, utensilios, técnicas de preparación y frases

populares. San José: EUCR.

Smith, B. 2014. Basic Formal Ontology 2.0. (Consulta: 3 noviembre 2014).

Extraído de: http://www.ifomis.org/bfo/


VOT (Voice Onset Time) en hablantes del español con la enfermedad de

Parkinson

Linn Camelo Parra*, Maryluz Camargo Mendoza* y Silvia Baquero

Castellanos*

*Universidad Nacional de Colombia


Resumen

Este estudio, que se enmarca en la fonética clínica, tuvo por objetivo determinar

las medidas del VOT en los sonidos oclusivos sordos y sonoros de hablantes

nativos del español que presentan la enfermedad de Parkinson (EP) y

compararlas con un grupo control (GC). Para ello, se tomaron datos a 17

personas con EP (7 mujeres, 10 hombres) y de 17 personas como GC pareados

por edad y género con el grupo EP, en tareas de lectura de palabras y

seudopalabras que contenían las consonantes /p/, /t/, /k/, /b/, /d/ y /g/ en

posición inicial de palabra, con y sin la partícula /un/. Todas las medidas del

VOT, tanto de las consonantes sonoras como sordas, fueron calculadas con el

programa Praat y posteriormente analizadas a través de estadística descriptiva

con pruebas paramétricas de Wilcoxon de los rasgos con signo para muestras

relacionadas y con una prueba de la mediana y de Kruskal- Wallis para

muestras independientes. Los resultados mostraron que en términos generales el

VOT de las consonantes oclusivas sordas en el grupo con EP es más largo

frente al grupo control y el VOT en las consonantes oclusivas sonoras del grupo

control fue más largo respecto al grupo con EP. Así mismo, los resultados

mostraron una incidencia estadísticamente significativa en los valores del VOT

con el uso o no de la partícula /un/. Este estudio se configura en uno de los

primeros en analizar el VOT de personas con EP en Colombia, y plantea retos

futuros en el análisis acústico del habla atípica de población hispanohablante.

Palabras clave: Enfermedad de Parkinson, VOT, habla atípica, fonética

clínica.

libro de resúmenes del primer congreso internacional de...

Documents