libro de resúmenes del primer congreso internacional de...
TRANSCRIPT
Libro de Resúmenes del Primer Congreso Internacional de Lingüística Computacional y de Corpus
17 al 19 de mayo de 2017, Casa Cuervo Urisarri, Sede Académica del
Instituto Caro y Cuervo
Bogotá D.C., Colombia
Organizadores:
Instituto Caro y Cuervo
The North American Chapter of the Association for Computational
Linguistics
Red Colombiana de Lingüística Computacional y de Corpus
Universidad de Antioquia
Universidad del Valle
Universidad Distrital Francisco José de Caldas
Universidad Manuela Beltrán
Primer Congreso Internacional de Lingüística Computacional y de Corpus
PRESENTACIÓN
El congreso se realizó con el objetivo de plantear un espacio de encuentro,
discusión y divulgación en torno a las investigaciones y desarrollos que se
están llevando a cabo sobre la lingüística computacional y de corpus.
También, para fortalecer el posicionamiento de redes académicas y el
desarrollo de investigaciones interinstitucionales en estas áreas. En último
lugar, se esperaba identificar las futuras directrices de investigación y ser
un marco propicio para introducir a las personas interesadas en estos campos
del conocimiento.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
CONTENIDO
PRESENTACIÓN ......................................................................................................... 2
PARTE I: ....................................................................................................................... 5
PONENCIAS CENTRALES ........................................................................................ 5
Why size alone is not enough: The importance of historical, genre-based, and
dialectal variation in language .................................................................................... 6
Un sistema informático para el manejo de corpus lingüísticos y su aplicación para
CORDIAM, el Corpus diacrónico y diatópico del español de América ..................... 7
With a little help from NLP: My Language Technology applications with impact on
society ......................................................................................................................... 8
PARTE II:...................................................................................................................... 9
PONENCIAS ................................................................................................................. 9
Análisis de movidas retóricas de resúmenes de artículos de investigación en cuatro
revistas colombianas ................................................................................................. 10
Analogía entre el metabolismo y el lenguaje natural ................................................ 12
Banco de Herramientas TNT: una plataforma para el procesamiento de corpus y
otras herramientas ..................................................................................................... 14
Base de datos CORHA: Corpus de Habla Atípica. ................................................... 15
Conectores reformulativos en textos académicos de estudiantes universitarios:
análisis en un corpus simple ..................................................................................... 16
Corpus lingüístico del español de la Antioquia histórica a través de documentación
de archivo .................................................................................................................. 17
Corpus multimodal para el análisis de técnicas de interpretación de segmentos
textuales con sentido figurado de español a la Lengua de Señas Colombiana ......... 18
Creación automática de un Corpus Farmacéutico a partir de Datos Abiertos .......... 19
Desarrollo y validación de Colombian Beliefs about Language Teaching and
Learning Inventory (COBALTALI) ......................................................................... 21
Desarrollo de una herramienta de evaluación de estándares de calidad pedagógica de
recursos de aprendizaje de lenguas asistido por la World Wide Web........................ 22
Elaboración de diccionarios especializados a través de MediaWiki: el caso del
Diccionario Académico de la Medicina (DIACME), desde sus ediciones impresas
hasta el formato electrónico ...................................................................................... 23
El comportamiento sintáctico y semántico del término ‘ideología de género’ en
artículos de 2 periódicos, uno nacional y otro local .................................................. 24
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Extracción semiautomática de relaciones semánticas en la combinación verbo y
preposición en la lengua castellana ........................................................................... 25
Hacia la anotación y etiquetado de un corpus sociolingüístico: Preseea-Medellín .. 26
Hacía la construcción de una plataforma para corpus de diferentes fuentes y registros
.................................................................................................................................. 28
Hacia la constitución de un dispositivo informático basado en corpus para la
enseñanza del español como lengua extranjera ......................................................... 29
Integración de corpus y ontología a partir de los datos abiertos relacionados con el
conflicto armado colombiano ................................................................................... 31
Intention Detection in Question-Answering Systems in the Specific Domain of E-
government ............................................................................................................... 33
Lingüística computacional y modelación semántica en el derecho informático en
Colombia ................................................................................................................... 34
Lingüística de corpus y enseñanza de lenguas extranjeras: hacia la construcción de
un corpus de aprendices en Colombia....................................................................... 38
Machine Learning-Oriented Definition of Linguistic Features for Document-Level
Sentiment Analysis in Spanish .................................................................................. 39
Metodología de construcción de un corpus paralelo español-inglés de artículos de
investigación en Ciencias de la Salud publicados en una revista colombiana .......... 41
Modelo de procesamiento de historias clínicas electrónicas de pacientes con artritis
reumatoide para la obtención de variables relevantes ............................................... 43
Moving WordNet 3.0 and its resources to a graph database: G-WordNet ................ 45
Procesamiento informático de los materiales del Atlas Lingüístico-Etnográfico de
Colombia: modelamiento de la base de datos espacial ............................................. 46
Proyecto « DICO CULTUREL »: análisis lingüístico-cultural comparativo de los
comercios de Francia y Colombia ............................................................................. 47
Rediseño del corpus de las sexualidades en México a través de las herramientas de
GECO ........................................................................................................................ 48
Una aplicación ontoterminológica a un corpus de la gastronomía tradicional en
Costa Rica ................................................................................................................. 50
VOT (Voice Onset Time) en hablantes del español con la enfermedad de Parkinson
.................................................................................................................................. 52
Primer Congreso Internacional de Lingüística Computacional y de Corpus
PARTE I:
PONENCIAS CENTRALES
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Why size alone is not enough: The importance of historical, genre-based,
and dialectal variation in language
Mark Davies
Professor of Linguistics
Brigham Young University
"Super-mega-hyper-corpora" composed of billions of words of data are
becoming increasingly more common. These corpora provide incredibly rich
data for lexical analysis (especially via collocates), as well as low-frequency
syntactic and morphological phenomena.
And yet… these gargantuan corpora are often just one huge “blob” of data.
There is no way to know whether a word or phrase or syntactic construction is
formal or informal, whether it is limited primarily to a particular dialect, or
whether it is increasing or decreasing in frequency over time. In a certain sense,
these huge, undifferentiated blobs of data go against everything that linguists
care about, in terms of language variation and change.
In this presentation, I suggest that – with the right type of corpora (including the
right kind of underlying architecture and user-level interface) we can “have our
cake and eat it too”.
I will present many examples from very large corpora that we have created at
BYU, which are (in many cases) 10-100 times as large as comparable corpora.
But these corpora also allow users to look at language variation and change in
ways that are not possible with corpora only allow simplistic searches of easily-
obtainable “blobs” of data from online newspapers and web pages.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Un sistema informático para el manejo de corpus lingüísticos y su
aplicación para CORDIAM, el Corpus diacrónico y diatópico del español
de América
Alexander Gelbukh
Jefe del Laboratorio de Procesamiento del Lenguaje Natural, Centro de
Investigación en Computación, Instituto Politécnico Nacional, México
En esta charla se presenta el sistema informático para el manejo de un corpus
lingüístico desarrollado para el Corpus diacrónico y diatópico del español de
América (CORDIAM) y potencialmente aplicable a otros corpus con propósitos
similares. El buscador es orientado a los usuarios lingüistas, facilitándoles
búsquedas de ejemplos y el análisis de los resultados. El diseño del sistema
refleja la experiencia de cinco años de su uso por los lingüistas. Como resultado
de colaboración de 28 grupos de 11 países, el corpus CORDIAM actualmente
contiene más de cinco mil textos con más de 4 millones de palabras,
clasificados en documentos, prensa y literatura. Es abierto a todo público
interesado en la dirección www.CORDIAM.org.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
With a little help from NLP: My Language Technology applications with
impact on society
Ruslan Mitkov
University of Wolverhampton
The talk will present three original methodologies developed by the speaker,
underpinning implemented Language Technology tools which are already
having an impact on the following areas of society: e-learning, translation and
interpreting and care for people with language disabilities.
The first part of the presentation will introduce an original methodology and
tool for generating multiple-choice tests from electronic textbooks. The
application draws on a variety of Natural Language Processing (NLP)
techniques which include term extraction, semantic computing and sentence
transformation. The presentation will include an evaluation of the tool which
demonstrates that generation of multiple-choice tests items with the help of this
tool is almost four times faster than manual construction and the quality of the
test items is not compromised. This application benefits e-learning users (both
teachers and students) and is an example of how NLP can have a positive
societal impact, in which the speaker passionately believes.
The talk will go on to outline two other original recent projects which are also
related to the application of NLP beyond academia. First, a project, whose
objective is to develop next-generation translation memory tools for translators
and, in the near future, for interpreters, will be briefly presented. Finally, an
original methodology and system will be outlined which helps users with
autism to read and better understand texts.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
PARTE II:
PONENCIAS
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Análisis de movidas retóricas de resúmenes de artículos de investigación en
cuatro revistas colombianas
Nubia Lucía Muñetón* e Irina Kostina**
*Estudiante de Maestría en Estudios Interlingüísticos e Interculturales,
Universidad del Valle
**PhD en Lingüística Aplicada, profesora de la Escuela de Ciencias del
Lenguaje, Universidad del Valle Sección: Lingüística Aplicada
Resumen
El resumen es una de las partes importantes de un artículo de investigación
debido a que representa el contenido de todo el texto de manera condensada.
Igualmente, debe reflejar los cinco aspectos de un estudio, tales como:
introducción, objetivo, metodología y resultados/conclusiones, así llamadas
movidas retóricas (Swales, 2009). Sin embargo, muchos resúmenes no las
tienen, lo que afecta la cohesión del texto. Además, usualmente deben ser
escritos en español e inglés. Los estudios revisados muestran que la traducción
de resúmenes no siempre cumple los parámetros de precisión, aceptabilidad y
legibilidad. Esta comunicación tiene por objetivo presentar los resultados
preliminares del análisis de las movidas retóricas de resúmenes en español y su
correspondencia en inglés para confirmar si cumplen con la estructura del
modelo del resumen. Es un estudio descriptivo, basado en producto que sigue
un enfoque mixto, cuantitativo y cualitativo. El corpus paralelo fue elaborado
con 103 resúmenes, recopilados de cuatro revistas especializadas colombianas y
alineados en español e inglés con ayuda de la herramienta virtual You Align. Se
realizó el análisis textual-pragmático comparativo de resúmenes para observar,
por un lado, si estos cumplen con las normas internacionales propuestas por
cada revista y, por el otro lado, verificar si las movidas retóricas de resúmenes
en español coinciden con las de inglés. Se encontró que no todos los resúmenes
siguen las normas internacionales, como tampoco cumplen con las normas
exigidas por el comité editorial de cada revista; también se pudo evidenciar que
las inconsistencias identificadas modifican la información que el autor pretende
comunicar en el artículo de investigación. Estos hallazgos revelan la necesidad
de crear propuestas de metodologías on line orientadas a la capacitación de los
investigadores y/o profesionales que publican trabajos científicos en las revistas
especializadas.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Palabras clave: movidas retóricas, resúmenes de artículos de investigación,
calidad de traducción, corpus paralelo
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Analogía entre el metabolismo y el lenguaje natural
Carlos Manuel Estévez-Bretón Riveros
* Ph.D.(c) Universidad Nacional de Colombia
Luis Fernando Niño** V Liliana López***
** Ph.D. Facultad de Ingeniería, Universidad Nacional de Colombia
*** Ph.D. Facultad de Ciencias, Universidad Nacional de Colombia
Sección: Procesamiento de Lenguaje Natural
Resumen
El metabolismo es el conjunto de reacciones bioquímicas que ocurren en un
organismo vivo y le proveen de energía para sus procesos vitales y para
sintetizar nuevo material orgánico; este ha sido estudiado tradicionalmente por
la bioquímica y su principal forma de representarlo para tales fines son los
grafos y las redes.
Este trabajo plantea la posibilidad de estudiar el metabolismo desde una
representación diferente que permita explorar aspectos funcionales del mismo
al despojarse de la representación topológica. Se planteó una analogía
lingüística [1], [4] entre el dominio de la bioquímica y el de la lingüística con el
fin de poder tratar al metabolismo como un texto y aplicar métodos del área de
la inteligencia artificial.
Particularmente, se aplicó “Latent Dirichlet Allocation, LDA” [2], [3], un
método de análisis semántico latente, para encontrar “temas latentes” dentro del
domino bioquímico.
Como resultado de este trabajo se logró el planteamiento de una analogía
lingüística entre los dominios mencionados, temas latentes con significado
biológico, distribución de metabolitos similar a un lenguaje natural.
Palabras Clave: LDA; Analogía Lingüística, Metabolismo, Semántica Latente,
Bioquímica
Referencias
[1] Victorri, Bernard. 2007. “Analogy between Language and Biology: A
Functional Approach.” Cognitive Processing 8: 11–19. doi:10.1007/s10339-
006-0156-5.
[2] Blei, David M, Andrew Y Ng, and Michael I Jordan. 2003. “Latent
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Dirichlet Allocation.” Journal of Machine Learning Research 3: 993–1022.
[3] Yao, Limin, David Mimno, and Andrew McCallum. 2009. “Efficient
Methods for Topic Model Inference on Streaming Document Collections.” In
Proceedings of the 15th ACM SIGKDD International Conference on
Knowledge Discovery and Data Mining - KDD ’09, 937. New York, New
York, USA: ACM Press.
[4] Sereno, M I. 1991. “Four Analogies between Biological and
Cultural/linguistic Evolution.” Journal of Theoretical Biology 151: 467–507.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Banco de Herramientas TNT: una plataforma para el procesamiento de
corpus y otras herramientas
Gabriel Quiroz*, Antonio Tamayo*, Diego Burgos**, Felipe Zuluaga*,
Pedro Patiño*, Alejandro Arroyave* y Gustavo Zapata*
*Universidad de Antioquia
**Universidad Wake Forest
El CorpusTNT es el primer corpus multilingüe colombiano y latinoamericano
para textos especializados creado para realizar investigación en LSP,
principalmente. El proyecto está diseñado para crear una infraestructura que
permita compilar textos de diversos campos para investigar las características
de los LSP en español, inglés y francés, principalmente. La plataforma del
Banco de Herramientas TNT se compone de las siguientes herramientas: BC-
Term, CorpusTNT, TNTagger, TNTvalidate y TNTDico (fuente de
diccionarios). Se presentará el diseño y puesta en funcionamiento de estas
herramientas así como los recursos textuales y sus características. La mayoría
de estas herramientas son de uso libre para la comunidad académica.
Palabras clave: corpus, etiquetador, validador, diccionario, lingüística de
corpus, herramientas.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Base de datos CORHA: Corpus de Habla Atípica.
Maryluz Camargo Mendoza*
*Universidad Nacional de Colombia
Sección: Lingüística de corpus
Resumen
Este trabajo tiene como objetivo presentar la base de datos denominada
“CORHA” que contiene datos en audio de hablantes nativos del español con
diferentes enfermedades de origen neurológico que afectan el habla, entre ellas
Esclerosis Lateral Amiotrófica, enfermedad de Parkinson, enfermedad de
Huntington, Miastenia Gravis y Parálisis Bulbar. Los datos se tomaron
siguiendo protocolos que garantizaron su calidad técnica a través del uso de
grabadoras de audio y micrófonos profesionales. La base de datos cuenta con
información de dos tipos, una con tareas de fonación sostenida, lectura de
textos, habla espontánea y diadococinesis; y otra con tareas experimentales de
lectura de palabras y pseudopalabras. De la primera se cuenta con datos de 18
participantes, 7 mujeres y 11 hombres; y de la segunda con datos de 17
participantes, 7 mujeres y 10 hombres y sus respectivos controles pareados por
edad y género, para un total de 52 muestras, 35 de habla atípica y 17 de habla
típica. Esta base de datos, la primera en Colombia en contener datos de
personas con diferentes condiciones neurológicas, se convierte en un recurso de
interés para lingüistas, ingenieros, neurólogos, fonoaudiólogos, entre otros, con
el cual se pueden emprender estudios que describan las características acústicas
del habla atípica del español colombiano, se lleven a cabo experimientos para
detectar marcadores acústicos de la progresión de las enfermedades y se
generen estrategias terapéuticas que promuevan la comunicación en las
personas con desórdenes del habla de origen neurológico.
Palabras clave: corpus, desórdenes neurológicos, habla atípica, base de datos.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Conectores reformulativos en textos académicos de estudiantes
universitarios: análisis en un corpus simple
Róbinson Grajales Alzate* y Lirian Astrid Ciro*
*Universidad del Valle
Sección: Lingüística aplicada
Resumen
En esta ponencia se presenta una caracterización y descripción de algunos tipos
de conectores reformulativos en textos argumentativos de estudiantes de la
Licenciatura en Lenguas Extranjeras de la Universidad del Valle. Nos
centraremos en la reformulación como un mecanismo que permite la
construcción de un marco de referencia a partir del cual el escritor puede situar
determinada idea y hacerla más clara y precisa ante sus posibles lectores. Para
el análisis, partimos de 66 textos argumentativos, redactados por igual número
de estudiantes. Estos textos han sido compilados y analizados con el programa
TLCorpus, con el cual hemos construido un corpus simple. Además, se
compararon los resultados con un corpus de contraste conformado por textos
argumentativos de escritores expertos, con el fin de observar las estrategias que
emplean los dos grupos en la reformulación. Al respecto, uno de los principales
hallazgos es que los escritores expertos emplean más variedad de recursos e
introducen menos paráfrasis que los escritores novatos. Consideramos que un
estudio de este tipo es pertinente, por cuanto analizar los conectores
reformulativos que emplean los estudiantes universitarios en sus textos revela
los mecanismos que estos utilizan para afianzar el conocimiento académico.
Finalmente, consideramos que los corpus textuales son de gran utilidad en la
enseñanza de la escritura, puesto que permiten, por ejemplo, análisis de errores
y caracterización del léxico empleado por los estudiantes.
Palabras clave: escritura académica, conectores reformulativos, corpus simple,
reformulación.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Corpus lingüístico del español de la Antioquia histórica a través de
documentación de archivo
Liliana Estefanía Ospina Giraldo*
Laura María Correa Lopera*
*Estudiante de pregrado en Letras: Filología hispánica
Semillero Español Histórico de Antioquia
Universidad de Antioquia
Sección: Lingüística de corpus
Esta ponencia mostrará el trabajo del Semillero Español Histórico de Antioquia
como una iniciativa estudiantil de investigación de la Universidad de Antioquia,
facultad de comunicaciones, que busca responder a la pregunta ¿Cómo se
hablaba el español antes del siglo XX en la Antioquia histórica? Para esto, se
basa en la metodología de la Red internacional CHARTA "CORPUS
HISPÁNICO Y AMERICANO EN LA RED" y adscritos a dicha Red trabaja
documentos de archivo en triple presentación, facsimilar, paleográfica y critica
con miras al estudio lingüístico especialmente desde el punto de vista
diacrónico. Actualmente se adelanta un estudio sobre la abreviación en el
subcorpus SEHA-A que contiene archivos notariales principalmente del
Archivo Histórico de Medellín que datan entre 1750-1816.
Palabras claves: corpus de ediciones, estudio diacrónico del español,
paleografía-edición crítica y análisis lingüístico
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Corpus multimodal para el análisis de técnicas de interpretación de
segmentos textuales con sentido figurado de español a la Lengua de Señas
Colombiana
Lorenzo López Gómez* e Isabel Cristina Tenorio*
*Estudiante de la Maestría en Estudios Interlingüísticos e Interculturales de la
Universidad del Valle
Sección: Lingüística de Corpus
Resumen
La interpretación de una lengua oral a una lengua de señas resulta tan compleja
como lo es la interpretación entre las lenguas orales. Para este caso, esta sería
una interpretación bimodal. Es importante que sea caracterizada como campo
específico dentro de los estudios de traducción (Barreto, 2010). El objetivo de
esta comunicación es describir el procedimiento de construcción de un corpus
multimodal que sirvió de base para el análisis de técnicas de interpretación de
segmentos textuales con sentido figurado y presentar los primeros hallazgos
que afectan la alineación de los segmentos en ambas lenguas. Para el diseño de
corpus paralelo se usaron los datos recogidos mediante grabaciones de las
clases de Tecnología en un colegio público de la ciudad de Cali. Por un lado, se
identificaron las expresiones con sentido figurado producidas en el discurso
oral del profesor del curso. Por otro lado, se identificó la correspondencia de
expresiones con sentido figurado en la lengua de señas colombiana señada por
una intérprete profesional. Para cortar y codificar los segmentos del discurso
oral en español y en lengua de señas se usó el programa Windows Movie
Maker. Se encontró que no todos los segmentos con sentido figurado en español
oral corresponden en tiempo real con la interpretación en lengua de señas,
aunque se trate de una interpretación simultánea. Al parecer este desfase se
presenta debido al uso de estrategia de interpretación, llamada decalage o
técnicas de interpretación como ampliación, reducción y elisión.
Palabras clave: Interpretación LSC, decalage, multimodal.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Creación automática de un Corpus Farmacéutico a partir de Datos
Abiertos
Cristian Bravo M.*, Sebastián Otálora L.* y Sonia Ordoñez **
*Estudiante de pregrado Universidad Distrital F.J.C, miembro del Grupo
GESDATOS
**Docente Universidad Distrital F.J.C; directora del Grupo de Investigación
GESDATOS
Sección: Lingüística de corpus
Resumen
A través de la web se publica una gran cantidad de información relacionada con
la industria farmacéutica, pero son pocas las herramientas que permiten realizar
análisis de forma automática. El área de la farmacéutica a nivel internacional y
en especial para el inglés, cuenta con una gran cantidad de herramientas léxicas
virtuales, como el DDI (Herrero-Zazo, Segura-Bedmar, Martínez, & Declerck,
2013), ADE (Gurulingappa et al., 2012), EU-ADR (van Mulligen et al., 2012),
entre otras, que soportan no solo la investigación sino el desarrollo de software,
mientras que, para el español son pocas y menos para las particularidades de un
país como Colombia.
Este trabajo presenta la generación de un corpus farmacéutico utilizando
los datos abiertos de medicamentos colombianos publicados mensualmente por
el Instituto Nacional de Vigilancia de Medicamentos y Alimentos de Colombia
(INVIMA). Se propone el desarrollo de un modelo que combina los conceptos
de corpus y ontología y se estructura, a través de un grafo multi-relacionado.
Dicho modelo se implementa en una base de datos orientada a grafos, pues
estás han demostrado gestionar este tipo estructuras y dado que están basadas
en una teoría matemática, permiten encontrar patrones y relaciones que de otra
forma no sería posible. Para la creación del corpus, se desarrolló un Crawler
con el objeto de descargar y controlar los documentos y a través de
procesamiento de texto y la algoritmia apropiada se almacenan en la base de
datos orientada a grafos (Neo4j).
Palabras clave: Corpus farmacéutico, datos abiertos Colombia, Crawler,
Procesamiento lenguaje natural, Neo4j
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Referencias
Gurulingappa, H., Rajput, A. M., Roberts, A., Fluck, J., Hofmann-Apitius, M.,
& Toldo, L. (2012). Development of a benchmark corpus to support the
automatic extraction of drug-related adverse effects from medical case
reports. Journal of Biomedical Informatics, 45(5), 885–892.
http://doi.org/10.1016/j.jbi.2012.04.008
Herrero-Zazo, M., Segura-Bedmar, I., Martínez, P., & Declerck, T. (2013). The
DDI corpus: An annotated corpus with pharmacological substances and
drug-drug interactions. Journal of Biomedical Informatics, 46(5), 914–
920. http://doi.org/10.1016/j.jbi.2013.07.011
van Mulligen, E. M., Fourrier-Reglat, A., Gurwitz, D., Molokhia, M., Nieto, A.,
Trifiro, G., … Furlong, L. I. (2012). The EU-ADR corpus: Annotated
drugs, diseases, targets, and their relationships. Journal of Biomedical
Informatics, 45(5), 879–884. http://doi.org/10.1016/j.jbi.2012.04.004
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Desarrollo y validación de Colombian Beliefs about Language Teaching
and Learning Inventory (COBALTALI)
José Marín Juanías*
*Docente Ocasional Universidad Nacional de Colombia y Universidad
Pedagógica Nacional
Sección: Lingüística aplicada
Resumen
El objetivo de este estudio, que hace parte de una tesis doctoral1, fue desarrollar
y validar un instrumento (COBALTALI) para examinar, de manera sistemática,
las creencias que estudiantes universitarios colombianos tienen acerca de la
enseñanza y el aprendizaje del inglés. Para este propósito se examinaron las
características psicométricas del COBALTALI en términos de validez de
constructo y de contenido y de confiabilidad en los aspectos de consistencia
interna y estabilidad. El diseño de la investigaciónse describe bajo dos
perspectivas: en cuanto a los tipos de datos se recurrió a métodos mixtos
(interrelacionando datos cualitativos y cuantitativos); en cuanto a los
procedimientos de análisis de datos, este estudio se basó en marcos estadísticos
e interpretativos, en los que análisis factoriales exploratorios y confirmatorios
jugaron un papel preponderante. Los resultados evidenciaron que el
COBALTALI es un instrumento multidimensional, constituido por 57 ítems o
creencias acerca de la enseñanza y aprendizaje del inglés, que presenta
propiedades adecuadas de validez de contenido y de constructo al igual que
estimaciones moderadas de confiabilidad de tipo consistencia interna y
estabilidad. En general, este estudio se configura como una contribución
importante frente a la ausencia de instrumentos de investigación validados para
estudiar las creencias de aprendizaje de idiomas en Colombia. Se espera que la
existencia del COBALTALI coadyuve a emprender futuras investigaciones en
otros escenarios educativos.
Palabras clave: COBALTALI, validación, confiabilidad, creencia, dimensión.
1 Marin, J. (2017). Colombian Students’ Beliefs about Language Teaching and Learning Inventory
(COBALTALI): Development, Validation and Results (tesis doctoral). Universidad Autónoma de
Madrid, Madrid, España.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Desarrollo de una herramienta de evaluación de estándares de calidad
pedagógica de recursos de aprendizaje de lenguas asistido por la World
Wide Web
Rafael Seiz Ortiz*
*Profesor titular de la Universitat Politècnica de València, España (Escuela
Técnica Superior de Ingeniería del Diseño, Departamento de Lingüística
Aplicada)
Sección: Lingüística Aplicada
Resumen
Actualmente, la World Wide Web es un entorno ampliamente utilizado para
complementar el aprendizaje de lenguas. Cada día surgen recursos educativos
nuevos, aunque no todos tienen en cuenta sólidos criterios de calidad
pedagógica. Por ello, al utilizar esos recursos en el proceso de enseñanza-
aprendizaje de lenguas, es conveniente realizar un análisis y evaluación
exhaustiva de los mismos desde un punto de vista pedagógico. Sin embargo, no
existen herramientas de evaluación de este tipo de recursos que recojan de una
manera exhaustiva los parámetros o estándares de calidad pedagógica que la
investigación especializada ha establecido a lo largo de años en diversos
campos, como el Aprendizaje de Lenguas Asistido por Ordenador, la Didáctica,
la Psicología Educativa o la Adquisición de Segundas Lenguas, entre otros. El
objetivo de esta investigación es proponer, tras una revisión de la bibliografía
relevante, una herramienta de análisis de recursos de aprendizaje de lenguas
basados en la Web consistente en una plantilla que recoge una serie de
estándares de calidad pedagógica y que puede utilizarse tanto para la evaluación
como para el diseño y desarrollo de dichos recursos educativos. En primer
lugar, se presenta el proceso seguido para la creación de la herramienta, así
como su justificación y posibilidades de aplicación práctica. Seguidamente, se
describe de forma resumida la herramienta, junto con sus características y
algunos de sus parámetros principales. A continuación, se lleva a cabo una
breve puesta en práctica de la herramienta con el análisis de unos pocos
recursos, a modo de ejemplo de su implementación. Finalmente, se resumen las
debilidades y fortalezas de la herramienta propuesta, así como posibles áreas de
investigación en el futuro con el objetivo de mejorar la misma.
Palabras clave: Evaluación pedagógica, World Wide Web, Aprendizaje de
Lenguas.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Elaboración de diccionarios especializados a través de MediaWiki: el caso
del Diccionario Académico de la Medicina (DIACME), desde sus ediciones
impresas hasta el formato electrónico
Julio Alexander Bernal Chávez* Wilmar Gentil López Barrios** *Investigador Instituto Caro y Cuervo
**Estudiante de Doctorado en lingüística, Universidad Massachusetts Amherst
Sección: Lingüística aplicada
Resumen
Los diccionarios impresos continúan migrando sus contenidos al formato
electrónico ya que este les permite almacenar una mayor cantidad de datos y
manejarlos con más facilidad, rapidez y eficiencia. La ponencia presentada
describe la evolución de las estructuras lexicográficas del Diccionario
Académico de la Medicina (DIACME) en su transición desde el formato
impreso al electrónico. Se presenta el software MediaWiki como una
herramienta potencial en la elaboración de diccionarios electrónicos
especializados, gracias a que permite organizar y jerarquizar la información de
una base de datos léxicos. En paralelo, se comparan la macroestructura,
microestructura, medioestructura, estructura de acceso y el marco estructural de
las ediciones impresas con la estructura que ofrece la MediaWiki a los
diccionarios especializados. Este trabajo descriptivo-comparativo resalta las
fortalezas de la MediaWiki y la presenta como una herramienta eficaz y de fácil
acceso para los lexicógrafos especializados; en esa medida, es una herramienta
que optimiza la actividad lexicográfica e incentiva la compilación de
diccionarios especializados con formato electrónico.
Referencias
Abel, A. (2012). Dictionary Writing Systems and Beyond. In Electronic
Lexicography (pp. 83–106). Oxford: Oxford University Press.
Almind, R. (2005). Designing Internet Dictionaries. Hermes, 34, 37–54.
Granger, S., & Paquot, M. (2012). Electronic Lexicography. Oxford: Oxford
University Press.
Hanks, P. (2012). Corpus evidence and electronic lexicography. In Electronic
Lexicography (pp. 57–82). Oxford: Oxford University Press.
Kunze, C., & Lemnitzer, L. (2007). Computer- lexikographie. Tübingen:
Gunter Narr Verlag.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
El comportamiento sintáctico y semántico del término ‘ideología de género’
en artículos de 2 periódicos, uno nacional y otro local
Amparo Inés Huertas Sánchez*
*Profesora Universidad del Valle. Escuela de Ciencias del Lenguaje.
Sección: Lingüística Aplicada
Resumen
El objetivo de esta comunicación es presentar los resultados del estudio
contrastivo del comportamiento sintáctico y semántico del término “ideología
de género” en un corpus comparable constituido por artículos de El Espectador
de Bogotá y El País de Cali, en los meses de julio y agosto de 2016. El estudio
se basó en los postulados de la Teoría Comunicativa de Terminología (Cabré,
1999) y la Terminología Basada en Marcos (Faber y otros, 2012). Se partió de
los presupuestos (1) el término ‘género’ representa un concepto poliédrico
basado en un evento multidimensional, (2) al combinarse con otras palabras,
conforma unidades terminológicas que representan el evento complejo de
género y (3) la metodología basada en corpus permite explicitar el
comportamiento potencial, tanto semántico como sintáctico, de las unidades
especializadas, lo que implica la descripción exhaustiva de las relaciones
conceptuales así como de su potencial combinatorio. Los textos de corpus se
seleccionaron a partir de las palabras clave: ideología de género,comunidad
LGBTIy cartillas. La extracción de la información se hizo con la ayuda de
herramientas informáticas. Se identificaron las diferentes colocaciones del
término ‘ideología de género’ y sus frecuencias en ambos periódicos, se
determinaron los significados derivados de posiciones sintácticas del término en
contexto y se establecieron las relaciones conceptuales entre las unidades
terminológicas del marco semánticode género. El análisis combinó los enfoques
cualitativo y cuantitativo para describir la información obtenida. Los resultados
permiten establecer las similitudes y diferencias en la representación conceptual
de ideología de género en dos periódicos reconocidos con orientaciones
políticas diferentes, en el ámbito de la educación.
Palabras clave: ideología de género, comunidad LGTBI, cartillas.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Extracción semiautomática de relaciones semánticas en la combinación
verbo y preposición en la lengua castellana
Jason E. Angel* Carlos Mario Zapata** y Gerardo Urrego Giraldo*
*Universidad de Antioquia
**Universidad Nacional
Sección: Lingüística de corpus
Resumen
La naturaleza semántica de los verbos y las preposiciones, se suele emplear en
el análisis y comprensión del discurso. Algunos autores evidencian la existencia
de relaciones semánticas que influyen en la interpretación del texto y que
surgen al combinar el uso del verbo y la preposición en determinados contextos.
Sin embargo, en la lengua castellana, no se han obtenido resultados
concluyentes para muchos verbos puesto que las relaciones semánticas son
descritas manualmente y en muy pocos contextos. En este artículo se propone
un modelo computacional basado en reglas, que permite la identificación de
relaciones semánticas entre el verbo y la preposición. Este modelo se usa en la
interpretación del texto por computador y se ejemplifica con un corpus de
prensa colombiana.
Palabras clave: lingüística computacional, procesamiento del lenguaje natural,
semántica del verbo, semántica de la proposición, lingüística de corpus, prensa
colombiana.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Hacia la anotación y etiquetado de un corpus sociolingüístico: Preseea-
Medellín
Jorge Mauricio Molina Mejía*/**, María Claudia González Rátiva*, José
Luis Pemberty Tamayo*, Andrés Felipe Grajales Ramírez* y Alejandra
Bermúdez Cardona* *Corpus Ex Machina – Grupo de Estudios Sociolingüísticos, Universidad de
Antioquia **Laboratoire LIDILEM, Université Grenoble Alpes
Sección: Lingüística de Corpus
Resumen
Nuestro proyecto se encuentra enmarcado en uno de mayor envergadura:
Preseea-Medellín; el cual ha producido un corpus de entrevistas orales y sus
respectivas transcripciones. Todos estos textos están organizados con criterios
sociolingüísticos, por lo que cuentan, además de su contenido, con una cantidad
de metadatos.
Partiendo de esto, nuestra labor consiste en tomar la versión escrita de ese
corpus y, por medio de herramientas computacionales, enriquecer la
información que consta en los textos con un etiquetado de carácter
morfosintáctico. El resultado será un corpus completamente codificado en
lenguaje XML, que, en una versión posterior del proyecto, se utilizará para la
elaboración de una herramienta que permita múltiples opciones de búsqueda,
explotación y trabajo con el corpus.
Nuestro propósito es, por lo tanto, explicar el acercamiento que hemos tenido al
trabajo con el corpus; experiencia dentro de la cual se han desarrollado temas
como: el carácter sociolingüístico de los textos y la eficiencia de las
herramientas para procesarlos.
En el primer tema, por ejemplo, surgen interrogantes como la pertinencia de
una normalización ortográfica de las transcripciones, atribuyéndoles una
cercanía a las grabaciones originales que depende más de un punto de vista
morfosintáctico que fonético; también ha sido un elemento destacable el
reconocimiento y el manejo de las unidades léxicas propias de la variedad de
español hablada en Medellín, entre otros.
Por otro lado, en cuanto a las herramientas informáticas hemos visto que;
precisamente por el esfuerzo que se dirige a la preservación de la integridad del
corpus, en cuanto a la variedad de la lengua que representa; se plantean
Primer Congreso Internacional de Lingüística Computacional y de Corpus
dificultades a la hora de procesar los textos con herramientas convencionales,
haciendo del proyecto un trabajo que permite un acercamiento más personal a la
información y, en definitiva, una oportunidad destacable para quienes nos
formamos como investigadores en la lingüística de corpus por medio de la
lingüística computacional.
Palabras clave: lingüística de corpus, corpus sociolingüístico, lingüística
computacional, XML, etiquetado morfosintáctico.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Hacía la construcción de una plataforma para corpus de diferentes fuentes
y registros
Julio Alexander Bernal Chávez,* Ruth Yanira Rubio López,* Lyda
Pineda,** y Andres Luna**
*Investigador(a) del Instituto Caro y Cuervo
**Ingenieros del Equipo de Sistemas del Instituto Caro y Cuervo, Ofician Tics.
Sección: Lingüística de corpus
Resumen
A lo largo de varias décadas de investigación, el Instituto Caro y Cuervo (ICC)
ha recopilado un acervo de datos sobre las lenguas de Colombia. Estos
materiales fueron almacenados en varios formatos y organizados de acuerdo
con diversos criterios y metodologías, por lo cual en muchos casos el acceso,
uso y salvaguarda de estos archivos es una tarea compleja. El proyecto tiene por
objetivo el desarrollo de un Sistema Gestor de Contenidos (SGC) para los
corpus del ICC. Para lograr este objetivo se deben tener en cuenta dos campos
de tratamiento: por un lado, la parte técnica relacionada con el desarrollo del
SGC; y, por otro lado, la parte de planteamiento metodológico que se vincula
con el diseño de protocolos y estrategias para que la información que se
encuentra en diversos formatos y metodologías tenga las características de un
corpus y pueda ser ingresada a la plataforma. La presente ponencia busca
presentar los avances del proceso de construcción del SGC, los requerimientos,
arquitectura y pasos para el desarrollo.
Palabras clave: plataforma, lingüística de corpus, base de datos, arquitectura.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Hacia la constitución de un dispositivo informático basado en corpus para
la enseñanza del español como lengua extranjera
Jorge Mauricio Molina*/ **, Mathieu Loisea**, Daniel Arango Rivera*,
Juan Esteban Barrera*, José Luis Pemberty* y Andrés Felipe Grajales* *Corpus Ex Machina – Grupo de Estudios Sociolingüísticos, Universidad de
Antioquia **Laboratoire LIDILEM, Université Grenoble Alpes
Sección: Lingüística aplicada
Resumen
Presentamos en esta comunicación DICEELE (Dispositivo Informático basado
en Corpus para la Enseñanza del Español como Lengua Extranjera), un
proyecto de investigación que se encuentra en la confluencia de varias
disciplinas: el Aprendizaje de Lenguas Asistido por Ordenador (ALAO), el
Procesamiento del Lenguaje Natural (PLN), la didáctica de lenguas extranjeras
y la Lingüística Textual. Este proyecto, fruto de un trabajo conjunto entre el
grupo Corpus Ex Machina (Universidad de Antioquia) y el laboratorio
LIDILEM (Université Grenoble Alpes), nace de la necesidad de proveer a los
aprendientes de español como lengua extranjera y a sus docentes de un
dispositivo informático didácticamente adaptado frente a sus necesidades.
Nuestro dispositivo de ingeniería pedagógica debería permitir un acercamiento
hacia el aprendizaje del español bajo una óptica diferente, que viene dada por el
enfoque de la lingüística textual. Es por ello que nuestro sistema se fundamenta
en un corpus de textos auténticos que serán anotados y etiquetados gracias a
herramientas para el PLN siguiendo las nociones planteadas por dicho enfoque
teórico; además, dicho sistema posee recursos y actividades pedagógicas que
pueden ser fácilmente utilizadas tanto por los profesores de ELE como por sus
aprendientes.
El corpus consta de 120 textos distribuidos según los niveles designados por el
MCER (Marco Común Europeo de Referencia) y posee las siguientes
características:
40 textos por nivel (B1, B2, C1).
Textos anotados y etiquetados morfosintácticamente (automático PLN).
Nociones lingüísticas anotadas manualmente (lenguaje XML).
Primer Congreso Internacional de Lingüística Computacional y de Corpus
DTD que contiene la gramática del corpus.
Finalmente, proponemos DICEELE como una herramienta para la enseñanza y
el aprendizaje del español destinada a aprendientes tanto extranjeros como
nacionales, cuya lengua materna tampoco es el español (comunidades indígenas
en Colombia), así como a sus docentes. La idea es la de ofrecerles a ambos
públicos una herramienta que, además de servir en los cursos presenciales,
pueda ser utilizada en autonomía guiada. Para ello, el sistema permite la
creación de secuencias didácticas de aprendizaje que utilizan el corpus antes
señalado.
Palabras clave: Aprendizaje de Lenguas Asistido por Ordenador, Lingüística
Computacional, Lingüística de Corpus, Lingüística Textual.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Integración de corpus y ontología a partir de los datos abiertos
relacionados con el conflicto armado colombiano
Angye Katherine Malagón *, Juan Manuel Pérez * y Sonia Ordoñez **
*Estudiante Universidad Distrital F.J.C ingeniería de sistemas, miembro grupo
GESDATOS.
**Docente Universidad Distrital F.J.C, director grupo investigación
GESDATOS
Sección: Lingüística de corpus
Resumen
A partir de los datos abiertos sobre la violencia en Colombia, publicados en el
sitio web del Centro Nacional de Memoria Histórica de Colombia , se creó un
corpus estructurado a través de un grafo dirigido, que consigna la información
relacionada con atentados, masacres, secuestros, minas, daño a bienes civiles,
civiles muertos en acciones bélicas, asesinatos selectivos y ataques a
poblaciones durante el periodo de 1970 al 2012 (Centro de Memoria Histórica,
2012), con el fin de realizar correlación de hechos. Para el diseño del corpus se
utilizaron conceptos propios de las ontologías con el fin de conseguir la mejor
representación de los términos relacionados con los sucesos del conflicto
armado colombiano. Una vez de definió el modelo que mejor representaba los
datos, se utilizaron técnicas propias de procesamiento de lenguaje natural para
extraer la información relevante de la recopilación de información,
posteriormente se almacenó en una base de datos orientada a grafos. La base de
datos permite gestionar grandes volúmenes de información y encontrar a través
de consultas, relaciones que son inmediatas como aquellas que no son obvias y
que puedan apoyar el proceso de construcción de memoria, necesario en el
proceso de paz que vive actualmente en el país.
Palabras clave: Construcción de memoria, corpus, ontología, base de datos
orientada a grafos, datos abiertos
Referencias
Centro de Memoria Histórica. (2012). Bases de datos ¡Basta ya! Retrieved from
http://www.centrodememoriahistorica.gov.co/micrositios/informeGeneral/bases
Datos.html
Historica, C. nacional de memoria. (2013). Basta ya. Journal of Chemical
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Information and Modeling (Vol. 53).
http://doi.org/10.1017/CBO9781107415324.004
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Intention Detection in Question-Answering Systems in the Specific Domain
of E-government
Adan Beltrán* y Sonia Ordoñez**
*Universidad Manuela Beltrán
**Universidad Distrital Francisco José de Caldas
Sección: Procesamiento de lenguaje natural
Abstract
One of the tasks in a Question-Answering systems (QAS) for electronic
government, consists in assigning or classifying the question to a predetermined
class and it represents the semantic category associated to the intention of the
question. This task is know as, Expected Answer Type (EAT) and the set of
classes is defined as taxonomy. Many taxonomies have been proposed, but
most not adjusts for QAS in the domain of electronic government, because in
the process of interaction of the citizens with applications (QAS for electronic
government), citizens seeking government-related issues. This paper, we
propose: a) to create a taxonomy, using detecting intentionality of the questions
through unsupervised methods; b) develop a software component that includes
the algorithm with better results in the previous point and c) Include this
component in the QAS for electronic government.
On the other hand, detection of intentionality is an issue that has been widely
explored for search engines, but for SQA there are few existing studies.
Application of unsupervised techniques (K-Means ++ and Unsupervised
Random Forest) is presented to automatically identify the different groups to
form categories of intentionality in each of the domains of government, as an
upgrade to QAS, initially developed for the Government domain in the
Colombian State in whose construction classification methods were used to find
the intention of the user and training corpus marked by experts. The application
of unsupervised techniques will allow easy extension to all domains of the
State, avoiding or minimizing the need of expert domain support for manual
construction of training corpus for the system. We found that the K-Means ++
(MI = 66%) responded better than the Unsupervised Random Forest (MI =
56%) method in the task of clustering.
Keywords: K-Means++, Unsupervised random forest, Intention detection,
Automatic detection of intentions, Intention detection in QAS, Expected
Answer Type (EAT)
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Lingüística computacional y modelación semántica en el derecho
informático en Colombia
Juan Fernando Rojas Moreno* Julio Barón Velandia** Jorge Mario
Calvo**
*Estudiante Maestría Ciencias de la Información y las Comunicaciones,
Universidad Distrital Francisco José de Caldas
** Profesor Facultad de Ingeniería Universidad Distrital Francisco José de
Caldas
Sección: lingüística computacional
Resumen
Parte de la deficiencia que presentan las instituciones encargadas de impartir
justicia en Colombia, se debe al acelerado crecimiento de procesos judiciales, a
la dispersión física de los documentos y la gestión manual de los mismos. Las
tecnologías de apoyo informático con el que actualmente cuentan algunas
dependencias capturan en un bajo porcentaje el modelo semántico del dominio
jurídico. A nivel de representación de la información, el paso de un modelo
conceptual a una representación computacional en los actuales motores de bases
de datos relacionales, hace énfasis en la integridad de los datos, la indexación y
velocidad de acceso a registros, acosta de la perdida de semántica, haciendo que
las consultas contengan una gran cantidad de registros con un bajo grado de
pertinencia para el usuario experto en el ámbito jurídico.
Ésta propuesta presenta los elementos semánticos principales que conforman un
modelo que permite mejorar la pertinencia de los datos que se pueden obtener
como resultado de la búsqueda de información o acceso a la misma. Se
fundamenta en la capacidad de reutilizar representaciones conceptuales de
ontologías jurídicas generales y de dominio para ser incorporadas en la
especificación del modelo semántico del derecho informático en Colombia, con
el fin de establecer de manera dinámica y confiable inferencias sobre la
información legal que facilite la obtención de los recursos con alto grado de
pertinencia según las necesidades y perfiles de los actores involucrados.
Referencias
Ali, A. & Khan, M. A. (2010, October). Knowledge representation of Urdu text
Primer Congreso Internacional de Lingüística Computacional y de Corpus
using predicate logic. In 2010 6th International
Conference on Emerging Technologies (ICET), (pp. 293-298). IEEE.
Alonso, M. (1992). Conocimiento y bases de datos una propuesta de
integración inteligente [thesis]. Universidad de Cantabria: Santander, España.
Beekman, G. (1999). Introducción a la computación. Madrid, España: Pearson.
Citycorp. (2015). Semantic solutions for your enterprise. Retrieved from:
http://www.cyc.com/enterprise-solutions/solutions/
Cybertesis [web site] (2015). Retrieved from: http://cybertesis.unmsm.edu.pe/
Dentler, K., Cornet, R., Teije, A., & Keizer, N. (2011). Comparison of
reasoners for large ontologies in the OWL 2 EL Profile.
Semantic Web, 2(2), 71-87.
Díez, D. & Zúñiga, A. (2011). Implementación de un modelo de gestión del
conocimiento para empresas de servicios [thesis].
Cali, Colombia: Universidad ICESI.
Flores, I. (2011). Introducción al razonamiento sobre ontologías. Retrieved
from: file:///C:/Users/Jos%C3%A9%20Ignacio/
Downloads/nota-docencia-9.pdf
Floridi, L. (2004). Open problems in the philosophy of information.
Metaphilosophy, 35(4), 554-582.
Gangemi, A., Pisanelli, D., & Steve, G. (1998). Ontology integration:
Experiences with medical terminologies. In Formal ontology
in information systems [Vol. 46]. Amsterdam, The Netherlands: IOS.
Gruber, T. (1995). Toward principles for the design of ontologies used for
knowledge sharing. International Journal of Human
and Computer Studies. International journal of human-computer studies, 43(5),
907-928.
Hao, C. (2011). Research on knowledge model for ontology-based knowledge
base. In 2011 International Conference on
Business Computing and Global Informatization (BCGIN), (pp. 397-399).
IEEE.
Hendler, J. (2001). Agents and the semantic web. IEEE Intelligent Systems, 2,
30-37.
Holmes, D. & Stocking, R. (2009). Augmenting agent knowledge bases with
OWL ontologies. 2009 IEEE Aerospace Conference.
doi:10.1109/AERO.2009.4839651
Lahaba, N. & León, M. (2001). La gestión del conocimiento: una nueva
perspectiva en la gerencia de las organizaciones.
Acimed, 9(2), 121-126.
Lenat, D., & Guha, R. V. (1990). Cyc: A midterm report. AI magazine, 11(3),
32.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Márquez, S. (2007). La web semántica [thesis]. Universidad Politécnica de
Madrid, España.
Moldovan, D. I., & Rus, V. (2001, May). Transformation of wordNet glosses
into logic forms. In FLAIRS Conference Proceedings,
(pp. 459-463).. Retrieved from:
http://www.aaai.org/Papers/FLAIRS/2001/FLAIRS01-088.pdf
Mylopoulos, J., & Levesque, H. (1983). An overview of knowledge
representation. In GWAI-83 (pp. 143-157). Berlin-Heidelberg,
Germany: Springer.
Noy, N., & McGuinness, D. (2000). Ontology development 101: a guide to
creating your first ontology. Retrieved from:
http://liris.cnrs.fr/~amille/enseignements/Ecole_Centrale/What%20is%20an%2
0ontology%20and%20why%20we%20
need%20it.htm
Ono, K., Kawano, S., Fukazawa, Y., & Kadokura, T. (1992). A resolution
method from predicate logic specification into executable
code. In Proceedings of the Twenty-Fifth Hawaii International Conference on
System Sciences, 1992. (Vol. 2, pp.
480-487). IEEE.
Parnas, D. L. (1993). Predicate logic for software engineering. Software
Engineering, IEEE Transactions on, 19(9), 856-862.
Ramírez, S., Alonso, Y., Hernández, V., Arias, A., & La Rosa, D. (2010).
Comparando UML y OWL en la representación del
conocimiento: correspondencia sintáctica. Revista Española de Innovación,
Calidad e Ingeniería del Software, 6(3), 84-94
Repositorio Unilibre [web site] (2015). Retrieved from:
http://repository.unilibre.edu.co/handle/10901/1
Ruckhaus, E. (2005). Lógicas descriptivas y ontologías. Retrieved from:
http://ldc.usb.ve/~ruckhaus/materias/ci7453/clase51.
Shi, Z., Liu, Z., & Chen, J. (2010). Using logic rules for concept refinement
learning in first order logic. 2010 IEEE Fifth International
Conference on Bio-Inspired Computing: Theories and Applications (BIC-TA),
(pp. 444-448). IEEE.
Sinab [web site] (2015). Retrieved from: http://www.sinab.unal.edu.co/
Tayal, M., Raghuwansh, M., & Latesh, M. (2013). Knowledge representation:
predicate logic implementation using sentence-type
for Natural Languages. Circuits, Power and Computing Technologies
(ICCPCT), (pp. 1264-1269). IEEE.
Teseo [web site] (2015). Retrieved from:
Primer Congreso Internacional de Lingüística Computacional y de Corpus
https://www.educacion.gob.es/teseo/irGestionarConsulta.do
Universidad del Rosario (2011). Reglamento de trabajos de grado de la facultad
de jurisprudencia. Retrieved form: http://
www.urosario.edu.co/jurisprudencia/pregrados/documentos/Reglamento_de_tra
bajos_de_grado_Jurisprudencia.pdf
Wang, Y. (2010). Research on the construction of ontology-based criminology
knowledge base. 2nd IEEE International Conference
on Network Infrastructure and Digital Content.
Wang, Y. (2010). Research on the construction of ontology-based criminology
knowledge base. In 2010 2nd IEEE International
Conference on Network Infrastructure and Digital Content, (pp. 123-128).
IEEE.
Yoo, S., & Park, C. H. (1993). An inference browser to verify knowledge bases.
In Fifth International Conference on Tools with
Artificial Intelligence, 1993. TAI’93. Proceedings, (pp. 466-467). IEEE.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Lingüística de corpus y enseñanza de lenguas extranjeras: hacia la
construcción de un corpus de aprendices en Colombia
Victoria Pardo* Gabriel Quiroz*
*Universidad de Antioquia
A partir de una tesis doctoral en curso, se presentará la metodología y
descripción de un corpus de aprendices para el análisis de errores. El corpus
está compuesto de 600 composiciones de aprendices de nivel intermedio de
inglés de una universidad del caribe colombiano. Se presentará la forma de
selección de los sujetos, la recolección de las composiciones, sus datos
sociolingüísticos, la codificación y conversión de los archivos y el etiquetaje de
errores con base en el software UCLEditor de la Universidad de Lovaina, así
como los problemas de etiquetaje. Igualmente, se presentarán resultados del
análisis de errores del corpus con base en la clasificación de Granger (1997,
2003). Además de la recolección y el análisis del corpus, el trabajo pretende
mostrar cómo las teorías del input y las condiciones sociolingüísticas influyen
en el desempeño de los estudiantes de lenguas extranjeras.
Palabras clave: lingüística de corpus, enseñanza de lenguas extranjeras, corpus
de aprendices, análisis de errores.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Machine Learning-Oriented Definition of Linguistic Features for
Document-Level Sentiment Analysis in Spanish
Antonio Tamayo* Diego Burgos** y Gabriel Quiroz*
*Universidad de Antioquia
**Wake Forest University
Abstract
The automatic prediction of the course of action of agents involved in social or
economic trends is an imperative challenge nowadays [1]. However, it is a
difficult task due to the fact that stance or opinion is often spread throughout
long, complex documents, such as news articles. The bulk of works on
sentiment analysis so far have used a bag-of-words approach and deal with
short texts, such as tweets and product or movie reviews [2][3]. The present
work aims at automatically determining writer’s stance in financial news
articles. We intend to capture the semantics and stance of the text by encoding
linguistic features such as the attribute of copulative sentences and the predicate
of transitive sentences, among other characteristics. Under the assumption that
these features are informative enough to model the semantics of the article,
each predicate is disambiguated and assigned an opinion value using
SentiWordNet [4] and linguistic rules. The feature values are used to populate a
database that will be tested in a second stage of the study with two machine
learning algorithms, namely, support vector machines and random forest. In this
paper, the methodology and advances of this first stage are presented.
Keywords: Document-level Sentiment Analysis, sense disambiguation,
syntactic analysis, SentiWordNet, copulative sentences’ attribute, transitive
sentences’ predicate, SVM, Random Forest.
References:
[1]. Kalyanaraman, V., Kazi, S., Tondulkar, R., & Oswal, S. (2014, September).
Sentiment Analysis on News Articles for Stocks. In Modelling Symposium
(AMS), 2014 8th Asia (pp. 10-15). IEEE.
[2]. Liu, B. Sentiment analysis and opinion mining. Synthesis lectures on
human language technologies, 5(1), 1-167. (2012)
Primer Congreso Internacional de Lingüística Computacional y de Corpus
[3]. B. Pang, L. Lee, and S. Vaithyanathan, “Thumbs up? Sentiment
classification using machine learning techniques,” in Proceedings of the
Conference on Empirical Methods in Natural Language Processing (EMNLP),
pp. 79–86. (2002)
[4]. Baccianella, S., Esuli, A., & Sebastiani, F. (2010, May). SentiWordNet 3.0:
An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining. In
LREC (Vol. 10, pp. 2200-2204).
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Metodología de construcción de un corpus paralelo español-inglés de
artículos de investigación en Ciencias de la Salud publicados en una revista
colombiana
Irina Kostina* Andrés Mauricio Veira**
*PhD en Lingüística Aplicada, profesora de la Escuela de Ciencias del
Lenguaje, Grupo de Investigación en Traducción y Terminología –
TRADUTERM. Universidad del Valle.
**Estudiante de la Maestría en Estudios Interlingüísticos e Interculturales.
Grupo de Investigación en Traducción y Terminología – TRADUTERM.
Universidad del Valle.
Sección: Lingüística de Corpus
Resumen
El análisis comparativo de traducción de la terminología es fundamental para
procesos de adquisición de conocimiento en campos como: la traducción, la
comunicación especializada y la enseñanza de lenguas con propósitos
específicos. Para realizar el estudio descriptivo de la terminología de un
dominio especializado, se acude a la lingüística de corpus que proporciona la
metodología para trabajar con grandes cantidades de datos lingüísticos. No
obstante, cada estudio motivado por el corpus (corpus-driven) necesita la
elaboración de una metodología particular. El objetivo de la presente
comunicación escompartir la metodología diseñada para construir un corpus
paralelo, español-inglés, de artículos de investigación en Ciencias de la Salud
publicados en una revista científica colombiana, que posteriormente servirá
para el análisis comparativo léxico-gramatical y semántico de traducción de
unidades fraseológicas eventivas especializadas. Cada paso metodológico se
diseñó con programas informáticos de acceso libre, disponibles en la web
(AntConc, AntWordProfiler, AntFileConverter,I love PDF, You Align), y otros
programas de procesamiento de datos, usualmente disponibles en un
computador (Word, Excel, Notepad). Inicialmente, se describen las
herramientas informáticas que sirvieron para construir el corpus paralelo y,
después, las que ayudaron a procesar y analizar los datos. Finalmente, se
encontraron ventajas y dificultades en el uso de estas herramientas, como la
restricción para el almacenamiento de datos en línea. Por último, se llegó a la
conclusión de que el uso informado de las mismas ayuda a minimizar el tiempo,
Primer Congreso Internacional de Lingüística Computacional y de Corpus
permitiendo la recolección, organización, procesamiento y análisis de datos de
manera sistemática y eficaz.
Palabras clave: corpus paralelo especializado, programas informáticos,
alineación.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Modelo de procesamiento de historias clínicas electrónicas de pacientes con
artritis reumatoide para la obtención de variables relevantes
Andrés Cely Jiménez*
*Magister(c) Ingeniería de Sistemas y Computación, Universidad Nacional de
Colombia
Luis Fernando Niño V** y Gerardo Quintana***
**Ph.D., Facultad de Ingeniería, Universidad Nacional de Colombia
***MSc. M.D., Facultad de Medicina, Universidad Nacional de Colombia
Sección: Procesamiento de Lenguaje Natural
Resumen
El dominio biomédico ha utilizado las tecnologías de información como
herramientas para el almacenamiento de datos médicos en múltiples ambientes
tales como la gestión de registros médicos electrónicos, procesamiento de
imágenes diagnósticas, gestión de procesos administrativos, etc. Es en la
historia clínica electrónica donde se realiza el registro de la atención médica de
un paciente, de su tratamiento, evolución y finalización de su estancia
hospitalaria.
Experiencias como la realizada en la clínica Mayo[1] demuestra que es posible
realizar procesos de extracción de información en los registros médicos para la
obtención de información usada para el apoyo de la toma de decisiones. Tal
como plantea Kononenko[2] la construcción de herramientas médicas
complementarias pueden mejorar la eficiencia y los beneficios obtenidos en la
atención en salud mediante herramientas de aprendizaje maquinal y en este
caso, de la aplicación de herramientas de procesamiento de lenguaje natural.
Este modelo de proceso de extracción de información sobre historias clínicas
está basado en un conjunto de procesos de preparación y procesamiento del
texto; estas actividades permiten la obtención de las sentencias y de las palabras
existentes en el documento, y además la realización de un proceso de
etiquetado sobre los términos obtenidos utilizando UMLS ó Sistema de
lenguaje médico unificado para la identificación de los términos médicos y,
finalmente, la obtención de las variables relevantes.
Palabras clave: procesamiento de lenguaje natural, registros médicos
Primer Congreso Internacional de Lingüística Computacional y de Corpus
electrónicos, historia clínica, artritis, UMLS.
Referencias
[1]G. K. Savova, J. J. Masanz, P. V Ogren, J. Zheng, S. Sohn, K. C. Kipper-
Schuler, and C. G. Chute, “Mayo clinical Text Analysis and Knowledge
Extraction System (cTAKES): architecture, component evaluation and
applications.,” J. Am. Med. Informatics Assoc., vol. 17, no. 5, pp. 507–13, 2010
[2] I. Kononenko, “Machine learning for medical diagnosis: History, state of the
art and perspective.” Artificial Intelligence in Medicine, vol. 23, no. 1, pp. 89–
109, 2001.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Moving WordNet 3.0 and its resources to a graph database: G-WordNet
Sergio Jiménez*
George Dueñas*
*Investigadores del Instituto Caro y Cuervo
Sección: Lingüística computacional
Abstract
WordNet is a large lexical-semantic graph composed of nodes, which represent
lemmas, senses and synsets (i.e. set of synonym concepts), interconnected by
edges representing sematic relationships (i.e. antonymy, hypernymy, etc.)
Also, WordNet is among the most-used resources in the field of Natural
Language Processing. However, the WordNet and its equivalents are difficult to
build and intended mainly for read-only use. Alternatively, in collaborative
lexicons such as Wiktionary, an important number of authors contribute to a
more accurate view of the actual use of the language. In this scenario, both
WordNet and Wiktionary approaches have their pros and cons. On the one
hand, WordNet have a very rich semantic representation of the lexical units, but
its content is mainly oriented for machines, and its format is difficult to update
and query by humans. On the other hand, Wiktionary is easy to use and update
by humans, but its structure is not appropriated for computer applications and
resembles a classical printed dictionary lacking of explicit semantic
relationships.
In the last decade, the database research community has proposed the so called
graph-databases with the idea to improve the modeling of large and highly
interconnected data structures that cannot be stored and queried adequately with
current established technologies. For example, the web social graph contains
hundreds of millions of nodes representing people and billions of edges
representing “friend”, “like” and “follow” relationships. We believe that this
technology can help in the reconciliation of the dilemma between WordNet and
Wiktionary approaches.
For that, we moved WordNet 3.0 and all its sense-annotated corpora to a
popular freely available graph database engine, Neo4j. The proposed resource,
G-WordNet, is searchable and updatable in a query language intended not only
for technicians and specially designed for graph structures. This is a first step
towards a long term objective of building a large collaboratively
lexicographical resource with a rich semantic representation while usable and
updatable by humans and computers.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Procesamiento informático de los materiales del Atlas Lingüístico-
Etnográfico de Colombia: modelamiento de la base de datos espacial
Julio Alexander Bernal Chávez,* Johnatan Bonilla Huérfano,* Andrés
Cárdenas,** Luz Rocha** y Javier Fernández**
*Investigador Instituto Caro y Cuervo
**Grupo NIDE, Universidad Francisco José de Caldas
Sección: Lingüística de Corpus.
Resumen
Esta ponencia presenta la propuesta metodológica para el procesamiento
informático, digitalización y sistematización de los datos léxicos, etnográficos y
materiales suplementarios del Atlas Lingüístico Etnográfico de Colombia
ALEC en una base de datos espacial como resultado del ejercicio investigativo
del Grupo de Investigación de Lingüística de Corpus del ICC. En la primera
parte, se presenta un acercamiento descriptivo a los materiales que componen el
ALEC, en diálogo con generalidades conceptuales sobre el manejo de datos
espaciales, metadatos y el desarrollo de bases de datos espaciales con
posibilidades de aplicación específica para grupos de datos lingüísticos y
etnográficosde dimensión diatópica. La segunda parte expone la propuesta
metodológica que incluye los criterios tenidos en cuenta para el tránsito de la
información del soporte análogo a digital, la descripción de los metadatos para
la descripción y organización de la información y el modelamiento de la base
de datos espacial y, por último, a modo de discusión, se presentan las
posibilidades de uso y explotación de la base de datos espacial, en el estado
actual, del ALEC Interactivo hasta llegar a un SIG Sistema de Información
Geográfico.
Referencias
Guevara, J. A. (1992). Esquema metodológico para el diseño e implementación
de un sistema de información geográfico. Geographicalia, (29), 21-32.
Güting, R. H. (1994). An introduction to spatial database systems. The VLDB
Journal—The International Journal on Very Large Data Bases, 3(4), 357-399.
Hoch, S., & Hayes, J. J. (2010). Geolinguistics: The incorporation of
geographic information systems and science. The Geographical Bulletin, 51(1),
23.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Proyecto « DICO CULTUREL »: análisis lingüístico-cultural comparativo
de los comercios de Francia y Colombia
Olga Rocío Serrano*
*Docente investigador perteneciente al grupo de investigación Innovación
Pedagógica. Universidad ECCI, Bogotá, Colombia.
Sección: Lingüística aplicada
Resumen
Analizando numerosos diccionarios bilingües francés – español que se
encuentran en el mercado, constatamos que ninguno de ellos se centra
específicamente en el español de Colombia, sino más bien en el español de
España, o de manera muy general, en el español de Latinoamérica.
Es por tal motivo que decidimos llevar a cabo el proyecto de investigación
« Dico culturel » que se destina a un público que aprende el francés lengua
extranjera y que tiene como propósito crear un prototipo de diccionario
lingüístico y cultural con enfoque antropológico de divergencias parciales o
totales que existen entre el universo francés y colombiano.
Para tal efecto, hemos examinado numerosas fuentes en francés y hemos
seleccionado un conjunto de temáticas tales como la del medio ambiente, la
educación, el transporte, las fiestas y tradiciones, la familia, el alojamiento, la
alimentación, los comportamientos, entre muchos otros.
En esta ponencia, nos centramos en el tópico de los establecimientos
comerciales. Principiamos pues con la presentación de la lista de términos o
expresiones pertenecientes a esta temática obtenida gracias al análisis de obras
destinadas al aprendizaje de la lengua francesa. Describimos igualmente la
manera en la que procedimos para constituir nuestro corpus comparable francés
de Francia y español de Colombia por cada una de las entradas seleccionadas.
Luego, a partir de dicho corpus, analizamos las informaciones lingüísticas y
culturales que poseen marcadas divergencias culturales con enfoque
antropológico que fueron útiles para redactar nuestros artículos de diccionario.
Finalmente, mostramos algunos ejemplos de artículos de diccionario relativos a
los establecimientos comerciales.
Palabras claves: diccionario bilingüe y cultural, cultura antropológica,
contenidos lingüísticos, contenidos culturales antropológicos, establecimientos
comerciales.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Rediseño del corpus de las sexualidades en México a través de las
herramientas de GECO
Gerardo Sierra*, Julián Solórzano*, Jorge Lázaro**, Mariana Aguilar*,
Arturo Curiel*
* Grupo de Ingeniería Lingüística, Instituto de Ingeniería, Universidad
Nacional Autónoma de México (gsierram, jsolorzanos, maguilarc, acurield @
iingen.unam.mx)
** Benemérita Universidad Autónoma de Puebla
Sección: Lingüística de Corpus
Resumen
GECO es una aplicación web gratuita destinada a la creación y gestión de
corpus que permite a los usuarios, de manera individual o de manera
colaborativa, subir documentos de texto y sus metadatos. Los documentos
subidos a GECO son convertidos automáticamente a texto plano y etiquetados
con el lema y la parte de la oración (POS) de cada palabra.
Una vez que los documentos están cargados y procesados, los usuarios pueden
disponer de ellos mediante la creación de proyectos (corpus) en la plataforma, a
fin de que puedan ser analizados y utilizados por otras herramientas de
procesamiento de textos, tales como el generador de concordancias y el
extractor terminológico. Finalmente, GECO permite a los usuarios la creación
de un portal web sencillo, por proyecto, orientado tanto a dar a conocer los
corpus al público en general, como a permitir a otros usuarios interactuar
directamente con los datos mediante las herramientas de GECO.
En este trabajo se presenta un caso de uso, en el que un corpus existente
(CSMX, Corpus de las Sexualidades en México) fue revisado, actualizado,
compilado y publicado por medio de esta plataforma. Se presenta desde el
diseño del corpus, su captura en el sistema, su procesamiento con las
herramientas de GECO, hasta la creación de un portal que funge como la web
del corpus, desde la cual el público puede conocer y trabajar con el mismo.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Referencias
Reyes-Careaga T., Medina A., Sierra G. (2011) “Un corpus para la
investigación en la extracción de términos y contextos definitorios: hacia un
diccionario de las sexualidades en México”. Debate Terminológico 7, pp. 24-
35.
Primer Congreso Internacional de Lingüística Computacional y de Corpus
Una aplicación ontoterminológica a un corpus de la gastronomía
tradicional en Costa Rica
Hazel Barahona Gamboa* Gerardo Sierra Martínez** Jorge Lázaro
Hernández***
*Pontificia UniversidadCatólica de Valparaíso, Chile
**Grupo de Ingeniería Lingüística, UNAM, México
***Universidad Autónoma de Puebla
Sección: Lingüística computacional
Resumen
En este trabajo se describe cómo interactúan, de forma coherente y exhaustiva,
la terminología y las ontologías y de la que se obtiene la aparición neológica
proveniente de la especificidad y funcionalidad de un corpus específico. Esta
investigación muestra que la ontología propuesta para este léxico gastronómico,
en esta región específica del mundo hispanohablante, da fe de categorías que no
existen ni en el Glosario de cocina popular costarricense (Sedó, 2008), ni en el
Diccionario de Costarriqueñismos (Quesada Pacheco, 2012). La omisión de
algunas de estas categorías muestra claramente que los términos han sido
organizados históricamente tomando en cuenta sólo el factor léxico, pero no la
organización conceptual. Por ejemplo, en la categoría Aderezos se encuentra
una subclase denominada Olores. Pues bien, este estudio lo que intenta es
poner en juego el “desacuerdo” entre hablantes y especialistas para mostrar que
es posible una reorganización de los términos de un área, en este caso de la
gastronomía, en aras de atender la organización conceptual que una cultura
tiene a propósito de sus ingredientes, preparaciones y sabores. Para la
comprensión entre las categorías ontológicas establecidas se debe tener en
cuenta que cada ingrediente es visto como un merónimo, puesto que es parte de
un todo que conforma un platillo en especial. Para esto se recopiló un corpus de
596 recetas y 4652 ingredientes para la representación ontológica. Cada clase
ontológica se definió por medio de su funcionalidad en las recetas, así como de
diccionarios gastronómicos. La arquitectura ontológica se formaliza por medio
de los postulados de Basic Formal Ontology (Smith, 2014) y se esquematiza
por medio de Protégé. Además, se emplean las teorías terminológicas de Cabré
(1992, 1999), Fedor de Diego (1995) y Roche (2007, 2009).
Palabras clave: ontoterminología, ontologías, terminología, corpus, lingüística
Primer Congreso Internacional de Lingüística Computacional y de Corpus
computacional.
Referencias
Cabré, M. T. 1992. La terminologia. La teoria, els mètodes, les aplicacions.
Barcelona: Les Naus d'Empúries.
Cabré, M.T. 1999. La terminología: representación y comunicación. Elementos
para una teoría de base comunicativa y otros artículos. Barcelona:
Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra.
Fedor de Diego, A. 1995. Terminología. Teoría y práctica. Maracay,
Venezuela: Unión Latina/ Ediciones de la Universidad Simón Bolívar.
Roche, C. 2007. “Le terme et le concept : fondements d’une ontoterminologie”.
TOTh 2007 (Terminology & Ontology: Theories and applications).
Annecy, France. pp 1-22
Roche, C.; Calberg-Challot, M.; Damas, L.; Rouard, P. 2009. Ontoterminology:
A new paradigm for terminology. International Conference on Knowledge
Engineering and Ontology Development. Madeira, Portugal. pp. 321-326.
Sedó, P. 2008. Glosario de cocina popular costarricense: descripción general
de alimentos, equipos, utensilios, técnicas de preparación y frases
populares. San José: EUCR.
Smith, B. 2014. Basic Formal Ontology 2.0. (Consulta: 3 noviembre 2014).
Extraído de: http://www.ifomis.org/bfo/
Primer Congreso Internacional de Lingüística Computacional y de Corpus
VOT (Voice Onset Time) en hablantes del español con la enfermedad de
Parkinson
Linn Camelo Parra*, Maryluz Camargo Mendoza* y Silvia Baquero
Castellanos*
*Universidad Nacional de Colombia
Sección: Lingüística aplicada
Resumen
Este estudio, que se enmarca en la fonética clínica, tuvo por objetivo determinar
las medidas del VOT en los sonidos oclusivos sordos y sonoros de hablantes
nativos del español que presentan la enfermedad de Parkinson (EP) y
compararlas con un grupo control (GC). Para ello, se tomaron datos a 17
personas con EP (7 mujeres, 10 hombres) y de 17 personas como GC pareados
por edad y género con el grupo EP, en tareas de lectura de palabras y
seudopalabras que contenían las consonantes /p/, /t/, /k/, /b/, /d/ y /g/ en
posición inicial de palabra, con y sin la partícula /un/. Todas las medidas del
VOT, tanto de las consonantes sonoras como sordas, fueron calculadas con el
programa Praat y posteriormente analizadas a través de estadística descriptiva
con pruebas paramétricas de Wilcoxon de los rasgos con signo para muestras
relacionadas y con una prueba de la mediana y de Kruskal- Wallis para
muestras independientes. Los resultados mostraron que en términos generales el
VOT de las consonantes oclusivas sordas en el grupo con EP es más largo
frente al grupo control y el VOT en las consonantes oclusivas sonoras del grupo
control fue más largo respecto al grupo con EP. Así mismo, los resultados
mostraron una incidencia estadísticamente significativa en los valores del VOT
con el uso o no de la partícula /un/. Este estudio se configura en uno de los
primeros en analizar el VOT de personas con EP en Colombia, y plantea retos
futuros en el análisis acústico del habla atípica de población hispanohablante.
Palabras clave: Enfermedad de Parkinson, VOT, habla atípica, fonética
clínica.