trabajo rna

Upload: guillermo-jbl

Post on 25-Feb-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/25/2019 trabajo rna

    1/98

    Centro Nacional de Investigacin y Desarrollo TecnolgicoDepartamento de Ciencias Computacionales

    TESIS DE MAESTRA EN CIENCIAS

    Poblado Automtico de Ontologas Espaciales a Partir de Texto noEstructurado

    Presentada por

    Juan Diego Gmez FierrosIng. en Sistemas Computacionales por el I.T. de Zacatepec

    Como requisito para la obtencin del grado de:Maestra en Ciencias en Ciencias de la Computacin

    Directora de tesis:Dra. Azucena Montes Rendn

    Co-Director de tesis:Dr. David Eduardo Pinto Avendao

    Jurado:Dr. Juan Gabriel Gonzlez Serna Presidente

    M.C. Javier Ortiz Hernndez SecretarioM.C. Jos Alejandro Reyes Ortiz Vocal

    Dra. Azucena Montes Rendn Vocal Suplente

    Cuernavaca, Morelos, Mxico. 30 de noviembre de 2012

  • 7/25/2019 trabajo rna

    2/98

    I

    Dedicatorias

    Quiero dedicar este trabajo de tesis a mi madre la cual me ha apoyado siemprebrindndome su amor desde el primer da que me cargo en sus brazos y me ha enseado elvalor de la vida y el conocimiento de las cosas ms importantes que se puedan aprender, elrespeto, amor y los valores inculcados por su constante dedicacin. Este trabajo es tuyo al

    igual que yo.

    A mi padre que siempre supo brindar su constante ayuda econmica para que nada faltaraen el hogar y me mostr el camino que debe seguir un verdadero hombre siempre al lado desu familia, ayudando, respetando, amando. Te dedico este trabajo.

    A mis hermanos que siempre me mostraron su incondicional apoyo para salir adelante sque para cualquier cosa que necesite puedo contar con ellos y con su particular forma de ser

    lo cual los hace nicos y valiosos. Gracias por todo

    Cada quien en su forma de pensar y en su educacin puede creer en lo que considera mejory desde la ms tierna infancia me fue inculcado el amor a Dios, por eso s que gracias a lpuedo estar ahora en el lugar en el que estoy, y ya lo menciono Blaise Pascal En elcorazn de todo hombre existe un vaco que tiene la forma de Dios. Este vaco no puede serllenado por ninguna cosa creada. l puede ser llenado nicamente por Dios, hechoconocido mediante Cristo Jess.

  • 7/25/2019 trabajo rna

    3/98

    I

    Agradecimientos

    Quiero expresar mi ms profundo agradecimiento a la directora de esta tesis: la Dra.Azucena Montes Rendn su dedicacin al conocimiento cientfico y su espritu enrgico yafectivo son un ejemplo a seguir y han incitado mi ilusin por el estudio gracias pordepositar su confianza en m. Puedo asegurar que he tenido el privilegio de poder trabajar,

    no bajo su direccin, sino con su ayuda y su colaboracin.

    A mis revisores de tesis: M.C. Jos Alejandro Reyes Ortiz, Dr. Juan Gabriel GonzlezSerna y el Dr. Javier Ortiz Hernndez, los cuales dedicaron parte de su tiempo a realizar lasrevisiones necesarias para poder realizar un trabajo digno de una investigacin de maestra.Gracias por su ayuda apoyo y consejos.

    De mi familia poco hace falta decir. Mis padres y hermanos siempre han estado ah a milado incondicionalmente, siempre brindndome su ayuda, comprensin apoyo pero sobre

    todo su amor, quiero agradecerles porque gracias a ellos me encuentro en donde estoyahora.

    A mis compaeros que los considero como una autntica fortuna repartida en varios sitiosdistintos. Muchas gracias a todos mis amigos, a los de siempre que han sobrellevado congran paciencia las innumerables horas de mi ausencia y a los de ahora, que esperoconservar por mucho tiempo, ambos grupos forman parte inseparable en esta etapa de mivida.

    Al centro nacional de investigacin y desarrollo tecnolgico cenidet por aceptarme comoalumno, que gracias a sus profesores tengo las herramientas necesaria para poder ser uninvestigador de xito y gracias al apoyo econmico brindado por el CONACYT pudededicarme ntegramente al estudio de mi carrera.

  • 7/25/2019 trabajo rna

    4/98

    II

    Abstract

    The process for creation automatic of ontologies also called ontology learning involvesseveral activities, which can be simplified into: a) find the relevant terms of the domain(Classes) and taxonomic relationships between them; b) establish no taxonomicrelationships between classes; c) find instances of classes and relationships. This process

    has been an area of study for several investigations that attempt to ontologies from text.There are several proposals to automate the process of building of ontologies, which

    have some common characteristics differences by distinguishing factors very precise, someof these proposals use statistical approaches (Snchez & Moreno, 2004), other naturallanguage processing (NLP) (Sabou, Wroe, Goble, & Mishne, 2005) and finally there aresome that combine both techniques (Cimiano & Vaolker, 2005).

    The type of data they handle the tools vary in format, can make populated ontologicalfor structured data, semi-structured data or even plain text which implies a high degree ofanalysis and using NLP techniques.

    Currently, in the CENIDET in the group of Web Technologies, is developing a projectin which the main objective is extraction and information retrieval from ontologies. Animportant part of this project is the transformation of the information contained in a text toontology and using the latter for the extraction and recovery of information.

    In this work thesis is instantiated ontology with spatial information which complementsthe ontology OntoEvento (Reyes, 2011) in their part of spatialityindicating the place ofoccurrence of an event, to do this using various techniques for recognizing spatial entitiesand for populating semi-automatic of ontologies, as the use of patterns lexical - syntactic.

    Keywords: ontology population, PLN, Ontologies, lexical patterns.

  • 7/25/2019 trabajo rna

    5/98

    IV

    Resumen

    El proceso de creacin semiautomtico de ontologas tambin llamado aprendizajeontolgico involucra varias actividades, las cuales se pueden simplificar en: a) encontrar lostrminos relevantes del dominio (clases) y las relaciones taxonmicas entre ellas; b)establecer las relaciones no taxonmicas entre las clases; c) encontrar las instancias de las

    clases y las relaciones. Este proceso ha sido un campo de estudio para variasinvestigaciones que intentan obtener ontologas a partir de texto.

    Existen varias propuestas para automatizar el proceso de construccin de ontologas enla parte de poblado ontolgico, las cuales tienen algunas caractersticas en comndiferencindose entre ellas por factores distintivos muy precisos, algunas de estaspropuestas utilizan enfoques estadsticos (Snchez & Moreno, 2004), otras procesamientode lenguaje natural (Sabou, Wroe, Goble, & Mishne, 2005) y finalmente existen algunosque mezclan ambas tcnicas (Cimiano & Vaolker, 2005).

    El tipo de datos que manejan las herramientas mostradas en el prrafo anterior, vara en

    su formato, pudiendo realizar el poblado ontolgico de datos estructurados, semi-estructurados o incluso de textos sin formato (texto plano) lo cual implica un alto grado deanlisis y el uso de tcnicas del PLN (Procesamiento de Lenguaje Natural).

    Actualmente, en el cenidet, en el grupo de Tecnologas Web se est desarrollando unproyecto donde el objetivo principal es la extraccin y recuperacin de informacin a partirde ontologas. Una parte importante de este proyecto es la transformacin de la informacincontenida en un texto a una ontologa y utilizar esta ltima para la extraccin yrecuperacin de informacin.

    En los siguientes captulos que integran este trabajo de tesis se explica cmo se realizala instanciacin de una ontologa con informacin espacial, la cual complementa laontologa OntoEvento (Reyes, 2011) en su parte de espacialidad, indicando el lugar deocurrencia de un acontecimiento, para realizar esto se utilizan diversas tcnicas para elreconocimiento de entidades espaciales y para el poblado semiautomtico de ontologas,como el uso de patrones lxicos - sintcticos.

    Palabras clave: Poblado Ontolgico, PLN, Ontologas, Patrones lxicos.

  • 7/25/2019 trabajo rna

    6/98

    V

    ContenidoCaptulo 1. Introduccin ....................................................................................................................1

    1.1 Motivacin .........................................................................................................................2

    1.2 Planteamiento del problema ..............................................................................................2

    1.3 Objetivos ............................................................................................................................3

    1.3.1 Objetivo principal .......................................................................................................3

    1.3.2 Objetivos particulares .................................................................................................3

    1.4 Alcances y limitaciones .......................................................................................................3

    1.4.1 Alcances ......................................................................................................................3

    1.4.2 Limitaciones ................................................................................................................4

    1.5 Organizacin de la tesis ......................................................................................................4

    Captulo 2. Fundamento terico ........................................................................................................5

    2.1 Ontologas ..........................................................................................................................6

    2.2.1 Principales componentes del modelado de ontologas ..................................................6

    2.2.2 Aprendizaje de ontologas ..............................................................................................8

    2.3 Procesamiento del lenguaje natural (PLN) .......................................................................10

    2.3.1 Clasificacin del PLN en funcin de los niveles de anlisis lingstico ..........................13

    2.4 Extraccin de informacin ................................................................................................14

    2.5 Patrones lingsticos .........................................................................................................17

    2.6 Espacialidad y eventos ......................................................................................................18

    2.6.1 Espacialidad ..................................................................................................................18

    2.6.1.1 Espacialidad en textos ...............................................................................................19

    2.6.2 Eventos .........................................................................................................................19

    2.6.2.1 Caractersticas de los eventos ...................................................................................20

    Captulo 3. Estado del arte ..............................................................................................................22

    3.1 Introduccin .....................................................................................................................23

    3.2 Enfoques para aprendizaje ontolgico .............................................................................24

    3.2.1 Enfoque estadstico ......................................................................................................25

    3.2.2 Enfoque lingstico .......................................................................................................26

    3.2.3 Enfoques hbridos .........................................................................................................28

    3.2.4 Enfoque basado en patrones lingsticos .....................................................................29

    3.2.4.1 Patrones construidos manualmente .........................................................................30

    3.2.4.2 Patrones construidos automticamente ...................................................................31

  • 7/25/2019 trabajo rna

    7/98

    V

    3.3 Herramientas ....................................................................................................................34

    3.3.1 OpenCalais ....................................................................................................................34

    3.3.2 AlchemyAPI ..................................................................................................................35

    3.3.3 Extractiv ........................................................................................................................36

    3.3.4 STILUS NER ...................................................................................................................38

    3.3.5 ZEMANTA .....................................................................................................................393.3.6 Comparativa entre herramientas .................................................................................40

    Captulo 4. Metodologa de solucin ...............................................................................................42

    4.1 Identificacin de patrones ................................................................................................43

    4.1.1 Caractersticas del mtodo ...........................................................................................44

    4.1.2 Metodologa para extraccin de patrones ...................................................................45

    4.1.3 Extraccin de patrones lxicos .....................................................................................46

    4.2 Seleccin de patrones relevantes .....................................................................................48

    4.3 Aplicacin de los patrones ................................................................................................51

    4.4 Instanciacin de OntoEspacio en espacialidad .................................................................52

    4.5 Prototipo ..........................................................................................................................53

    Captulo 5. Pruebas y resultados .....................................................................................................57

    5.1 Introduccin .....................................................................................................................58

    5.2 Mtricas de evaluacin.....................................................................................................58

    5.2.1 Precisin .......................................................................................................................58

    5.2.2 Recuerdo ......................................................................................................................59

    5.2.3 Medida F .......................................................................................................................59

    5.3 Plan de pruebas ................................................................................................................60

    5.3.1 Elementos de prueba ...................................................................................................60

    5.3.1.1 Caractersticas probadas ...........................................................................................60

    5.3.1.2 Caractersticas excluidas ...........................................................................................61

    5.3.1.3 Enfoque ....................................................................................................................62

    5.3.1.4 Criterio xito/fracaso de los casos de prueba ..........................................................62

    5.3.1.5 Criterios de suspensin y requerimientos de reanudacin .......................................62

    5.3.1.6 Documentos entregables de las pruebas ..................................................................63

    5.3.1.7 Tareas de pruebas .....................................................................................................63

    5.3.1.8 Requerimientos necesarios para realizar las pruebas ...............................................64

    5.3.1.9 Responsabilidades .....................................................................................................64

  • 7/25/2019 trabajo rna

    8/98

    V

    5.3.1.10 Riesgos y contingencias ............................................................................................64

    5.3.2 Aprobacin ...................................................................................................................64

    5.3.3 Casos de prueba ...........................................................................................................65

    5.3.4 Especificacin del procedimiento de prueba ................................................................65

    5.4 Pruebas.............................................................................................................................68

    5.4.1 Reconocimiento de entidades espaciales .....................................................................685.4.2 Identificacin de conceptos relacionados a eventos ....................................................70

    5.4.3 Solucin a anfora lingstica .......................................................................................70

    5.4.4 Poblado ontolgico .......................................................................................................72

    Captulo 6. Conclusiones y trabajos futuros ....................................................................................75

    6.1 Conclusiones.....................................................................................................................76

    6.1.1 Contribuciones .............................................................................................................77

    6.2 Publicaciones ....................................................................................................................77

    6.3 Trabajos futuros ...............................................................................................................78

    Anexos .............................................................................................................................................84

    Herramientas utilizadas................................................................................................................85

    PETRA Tag ....................................................................................................................................85

    OpenCalais ...................................................................................................................................87

  • 7/25/2019 trabajo rna

    9/98

    VI

    Figuras

    Figura 1. Ejemplo de una ontologa........................................................................................ 8

    Figura 2. Capas del aprendizaje ontolgico (Cimiano, 2006) .............................................. 10

    Figura 3. Niveles del Procesamiento de Lenguaje Natural (Castellanos, Fernndez, &Valencia, 2008) ..................................................................................................................... 13

    Figura 4. Ejemplo de anuncio de un seminario Ontologies and Information Extraction .. 16Figura 5. Entramado de conceptos formales para el ejemplo, el turismo (Cimiano, Hotho, &

    Staab, 2005) .......................................................................................................................... 28

    Figura 6. Jerarqua de conceptos ontolgicos para el ejemplo, el turismo (Cimiano, Hotho,& Staab, 2005) ...................................................................................................................... 28

    Figura 7. Clasificacin de entidades en Open Calais ........................................................... 35

    Figura 8. Extraccin de entidades en AlchemyAPI .............................................................. 36

    Figura 9. Extraccin de entidades en Extractiv .................................................................... 38

    Figura 10. Etiquetado de entidades en STILUS NER .......................................................... 39Figura 11. Extraccin de entidades en ZEMANTA ............................................................. 40

    Figura 12. Grfica comparativa de las herramientas ............................................................ 41

    Figura 13 Arquitectura general del mtodo propuesto para la extraccin de patrones ........ 46

    Figura 14. Entidades espaciales ............................................................................................ 47

    Figura 15. Estructura de entidades espaciales ...................................................................... 48Figura 16. Modelo general de solucin ................................................................................ 51

    Figura 17. Interfaz del prototipo ........................................................................................... 53

    Figura 18. Explorador de archivos ....................................................................................... 53

    Figura 19. Texto de noticia procesado.................................................................................. 54

    Figura 20. Extraccin de argumentos y RA ......................................................................... 55

    Figura 21. Extraccin de candidatos espaciales ................................................................... 55Figura 22. OntoEspacio instanciada ..................................................................................... 56

    Figura 23. Ecuacin de la precisin (Salton & McGill, 1983) ............................................. 58

    Figura 24. Ecuacin del recuerdo (Salton & McGill, 1983) ................................................ 59Figura 25. Grafica de precisin y recuerdo en el reconocimiento de entidades mediante

    patrones ................................................................................................................................. 69

    Figura 26. OntoEspacio ........................................................................................................ 73

    Figura 27. Grfica de precisin y recuerdo para el poblado ontolgico ............................... 74

    Figura 28. Precisin de las herramientas .............................................................................. 88

    Figura 29. Exhaustividad de las herramientas ...................................................................... 88Figura 30. Precisin y Exahustividad interpoladas .............................................................. 88

    http://c/Users/TOSHIBAATHLON%202%20DUAL/Desktop/Titulacion/Tesis%20Juan%20Diego%20(RevFinal).docx%23_Toc340912107http://c/Users/TOSHIBAATHLON%202%20DUAL/Desktop/Titulacion/Tesis%20Juan%20Diego%20(RevFinal).docx%23_Toc340912108http://c/Users/TOSHIBAATHLON%202%20DUAL/Desktop/Titulacion/Tesis%20Juan%20Diego%20(RevFinal).docx%23_Toc340912108http://c/Users/TOSHIBAATHLON%202%20DUAL/Desktop/Titulacion/Tesis%20Juan%20Diego%20(RevFinal).docx%23_Toc340912107
  • 7/25/2019 trabajo rna

    10/98

    IX

    Tablas

    Tabla 1 Ccomparativa entre enfoques .................................................................................. 33

    Tabla 2. Comparativa entre herramientas ............................................................................. 40

    Tabla 3. Formato de las entidades espaciales en textos de noticias ..................................... 43

    Tabla 4. Actividades planeadas en el plan de pruebas ......................................................... 63

    Tabla 5. Resultados en el reconocimiento de entidades espaciales ...................................... 69

    Tabla 6. Pruebas de anfora lingstica ................................................................................ 70

    Tabla 7. Resultados en el poblado ontolgico ...................................................................... 73

    Tabla 8. Comparativa entre herramienta para la extraccin de entidades ............................ 87

  • 7/25/2019 trabajo rna

    11/98

    Captulo 1. Introduccin

    En este captulo se presentan los principales temas que llevaron a la realizacin de estatesis, tales como, los objetivos, limitaciones y la metodologa de solucin propuesta pararealizar el poblado de la ontologa espacial.

  • 7/25/2019 trabajo rna

    12/98

    Captulo 1.- Introduccin

    Juan Diego Gmez Fierros 2 | P g i n a

    1.1

    Motivacin

    El uso de ontologas en diferentes tareas ha tenido un crecimiento acelerado, es por elloque se necesita crear ontologas de forma rpida y precisa. El desarrollo de esta tarea de

    manera manual implica altos costos y consume bastante tiempo al desarrollador de stas oal experto del dominio. Por lo tanto, surge la idea del aprendizaje semiautomtico yautomtico de elementos ontolgicos, esta idea se propone como solucin a los problemasque origina la creacin manual de ontologas.

    El proceso de creacin semiautomtico de ontologas tambin llamado aprendizajeontolgico involucra varias actividades, las cuales se pueden simplificar en: a) encontrar lostrminos relevantes del dominio (clases) y las relaciones taxonmicas entre ellas; b)establecer las relaciones no taxonmicas entre las clases; c) encontrar las instancias de lasclases y las relaciones. Este proceso ha sido un campo de estudio para varias

    investigaciones que intentan obtener ontologas a partir de texto.

    En el cenidet, en el grupo de Tecnologas Web se est desarrollando un proyecto dondeel objetivo principal es la extraccin y recuperacin de informacin a partir de ontologas.Una parte importante de este proyecto es la transformacin de la informacin contenida enun texto a una ontologa y utilizar esta ltima para la extraccin y recuperacin deinformacin.

    1.2

    Planteamiento del problema

    En (Reyes, 2011) el objetivo principal es disear una metodologa para la creacin deontologas de dominio a partir de texto no estructurado mediante el Procesamientoautomtico del lenguaje natural, con un enfoque lingstico. En este trabajo se hadesarrollado una ontologa llamada OntoEvento que representa la conceptualizacin deun evento para abordar esta problemtica.

    La conceptualizacin de un evento est fundada prcticamente en tres aspectos:

    Espacio: todo evento sucede en algn lugar, (Miller, 1999)

    Tiempo: todo evento transcurre en un intervalo de tiempo (Descls, 2010)

    Agentividad: la mayora de los eventos son realizados por algn ente animado oinanimado. (Tesnire, 1976) y (Halliday, 1994)

    Por lo tanto, en este trabajo de tesis se pretende abordar los problemas relacionados alreconocimiento de entidades espaciales, para instanciar la ontologa OntoEvento en su partede espacialidad.

  • 7/25/2019 trabajo rna

    13/98

    Captulo 1.- Introduccin

    Juan Diego Gmez Fierros 3 | P g i n a

    Utilizando tcnicas de Procesamiento de Lenguaje Natural (PLN) y un anlisislingstico profundo de los textos para la extraccin de los elementos espaciales relevantes.

    1.3

    Objetivos

    En esta seccin se presenta el objetivo principal y los objetivos particulares de estatesis.

    1.3.1 Objetivo principal

    El objetivo principal de este trabajo de tesis consiste en:

    Desarrollar una metodologa que permita identificar informacin espacial de un texto noestructurado para instanciar la ontologa OntoEvento

    1.3.2 Objetivos particulares

    Identificar y extraer conceptos relacionados a eventos.

    Identificar y extraer conceptos relacionados al lugar donde sucede un evento.

    Implementar los mtodos propuestos en (Reyes, 2011a) para tratamiento deelipsis y anfora.

    Desarrollar una herramienta que implemente la metodologa creada.

    Evaluar los resultados de la extraccin de la informacin.

    1.4 Alcances y limitaciones

    1.4.1

    Alcances

    La metodologa slo identifica lugares y eventos.

    Se identifican eventos de tipo verbo y eventos nominalizados.

    Se consideran los fenmenos de elipsis y anfora.

    Se desarroll una herramienta que implementa la metodologa.

    Se instancia OntoEvento en la clase de espacio y evento.

    Se evaluaron los resultados con la intervencin de un experto.

  • 7/25/2019 trabajo rna

    14/98

    Captulo 1.- Introduccin

    Juan Diego Gmez Fierros 4 | P g i n a

    1.4.2

    Limitaciones

    Los textos de los que se extrae la informacin para tomar los conceptosespaciales son de tipo periodstico, no se toman en cuenta otros dominios.

    Los textos se encuentran en formato de texto plano. La ontologa resultante slo contiene informacin relacionada con lugares y

    eventos

    Slo se obtiene la ontologa espacial de documentos en idioma espaol.

    No se considera la informacin temporal ni causal

    1.5

    Organizacin de la tesis

    En el captulo uno se muestra la principal motivacin, planteamiento del problema,objetivos, metodologa de solucin, alcances y limitaciones a los que se acot la tesis,mostrando las principales ideas y la solucin para poblar una ontologa.

    En el captulo dos se muestra el marco terico en el cual se explica el fundamentoterico necesario para el desarrollo de esta tesis como las ontologas, extraccin deinformacin, tcnica de PLN (Procesamiento de Lenguaje Natural) y los patroneslingsticos.

    En el captulo tres se observa el estado del arte, que es una recopilacin de diferentes

    trabajos los cuales fueron analizados para conocer las tcnicas utilizadas por otrosinvestigadores en la solucin de una problemtica similar a la presentada en esta tesis.

    En el captulo cuatro se describe el trabajo principal de esta tesis, se desglosa lametodologa desarrollada explicando cada una de las partes que la componen y como selleg a la conclusin de utilizar las diferentes herramientas y mdulos que la conforman,tambin se muestran imgenes del prototipo desarrollado explicando cada una de susfuncionalidades, insumos y salidas.

    En el captulo cinco se muestran las pruebas planteadas primeramente en un plan de

    pruebas, en el que se describen los pasos a seguir para la realizacin de cada una de estas,posteriormente se muestran los resultados obtenidos al aplicar cada una de las pruebasdefinidas.

    En el captulo seis se resumen todas las conclusiones obtenidas durante la realizacin deeste trabajo de tesis y se explican los trabajos futuros pendientes planteados durante larealizacin de la misma.

  • 7/25/2019 trabajo rna

    15/98

    Captulo 2. Fundamento terico

    En este captulo se presentan las diversas y principales definiciones, tcnicas y conceptosabordados como, tcnicas de PLN (Procesamiento de Lenguaje Natural), Extraccin deinformacin, aprendizaje ontolgico y patrones lingsticos, todo esto necesario para eldesarrollo de los mtodos que componen la metodologa de solucin.

  • 7/25/2019 trabajo rna

    16/98

    Captulo 2.- Fundamento terico

    Juan Diego Gmez Fierros 6 | P g i n a

    2.1

    Ontologas

    Despus del nacimiento de la Web Semntica, la cual se convirti en un gran avance,las ontologas se convirtieron en sinnimo para la solucin a muchos problemas sobre el

    hecho de que las computadoras no entienden el lenguaje humano: si hubiera una ontologaen la que todos los documentos fueran marcados con ella y adems cuente con agentescapaces de entender el marcado, los equipos finalmente seran capaces de procesar nuestrasconsultas de una manera ms eficiente. El xito de Google nos muestra que la misin no seha hecho realidad, se ve obstaculizada por la increble cantidad de trabajo extra que serequiere para la codificacin semntica intelectual del marcado (en comparacin consimplemente cargar una pgina HTML). Para disminuir este cuello de botella, el mbitopara el aprendizaje de ontologas ha surgido como un importante sub-campo de laingeniera de la ontolgica.

    Es ampliamente aceptado que las ontologas pueden facilitar la comprensin de texto yProcesamiento automatizado de los recursos textuales. Pasar de las palabras a los conceptosno slo mitiga los problemas de escasez de datos, pero tambin promete atractivassoluciones a la polisemia y la homonimia, encontrando conceptos no ambiguos que puedenmapearse para diversos usos, en lugar del uso de palabras posiblemente ambiguas.

    El trmino ontologa puede entenderse de diferentes formas y se ha utilizado en lafilosofa por muchos siglos. Por el contrario, la nocin de la ontologa en el mbito de lainformtica es ms reciente, pero ha sido utilizado de manera distinta a la expresada en loreferente a los detalles de la definicin (Biemann, 2005).

    2.2.1 Principales componentes del modelado de ontologas

    Las ontologas tienen los siguientes componentes que sirven para representar elconocimiento de algn dominio (Corcho, Fernndez, Gmez, & Lpez, 2003):

    Los conceptos son objetos o entidades, considerados desde un punto de vista amplio.Por ejemplo, en el dominio legal los siguientes trminos son utilizados como conceptos:

    persona fsica, tribunal, menor de edad, etc.Los conceptos de una ontologa estn normalmente organizados en taxonomasen las

    cuales se pueden aplicar mecanismos de herencia. Por ejemplo, se puede representar unataxonoma de entidades legales, donde una persona jurdica es subclase de persona, unacompaaes subclase depersona jurdica, una compaa privadaes subclase de compaa,etc.

  • 7/25/2019 trabajo rna

    17/98

    Captulo 2.- Fundamento terico

    Juan Diego Gmez Fierros 7 | P g i n a

    Las relaciones representan un tipo de asociacin entre conceptos del dominio. Si larelacin une dos conceptospor ejemplo, la relacinse celebra enque une unjuzgadoy unjuiciose denomina relacin binaria. Una relacin binaria relevante es Subclase-de, ya quese utiliza para construir taxonomas de clase.

    Las instancias se utilizan para representar individuos en la ontologa. Ejemplos deinstancias del concepto tribunal son la Audiencia Estatal de Mxico o el TribunalConstitucional. Las relaciones tambin se pueden instanciar. Por ejemplo, se podraexpresar que en la Audiencia estatal de Mxico se celebra el juicio 127/2004.

    Las constantesson valores numricos que no cambian en un largo perodo de tiempo.Por ejemplo, en Espaa la edad de mayora de edades de 18 aos.

    Los atributos describen propiedades. Se pueden distinguir dos tipos de atributos: deinstancia y de clase. Los atributos de instanciadescriben propiedades de las instancias delos conceptos, en las cuales toman su(s) valor(es). Estos atributos se definen en un conceptoy se heredan a sus subconceptos e instancias. Por ejemplo, el nombre de una persona fsicaes propio de cada instancia.

    Los atributos de clasedescriben conceptos y toman su(s) valor(es) en el concepto en elcual se definen. Estos atributos no se heredan ni a los subconceptos ni a las instancias. Unejemplo es el atributo tipo de controldel concepto compaa, que puede ser utilizado paradeterminar el tipo de control de una compaa privada, de una compaa pblicay de unacompaa de control privado y pblico.

    Losaxiomasformales son expresiones lgicas siempre verdaderas que suelen utilizarse

    para definir restricciones en la ontologa. Un ejemplo de axioma es que una persona nopuede ser el demandado y el demandante en el mismo juicio.

    Las reglas se utilizan normalmente para inferir conocimientos en la ontologa, talescomo valores de atributos, instancias de relaciones, etc. Un ejemplo de una regla es lasiguiente: un juicio donde el acusado es un menor de edad que tiene ms de 14 aos secelebra en un tribunal de menores.

    Para ejemplificar los elementos de una ontologa se muestra la figura 1 que presenta unaontologa en el dominio de instrumentos musicales.

    De esta ontologa se puede identificar los siguientes elementos: la clase instrumentosmusicales, la cual tiene dos subclases instrumentos de vientoe instrumentos de cuerda; larelacin taxonmica subclase_de entre instrumentos de vientoe instrumentos musicalesyla relacin es_unque conecta los conceptos instrumentos de vientoe instrumentos de metal;y por ultimo una instancia de la clase instrumentoscon trasteque esLa guitarra de Paul.

  • 7/25/2019 trabajo rna

    18/98

    Captulo 2.- Fundamento terico

    Juan Diego Gmez Fierros 8 | P g i n a

    Figura 1. Ejemplo de una ontologa

    Existen tres tipos fundamentales de ontologas segn (Steve, Gangemi, & Pisanelli.,1998):

    Ontologas de un dominio, en las que se representa el conocimiento especializadopertinente de un dominio o subdominio, como la medicina, las aplicaciones militares, lacardiologa.

    Ontologas genricas, en las que se representan conceptos generales y fundacionalesdel conocimiento como las estructuras parte/todo, la cuantificacin, los procesos o lostipos de objetos.

    Ontologas representacionales, en las que se especifican las conceptualizaciones que

    subyacen a los formalismos de representacin del conocimiento, por lo que tambin sedenominan meta-ontologas (meta-level o top-level ontologies).

    A estos tres tipos se aade las ontologas que han sido creadas para una actividad otarea especfica (denominadas task ontologies), como por ejemplo la venta de productos oel diagnstico de una enfermedad y las ontologas creadas para una aplicacin especfica.

    2.2.2 Aprendizaje de ontologas

    Una ontologa proporciona una estructura y un vocabulario comn para la organizacindel conocimiento de un dominio especfico, en la cual se encuentran todos los conceptosinterconectados a travs de relaciones.

  • 7/25/2019 trabajo rna

    19/98

    Captulo 2.- Fundamento terico

    Juan Diego Gmez Fierros 9 | P g i n a

    Por tanto el uso de las ontologas en el PLN nos permite representar la estructuraconceptual del lenguaje, proporcionando una riqueza semntica mayor que un lexicncomputacional o que un tesauro. La relacin que se establece entre las ontologas y lastcnicas de PLN es bidireccional: por un lado son herramientas para la representacin deredes semnticas y por otro el PLN es una tcnica importante en la construccin automtica

    de ontologas (ontology learning)

    Las ontologas se utilizan como redes semnticas que representan los conceptos delmundo extralingstico. De este modo, a travs de las relaciones entre los conceptos,permiten identificar el contexto de un trmino. La identificacin del contexto es esencialpara saber cul es el sentido de ese trmino en el discurso. Una de las aproximaciones deluso de PLN y las ontologas se centra en la construccin automtica de ontologas y en ladeteccin de los elementos ontolgicos (conceptos, clases, relaciones y atributos) a partir detexto en lenguaje natural.

    La construccin automtica de ontologas (ontology learning en ingls) se haconvertido en uno de los principales focos de investigacin dentro del mbito de la WebSemntica. Las ontologas en la Web Semntica se utilizan como estructura compleja parala representacin del conocimiento, generalmente de un dominio. Dicho conocimiento estcontenido en muchas ocasiones en textos escritos en lenguaje natural. La construccin deontologas es un proceso lento y costoso que ralentiza el avance de la Web Semntica, poresto es necesario desarrollar mtodos eficaces para la generacin automtica de ontologasa partir de lenguaje natural. El aprendizaje de ontologas tiene diferentes capas o sub-tareas(Cimiano, 2006), las cuales se describen a continuacin y se muestran en la figura 2.

    Adquisicin de terminologa relevante

    Identificacin de sinnimos (posiblemente a travs de lenguajes) Formacin de conceptos Organizacin jerrquica de los elementos Aprendizaje de relaciones, propiedades, atributos, junto con su respectivo rango

    y dominio Organizacin jerrquica de las relaciones

    Instanciacin de los axiomas del esquema Definicin de los axiomas arbitrarios

  • 7/25/2019 trabajo rna

    20/98

    Captulo 2.- Fundamento terico

    Juan Diego Gmez Fierros 10 | P g i n a

    Figura 2. Capas del aprendizaje ontolgico (Cimiano, 2006)

    Para los propsitos de la figura 2 se incluyen algunos ejemplos concretos para eldominio de la geografa, dentro del paso de adquisicin de terminologa se extraen lostrminos como, ros, ciudades, naciones, capitales, pas. En el paso de descubrimiento desinnimos se agrupan los trminos nacinypasque en un cierto contexto son sinnimos.En la fase de descubrimiento de conceptos se hace una separacin entre las instancias y losconceptos o clases, para los cuales se crea una jerarqua de conceptos, por ejemplo en eldominio geogrfico se descubre que capital C ciudad.

    Tambin se ejemplifica el aprendizaje de relaciones junto con su dominio y su rangocon la relacin fluye_a_travs_de entre un rio y ciudad. La siguiente capa es el

    ordenamiento jerrquico de las relaciones que se ejemplifica con que capital_de es unaespecializacin de localizado_en. En el nivel de la instanciacin de axiomas del esquema sederiva que la clase rioy montaason conceptos disjuntos, es decir que ninguna instanciaque aparezca en la clase riopuede aparecer en la clase montaa. Finalmente, tambin sepueden derivar relaciones complejas entre los conceptos y las relaciones en forma deaxiomas, un ejemplo de esto es que cada instancia de la clase ciudad slo puede tenerasociada una nica capital.

    2.3

    Procesamiento del lenguaje natural (PLN)

    El Procesamiento del Lenguaje Natural (PLN) es una sub-disciplina de la InteligenciaArtificial y de la lingstica computacional. El PLN se ocupa de la formulacin einvestigacin de mecanismos eficaces computacionalmente para la comunicacin entrepersonas o entre personas y mquinas por medio del lenguaje natural.

    Sinnimos

    Conce tos

    Axiomas del esquema

    Jerar ua de relacionesRelaciones

    Trminos

    Axiomas

    Jerar ua de conce tos

    [pas, nacin]

    C:= pas

    Disjunta (rio, montaa)

    capital_de Rlocalizado_enfluye_a_travs_de (dom: rio, rango: ciudad)

    ro, ciudad, pas, capital

    toda ciudad tiene una nica capital

    capital cciudad

  • 7/25/2019 trabajo rna

    21/98

    Captulo 2.- Fundamento terico

    Juan Diego Gmez Fierros 11 | P g i n a

    El PLN trata de disear mecanismos para comunicarse que sean eficacescomputacionalmente. Los modelos aplicados se enfocan no slo a la comprensin dellenguaje de por s, sino a aspectos generales cognitivos humanos y a la organizacin de lamemoria. El lenguaje natural sirve slo de medio para estudiar estos fenmenos.

    El Procesamiento del Lenguaje Natural (PLN) puede ser visto como un intento desimular el comportamiento lingstico humano, de manera que, el sistema de signos queconstituye la lengua, sea adquirido y procesado por el computador, siendo ste capaz dereconocer, comprender, interpretar y generar lenguaje humano, ya sea escrito o hablado.Desde los aos 50, dentro del marco de la Inteligencia Artificial, se han llevado a cabonumerosas investigaciones con el objetivo establecer mecanismos computacionales quepermitieran la comunicacin eficaz hombre-mquina en lenguaje natural.

    Las primeras dcadas (50s - 70s) se caracterizaron por un optimismo inicial en el quese pretenda dotar a la mquina de competencia lingstica plena, pero los resultados

    obtenidos no fueron los esperados. Por este motivo, en las dcadas siguientes, hasta laactualidad, los esfuerzos se han centrado en el desarrollo de aplicaciones especficas, talescomo, el reconocimiento del habla, el procesamiento del texto a nivel morfosintctico, eldesarrollo de herramientas para la adquisicin de conocimiento semntico, etc.

    En el intento por la automatizacin de los procesos lingsticos han confluido distintasdisciplinas, tanto informticas como lingsticas, dando lugar a denominaciones quesintetizan esa hibricidad.

    ste es el caso de la lingstica computacional, que puede ser vista como un conjuntoheterogneo de teoras, mtodos, herramientas, aplicaciones y productos que tienen encomn la consideracin de la lengua como un objeto susceptible de ser tratado medianteprocedimientos informticos (Llisterri, 2003).

    En sus inicios el PLN se centr principalmente en tres reas: la traduccin automtica,el reconocimiento del habla y el acceso a bases de datos (Jackson & Schilder, 2006).Aunque estos tres elementos siguen siendo objeto de las investigaciones en PLN, a lo largode las dcadas y con el desarrollo de nuevas tecnologas como Internet, se han incorporadonuevos usos, entre ellos la recuperacin de informacin, los sistemas de dilogo, labsqueda de respuestas (question answering), extraccin de informacin o el resumenautomtico.

    Pero, a pesar de los avances contina sin resolver uno de los problemas nucleares en IA,esto es, cmo dotar a las mquinas de conocimiento suficiente del mundo extralingstico,de forma que sean capaces de producir oraciones con sentido pleno e inferir conocimientode ellas.

  • 7/25/2019 trabajo rna

    22/98

    Captulo 2.- Fundamento terico

    Juan Diego Gmez Fierros 12 | P g i n a

    Lo que se pretende con el desarrollo de las distintas tcnicas de procesamiento delenguaje natural, es el acercamiento a los mecanismos de funcionamiento de la lengua, alconjunto de operaciones y de reglas que relacionan todos y cada uno de los elementos delsistema de signos que es la lengua (Marn, 2000). No hay que olvidar a respecto a esto, losestudios pragmticos y socio-culturales que permiten enmarcar una determinada

    produccin textual en su contexto discursivo.

    Estos aspectos han sido estudiados por las distintas reas de la lingstica: fontica,morfologa, sintaxis, semntica y pragmtica, por tanto, los diferentes niveles o fases de lastcnicas empleadas para el procesamiento del lenguaje natural se corresponden, a grossomodo, con las reas ms arriba mencionadas. Adems, puede haber tareas previas deprocesamiento formal del texto, tales como la identificacin y segmentacin de lasunidades a analizar.

    Las disciplinas relacionadas con el PLN son:

    Lingstica:

    Ofrece una descripcin y modelizacin del lenguaje humano y de las lenguasnaturales.

    Proporciona teoras, herramientas y tcnicas para el Procesamiento automtico de lalengua.

    Informtica

    Proporciona teoras, herramientas y tcnicas para el Procesamiento automtico de la

    lengua.

    Inteligencia artificial

    Desarrollo de sistemas informticos que simulan el comportamiento humano.

    Adquisicin de conocimientos.

    Razonamiento a partir de los conocimientos adquiridos.

    Representacin de los conocimientos adquiridos.

    Ingeniera de telecomunicacin

    Centrada en la transmisin y el Procesamiento de la seal del habla.

    Psicologa

    Proporciona una descripcin y modelizacin de la interaccin y del comportamientolingstico humano.

  • 7/25/2019 trabajo rna

    23/98

    Captulo 2.- Fundamento terico

    Juan Diego Gmez Fierros 13 | P g i n a

    2.3.1

    Clasificacin del PLN en funcin de los niveles de anlisis lingstico

    Las fases o niveles de procesamiento no son independientes unas de otras, sino queestn interrelacionadas. A medida que se va avanzando en el anlisis, ser necesario

    recurrir al conocimiento extrado en niveles anteriores, e incluso posteriores.

    Por ejemplo, para la desambiguacin de las categoras morfolgicas es necesariorecurrir a la sintaxis para determinar la funcin de un trmino en la oracin. Por otro ladoaunque el procesamiento en los niveles inferiores como el anlisis morfolgico y ladesambiguacin han alcanzado cotas aceptables de eficacia, no se puede decir lo mismo deniveles superiores como la semntica y la pragmtica debido a su complejidad.

    Las fases o niveles del procesamiento del lenguaje natural son los siguientes (Figura 3):

    Figura 3. Niveles del Procesamiento de Lenguaje Natural (Castellanos, Fernndez, & Valencia, 2008)

  • 7/25/2019 trabajo rna

    24/98

    Captulo 2.- Fundamento terico

    Juan Diego Gmez Fierros 14 | P g i n a

    Pre-procesamiento textual: Consiste en identificar las partes que lo forman ydividirlas adecuadamente para el anlisis. Las principales partes del texto que se suelenidentificar son: las palabras, las oraciones y los prrafos. Se pueden distinguir tambinelementos como encabezados, notas al pie, hipervnculos, etc.

    Si se trata de un texto escrito, sta es la primera parte del anlisis, si por el contrario setrata de discurso oral, ser necesario utilizar en primer lugar el procesamiento fontico.

    Procesamiento fontico: la fontica se encarga de la descripcin de las dimensionesfsico-acsticas, articulatorias y auditivas de los sonidos del lenguaje. Esta parte esnecesaria para el desarrollo de tecnologas del habla.

    Procesamiento lxico-morfolgico: La morfologa estudia la estructura de la formade las palabras, bsicamente a travs del uso de morfemas (flexivos y derivativos).Basndose en esos morfemas y en la posicin que ocupan con respecto al lexema, sepueden determinar aspectos como el tiempo, el gnero, el nmero, el grado etc. Por otrolado, el procesamiento morfolgico clasifica las unidades lingsticas en las distintascategoras gramaticales: sustantivo, verbo, adjetivo, adverbio, etc.

    Procesamiento sintctico: La sintaxis estudia las relaciones que se establecen entrelas palabras dentro de la oracin y las reglas que rigen estas relaciones. Para elprocesamiento sintctico es necesario contar con los patrones sintcticos ms frecuentes enuna lengua determinada.

    Se suele recurrir a un corpus anotado sintcticamente en donde los patrones han sidorepresentados en forma de arborescencia.

    Procesamiento semntico: La semntica es el estudio del significado del lenguaje,por lo que con el procesamiento semntico se intenta establecer la relacin que existe entrelas formas lingsticas analizadas y el sentido con el que estn utilizadas en una secuenciatextual determinada.

    Procesamiento pragmtico: La pragmtica estudia las estrategias comunicativasenmarcndolas en un contexto socio-cultural. Uno de los principales problemas con los quese enfrenta el procesamiento pragmtico es la anfora.

    2.4

    Extraccin de informacin

    El considerable desarrollo de la comunicacin multimedia va de la mano con unaumento exponencial del volumen de la informacin textual.

  • 7/25/2019 trabajo rna

    25/98

    Captulo 2.- Fundamento terico

    Juan Diego Gmez Fierros 15 | P g i n a

    Hoy en da, las tecnologas de recuperacin de informacin (RI) no son capaces desatisfacer las necesidades de informacin especfica, ya que proporcionan informacin anivel de coleccin de documentos. El desarrollo de herramientas inteligentes y mtodos,que dan acceso al contenido del documento y extraer la informacin pertinente, es ms quenunca una cuestin clave para el conocimiento y la gestin de la informacin. La

    Extraccin de informacin es una de las principales lneas de investigacin que tratan desatisfacer esta necesidad.

    El campo de la Extraccin de informacin se inici por el DARPAs MUC program(Grishman & Sundheim, 1996). MUC defini originalmente la extraccin de informacin yla tarea de extraccin de los tipos especficos y bien definidos de informacin del texto enlos conjuntos homogneos de documentos con dominios restringidos y espaciospredefinidos a rellenar o plantillas de formularios con la informacin extrada.

    MUC tambin ha dado lugar a una nueva evaluacin del paradigma: comparar la

    informacin extrada de forma automtica con los resultados producidos por el hombre.MUC ha inspirado una gran cantidad de trabajos en Extraccin de informacin y se haconvertido en una referencia importante en el campo de la minera de textos. Incluso, siguesiendo una tarea difcil construir un sistema eficiente de Extraccin de informacin conbuenos rangos de memoria (cobertura) y de precisin (exactitud) (Aone & Ramos, 2000) y(Aussenac, Bibow, & Szulman, 2000).

    Una tpica tarea de Extraccin de informacin se ilustra en la Figura 3 de un corpus deun anuncio para un seminario CMU Freire 1998. EI proceso reconoce un nombre (JohnSkvoretz) y lo clasifica como unnombre de persona.

    Tambin se reconoce un evento de seminario y se crea un formulario de eventosseminario (John Skvoretz es el ponente de seminarios cuya presentacin se titula"Compromiso Embebido" (Embedded commitment). Incluso en un ejemplo tan sencillo,no debe considerarse como un simple mtodo de filtrado de palabras claves. Llenar unformulario con palabras extradas y fragmentos de texto implica un proceso deinterpretacin.

    Cualquier fragmento debe interpretarse con respecto a su "contexto" (es decir, elconocimiento del dominio o de otras piezas de informacin extrada del mismo documento)y de acuerdo a su "tipo" (es decir, la informacin es el valor de un atributo / funcin / rolrepresentado por un valor del formulario). En el documento de la Figura 4, "4-5:30" seentiende como un intervalo de tiempo y es necesario interpretar el "4" como "4 pm" y comoel tiempo de inicio del seminario.

  • 7/25/2019 trabajo rna

    26/98

    Captulo 2.- Fundamento terico

    Juan Diego Gmez Fierros 16 | P g i n a

    Figura 4. Ejemplo de anuncio de un seminario Ontologies and Information Extraction

    En un tpico sistema de Extraccin de informacin, se pueden identificar tres pasos del

    proceso (Hobbs, y otros, 1997) y (Cowie & Wilks, 2000):

    Pre-procesamiento de texto, cuyo nivel vara de segmentacin del texto slo enfrases y oraciones mediante tokens, a un anlisis lingstico completo.

    Seleccin de reglas: las reglas de extraccin estn asociadas con disparadores(por ejemplo palabras clave), el texto se analiza para identificar los puntos dedisparo y las normas correspondientes se seleccionan.

    Aplicacin de las reglas, se comprueban las condiciones de la reglaseleccionada y se rellenan los formularios de acuerdo a las conclusiones de lasnormas de coincidencia de datos.

    Extraer informacin de los textos requiere conocimientos lxicos, gramticas quedescriben la sintaxis especfica de los textos a analizar, as como conocimientos semnticosy ontolgicos. En este punto, no se tomar parte en el debate sobre el lmite entre el lxicoy la ontologa como un modelo conceptual.

    Ms bien se centra en el papel que las ontologas juegan para considerarse como basesde conocimiento semntico en la Extraccin de informacin y el uso de ontologas para laExtraccin de informacin, las cuales estn enriquecidas por el conocimiento conceptual,esto se refiere a su elaboracin lingsticas (por ejemplo, un concepto debe estar asociado a

    los trminos que lo expresan con su valor de tiempo en varios idiomas) (Ndellec &Nazarenko, 2005).

    Formulario para rellenar(parcial)lugar: ?hora de inicio:?ttulo: ?ponente: ?

    Documento:El profesor John Skvoretz, U. de Carolina del Sur, Columbia, presentar un seminariotitulado "Compromiso embebido", el jueves, 4 de mayo de 4-5:30 en el PH 223D.

    Llenado de formulario (parcial)

    lugar: PH 223Dhora de inicio: 4 pmTtulo: compromiso embebido

  • 7/25/2019 trabajo rna

    27/98

    Captulo 2.- Fundamento terico

    Juan Diego Gmez Fierros 17 | P g i n a

    2.5

    Patrones lingsticos

    Al expresarnos utilizamos una serie de estructuras lingsticas con las que organizamosnuestro discurso y que ayudan al receptor a asimilar la informacin conceptual que

    emitimos. Por lo tanto, si encontramos estas estructuras, que llamaremos patrones, y lasintroducimos en un programa de extraccin de informacin como WordSmith (Scott, 2011),nos aportarn la informacin requerida.

    El uso de patrones lingsticos para la extraccin de relaciones conceptuales es bastantereciente en terminologa por lo que todava no posee una denominacin establecida. Poreso, cabe destacar las diferentes maneras con las que los diversos autores han designado loque nosotros llamamos en este trabajo patrones lingsticos, como por ejemplo ladenominacinpatternsque utiliza el grupo cognitermdirigido por (Meyer, 2001).

    El siguiente listado de trminos ha sido tomado de (Marshman, Morgan, & Meyer,2002): formulae (Lyons, 1977), diagnostic frames o test frames (Cruse, 1986), frames(Winston et al, 1987), knowledge probes (Ahmad & Fulford, 1992), definitionalmetalanguagey defining expositives (Pearson, 1998). En espaol, se destaca a (Bach, 2005)que utiliza la denominacin de marcadores de reformulacin(MR) y (Faber, Rodrguez, &Snchez, 2001) que utiliza el trmino patrones. A pesar de las diferentes denominaciones,todos los autores se refieren al mismo concepto que (Condamines, 2002) llama marqueursen francs opatternsen ingls y la define como:

    Una estructura discursiva utiliza como un indicador de la posible transicin del discursoa un modelo, lo que permite la construccin semi-directa de un modelo en forma de unarelacin semntica dependiendo de su relacin con el contexto.

    De una manera ms sencilla, (Marshman, Morgan, & Meyer, 2002) los definen comoPalabras, combinaciones de palabras o elementos paralingsticos de los textos que amenudo indican relaciones conceptuales. A partir de esta definicin, estas autoras sealanen ese mismo artculo que existen tres tipos de patrones lingsticos para la deteccin decontextos ricos en conocimientos:

    1) Patrones lxicos.Son los ms visibles y consisten en palabras o grupos de palabrasque indican las relaciones conceptuales.

    2) Patrones gramaticales. Implican combinaciones de estructuras gramaticales queofrecen relaciones semnticas entre conceptos aunque de un modo ms limitado que lospatrones lxicos.

    3) Patrones paralingsticos. Se trata de los elementos textuales como por ejemplocomas, parntesis, puntos, etc. As como marcas tipogrficas.

  • 7/25/2019 trabajo rna

    28/98

    Captulo 2.- Fundamento terico

    Juan Diego Gmez Fierros 18 | P g i n a

    En resumen, gracias a estos patrones de conocimiento, el terminlogo es capaz dedetectar, de una manera rpida y eficaz, las relaciones semnticas y las estructuraslingsticas que ayudaron en este trabajo de tesis.

    2.6

    Espacialidad y eventos

    2.6.1

    Espacialidad

    A lo largo de la historia del pensamiento humano, hubo numerosos intentos de describirel concepto de espacio. Se enmarcaban en diversas ramas de las ciencias empezando porfilosofa, lgica, fsica, matemtica, astronoma, geometra, etc. Posteriormente este intersse extendi a otras materias cientficas como: psicologa, antropologa, arte o literatura.Empezando por la filosofa que, al parecer, fue una de las primeras ramas cientficas que

    abord el tema desde el punto de vista cientfico, ya con Aristteles (384-322 a.C.)encontramos las primeras menciones sobre el espacio definido junto con el tiempo como unconjunto interdefinible. Este gran filsofo sostena que no se puede medir el tiempo sin elmovimiento, ni el movimiento sin el espacio (Barbosa, 1807) y (Ferrater M, 1974). Laimagen del espacio y movimiento que plante Aristteles tuvo su continuacin en la fsicadel siglo XIV. Posteriormente, con la crtica de sus teoras, se propusieron tambin otrasideas de filsofos griegos (Pitgoras, Arqumedes, etc.) que dieron lugar a unas nuevasmetodologas cientficas que fueron mucho ms prcticas y aplicables: Coprnico (1473 1642), Galileo (15641642), Kepler (15751630), etc.

    Dentro de las tendencias actuales podemos observar que se presta cada vez msatencin al fenmeno relacionado con varias categoras espaciales que constituyen las basespara la descripcin de la realidad que nos rodea. Sin embargo, estos conceptos no son nadanuevos. Ya hace bastante tiempo, Genettereflexionaba sobre la espacialidad de la lengua,de las ideas o del arte, llegando a la conclusin que la gente prefiere conceptualizar ms

    el espacio que el tiempo. La fascinacin por la nocin del espacio, llev a muchoslingistas a explicar conceptos gramaticales bsicos (tales como p. ej. los casos) comoconsecuencia de la visin del mundo a travs del aspecto espacial.

    La geometra y la lgica son impotentes para describir a fondo los locativos espaciales.

    Aunque un da se pueda demostrar la existencia de algn tipo de inteligencia especfica dellenguaje, ser irrefutable que la inteligencia general juega un papel importante en laelaboracin de los mecanismos del lenguaje. De ah el paralelo establecido entre la maneraen que concebimos y percibimos el espacio y la manera en que lo describimoslingsticamente. (Vandeloise, 1986: 23-30) hace un intento de describir los locativos enrelacin con los conceptos funcionales ligados al conocimiento extralingstico del espacioque comparten los hablantes de una misma lengua.

  • 7/25/2019 trabajo rna

    29/98

    Captulo 2.- Fundamento terico

    Juan Diego Gmez Fierros 19 | P g i n a

    2.6.1.1

    Espacialidad en textos

    El rasgo principal de la estructura semntica de la localizacin espacial constituye elmecanismo lingstico usado para indicar el lugar que no puede venir identificado por s

    mismo, sino que tiene que ser siempre identificado en relacin a un objeto. Ocurre que paralocalizar en el espacio necesitamos un objeto localizante, un objeto localizado y unelemento relacionante. Ese elemento relacionante (locativo espacial), ha acogidotradicionalmente a categoras tan diversas como adverbios, preposiciones, locucionesprepositivas y prefijos, recibiendo ltimamente un nuevo tratamiento gracias a la aplicacinde una perspectiva dectica y/o intrnseca. El mecanismo de la localizacin supone que elobjeto y el lugar donde est son conocidos. Los locativos tambin pueden ser usados paraidentificar el objeto en relacin con el cual viene despus identificado un lugar. Elsignificado de un locativo es la relacin especfica entre el lugar y el objeto. Esta relacinslo puede ser descrita tomando en consideracin la estructura semntica del objeto.

    Este tipo de taxonoma relacional ha sido defendida por varios lingistas: Hjemslev(1935), Tesnire (1959), Fillmore (1968), Dowty (1979), Karolak (2001), etc. De acuerdocon los supuestos presentados por estos lingistas, el lenguaje est concebido a travs delos papeles relacionantes, es decir, casos semnticos que desempean sus funciones dentrode la estructura sintagmtica en la identificacin del valor de los actantes del predicado.Entre los casos enumerados por FILLMORE, figura tambin uno que corresponde a ladescripcin de relaciones espaciales (locativo). La semntica espacial ha sido abordadaposteriormente por muchos semanticistas y caus varias polmicas, puesto que ladeterminacin de un conjunto homogneo de los papeles temticos siempre llevaba a la

    elaboracin de teoras difcilmente conciliables. Adems, el intento de seleccin de loscriterios uniformes lleva a la conclusin de que existe un nmero limitado de los papelestemticos y que las funciones semnticas son universales puesto que su valor est definidoen funcin de acciones, eventos psicolgicos, acontecimientos sometidos a algn tipo demodificacin o movimiento, as como de situaciones que se localizan en un determinadoespacio o tiempo.

    2.6.2

    Eventos

    Los documentos de noticias contienen informacin valiosa representada en lenguajenatural, tal como eventos, sucesos y hechos, as como informacin contextual del evento(informacin temporal, espacial y causal) que describe las caractersticas y comportamientode la accin en el mundo real.

  • 7/25/2019 trabajo rna

    30/98

    Captulo 2.- Fundamento terico

    Juan Diego Gmez Fierros 20 | P g i n a

    En el trabajo de (Reyes, 2011) se realiza una caracterizacin de los eventos quedescriben las noticias escritas con el objetivo de capturar la semntica de las oraciones delos textos periodsticos.

    2.6.2.1

    Caractersticas de los eventos

    Un evento puede estar descrito por un predicado (verbo) de una oracin o por unanominalizacin, como se puede ver en el siguiente ejemplo.

    Los bomberos encontrarona una seora en la provincia de Fukushima.

    (Verbo)La erupcinde volcn en Hawi.

    (Nominalizacin)

    Los eventos se clasificarn en dos tipos, eventos expresados por verbos y eventosexpresados por nominalizacin, los cuales se caracterizan de manera independiente.

    Eventos expresados por verbos

    Estos eventos se expresan por los verbos principales, conjugados en algn tiempo(pasado, presente y futuro), en una oracin. Existen teoras de lingistas como L. Tesnire yM.A.K. Halliday que se exponen en (Fras, 2001), y donde se afirma que el verbo es elncleo sobre el que giran todos los elementos de la oracin, tomando en cuenta estesupuesto, los verbos se convierten en el ncleo de los eventos y con esto surge la necesidad

    de utilizar un mecanismo que considere las valencias de los verbos para encontrar susargumentos.

    La caracterizacin de este tipo de eventos se centrar en la gramtica de valencias deTesnire que se expone en (Fras, 2001) y que se define como una teora en donde el verboes el elemento fundamental en una oracin y que sirve de columna vertebral al resto desta.

    Los principios de la teora de las valencias, son:

    a)

    Principio actancial. El elemento ms importante de una oracin es la accin(verbo) que es considerado el centro de la oracin y es el que dirige a losactores (actantes). Segn este principio, los verbos se distinguen segn el tipo ynmero de valencias que necesitan. Por tanto, los actantes del verbo (susvalencias necesarias) varan entre verbos segn su significado.

  • 7/25/2019 trabajo rna

    31/98

    Captulo 2.- Fundamento terico

    Juan Diego Gmez Fierros 21 | P g i n a

    b)

    Valores actanciales de los verbos. Los verbos en espaol tiene asignado unnmero de valencia. Por lo tanto tenemos: verbos avalentes (sin actantes),como llover, nevar, tronar (verbos de tiempo atmosfrico), ser (en expresionescomo ser tarde, ser necesario, ser lcito, etc.), haber (con valor impersonal);verbos monovalentes (requieren un actante), como ir, venir, llegar, salir;

    verbos bivalentes que requieren necesariamente dos actantes, es decir, sieliminamos el segundo, el verbo se queda mutilado en cuanto a su significado,como romper, comer ; verbos trivalentes que requieren tres actantes, comoponer, dar.

    c) Elementos de los actantes. Los actantes que participan en una oracin puedenclasificarse segn L. Tasnire, en: a) actor: se identifica con el elemento delque arranca el proceso; responde al rasgo [+animado][+/-humano]. Suelecorresponderse con el sujeto; b) agente: responde al mismo fenmeno que elactor, pero con el sema [-animado]; c) objeto: se identifica con el elemento quecomplementa el significado del proceso y su sema principal es [-animado]; d)

    paciente: se identifica en todo con el objeto, con la diferencia de que respondeal sema [+animado]; e) beneficiario: se identifica con aquel que recibe losbeneficios o perjuicios de la accin, tiene el sema [+animado].

    Eventos expresados por nominalizacin

    Los eventos por nominalizacin se encuentran expresados por un verbo nominalizadotambin conocido como sustantivacin.

    La nominalizacin, consistente en la creacin de derivados nominales por sufijacin,

    puede ser denominal, deadjetival y deverbal. Este trabajo tiene un especial inters en lanominalizacin deverbal, la cual se forma con un verbo ms un sufijo. Este inters se debea la posibilidad de que un evento se encuentre expresado por una nominalizacin que a suvez proviene de un verbo.

    Segn (Hernando, 1998) define la formacin de la nominalizacin deverbal y lanominalizacin deverbal regresiva, como:

    La nominalizacin deverbal (N -V + Afn) la efectan los sufijos -ada (helada), -ado(lavado), -aje (viraje), -(a, e)ncia (vagancia, asistencia), -(a, ie)nte (delineante,

    escribiente), -anza (cobranza), -(a, i)cin (recaudacin, fundicin), -(ad, id)era (regadera,

    escupidera), -(ed)eras (entendederas), -(ad, ed, id, and)ero (embarcadero, tendedero,

    hervidero, curandero), -(ad, ed, id)or (encuadernador, recogedor, surtidor), -(ad)ora

    (lavadora), -(ad, ed, id)ura (atadura, torcedura, aadidura), -(at)oria (eliminatoria), -ida

    (salida), -ido (ladrido), -(a, i)m(i)ento (juramento, acercamiento, atrevimiento), -imenta

    (impedimenta), -n (tirn), -sin (comprensin), -ura (rotura).

  • 7/25/2019 trabajo rna

    32/98

    Captulo 3. Estado del arte

    En este captulo se presentan diversos trabajos relacionados con el aprendizaje ontolgico,la recuperacin y la extraccin de informacin, los patrones lingsticos y finalmente semuestran las diferentes herramientas existentes actualmente para la identificacin deentidades espaciales en textos.

  • 7/25/2019 trabajo rna

    33/98

    Captulo 3.- Estado del arte

    Juan Diego Gmez Fierros 23 | P g i n a

    3.1

    Introduccin

    Para los usuarios de la web en todo el mundo la recuperacin de informacin se haconvertido en una actividad cotidiana. Sin embargo, los usuarios no siempre reciben la

    informacin esperada al momento de realizar una bsqueda en la Web. Una razn de estoes que los recursos web existentes son pocas veces complementados con la anotacinsemntica que describen su contenido, lo que hara ms fcil el acceso a los servicios debsqueda automatizada (Gaihua, Jones C, & Abdelmoty, 2005).

    La Extraccin de Informacin (en ingls Information Extraction) es el campo delProcesamiento del Lenguaje Natural cuyo objetivo es extraer de forma automtica deconocimiento estructurado, habitualmente dependiente del contexto, a partir de informacinexistente en texto no estructurado en lenguaje natural, con el fin de mejorar su explotaciny reutilizacin. Normalmente, como primer paso del proceso de extraccin est el

    reconocimiento de entidades con nombre (en ingls Named Entity Recognition, NER),tambin conocido como identificacin de entidades o extraccin de entidades, que consiste,como su propio nombre indica, en la deteccin y clasificacin de los elementos del texto encategoras predefinidas, como nombres de personas, organizaciones, lugares, expresionesnumricas, de tiempo, etc., que aparecen mencionadas en un texto escrito en undeterminado idioma. Esta actividad tambin se suele denominar: etiquetado semntico.

    La dificultad de la deteccin estriba en que dichas entidades pueden aparecer endiferentes formas: por ejemplo, "Antonio Banderas" => "Banderas", "A. Banderas", "JosAntonio Domnguez Banderas", etc.; "Banco Santander Central Hispano" => "BancoSantander", "Santander", "Grupo Santander", etc.

    Adems, una vez detectadas, surge el problema de la ambigedad para su clasificacin,ya sea entre diferentes categoras o dentro de una misma categora: por ejemplo, "Sevilla"puede ser la ciudad, el equipo de ftbol, etc.

    La aproximacinampliamenteadoptada est basada en conocimiento, es decir, utilizadiccionarios y conjuntos de reglas, normalmente desarrollados de forma manual, pararealizar la deteccin y la clasificacin. Bsicamente, las reglas aplican patrones deexpresiones regulares a las entidades del diccionario para generar las diferentes variantesposibles en que puede aparecer una entidad, como por ejemplo:

    (N)ombre (A)pellido => Nombre / Apellido / N. Apellido / Nombre A. / N. A.

    Fernando Alonso => Fernando / Alonso / F. Alonso / Fernando A. / F. A.

    (A)aaa (de|del|la|los|las)? (B)bbb (de|del|la|los|las)? (C)cc (de|del|la|los|las)? (D)ddd=> ABCDOrganizacin de Pases Exportadores de Petrleo => OPEP

  • 7/25/2019 trabajo rna

    34/98

    Captulo 3.- Estado del arte

    Juan Diego Gmez Fierros 24 | P g i n a

    Existen varias propuestas para automatizar el proceso de construccin de ontologas, lascuales tienen algunas caractersticas en comn diferencindose entre ellas por factoresdistintivos muy precisos. Esta seccin presenta el estado del arte sobre mtodos, tcnicas,sistemas y herramientas que han sido desarrolladas en el rea de aprendizaje de ontologas,de las cuales se analizan sus caractersticas.

    3.2 Enfoques para aprendizaje ontolgico

    Los enfoques de aprendizaje ontolgico se pueden clasificar de acuerdo a los tipos dedatos utilizados para el aprendizaje (Gomez & Manzano, 2003) y (Shamsfard &Barforoush, 2003). Estos tipos de datos son: no estructurados, semi-estructurados yestructurados. Los datos no estructurados son los textos en lenguaje natural, como libros,revistas, etc.

    Datos Semi-estructurados son textos como HTML, archivos XML. Mientras que losdatos estructurados son las bases de datos y diccionarios. Nos vamos a concentrar en elaprendizaje ontolgico en datos de tipos no estructurado y semi-estructurado.

    Los datos no estructurados son el tipo de datos ms difcil para el aprendizajeontolgico. Se necesita ms capacidad de procesamiento que en los datos semi-estructurados.

    Los sistemas que se han propuesto para el aprendizaje a partir de texto no estructurado,

    a menudo dependen de procesadores de lenguaje natural.Algunos sistemas utilizan el procesamiento de textos poco profundos, con el anlisis

    estadstico, como (Snchez & Moreno, 2004) y otros utilizan un analizador basado enreglas, para identificar relaciones de dependencia entre las palabras, en lenguaje natural(Sabou, Wroe, Goble, & Mishne, 2005).

    El trabajo de (Cimiano, Hotho, & Staab, 2005) hace uso del etiquetador (part of speechtagger) del TreeTagger (Schmid, 1994) y del analizador LoPar2 (Schmid, 2000). En(Cimiano & Vaolker, 2005) se extraen ontologas a partir de texto en lenguaje naturalutilizando un enfoque estadstico, el enfoque de patrones y un enfoque de aprendizaje

    automtico mediante procesamiento lingstico bsico proporcionado por Text2onto.

    El PLN (Procesamiento de Lenguaje Natural) es comn en todas las tcnicas, por lotanto, se clasificarn los diferentes enfoques en base a la tcnica utilizada, adems del PLN.

  • 7/25/2019 trabajo rna

    35/98

    Captulo 3.- Estado del arte

    Juan Diego Gmez Fierros 25 | P g i n a

    Primero se describen los sistemas que integran PNL, con el enfoque estadstico, loscuales, utilizan el recuento de la frecuencia de los sintagmas nominales y el nombre en losdocumentos recuperados de la web para descubrir los conceptos y las relacionestaxonmicas, mientras que por otra parte, utilizando el analizador superficial extraen frasesnominales.

    La segunda seccin describe los sistemas puros de PLN, que utiliza la gramtica de

    dependencias y programas de anlisis para descubrir la relacin entre las entidadessintcticas. La tercera seccin describe enfoques que incluye mtodos de distintasdisciplinas: recuperacin de informacin, base de datos lxica (WordNet), aprendizajemquina, adems de la lingstica computacional.

    3.2.1

    Enfoque estadstico

    Snchez y Moreno (Snchez & Moreno, 2004) comienzan la construccin de laontologa usando palabras clave que estn cerca a los conceptos de la ontologa yestrechamente relacionados. Envan la palabra clave a los motores de bsqueda pararecuperar las pginas relacionadas, a continuacin, se realiza el anlisis de estos sitios webpara encontrar los conceptos candidato para un dominio. Esta palabra clave se utiliza parael aprendizaje de conceptos de las pginas devueltas por la recuperacin de los bigramasque contienen la palabra clave en el segundo trmino.

    Por ejemplo, si la palabra clave es ptico y la palabra anterior inmediata es biosensor

    (biosensor ptico, por ejemplo), entonces biosensor ptico es un concepto candidato paraptico si tienen un tamao mnimo y no es una Stop Word (palabra utilizada comoindicativo para termino de bsqueda).

    La seleccin de los conceptos representativos dentro de los conceptos candidatos setoma de acuerdo a los siguientes atributos:

    Nmero total de apariciones (al analizar todos los sitios web)

    Nmero de sitios web diferentes que contienen el concepto Estimacin del nmero de resultados devueltos por el motor de bsqueda al

    seleccionar solo la palabra anterior (por ejemplo, biosensor)

    Estimacin del nmero de resultados devueltos por el motor de bsqueda alunirse al concepto seleccionado con la palabra clave inicial.

    Relacin entre las dos ltimas medidas.

    Solo los conceptos candidatos cuyos atributos se ajustan a un conjunto de restriccionesespecificadas (que es un rango de valores para cada parmetro) son seleccionados.

  • 7/25/2019 trabajo rna

    36/98

    Captulo 3.- Estado del arte

    Juan Diego Gmez Fierros 26 | P g i n a

    Este sistema utiliza trminos contando el nmero de ocurrencia de las condiciones, paramejorar su rendimiento en el descubrimiento de conceptos, se consideran estos conceptosdescubiertos, como nuevas palabras clave y se vuelve a ejecutar el proceso para descubrirsus conceptos hijos. Este proceso se repite de forma recursiva, hasta un nivel deprofundidad seleccionado, el resultado obtenido es una jerarqua que se almacena en la

    ontologa.

    3.2.2 Enfoque lingstico

    En (Sabou, Wroe, Goble, & Mishne, 2005) utilizan un conjunto de patrones sintcticospara descubrir las relaciones de dependencia entre las palabras. Su mtodo de extraccinexplota las regularidades sintcticas inherentes a la naturaleza del sub-lenguaje dedocumentacin de servicios web, el cual, es una forma especializada de lenguaje natural.

    Sus etapas de extraccin en la ontologa son: el anlisis de la dependencia, patronessintcticos, la construccin de la ontologa y la poda de la misma. Usan un anlisis dedependencia para identificar relaciones de dependencia entre las palabras en lenguajenatural. Una relacin de dependencia es una relacin binaria asimtrica entre una palabrallamada cabezay una palabra llamada modificador. Por ejemplo, en la frase "Buscar sitiosantignicos de las protenas", el "antignico" es un adjetivo que modifica al sustantivo"sitios", y "sitios" es el objeto del verbo "buscar", a continuacin, un conjunto de patronessintcticos se utiliza para identificar y extraer informacin importante desde el corpusanotado, para la construccin de la ontologa.

    Se definen tres grandes grupos / categoras de patrones que se utilizan para obtenerdiferentes tipos de informacin. El primer grupo se utiliza para identificar los conceptos dedominio.

    En este caso, los patrones de sintagma nominal y el sustantivo ("NN" y "NMod") seutilizan para descubrir los conceptos y las relaciones de dependencia entre ellos (como, y ).

    El segundo grupo, se utiliza para la identificacin de las funcionalidades que se ofrececon frecuencia en ese dominio, utilizando verbos para identificar la funcionalidad, llevada acabo por un mtodo y nombres estrechamente relacionados con estos verbos (como,

  • 7/25/2019 trabajo rna

    37/98

    Captulo 3.- Estado del arte

    Juan Diego Gmez Fierros 27 | P g i n a

    En (Cimiano, Hotho, & Staab, 2005) presentan un mtodo automtico para laadquisicin de las taxonomas o jerarquas de conceptos a partir de un corpus textual. Suenfoque se basa en el anlisis de conceptos formales que descubren las relacionesinherentes, entre los objetos que se describen a travs de un conjunto de atributos y losatributos de ellos mismos (Ganter & Wille, 1999).

    En primer lugar, se analiza el corpus etiquetando las palabras por relaciones parte-de ygeneracin de rboles de anlisis para cada oracin. El verbo/sujeto, verbo/objeto yverbo/preposicin se extraen y se analizan las dependencias preposicionales de los rbolesde anlisis sintctico, entonces, el verbo y las cabeceras se lematizan. Como la asuncin dela totalidad de la informacin nunca se cumple, la coleccin de pares se afina. La afinacinse lleva a cabo, mediante la agrupacin de todos los trminos que son mutuamentesimilares, con respecto a la medida de similitud en cuestin.

    Contando con ms pares de atributos/objetos que se encuentran realmente en el texto,

    dar lugar a la obtencin de frecuencias de cero para algunos pares de atributos/objeto queno aparecen literalmente en el corpus. El resultado global es una "afinacin" del paisaje,mediante la asignacin de frecuencia relativa de algunas frecuencias de valor cero, a lascombinaciones de los verbos y los objetos que no se encuentra realmente en el corpus, porejemplo, coches y bicicletas son mutuamente similares y por lo tanto las parejas que tengancualquiera de ellos como atributos del verbo, se agrupan.

    Los pares objeto/atributo se ponderan con probabilidad condicional, punto deinformacin mutua y la entropa relativa de las distribuciones anteriores y posteriores de unconjunto de pares para determinar "la fuerza selectivas" del verbo en una posicin de

    argumento dado. Algunos pares durante un determinado umbral se transforman en uncontexto formal al que se aplica el anlisis de concepto formal para producir una ontologaen forma de celosa (Figura 5).

    El anlisis del concepto formal es un mtodo basado en la teora de la orden y se utilizapara el anlisis de los datos, en particular, para descubrir las relaciones inherentes entre losobjetos que se describen a travs de un conjunto de atributos por un lado y los mismosatributos en el otro, el resultado se transforma de forma reticular a una forma de ordenparcial que se acerca ms a una jerarqua de conceptos (Figura 6).

  • 7/25/2019 trabajo rna

    38/98

    Captulo 3.- Estado del arte

    Juan Diego Gmez Fierros 28 | P g i n a

    Figura 5. Entramado de conceptos formales para el ejemplo, el turismo (Cimiano, Hotho, & Staab, 2005)

    Figura 6. Jerarqua de conceptos ontolgicos para el ejemplo, el turismo (Cimiano, Hotho, & Staab, 2005)

    3.2.3

    Enfoques hbridos

    Text2Onto (Cimiano & Vaolker, 2005) ayuda a los usuarios en la seleccin de unalgoritmo de aprendizaje adecuado, para el tipo de ontologa que quiere aprender.

    Reservable

    Unibles

    Viaje

    Excursin

    Hotel Rentable

    Paseable Manejable

    Paseable Carro

    Bicicleta

  • 7/25/2019 trabajo rna

    39/98

    Captulo 3.- Estado del arte

    Juan Diego Gmez Fierros 29 | P g i n a

    Primero, el corpus se analiza para anotacin part-of-speech y sus palabras derivadas,Text2Onto posee una librera de algoritmos para el aprendizaje de diferentes elementos dela ontologa, estos elementos pueden ser, conceptos, herencia de conceptos, instancias,relaciones generales, relaciones de metrologa (parte de, Part of) y equivalencia.

    Los algoritmos de aprendizaje de conceptos pueden variar si el enfoque se basa en elsupuesto, de que la frecuencia de un trmino en un conjunto de textos de dominioespecfico indica ocurrencia de un concepto relevante. As, se aprenden conceptos en base alas tcnicas de Frecuencia de los Trminos Relativos (RTF), TF/IDF (Frecuencia delTermino/Frecuencia Inversa del Documento), la entropa y el mtodo C-value/NC-value(Frantzi, Ananiadou, & Tsuji, 1998).

    Para extraer el concepto de relaciones de herencia text2onto han puesto en marchavarios algoritmos en funcin de la explotacin de la estructura de hipernimos de WordNet,igualando los patrones de (Hearst, 1992) y la aplicacin de las reglas heursticas lingstica.

    Con el fin de aprender las relaciones en general, Text2Onto emplea una estrategia deanlisis superficial para extraer sub marcos de categorizacin enriquecida con informacinsobre la frecuencia de los trminos que aparecen como argumentos. El aprendizaje derelaciones de instancias de conceptos, se basa en un enfoque tomado de la similitud deextraer vectores de contexto para las instancias y los conceptos de la coleccin de textos yla asignacin de instancias con el concepto correspondiente al vector con la mayorsimilitud, adems, usa un patrn de coincidencia para el aprendizaje de instancias deconceptos.

    Las relaciones de equivalencia son aprendidas mediante la hiptesis de que los

    conceptos, son equivalentes en la medida en que comparten similares contextos sintcticos.Despus de que el proceso de extraccin de la ontologa es terminado, la ontologa sepresenta al usuario para refinarla, finalmente, el usuario puede seleccionar entre losdiferentes escritores de la ontologa, que se ofrecen para la traduccin de la ontologaaprendidas en diferentes lenguajes de representacin de ontologas.

    3.2.4

    Enfoque basado en patrones lingsticos

    El estudio de la bsqueda de los mencionados patrones es todava una va deinvestigacin muy reciente y por eso, el nmero de trabajos que se han llevado a cabo sobreeste tema es muy reducido.

    Adems de esta escasa cantidad de estudios, tambin es importante subrayar que elnmero de lenguas de reconocimiento internacional con las que se ha trabajado an esmenor, reducindose nicamente al ingls, al francs y al espaol.

  • 7/25/2019 trabajo rna

    40/98

    Captulo 3.- Estado del arte

    Juan Diego Gmez Fierros 30 | P g i n a

    Los estudios de (Ahmad & Fulford, 1992), (Pearson, 1998) y (Meyer, 2001), queaparecen citados en la obra de (Marshman, Morgan, & Meyer, 2002), son algunas de lasinvestigaciones ms desarrolladas sobre patrones en ingls de las que se tiene constancia.Junto a estos estudios en ingls, tambin podemos destacar los realizados para el francspor el grupo de trabajo cognitermde la Universidad de Ottawa, en la que se enmarcan los

    trabajos de investigacin de (Davidson, 1998) y (Morgan, 2000).

    Adems del anterior grupo, igualmente cabe prestar atencin a las investigaciones de(Condamines & Rebeyrolle, 2001) en la bsqueda de patrones lingsticos que detectenrelaciones semnticas.

    En Espaa, el grupo oncoterm: Sistema bilinge de informacin y recursosoncolgicos, con miembros de varias universidades espaolas, trabaja asimismo en estalnea de investigacin aunque su finalidad es la de crear una ontologa de dominio en elrea de la oncologa. En (Faber & Jimnez, 2002), este grupo hace un repaso a los objetivos

    principales del proyecto y a los logros conseguidos.

    En al rea de los trabajos que utilizan patrones lingsticos existen dos grandesenfoques los cuales se describen en los puntos siguientes.

    3.2.4.1

    Patrones construidos manualmente

    El uso de patrones para la extraccin de relaciones semnticas fue propuesto por

    (Hearst, 1992). En ese trabajo se presenta un mtodo que utiliza, inicialmente, tres patroneslexico-sintacticos construidos manualmente para extraer hipnimos. Los tres patronesutilizados son mostrados en la siguiente lista:

    NP0 such as {NP1, NP2 , (and | or )} NPn

    such NP as {NP,}*{(or |and)} NP

    NP {,NP}* {,} or other NP

    En estos patrones, cuando una relacin de hiponimia es descubierta entre dos frasesnominales, se realiza un proceso de lematizacin para relacionar nicamente las formas

    bases de las palabras.

    En (Hearst, 1992) se plantea, por primera vez, un interesante mecanismo para descubrirsemiautomticamente nuevos patrones. Es decir, a partir de los patrones mencionadosanteriormente se realiza un proceso, que aunque manual, permite extraer nuevos patrones.A travs de este mecanismo (Hearst, 1992) descubre tres patrones ms:

  • 7/25/2019 trabajo rna

    41/98

    Captulo 3.- Estado del arte

    Juan Diego Gmez Fierros 31 | P g i n a

    NP{, NP}*{,} and other NP

    NP{,} including {NP , }*{or | and} NP

    NP{,} especially {NP ,}*{or | and} NP

    De acuerdo con (Hearst, 1992), los patrones que descubri satisfacan los siguientesrequisitos:

    Ocurrir frecuentemente y en una gran variedad de gneros de texto.

    Indicar la relacin de inters.

    Ser reconocidos sin o con poco conocimiento pre-codificado.

    Generalmente, los patrones creados de forma manual son muy precisos. No obstante, ellenguaje es tan variado y existen numerosas formas de introducir dos palabras quemantienen una relacin.

    Despus de la propuesta de Hearst, han surgido varios trabajos de investigacin queaprovechan patrones creados manualmente para extraer hipnimos. Por ejemplo:

    (Mann, 2002) aprovech el uso de patrones lxicos-POS creados por observacin paraobtener instancias de la relacin de hiponimia entre nombres propios.

    En (Fleischman, Hovy, & Echihabi, 2003) se propone un esquema similar al de (Mann,2002). Pero se extiende el nmero de patrones utilizados en relacin al traba