herramientas de extracción de información para la creación de un corpus de un sitio de gobierno...
TRANSCRIPT
![Page 1: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto](https://reader035.vdocumento.com/reader035/viewer/2022070603/5872fcc81a28ab8c718b77b3/html5/thumbnails/1.jpg)
Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto
Olga AcostaElena Gamboa Claudia Gutierrez
![Page 2: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto](https://reader035.vdocumento.com/reader035/viewer/2022070603/5872fcc81a28ab8c718b77b3/html5/thumbnails/2.jpg)
Repositorios
Institucionales
Sistemas de Recuperaci
ón de Informació
n
Bases de datos de revistas
Repositorios de
Tesis
Grandes volúmenes de Información en formatos
digitales
Administran
Gestionan
Recuperan
![Page 3: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto](https://reader035.vdocumento.com/reader035/viewer/2022070603/5872fcc81a28ab8c718b77b3/html5/thumbnails/3.jpg)
Extracción de Información
Información
Herramientas de
Extracción de Información
Extracción Terminológi
ca
Análisis del Contenido
![Page 4: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto](https://reader035.vdocumento.com/reader035/viewer/2022070603/5872fcc81a28ab8c718b77b3/html5/thumbnails/4.jpg)
Extracción de Información• Es una subdisciplina es un sub disciplina de la Inteligencia
Artificial
• Utiliza las técnicas de procesamiento de lenguaje natural para explorar un dominio del conocimiento específico (conjunto de documentos).
• De acuerdo con Riloff y Lorenzen (1999), un sistema de EI obtiene información de textos en lengua natural y para un dominio específico, donde se debe definir previamente el dominio y los tipos de información de interés.
![Page 5: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto](https://reader035.vdocumento.com/reader035/viewer/2022070603/5872fcc81a28ab8c718b77b3/html5/thumbnails/5.jpg)
La Extracción de Información nos permite :
Realizar el análisis del contenido de los documentos (análisis del discurso)
Extracción terminológica para crear un vocabulario controlado, tesauros u ontologías.
Realizar un análisis terminológico
![Page 6: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto](https://reader035.vdocumento.com/reader035/viewer/2022070603/5872fcc81a28ab8c718b77b3/html5/thumbnails/6.jpg)
Extraccion de Información Sitio de Transparencia
• El proceso de extracción de información en este caso específico tiene como propósito semi - automatizar la obtención de datos relacionados con los indicadores del modelo de evaluación de de los sitios de gobierno abierto: Directorio de transparencia Activa y Portal de datos de gobierno.
• Herramientas utilizadas:
Lenguaje de Programación Python
Libreria BeautifulSoup
Sketchengine
![Page 7: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto](https://reader035.vdocumento.com/reader035/viewer/2022070603/5872fcc81a28ab8c718b77b3/html5/thumbnails/7.jpg)
Modelo Modelo para la Evaluación de los Datos Abiertos
De acuerdo a los estándares por W3C y el G8 se ha fijado el siguiente modelos de evaluación de datos abiertos:
![Page 8: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto](https://reader035.vdocumento.com/reader035/viewer/2022070603/5872fcc81a28ab8c718b77b3/html5/thumbnails/8.jpg)
Usando BeautifulSoup
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
![Page 9: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto](https://reader035.vdocumento.com/reader035/viewer/2022070603/5872fcc81a28ab8c718b77b3/html5/thumbnails/9.jpg)
Usando Sketchengine:• Es una herramienta computacional que permite realizar el análisis
linguístico de un corpus ( conjuntos de textos de un mismo dominio del conocimiento).
• Es un programa que se puede consultar en la web: http://www.sketchengine.co.uk/
![Page 10: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto](https://reader035.vdocumento.com/reader035/viewer/2022070603/5872fcc81a28ab8c718b77b3/html5/thumbnails/10.jpg)
Usando Sketchengine
1. Crear un corpus :
Es muy importante seleccionar el idioma ya que sketcheengine nos permite trabajar en diferentes idiomas .
![Page 11: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto](https://reader035.vdocumento.com/reader035/viewer/2022070603/5872fcc81a28ab8c718b77b3/html5/thumbnails/11.jpg)
Usando Sketchengine• Sketchengine permite formar un corpus a partir de una url dada o de un archivo soportando
los siguientes tipos formatos:.doc, .docx, .htm, .html, .pdf, .ps, .tar.bz2, .tar.gz, .tgz, .tmx, .txt, .vert, .xml, .zip. txt .
• También puedo subir los archivos a su servidor.
![Page 12: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto](https://reader035.vdocumento.com/reader035/viewer/2022070603/5872fcc81a28ab8c718b77b3/html5/thumbnails/12.jpg)
Usando Sketchengine• Una vez formado el corpus puedo explorarlo utilizando las
funciones del módulo de exploración:
• Concordance • Word List • Word Sketch• Thesaurus• Find X• Sketch-Diff
![Page 13: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto](https://reader035.vdocumento.com/reader035/viewer/2022070603/5872fcc81a28ab8c718b77b3/html5/thumbnails/13.jpg)
E.I para un sitio de gobierno abierto
• Pasos previos a la extracción de información:• Construir un diagrama de la estructura del sitio a explorar• Determinar la muestra de las entidades del directorio de
transparencia Establecer los niveles de navegación • Explorar y aprender usar las herramientas (BeautifulSoup y
Sketch Egine)
![Page 14: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto](https://reader035.vdocumento.com/reader035/viewer/2022070603/5872fcc81a28ab8c718b77b3/html5/thumbnails/14.jpg)
Pasos para la E.I.
![Page 15: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto](https://reader035.vdocumento.com/reader035/viewer/2022070603/5872fcc81a28ab8c718b77b3/html5/thumbnails/15.jpg)
![Page 16: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto](https://reader035.vdocumento.com/reader035/viewer/2022070603/5872fcc81a28ab8c718b77b3/html5/thumbnails/16.jpg)
Conclusiones• Las herramientas de Extracción de información constituyen una
valiosa herramienta para los profesionales de la información.
• Permiten realizar el análisis terminológico y de contenido de un corpus de un dominio del conocimiento.
• Permite establecer un vocabulario normalizado altamente representativo del contenido del los documentos.
• Permite extraer información específica y significativa para los análisis de contenido.