minería de texto

31
Minería de texto Análisis Documental

Upload: destiny-britt

Post on 01-Jan-2016

70 views

Category:

Documents


2 download

DESCRIPTION

Minería de texto. Análisis Documental. Información. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Minería de texto

Minería de texto

Análisis Documental

Page 2: Minería de texto

Información

La producción y crecimiento del volumen de información digital, en los últimos años ha sido de forma exponencial, de tal suerte que en la actualidad es necesario contar con equipos de cómputo de alto rendimiento con capacidad de almacenamiento, desde varios gigabytes hasta varios terabytes.

Page 3: Minería de texto

Problema

El crecimiento en la producción de la información digital y los diferentes formatos que se utilizan para su almacenamiento, hacen difícil el acceso a la información, dado que los contenidos no se encuentran indizados y organizados.

Page 4: Minería de texto

Análisis documental

Page 5: Minería de texto

Indización

La indización consiste en dos puntos, el primero es identificar los términos dentro de un documento y segundo en determinar la importancia del término dentro del documento a través de su frecuencia de ocurrencia.

Page 6: Minería de texto

Minería de texto

Es el área más reciente de investigación del procesamiento automático de la información. Su objetivo es descubrir tendencias, desviaciones y asociaciones, de la colección de textos en formato digital.

Page 7: Minería de texto

Minería de texto

La minería de texto es el proceso encargado del descubrimiento de conocimientos que no existían explícitamente en ningún texto de la colección, pero que surgen de relacionar el contenido de varios de ellos. (Swanson, 1991, p. 280-289)

Page 8: Minería de texto

Minería de texto

El descubrimiento de información significativa y esencial de los documentos en grandes corpus textuales electrónicos, estructurados y no estructurados.

Page 9: Minería de texto

Minería de texto

Clasificar y organizar documentos según su contenido; es decir, preseleccionar automáticamente grupos de documentos con un tema específico.

Page 10: Minería de texto

Categorías

Page 11: Minería de texto

Categorías

Page 12: Minería de texto

Minería de texto

Page 13: Minería de texto

El procesamiento de texto

Los textos son representados en estructuras que permitan su análisis automático

01 D end_punctuation :,=;/.01 N compress '[]|01 N to_blank !"()-{}<>;:.?/\@*%=^_`~01 N comma01 N del_subfield_code 01 N char_conv FILING-KEY-1001 N del_lead_space01 N to_lower01 N pack_spaces01 F char_conv FILING-KEY-01

FILING-KEY-01 ##### # line_utf2line_utf unicode_to_filing_01FILING-KEY-02 ##### # line_utf2line_utf unicode_to_filing_02FILING-KEY-10 ##### # line_utf2line_utf naco_diacriticsFILING-KEY-11 ##### # line_utf2line_utf unicode_to_filing_11

Page 14: Minería de texto

Extracción de palabras

Page 15: Minería de texto

Análisis

Consiste en realizar una cuantificación de las características (es decir, de los términos) de los documentos.

Page 16: Minería de texto

Modelo vectorial

 Una de las técnicas utilizadas en la minería de texto es el Modelo de Espacio Vectorial, en donde cada documento es modelado como un vector de dimensión n y es representado de la siguiente manera:

,

),...,(2,1 itiiitttD

Page 17: Minería de texto

Frecuencia de las palabras

a) Se calcula la frecuencia de las palabras en el documento, donde K representa el término en el documento I

IKFREQ

Page 18: Minería de texto

Frecuencia total

b) Se calcula la frecuencia total del término K en todos los documentos

N

IIKK FREQTOTALFRECQ

1

Page 19: Minería de texto

Frecuencia de palabras

Análisis 2 0 2 2 1.5 0.176 0.352 0 0.352  

documental 2 1 23 1 0 0 0 0  

información 1 0 01 3 0.477 0.477 0 0  

textual 1 0 0 1 3 0.477 0.477 0 0  

Lenguajes 1 2 0 2 1.5 0.176 0.176 0.352 0  

documentales 1 0 01 3 0.477 0.477 0 0  

herramienta 1 0 01 3 0.477 0.477 0 0  

libres 0 1 0 1 3 0.477 0 0.477 0  

controlados 0 1 0 1 3 0.477 0 0.477 0  

proceso 0 1 0 1 3 0.477 0 0.477 0  

indización 0 1 0 1 3 0.477 0 0.477 0  

procesamiento 0 1 01 3 0.477 0 0.477 0  

automático 0 1 0 1 3 0.477 0 0.477 0  

texto 0 1 0 1 3 0.477 0 0.477 0  

orígenes 0 0 1 1 3 0.477 0 0 0.477  

padre 0 0 1 1 3 0.477 0 0 0.477  

Page 20: Minería de texto

indización

Palabras no significativas Altas frecuencias

Palabras no significativas Bajas frecuencias

Palabras significativas

Page 21: Minería de texto

Ley de Zipf

• Texto en lenguaje natural.

• Se cuentan las palabras y se ordenan de mayor a menor frecuencia de aparición, F

• El número de orden de cada palabra es su rango, R

• Análisis de la frecuencia de las palabras

F=K/R FxR=K

La frecuencia , F, de aparición de una palabra en un texto

es inversamente proporcional a su rango, R. Frecuencia por el rango igual a constante (k)

“Ley del mínimo esfuerzo”

Page 22: Minería de texto

Frecuencias de Stopword

Posición Frecuencia Palabras1 18205668 de2 10821113 la3 7190346 y4 6946343 en5 6769416 el6 6459010 que7 5030018 a8 4505566 los9 3675272 se10 3225267 del

Page 23: Minería de texto

Ley de Zipf

Page 24: Minería de texto

Frecuencias de Stopword

Page 25: Minería de texto

Ley de Zipf

Page 26: Minería de texto

Semejanza de documentos

Page 27: Minería de texto

Matriz de documentos

a) Si se realiza el cálculo de similitud entre renglones se pude determinar la semejanza entre documentos.

 

tTTT 21

ntnn

t

t

ddd

ddd

ddd

Dn

D

D

21

22221

11211

2

1

Page 28: Minería de texto

Matriz de documentos

b) Si se realiza el cálculo de similitud entre columnas se pueden obtener las relaciones entre términos.

tTTT 21

ntnn

t

t

ddd

ddd

ddd

Dn

D

D

21

22221

11211

2

1

Page 29: Minería de texto

Archivos digitales en texto

Total de títulos procesados 1868 (Año 2005)

Total de archivos 22721

Tiempo de proceso 60 minutos

Total de palabras 162723663

Stopwords 117323884 (72.90%)

Palabras útiles 45399779 (27.90%)

Page 30: Minería de texto

Palabras/Diccionario

Page 31: Minería de texto