![Page 1: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/1.jpg)
1
Sistemas de Información II
Tema 9. Bases de datos de texto
Carlos Castillo
UPF – 2008
Bibliografía:Baeza-Yates y Ribeiro-Neto: “Modern Information Retrieval”,
1999Capítulo 7
![Page 2: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/2.jpg)
2
Agenda
Ley de Zipf
De bytes a texto
De texto a palabras
De palabras a keywords
Indexación
![Page 3: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/3.jpg)
3
Importancia de las palabras
Alta
Sustantivos
Grupos de sustantivos
=> Keywords
Baja
Artículos
Preposiciones
Variable
Verbos
![Page 4: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/4.jpg)
4
Frecuencia de las palabras
Ley de Zipf
f(wk) = frecuencia de la k-ésima
palabra
f(wk) ∝ 1/kα
![Page 5: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/5.jpg)
5
Ley de Zipf
Palabras ordenadas por frecuencia
Frecu
enci
a
![Page 6: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/6.jpg)
6
Importancia como keyword
Palabras ordenadas por frecuencia
Frecu
enci
a
No se indexan No aparecen
Keywordsimportantes
![Page 7: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/7.jpg)
7
Importancia como keyword
Palabras ordenadas por frecuencia
Frecu
enci
aImportancia
![Page 8: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/8.jpg)
8
Frecuencias palabras catalán (cucweb)
80 formas = 50% de las palabras
![Page 9: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/9.jpg)
9
¿Por qué no usar todas las palabras?
Ahorrar espacio
Palabras muy frecuentes
Simplificar la tarea de búsqueda
No distinguir entre mayúsculas y minúsculas
Asociar palabras con el mismo significado
Mejorar la relevancia
Ej.: documento artificialmente largo por usar más palabras funcionales
![Page 10: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/10.jpg)
10
Herramientas para crear unavista lógica
Análisis léxico
Eliminación de stopwords
Stemming (lematización)
Uso de diccionarios
![Page 11: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/11.jpg)
11
Procesamiento del texto
Documento TokensEliminar
StopwordsSeleccionar Lematizar
Indexación
Texto completo
ÍndiceReconocimiento
de estructura
Texto + Estructura Texto
![Page 12: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/12.jpg)
12
Procesar un documento
Formato
pdf/word/excel/html/etc.?
Lenguaje
Set de caracteres (codificación de texto)
![Page 13: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/13.jpg)
13
Bytes Texto
![Page 14: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/14.jpg)
14
Formas de codificar
Correspondencia bits <=> caracteres
Ejemplo: 00100000 = “ ” (espacio)
Formato más usado
ASCII (sólo 256 “letras”)
Formatos usados para internacionalización
Iso-8859-1 (también 256 letras)http://www.htmlhelp.com/reference/charset/latin1.gif
Formato internacional
UNICODE (4.294.967.296 “letras”)
![Page 15: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/15.jpg)
15
ISO-8859-1 (Latin-1)
Francés, Castellano, Catalán, Italiano, Alemán, Holandés, Finés, Inglés, etc...
![Page 16: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/16.jpg)
16
ISO-8859-2 (Latin-2)
Checo, Húngaro, Polaco, Rumano, Croata, etc...
![Page 17: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/17.jpg)
17
UNICODE: estándar
UNICODE (4.294.967.296 “letras”)
En teoría (UTF-32), 4 bytes por caracter=> 4 veces más grande que ASCII, inaceptable
Codificaciones de largo variable
UTF-8 (base es 1 caracter)
UTF-16 (base es 2 caracteres)
![Page 18: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/18.jpg)
18
UTF-8, codificación
La mayoría de los caracteres seexpresa con un sólo byte
![Page 19: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/19.jpg)
19
Texto Palabras
![Page 20: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/20.jpg)
20
Análisis léxico (tokenization)
Proceso de separar palabras
Un grupo de caracteres son caracteres de palabra [0-9A-Za-z]
Otro grupo de caracteres son separadores[ ] ' “ ) ( ? . , ;
Autómata finito que reconoce palabras
![Page 21: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/21.jpg)
21
Problemas
Combinación de letras y números
UB40, Windows95, 350AC, 510A.C.
Guíones y signos
Zig-Zag, 3.12, B-49, Juan 13:21
U.S.A. = USA
Finland's capital
Palabras Compuestas
Santa María, New York, Iglesia del Pi
![Page 22: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/22.jpg)
22
Mayúsculas y minúsculas
¿Ignorar mayúsculas y minúsculas?
MIT/mit
General Motors (Motors != motors)
SAIL vs sail
![Page 23: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/23.jpg)
23
Más problemas
Separadores propios de cada idioma
estel·lar, state-of-the-art
Acentos
Résumé o Resume
Papá o Papa
L'eixample(“L'eixample”) ó (“eixample”) ó (“le”, “eixample”)
O tal vez todas como términos separados
![Page 24: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/24.jpg)
24
Lenguajes
Chino y Japonés
Sin espacios entre palabras
Tokenización ambigua
Japonés
Múltiples alfabetos
Hebreo (derecha-a-izquierda)
Idiomas de izquierda-a-derecha
![Page 25: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/25.jpg)
25
Números
Otro tipo de indexación
Rangos de números
No todos significan lo mismo
“Motorola 68000” (nombre propio)
“68000 pesetas” (cantidad)
“2003” (¿año?)
Normalmente se indexan aparte
![Page 26: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/26.jpg)
26
Números (ejemplo)
Vendo 19500 Peugot 406 Coupé 2.2 70000km 2002 934567123 de 10 a 16
![Page 27: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/27.jpg)
27
¿Cómo reconocer los números que son relevantes?
Vendo 19500 Peugot 406 Coupé 2.2 70000km 2002 934567123 de 10 a 16
![Page 28: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/28.jpg)
28
Fechas
1/1/2005
1 de Enero del 2005
Sábado, 1 de Enero del 2005
=> Requieren detección y normalización
Ordenamiento
2/1/20081 de Febrero en USA, 2 de Enero en España
![Page 29: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/29.jpg)
29
Palabras Keywords
![Page 30: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/30.jpg)
30
Stopwords
Tipos de palabra que no tienen significado por sí mismas
Preposiciones, artículos, pronombres, conjunciones
Contrajemplo: “to be or not to be”, “yo robot”
Palabras que a veces no tienen significado: e.g. verbos auxiliares
Son característicos de cada lenguaje
Requieren detectar el idioma de cada página
![Page 31: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/31.jpg)
31
Lematización
Importante sobre todo en algunos lenguajes Ej.: lenguas romances
Diferentes variantes
Singular/Plural: amigo, amigos
Masculino/Femenino: amigo, amiga
Prefijos y sufijos: inconstitucional
Ambigüedad
Cruces (lema: ¿cruz o cruzar?)
No siempre se puede hacer
Ordenador != Ordenar
![Page 32: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/32.jpg)
32
Lemas y formas: ejemplo
Varias palabras comparten un lema
Lema “anar”
Formas: anar, va, van, vaig, va, anat, vam, van, anava, etc...
Lema “be”
Formas: be, is, ar, am
Lema “fer”
Formas: fer, faig, fa, fet, fan, fent, farà, etc...
![Page 33: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/33.jpg)
33
Frecuencias lemas en catalán(cucweb)
24 lemas = 50% de las palabras
![Page 34: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/34.jpg)
34
¿Cómo lematizar?
Utilizando un diccionario
Grande
Costoso de construir
N-gramas
Ej.: trigramas
Abogado: abo bog oga gad ado
Abogados: abo bog oga gad ado dos=> Comparten muchos trigramas => misma palabra
Reglas
Lematizador de Porter
![Page 35: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/35.jpg)
35
Lematizador de Porter
Reglas ($ = fin de palabra)
Escoger el sufijo más grandeational$ -> ate$
tional$ -> tion$
izer$ -> ize$
Etc.
En lenguas romances no funciona bien
Stemming != Lematizar
Automate, automatic, automation
Stem = automat, Lema = automatic?
![Page 36: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/36.jpg)
36
Selección de palabras
Selección manual (usando diccionario)GARAGES
see also Automobiles, Motor Vehicles, Etc.; Transportation -- Buildings and Structures; GasStations
GARDEN STRUCTURES
GARDENS
see also Landscape Architecture; Parks; Trees; Zoos
Ghost Towns: see Abandoned Settlements
Selección automática
Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ...
![Page 37: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/37.jpg)
37
Diccionarios
Permiten indexación precisa
Incluyen relaciones de
Sinónimos (car = automobile)
Generalización (ampliar una consulta)Ej.: Dólar < unidad monetaria < unidad de medida < cantidad definida < abstracción
Ej.: Caballo < equino < mamífero < ser vivo < entidad
Especificidad (restringir una consulta)
Wordnet http://www.cogsci.princeton.edu/cgi-bin/webwn
![Page 38: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/38.jpg)
38
Problemas con los diccionarios
Puede ser confuso para un usuario
Mayor tiempo de procesamiento
Interpretación del sentido de las palabras
Costoso de implementar para colecciones grandes
![Page 39: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/39.jpg)
39
Etiquetado
Part-of-speech tags
Reconocer el rol de cada palabra
Sustantivos, verbos, adjetivos, determinantes, etc...
¿Cómo funciona?
Reglas probabilísticas (modelo del lenguaje)
Observar palabra anterior y siguiente
Diccionarios
![Page 40: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/40.jpg)
40
Resumen
Procesamiento del texto
Múltiples etapas
Extracción de keywords para indexar
Vista lógica
Separar señal de ruido
![Page 41: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/41.jpg)
41
Indexación
![Page 42: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/42.jpg)
42
Tipos de búsqueda
Búsqueda online
e.g.: grep
Búsqueda offline
Requiere un paso previo de indexación
![Page 43: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/43.jpg)
43
Proceso general (Web)
![Page 44: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/44.jpg)
44
Índice
![Page 45: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/45.jpg)
45
Proceso de búsqueda
Convertir consulta en palabras
=> ¡Mismo proceso que con documentos!
Convertir palabras en termids
Tabla de hashing o búsqueda binaria
Recuperar listas de posteo
Posiblemente listas parciales
Intentar adivinar tamaño del resultado
Intersectar listas de posteo
O intersección parcial
![Page 46: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/46.jpg)
46
Proceso de creación
Dos pasos
Construcción de vocabularioOrdenar términos
Hash
Construcción de listas de posteo
Para índices grandes
Mezclado de índices parciales
![Page 47: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/47.jpg)
47
Distribución de índice
Técnicas
Distribuir términos
Distribuir documentos
![Page 48: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/48.jpg)
48
Ranking
Modelo vectorial
Consulta = vector en espacio de términos
Documento = vector en espacio de términos
Similaridad = coseno entre vectores
Varias fórmular para ajustar estos pesos:Normalizar la frecuencia de términos
Considerar la frecuencia en la colección
TF.IDF
![Page 49: Sistemas de Información II Tema 9. Bases de datos de texto · Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ... 37 Diccionarios Permiten](https://reader034.vdocumento.com/reader034/viewer/2022050309/5f719921687e1912791cdb6c/html5/thumbnails/49.jpg)
49
Resumen
Proceso de texto para vista lógica
Pre-proceso: indexación
Ranking, modelo vectorial