indización.pdf diapositiva

37
INDIZACIÓN Almacenamiento y Recuperación de la Información II Lcdo. Guillermo Pérez [email protected]

Upload: irisalbertina15

Post on 13-Jun-2015

1.689 views

Category:

Education


1 download

DESCRIPTION

Diapositivas para exposición del tema Indización

TRANSCRIPT

Page 1: Indización.pdf  diapositiva

INDIZACIÓN

Almacenamiento y Recuperación de la Información II

Lcdo. Guillermo Pé[email protected]

Page 2: Indización.pdf  diapositiva

INDIZACIÓN

La indización de los documentos es un proceso complejo, que forma parte del procesamiento de la información, por el cual se representan en algún portador material características esenciales de los documentos que permiten su posterior recuperación sin tener que revisar toda la colección.

Giráldez Rodríguez, R. (2004)

Page 3: Indización.pdf  diapositiva

INDIZACIÓN

Representación del contenido de los documentos por medio de símbolos especiales, que extraídos del texto original, están recogidos en un lenguaje de información o de indización.

Norma 5693 (Organización Internacional de Normalización)

Page 4: Indización.pdf  diapositiva

INDIZACIÓN

El término INDIZACIÓN se refiere a la asignación de una o más etiquetas que sirvan para identificarlo y/o describirlo y para facilitar su posterior recuperación…

Lancaster W.

Page 5: Indización.pdf  diapositiva

Fases fundamentales de la indización de materia

Análisis de contenido

•Se revisa el documento para determinar el contenido.•Seleccionar las palabras clave del contenido.•Autor o del propio indizador.

Traducción de los términos asignadosen el análisis de contenido a los

términos índices del vocabulario dellenguaje de la indización del sistema

•Se consulta el vocabulario controlado del sistema.

Organización del índice

•Se organizan, de acuerdo con la forma que se haya establecido los términos utilizados para indizar los documentos de la colección y se obtiene el índice de materia

Page 6: Indización.pdf  diapositiva

Variables asociadas con el proceso de indización

El Indizador

La Colección de Documentos

La política y las reglas

de indización

Grado de exhaustividad

Profundidad

Especificidad

El lenguaje de indización

Page 7: Indización.pdf  diapositiva

Variables asociadas con el proceso de indización

La política de indización. Reglas de indización

Grado de exhaustividad

La materia que abarca el contenido de un documento es la totalidad de tópicos

que tratan en el mismo.la exhaustividad en la indización de

un documento se define como el número máximo de diferentes

tópicos indizados

Giráldez, R. (2004)

Page 8: Indización.pdf  diapositiva

Variables asociadas con el proceso de indización

La política de indización. Reglas de indización

Profundidad

Se define como el número de diferentestérminos seleccionados para indizar eldocumento. Esta variable también sedenomina densidad de la indización.

Giráldez, R. (2004)

Page 9: Indización.pdf  diapositiva

Variables asociadas con el proceso de indización

La política de indización. Reglas de indización

Especificidad

Es una propiedad semántica de lostérminos, es el nivel de detalle y exactitudcon que se representa un concepto dado.

Relación género/especie

Giráldez, R. (2004)

Page 10: Indización.pdf  diapositiva

Variables asociadas con el proceso de indización

La política de indización. Reglas de indización

Giráldez, R. (2004)

El lenguaje de indización El vocabulario del lenguaje debe ser en la

medida que sea posible específico, si por lo contrario carece de especificidad se

convertirá en un freno para la indizaciónespecífica.

Page 11: Indización.pdf  diapositiva

Consistencia en la indización

Giráldez, R. (2004)

B (indizador 2)(indizador 1) A

Consistencia

Page 12: Indización.pdf  diapositiva

Lenguajes de recuperación de la información (LRI)

Los LRI son lenguajes artificiales, es decir, lenguajes creados por el hombre, que se utilizan para indizar los documentos y las solicitudes con la finalidad de recuperar la información almacenada y satisfacer las demandas de los usuarios.

Page 13: Indización.pdf  diapositiva

Los LRI tiene, al igual que las lenguas naturales, como mínimo tres componentes fundamentales:

VocabularioSintaxisReglas para su uso

Lenguajes de recuperación de la información (LRI)

Page 14: Indización.pdf  diapositiva

Vocabulario

El vocabulario o léxico de un LRI es el conjunto de términos que se utiliza para expresar el contenido

informacional de un documento… y pueden estar representadas por:

•Palabras aisladas o combinaciones de palabras.•Códigos numéricos, alfabéticos o alfa-numéricos.•Códigos en combinación con palabras del lenguaje natural

Page 15: Indización.pdf  diapositiva

Vocabulario

Para garantizar que se cumpla el rasgo esencial de todo LRI, o sea que entre los términos y los conceptos exista una relación unívoca, es necesario eliminar de su vocabulario la homonimia y la sinonimia

Page 16: Indización.pdf  diapositiva

Homonimia

La homonimia se elimina con aclaracionessobre los significados del término,

las cuales se colocan entre paréntesis y acontinuación de los vocablos que sea

homógrafos, es decir una misma palabraCon dos o más significados.

PLANTA (INSTALACIÓN INDUSTRIAL)

PLANTA (PARTE INFERIOR DEL PIE)

PLANTA (EN BOTÁNICA)

Page 17: Indización.pdf  diapositiva

Sinonimia

La sinonimia se elimina estableciendo un conjunto de clases equivalentes entre los sinónimos, o casi-sinónimos,

o sea entre dos o más palabras diferentes que tienen significados iguales o parecidos.

Hidratos de carbono

USE CORBOHIDRATOS

USE o VÉASE

Page 18: Indización.pdf  diapositiva

Sintaxis

La sintaxis de un LRI es el conjunto de reglas para combinar los términos del vocabulario en cadenas, frases o unidades sintácticas capaces de expresar conceptos o significados más complejos o más abarcadores, que no podrían ser expresados si se utilizaran los términos del vocabulario de forma aislada…

Formación de profesores. Química. Cuba.

Cumbre de los Países no Alineados. Bolivia

Page 19: Indización.pdf  diapositiva

Cómo realizar la indización con descriptores y epígrafes

Page 20: Indización.pdf  diapositiva

Tipos de descriptores y epígrafes

a) Descriptores y epígrafes simples:EDUCACIÓNDERECHOEXISTENCIALISMO

b) Descriptores y epígrafes compuestos:MEDICIONES DEL APRENDIZAJEPOLÍTICA CIENTÍFICAARTE Y SOCIEDAD

Page 21: Indización.pdf  diapositiva

c) Descriptores y epígrafes biográficos:BARTÓK, BÉLA, 1881-1945.EINSTEIN, ALBERT, 1879-1955.

Tipos de descriptores y epígrafes

d) Descriptores y epígrafes históricos o cronológicos:

EDAD MEDIAEDAD DE PIEDRAHISTORIA ANTIGUA

Page 22: Indización.pdf  diapositiva

Tipos de descriptores y epígrafes

e) Descriptores y epígrafes étnicos:AZTECASINDIOS DE NORTEAMÉRICAINDIOS DE SURAMÉRICA

Page 23: Indización.pdf  diapositiva

Subepígrafesa) Subepígrafes temáticos o de materiaCIENCIA-ENSEÑANZAEDUCACIÓN-HISTORIA

Tipos de descriptores y epígrafes

a) Subepígrafes de formaQUÍMICA-BIBLIOGRAFÍAFÍSICA-MANUALESEDUCACIÓN-DICCIONARIO

Page 24: Indización.pdf  diapositiva

Subepígrafesc) Subepígrafes de ubicación geográficaEDUCACIÓN SUPERIOR-ESPAÑAARTE-POLONIAEDUCACIÓN-CUBA

Tipos de descriptores y epígrafes

Page 25: Indización.pdf  diapositiva

Reglas sobre la presentación de los descriptores y epígrafe

1. Forma del términoUtilizar, siempre que sea posible los sustantivos.Ejemplo: EVALUACIÓN en lugar de EVALUATIVONo utilizar verbos

2. Número del términoUtilizar el singular para términos que expresan conceptos que no pueden contarse por unidades.Ejemplo: Nombres de disciplinas (QUÍMICA, FÍSICA, ETC.)Procesos (CAPACITACIÓN, POLITICA CIENTÍFICA)Materiales y propiedades específicas (UREA, FUERZA)

Page 26: Indización.pdf  diapositiva

Reglas sobre la presentación de los descriptores y epígrafes

3. Forma de entradaSe utilizará la entrada directa. Únicamente en casos muy excepcionales se hará la inversión de la entrada

4. Se debe evitar la utilización de:Signos de puntuaciónAbreviaturas

Page 27: Indización.pdf  diapositiva

Lineamientos generales para la asignación de descriptores y epígrafes

1. Se asignará el epígrafe o descriptor que defina de modo más preciso y específico el asunto que se desea indizar.

2. Se añadirá a cada epígrafe los subepígrafes que sean necesarios para expresar del modo más preciso el asunto.

3. Se utilizarán en la medida que sea posible, palabras en el idioma español.

4. Asignar tantos descriptores o epígrafes que sean necesarios (máximo 8).

Page 28: Indización.pdf  diapositiva

Lineamientos generales para la asignación de descriptores y epígrafes

5. Seleccionar entre los sinónimos, un término como epígrafe o descriptor representativo y se hará referencia de los otros términos equivalentes.

6. No se debe dar entrada por la temática y la forma de presentación a un mismo documento.

7. Si el nombre del país se considera un elemento necesario para la recuperación se añadirá el conjunto de descriptores del documento para que aparezca como una entrada en el índice.

8. Se consultará las listas y los repertorios antes de crear nuevos términos.

Page 29: Indización.pdf  diapositiva

Precisar las diferencias entre palabras clave y descriptores

Page 30: Indización.pdf  diapositiva

Palabras clave

"...colección no depurada (sino puesta en orden alfabéticosin eliminación de sinonimia, ni polisemia) de las palabras significativas, denominadas también no vacías (es decir, todas las palabras que no sean artículos, conjunciones, pronombres, preposiciones, numerales y ciertos verbos y adverbios), extraídas, de forma automática, por el ordenador, a partir del titulo, del resumen y, cada vez mas a menudo, del texto completo de los documentos registrados dentro de un sistema documental dado.“

Van Slype, 1991

Page 31: Indización.pdf  diapositiva

Descriptor

Termino (palabra o expresión) que se ha escogido, a partir de unconjunto de sinónimos, de cuasisinónimos y de términos emparentados, para representar, de manera univoca, un concepto susceptible de intervenir en los documentos yen las consultas que se examinan dentro de un sistema documental dado.

Van Slype, 1991

Palabra o grupo de palabras incluidas en un tesauro y escogidasde entre un conjunto de términos equivalentes para representar sin ambigüedad una noción contenida en un documento o en una petición de búsqueda documental.

AFNOR (Asociación Francesa de Normalización).

Page 32: Indización.pdf  diapositiva

Los Tesauros

Page 33: Indización.pdf  diapositiva

Tesauros

La norma ISO 2788-1986 define un tesauro como "un vocabulario controlado y dinámico, compuesto por términos que tienen entre ellos relaciones semánticas y genéricas y que se aplica a un dominio particular del conocimiento".

Los lenguajes de indización, define un tesauro como "una lista estructurada de conceptos destinados a representar de manera unívoca el contenido de los documentos y de las consultas dentro de un sistema documental determinado y a ayudar al usuario en la indización de los documentos y de las consultas".

Van Slype,1991

Page 34: Indización.pdf  diapositiva

Relaciones Semánticas

Relaciones de equivalencia USE (relación entre el término no preferente y el término preferente)

USE, UP (usado por), UF (usado por)

Tesauros

Page 35: Indización.pdf  diapositiva

Tesauros

Relaciones Semánticas

Relaciones jerárquicas: Son relaciones asimétricas, establecidas entre los descriptores, en la que un término es superior o genérico de otro… se van agrupando en disciplinas y sub-disciplinas.

TE (término específico), BT (término más amplio), NT (término más específico)

Tesauros

Page 36: Indización.pdf  diapositiva

TesaurosRelaciones Semánticas

Relaciones asociativas: Son las relaciones asimétricas establecidas entre descriptores de distintas familias, distintas a las jerárquicas o de equivalencia, y que designan conceptos capaces de evocar mutuamente, por asociación de ideas, relaciones entre ellos.

TR (término relacionado)

Page 37: Indización.pdf  diapositiva

Tesauros

Nota de Alcancese usan para limitar el uso de los

descriptores, para escribir un posible sentido del término cuando este tiene diferentes significados, pues es usado en diferentes disciplinas, no forma parte del descriptor, aunque aparezca en el tesauro.