2º periodismo documentación informativa david rodríguez mateos - 2004 anÁlisis documental de...

Post on 13-Feb-2015

10 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

ANÁLISIS DOCUMENTAL DE INFORMACIÓN TEXTUAL

Tema 8

Documentación InformativaLicenciatura en Periodismo

Universidad Carlos III de Madrid

Curso 2004/2005

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

Índice1. Introducción2. Problemas del lenguaje natural para la recuperación de

información3. Efectos de los problemas del lenguaje natural4. Representación de los documentos: el análisis documental5. Análisis documental: tipos6. Análisis formal7. Análisis de contenido: clasificación8. Análisis de contenido: indización9. Descriptores: ventajas e inconvenientes10. Tipos de descriptores11. Indización de textos periodísticos12. Proceso de indización13. Resumen

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

1. Introducción

• Documentos textuales periodísticos: creados mediante un lenguaje natural

• Centro de documentación: contiene gran cantidad de documentos representados mediante lenguaje natural

• ¿Cómo recuperar en el futuro solo los documentos que necesitamos como respuesta a una petición de información?

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

2. Problemas del lenguaje natural para la recuperación de información

• Equivalencias de enunciados: – Los accionistas dan el sí al nuevo BBVA– Los accionistas aprueban la fusión del

BBV y Argentaria

• Dificultad para generalizar– Ejemplo: buscar documentos relacionados

con Andalucía• ¿Cómo recuperar documentos relacionados

con Sevilla, Córdoba o Palma del Río en los que no aparece el término Andalucía?

8.1.2.3.4.5.6.7.8.9.10.11.12 .13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

2. Problemas del lenguaje natural para la recuperación de información

• Dificultad de predicción en la coincidencia de los términos usados– Para la redacción de una información– Para su búsqueda posterior

• Causada por el empleo de figuras lingüísticas (I):– Flexiones y variantes gramaticales: singular, plural,

formas verbales, etc. – Variantes ortográficas del mismo término

• Yushenko / Yushchenko / Yuschenko • Disquete / diskette.

– Variantes idiomáticas: • Lérida / Lleida

8.1.2.3.4.5.6.7.8.9.10.11.12 .13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

2. Problemas del lenguaje natural para la recuperación de información

• Causada por el empleo de figuras lingüísticas (II):– Sinonimia: palabras con el mismo significado

• Muy utilizada en el español y especialmente en prensa. • impuesto / tributo / contribución

– Polisemia: diversidad de significaciones de una palabra.• planta (anatómica) / planta (industrial) / planta (botánica)

– Homografía: palabras que siendo iguales por su forma tienen distinto origen y significado

• banco (mobiliario urbano) / banco (entidad financiera)

8.1.2.3.4.5.6.7.8.9.10.11.12 .13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

3. Efectos de los problemas del lenguaje natural

• Ruido: – Documentos que se recuperan – Pero no son relevantes (no interesan) para la

búsqueda que realiza un usuario

• Silencio: – Documentos que existen en la base de datos– Son relevantes (interesarían al usuario que

busca información) – Sin embargo, no se recuperan

• No ha habido coincidencia entre los términos que utilizó el periodista y los que luego utiliza el usuario que busca información

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

3. Efectos de los problemas del lenguaje natural

• Equivalencias de enunciados

• Dificultad para generalizar

• Dificultad para usar los mismos términos en la redacción y en la recuperación de información

• Figuras lingüísticas:

Flexiones y variantes gramaticales

Variantes ortográficas del mismo término

Variantes idiomáticas

Sinonimia

Polisemia

Homonimia

Silencio / Ruido

Silencio

Ruido

Problema Efecto

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

4. Representación de los documentos: el análisis documental

• ¿Cómo representar un documento para aumentar las posibilidades de que sea recuperado cuando corresponde?

• Análisis documental– Lectura, síntesis y representación de un texto– Descripción mediante términos– Conjunto de términos usados para describir textos

en un centro documental = lenguaje documental– Tipos de términos creados

• Lenguaje libre: palabras clave• Lenguaje controlado: descriptores

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

5. Análisis documental: tipos

• Dos tipos de análisis documental– Análisis formal

• Sobre aspectos formales del documento• Control e identificación de los documentos que forman

parte de una colección • Permite localizar físicamente un documento• Fases: catalogación y descripción documental

– Análisis de contenido• Sobre aspectos de contenido del documento• Fases: clasificación, indización y resumen

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

6. Análisis formal• Descripción documental

– Datos de localización física de cada documento• Autor, título, medio, página, fecha de publicación, tamaño...• Existencia de normas internacionales (ISBD)

– Facilitan el intercambio de descripciones entre centros documentales

• Centros de documentación periodísticos: suelen tener normas propias

• Catalogación– Creación de un catálogo

• Lista de los documentos que componen una colección• Definición de los puntos de acceso

– Qué tipo de datos del documento pueden servir para localizarlo

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

6. Análisis formal

• Productos de la catalogación:– Fichas principales

• Contiene los datos necesarios para la localización de una obra descrita.

– Fichas secundarias: • Acceso por coautores, materias, etc.

– Fichas de referencia: analíticas, etc. – CATÁLOGOS

• De autores, materias, títulos, diccionario, sistemático, topográfico, de adquisiciones, etc.

• Normas comunes: ISBD– Permiten intercambio de productos– Ahorran esfuerzos al catalogar

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

7. Análisis de contenido: clasificación

• Expresión general del contenido de un documento– Descripción básica de las materias

• Mediante términos extraídos de un lenguaje documental (lenguaje de clasificación)

• El lenguaje es– De estructura jerárquica– Sistemático– Consta de clases cerradas (que pueden tener subclases)

Expresadas mediante números y/o letras/palabras– Usos habituales:

Agrupar rápidamente los contenidos por materias Organizar físicamente los contenidos en un centro de

documentación

– Ej.: CDU (Clasificación Decimal Universal)

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

8. Análisis de contenido: indización• Extracción de los términos que pueden expresar,

describir o indicar los temas de los que trata un documento– Mediante un lenguaje de indización que

• Tiene estructura combinatoria– Emplea diversos términos – Los términos pueden tener distintas relaciones entre sí (no solo

de jerarquía).

– Los términos del lenguaje de indización pueden:• Estar formado por términos libremente elegidos por los

indizadores: palabras clave• Formar parte de un lenguaje controlado, previamente

definido.– Los términos de ese lenguaje controlado se denominan

descriptores

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

8. Análisis de contenido: indización• Tipos de lenguajes de indización:

– Listados alfabéticos• De materias• De unitérminos (descriptor de una sola palabra)• De descriptores (pueden tener más de una palabra)

– Tesauros• Abarcan un área temática concreta• Incluyen distintas relaciones entre términos

– Jerárquicas TG Documentación TE Documentación Informativa

– Asociativas Profesor TR Alumno

– Preferenciales Estudiante USE Alumno Alumno UP Estudiante

– Notas aclaratorias Trabajos

NA Incluidos en la parte teórica de la asignatura

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

9. Descriptores: ventajas e inconvenientes

• Ventajas– Reducen los niveles de ruido y silencio– Permiten ampliar y especificar las búsquedas

• Pasar a términos más específicos o relacionados

• Inconvenientes– Coste alto en la creación y mantenimiento de los

lenguajes– Dificultad de los usuarios para conocer el lenguaje

documental y su uso

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

10. Tipos de descriptores

• Descriptor unitérmino o simple– Representa un concepto mediante una sola

palabra• CINE, OCIO, HIERRO, AUTOMOVIL

• Descriptor sintagmático o compuesto– Representa un concepto utilizando más de una

palabra (un sintagma nominal o preposicional)• COMUNICACION SOCIAL, PARTIDOS POLITICOS,

MEDIOS DE TRANSPORTE, EMPRESA PRIVADA.

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

10. Tipos de descriptores

• Descriptor primario– Término o conjunto de términos que representan

un concepto de manera unívoca. – Es significativo, relevante y no hay posibilidad de

ambigüedad en su sentido, pudiendo aparecer aislado sin necesidad de aclaración.

• Descriptor secundario:– Necesita ir acompañado de otros descriptores

para expresar un significado preciso• Ej: análisis, evaluación, concepto, teoría...

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

10. Tipos de descriptores

• Descriptor temático– Representa cualquier contenido disciplinar.

• Descriptor geográfico– Representa todo tipo de conceptos vinculados con

lugares y sitios.

• Descriptor onomástico– Representa un nombre de persona o de

institución.

• Descriptor cronológico– Representa períodos de tiempo o fechas.

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

11. Indización de textos periodísticos

• En el caso de los textos periodísticos, aplicar las W’s– ¿Quién?– ¿Qué?– ¿Cuándo?– ¿Dónde?– ¿Por qué?– ¿Cómo?

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

12. Proceso de indización

1. Planteamiento de objetivos– ¿Cuál es el contexto de trabajo?

2. Conocimiento del contenido del documento.

3. Elección de conceptos a representar: – Selectividad: Retener aquellos conceptos sobre los cuales

el documento aporta información susceptible de utilizar al usuario)

– Exhaustividad: Todos los conceptos útiles deben ser extraidos). El criterio principal de selección es el valor potencial del concepto escogido como elemento de expresión del tema del documento de cara a su recuperación.

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

12. Proceso de indización

4. Verificación de la pertinencia (exactitud y utilidad) de los conceptos extraidos.

5. Traducción de los conceptos escogidos al lenguaje documental del sistema.

– Los conceptos deberán traducirse por entradas del mismo nivel de especificidad o superior.

– Si el concepto es compuesto y existe la opción deberá traducirse por una entrada compuesta.

6. Verificación de la pertinencia de los términos obtenidos

– planteándolos como términos posibles de interrogación y valorando si el documento es pertinente

7. Formalización de la descripción si el sistema prevé algún tipo de regla

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

13. Resumen• Representación abreviada y precisa del contenido de

un documento– Sin interpretación ni crítica– Sin mención expresa del autor del resumen

• Tipos (I)– Resumen informativo:

• Relación lógica y lineal de los temas tratados• Extensión de unas 100 a 300 palabras• A veces, puede ser sustituto del documento resumido

–   Resumen indicativo: • Breve y exacta representación del contenido de un documento• Indica de forma superficial los temas abordados• Extensión es de unas 50 palabra• Rara vez sustituye al documento resumido

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

13. Resumen• Tipos (II)

– Resumen informativo-indicativo• Las partes principales están escritas con un estilo informativo• Aquellos aspectos de menor trascendencia son tratados de

forma indicativa.

– Resumen analítico• Indica la profundidad y extensión del trabajo

– Evalúa la experimentación, la metodología, la importancia de la contribución al desarrollo del conocimiento, etc.

– Es más un comentario que un resumen. Hay que dejar claro que incluimos nuestra opinión.

– El título• Puede ser considerado un resumen, si refleja verdaderamente

la esencia del contenido– Ocurre a veces en artículos de revistas científicas

8.1.2.3.4.5.6.7.8.9.10.11.12.13

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

Bibliografía • FUENTES I PUJOL, Mª Eulàlia. Manual de documentación periodística.

Madrid: Síntesis, 1995. • GARCÍA GUTIÉRREZ, Antonio. Análisis documental: textos

periodísticos escritos. En: En: García Gutiérrez, Antonio (Editor). Introducción a la documentación informativa y periodística. Sevilla: Editorial MAD, 1999

• HERNÁNDEZ, Tony: Tema 5: Análisis documental de la información impresa. 2001, http://rayuela.uc3m.es/~tony/pdmo/pdmotema5.htm [Acceso: 10/12/2004]

• LANCASTER, Frederick W. El control de vocabulario en la recuperación de información. Valencia: Universitat de Valencia, 1995. 286 p.

• VALLE GASTAMINZA, Félix del: Análisis y lenguajes documentales. 2004, http://www.ucm.es/info/multidoc/prof/fvalle/temaad.htm [Acceso: 1/12/2004]– -- Resumen analítico.

http://www.ucm.es/info/multidoc/prof/fvalle/temaresumen.htm, 2004 [Acceso: 7/12/2004]

top related