tema 6. evaluación de sris

1

Tema 6.Evaluación de SRIs

Sistemas de Gestión Documental

2

Introducción No todos los SRI son iguales. Las

diferencias se notarán, especialmente, en los resultados que ofrezcan.

Determinar lo bueno o lo malo que es un SRI es una medida de evaluación, que debe realizarse de forma estricta.

Existen mucha posibilidades de evaluar, y muchos elementos que someter a evaluación. Nos centraremos únicamente en evaluación de resultados.

3

Objetivos Ayudar al proceso de selección de un SRI. Monitorizar y evaluar la efectividad de los

SRI. Evaluar el proceso de generación de

consultas para su mejora. Proporcionar datos para los análisis

coste-beneficio de los SRI. Determinar los efectos de los cambios

realizados en un SRI.

4

Elementos de evaluación Gestor de consultas

Interpretación, evaluación de resultados.

Gestor de datos Velocidad de ejecución, espacio.

Proceso de creación de consultas Base de datos

Contenidos, estructura, ámbito.

5

Criterio de evaluación Para evaluar resultados, el criterio

de evaluación a considerar es la relevancia.

La relevancia se puede ver desde dos puntos de vista: Cercanía de la respuesta a la pregunta Valor o utilidad de la respuesta para el

usuario que formula la pregunta.

6

Medidas de evaluación Básicas

Precisión

Exhaustividad

Número de registros relevantes recuperadosP=

Número total de registros recuperados

Número de registros relevantes recuperadosP=

Número total de registros recuperados

Número de registros relevantes recuperadosE=

Número total de registros relevantes en la base de datos

Número de registros relevantes recuperadosE=

Número total de registros relevantes en la base de datos

7

Medidas de evaluación Avanzadas

Fallout

Exhaustividad Relevante Unica

Número de registros recuperados no relevantesFallout =

Número total de registros no relevantes en la base de datos

Número de registros recuperados no relevantesFallout =

Número total de registros no relevantes en la base de datos

Número de únicos relevantesE.R.U. =

Número de relevantes

Número de únicos relevantesE.R.U. =

Número de relevantes

8

Medidas de evaluación Avanzadas

Novelty Ratio Relevantes y no conocidos respecto a los

relevantes recuperados. Coverage

Relevantes recuperados respecto a los relevantes conocidos por el usuario a priori.

Sought Recall Relevantes revisados respecto a los relevantes

que el usuario hubiese querido examinar a priori.

9

TREC ¿Qué es TREC?

Text REtrieval Conference Conferencia que pretende apoyar en

la investigación de la recuperación de información.

Proporciona la infraestructura necesaria para una evaluación a gran escala de diferentes metodologías de recuperación de información.

10

TREC ¿Cómo funciona TREC?

Inscripción en la conferencia. Selección de ‘tracks’ en los que se desea

participar. Se obtiene un conjunto de prueba (datos,

preguntas y respuestas) para evaluar el SRI de cada participante.

Se somete el sistema del participante a las pruebas solicitadas, y se envían los resultados.

Se publican los resultados de cada participante en todos los ‘tracks’.

11

TREC ‘Topics’

Se distinguen Tópicos de Consultas Tópico es la necesidad de información. Consulta es la traducción del tópico.

Partes: número, título, descripción y narrativa.

12

TREC

13

TREC

14

TREC Cross-Language

Búsqueda ad hoc de documentos escritos en un idioma utilizando palabras en otro idioma diferente.

15

TREC Filtering

Para cada documento de un conjunto de documentos, decidir si se recupera (decisión binaria) en respuesta a una consulta.

Subtareas Adaptive filtering. Se parte de una consulta y un

conjunto de docs relevantes. Se analiza doc a doc y se decide para cada uno, se obtiene un juicio de relevancia, y se puede modificar el criterio de decisión en base a la respuesta.

Batch filtering. Igual que el anterior, pero sin feedback.

Routing. Se utiliza lógica no binaria.

16

TREC Interactive

Investigar la búsqueda como proceso interactivo donde se observa tanto el proceso como el resultado.

En la primera fase se observa como los usuarios actúan respecto a una serie de cuestiones planteadas.

En la segunda fase se utilizan los resultados obtenidos en aplicación a sistemas que ayuden a los usuarios en las búsquedas.

17

TREC Question answering

Investigar sistemas que contestan preguntas en lugar de devolver documentos.

Subtareas: Main. Recuperar la respuesta en 50 caracteres. List. Ensamblar un conjunto de resultados como

respuesta a la pregunta. Context. Respuesta a series de preguntas

enlazadas, lo que supone un conocimiento del contexto.

18

TREC Video

Promocionar el progreso en las búsquedas de contenido sobre el video digital.

Tareas: Shot boundary detection Known item search General search

19

TREC Web

Investigar el comportamiento de la recuperación de información en el web.

Tareas Ad hoc. Homepage finding.

20

TREC Medidas de evaluación

Se utilizan las medidas básicas de Precisión (Precision) y Exhaustividad (Recall) para las búsquedas ad hoc y búsquedas en el web.

Para otros ‘tracks’ se definen medidas y métricas alternativas que ofrezcan una mejor evaluación del funcionamiento del sistema.

21


Evaluation Report Cross-language, ad hoc, web, routing

filtering. Resumen de estadísticas, Medias de

precisión-exhaustividad, Medias de precisión por documento, gráfico precisión-exhaustividad, histograma de precisión media según tópico.

22


Otras medidas Informe de evaluación de question

answering Informe de evaluación de filtering Informe de evaluación de homepages

23

TREC Ejemplos de Informes

Evaluation Report Resultados de pruebas ad hoc Resultados de pruebas ad hoc para el

web Question answering Filtering Homepages

tema 6. evaluación de sris

Documents