tema 6. evaluación de sris
DESCRIPTION
Tema 6. Evaluación de SRIs. Sistemas de Gestión Documental. Introducción. No todos los SRI son iguales. Las diferencias se notarán, especialmente, en los resultados que ofrezcan. Determinar lo bueno o lo malo que es un SRI es una medida de evaluación, que debe realizarse de forma estricta. - PowerPoint PPT PresentationTRANSCRIPT
1
Tema 6.Evaluación de SRIs
Sistemas de Gestión Documental
2
Introducción No todos los SRI son iguales. Las
diferencias se notarán, especialmente, en los resultados que ofrezcan.
Determinar lo bueno o lo malo que es un SRI es una medida de evaluación, que debe realizarse de forma estricta.
Existen mucha posibilidades de evaluar, y muchos elementos que someter a evaluación. Nos centraremos únicamente en evaluación de resultados.
3
Objetivos Ayudar al proceso de selección de un SRI. Monitorizar y evaluar la efectividad de los
SRI. Evaluar el proceso de generación de
consultas para su mejora. Proporcionar datos para los análisis
coste-beneficio de los SRI. Determinar los efectos de los cambios
realizados en un SRI.
4
Elementos de evaluación Gestor de consultas
Interpretación, evaluación de resultados.
Gestor de datos Velocidad de ejecución, espacio.
Proceso de creación de consultas Base de datos
Contenidos, estructura, ámbito.
5
Criterio de evaluación Para evaluar resultados, el criterio
de evaluación a considerar es la relevancia.
La relevancia se puede ver desde dos puntos de vista: Cercanía de la respuesta a la pregunta Valor o utilidad de la respuesta para el
usuario que formula la pregunta.
6
Medidas de evaluación Básicas
Precisión
Exhaustividad
Número de registros relevantes recuperadosP=
Número total de registros recuperados
Número de registros relevantes recuperadosP=
Número total de registros recuperados
Número de registros relevantes recuperadosE=
Número total de registros relevantes en la base de datos
Número de registros relevantes recuperadosE=
Número total de registros relevantes en la base de datos
7
Medidas de evaluación Avanzadas
Fallout
Exhaustividad Relevante Unica
Número de registros recuperados no relevantesFallout =
Número total de registros no relevantes en la base de datos
Número de registros recuperados no relevantesFallout =
Número total de registros no relevantes en la base de datos
Número de únicos relevantesE.R.U. =
Número de relevantes
Número de únicos relevantesE.R.U. =
Número de relevantes
8
Medidas de evaluación Avanzadas
Novelty Ratio Relevantes y no conocidos respecto a los
relevantes recuperados. Coverage
Relevantes recuperados respecto a los relevantes conocidos por el usuario a priori.
Sought Recall Relevantes revisados respecto a los relevantes
que el usuario hubiese querido examinar a priori.
9
TREC ¿Qué es TREC?
Text REtrieval Conference Conferencia que pretende apoyar en
la investigación de la recuperación de información.
Proporciona la infraestructura necesaria para una evaluación a gran escala de diferentes metodologías de recuperación de información.
10
TREC ¿Cómo funciona TREC?
Inscripción en la conferencia. Selección de ‘tracks’ en los que se desea
participar. Se obtiene un conjunto de prueba (datos,
preguntas y respuestas) para evaluar el SRI de cada participante.
Se somete el sistema del participante a las pruebas solicitadas, y se envían los resultados.
Se publican los resultados de cada participante en todos los ‘tracks’.
11
TREC ‘Topics’
Se distinguen Tópicos de Consultas Tópico es la necesidad de información. Consulta es la traducción del tópico.
Partes: número, título, descripción y narrativa.
12
TREC
13
TREC
14
TREC Cross-Language
Búsqueda ad hoc de documentos escritos en un idioma utilizando palabras en otro idioma diferente.
15
TREC Filtering
Para cada documento de un conjunto de documentos, decidir si se recupera (decisión binaria) en respuesta a una consulta.
Subtareas Adaptive filtering. Se parte de una consulta y un
conjunto de docs relevantes. Se analiza doc a doc y se decide para cada uno, se obtiene un juicio de relevancia, y se puede modificar el criterio de decisión en base a la respuesta.
Batch filtering. Igual que el anterior, pero sin feedback.
Routing. Se utiliza lógica no binaria.
16
TREC Interactive
Investigar la búsqueda como proceso interactivo donde se observa tanto el proceso como el resultado.
En la primera fase se observa como los usuarios actúan respecto a una serie de cuestiones planteadas.
En la segunda fase se utilizan los resultados obtenidos en aplicación a sistemas que ayuden a los usuarios en las búsquedas.
17
TREC Question answering
Investigar sistemas que contestan preguntas en lugar de devolver documentos.
Subtareas: Main. Recuperar la respuesta en 50 caracteres. List. Ensamblar un conjunto de resultados como
respuesta a la pregunta. Context. Respuesta a series de preguntas
enlazadas, lo que supone un conocimiento del contexto.
18
TREC Video
Promocionar el progreso en las búsquedas de contenido sobre el video digital.
Tareas: Shot boundary detection Known item search General search
19
TREC Web
Investigar el comportamiento de la recuperación de información en el web.
Tareas Ad hoc. Homepage finding.
20
TREC Medidas de evaluación
Se utilizan las medidas básicas de Precisión (Precision) y Exhaustividad (Recall) para las búsquedas ad hoc y búsquedas en el web.
Para otros ‘tracks’ se definen medidas y métricas alternativas que ofrezcan una mejor evaluación del funcionamiento del sistema.
21
TREC Medidas de evaluación
Evaluation Report Cross-language, ad hoc, web, routing
filtering. Resumen de estadísticas, Medias de
precisión-exhaustividad, Medias de precisión por documento, gráfico precisión-exhaustividad, histograma de precisión media según tópico.
22
TREC Medidas de evaluación
Otras medidas Informe de evaluación de question
answering Informe de evaluación de filtering Informe de evaluación de homepages
23
TREC Ejemplos de Informes
Evaluation Report Resultados de pruebas ad hoc Resultados de pruebas ad hoc para el
web Question answering Filtering Homepages
24
25
26
27
28