mejorando la fusión de datos en recuperación de...

15
Mejorando la Fusión de Datos en Recuperación de Información 6to Taller de Tecnologías del Lenguaje Humano Octubre de 2009 Antonio Juárez González [email protected] Laboratorio de Tecnologías del Lenguaje Instituto Nacional de Astrofísica, Óptica y Electrónica

Upload: others

Post on 08-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mejorando la Fusión de Datos en Recuperación de Informaciónccc.inaoep.mx/~tec_lenguaje09/uploads/Main/AntonioJuarez... · 2009-11-05 · Descripción del problema Mejorando la

Mejorando la Fusión de Datos en Recuperación de Información

6to Taller de Tecnologías del Lenguaje HumanoOctubre de 2009

Antonio Juárez Gonzá[email protected]

Laboratorio de Tecnologías del Lenguaje

Instituto Nacional de Astrofísica, Óptica y Electrónica

Page 2: Mejorando la Fusión de Datos en Recuperación de Informaciónccc.inaoep.mx/~tec_lenguaje09/uploads/Main/AntonioJuarez... · 2009-11-05 · Descripción del problema Mejorando la

Contenido

Introducción

Descripción del problema

Trabajo relacionado

Método propuesto

Experimentos y resultados

Conclusiones

Trabajo futuro

Mejorando la Fusión de Datos en Recuperación de Información 2

Page 3: Mejorando la Fusión de Datos en Recuperación de Informaciónccc.inaoep.mx/~tec_lenguaje09/uploads/Main/AntonioJuarez... · 2009-11-05 · Descripción del problema Mejorando la

Introducción

• Información

WWWMejorando la Fusión de Datos en Recuperación de Información 3

Page 4: Mejorando la Fusión de Datos en Recuperación de Informaciónccc.inaoep.mx/~tec_lenguaje09/uploads/Main/AntonioJuarez... · 2009-11-05 · Descripción del problema Mejorando la

Recuperación de información

Necesidad de información

(Petición)

Sistema de RI

Colección de documentos

Conjunto de

documentos

recuperados

Orden de acuerdo

a una

medida de similitud

Mejorando la Fusión de Datos en Recuperación de Información 4

Page 5: Mejorando la Fusión de Datos en Recuperación de Informaciónccc.inaoep.mx/~tec_lenguaje09/uploads/Main/AntonioJuarez... · 2009-11-05 · Descripción del problema Mejorando la

Fusión de datos

B

J

F

A

I

N

H

E

M

A

F

D

L

C

K

J

I

G

Lista 1 Lista 2

Método de fusión

A

F

D

L

J

B

C

I

K

N

H

E

G

M

MF 1

A

F

J

D

B

I

L

C

K

N

H

E

G

M

MF 2

A

F

J

I

D

B

L

C

K

N

H

E

G

M

MF 3

04/11/2009 5Método Fusión Dinámica aplicado a la Recuperación de Información

Page 6: Mejorando la Fusión de Datos en Recuperación de Informaciónccc.inaoep.mx/~tec_lenguaje09/uploads/Main/AntonioJuarez... · 2009-11-05 · Descripción del problema Mejorando la

Descripción del problema

Mejorando la Fusión de Datos en Recuperación de Información 6

military intervention of Russia in Chechenya

AP

S1 0.6291

S2 0.6607

S3 0.2912

S4 0.4852

S5 0.4698

Invasion of Haiti by U.N./US soldiers

AP

S1 0.2556

S2 0.2212

S3 0.1620

S4 0.2453

S5 0.2512

military intervention of Russia

in Chechenya

(AP base: 0.6607, S2 )

Fusión AP

S1 – S2 0.6549

S1 – S3 0.5790

S1 – S4 0.5988

S1 – S5 0.6144

S2 – S3 0.5914

S2 – S4 0.6206

S2 – S5 0.6368

S3 – S4 0.5125

S3 – S5 0.5620

S4 – S5 0.5101

S1 – S2 – S3 – S4 – S5 0.6151

Invasion of Haiti by U.N./US

soldiers

(AP base: 0.2556, S1 )

Fusión AP

S1 – S2 0.2453

S1 – S3 0.2552

S1 – S4 0.2835

S1 – S5 0.2899

S2 – S3 0.2480

S2 – S4 0.2941

S2 – S5 0.2900

S3 – S4 0.2563

S3 – S5 0.2692

S4 – S5 0.2567

S1 – S2 – S3 – S4 – S5 0.2847

Fusión de sistemas de RIDiferentes sistemas de RI

Page 7: Mejorando la Fusión de Datos en Recuperación de Informaciónccc.inaoep.mx/~tec_lenguaje09/uploads/Main/AntonioJuarez... · 2009-11-05 · Descripción del problema Mejorando la

Observaciones

• No siempre es conveniente fusionar las mejores listas.

• Las listas de resultados tienen ciertas características entre sí que las hacen más o menos aptas para ser fusionadas.

• Los métodos de fusión aprovechan estas características.

Mejorando la Fusión de Datos en Recuperación de Información 7

Motores de

búsqueda

Método de fusión

¿Cuál debe ser

la lista final?

Page 8: Mejorando la Fusión de Datos en Recuperación de Informaciónccc.inaoep.mx/~tec_lenguaje09/uploads/Main/AntonioJuarez... · 2009-11-05 · Descripción del problema Mejorando la

Trabajo relacionado

• Predicción del desempeño de la fusión.– Determinar el desempeño de la fusión (Vogt y Cottrell 1998).

– Determinar cuándo una fusión puede superar el desempeño de la mejor de ellas (Ng y Kantor 2000, Wu y McClean 2006).

– Basados en traslape de elementos, correlación de listas, número de listas a fusionar, valores de MAP y precisión.

– Contabilizar las predicciones correctas y las incorrectas.

• Aplicaciones– Determinar el número de listas y el método de fusión para una

colección (Gopalan y Batri 2007).

– Propuesta de un modelo de fusión dinámica (Diamond y Liddy 1998).

Mejorando la Fusión de Datos en Recuperación de Información 8

Page 9: Mejorando la Fusión de Datos en Recuperación de Informaciónccc.inaoep.mx/~tec_lenguaje09/uploads/Main/AntonioJuarez... · 2009-11-05 · Descripción del problema Mejorando la

Discusión

• Predicción del desempeño de la fusión.– Dependientes de los juicios de relevancia.

– Métodos supervisados.

– Tratan al problema FDR como un problema de clasificación.

– Enfocados sólo al análisis.

• Aplicaciones– Método supervisado ligado a un solo conjunto de datos.

– Enfoque global.

– Conocimiento previo de los sistemas de recuperación considerados.

Mejorando la Fusión de Datos en Recuperación de Información 9

Page 10: Mejorando la Fusión de Datos en Recuperación de Informaciónccc.inaoep.mx/~tec_lenguaje09/uploads/Main/AntonioJuarez... · 2009-11-05 · Descripción del problema Mejorando la

Método propuesto

• Selección de las mejores n listas para la fusión

Mejorando la Fusión de Datos en Recuperación de Información 10

l1

ln

.

.

.

Q

Medida de calidad

Q(l1)...

Q(ln)

Fusionar las mejores n

listas

lfOrdenamiento

Page 11: Mejorando la Fusión de Datos en Recuperación de Informaciónccc.inaoep.mx/~tec_lenguaje09/uploads/Main/AntonioJuarez... · 2009-11-05 · Descripción del problema Mejorando la

Experimentos

• Conjuntos de datos– Adhoc CLEF 2005 (50 peticiones)

– GeoCLEF 2008 (24 de 25 peticiones)

– ImageCLEF 2008 (39 peticiones)

– RobustCLEF 2008 (153 de 160 peticiones)

• Se consideraron 5 listas de resultados por conjunto de datos.

• Descripción– Se seleccionará un número fijo de listas para ser fusionadas con tres

diferentes métodos de fusión: maximo RSV, combMNZ y Fuzzy Borda.

– Se tomará como baseline la fusión de todas las listas con cada método de fusión.

Mejorando la Fusión de Datos en Recuperación de Información 11

Page 12: Mejorando la Fusión de Datos en Recuperación de Informaciónccc.inaoep.mx/~tec_lenguaje09/uploads/Main/AntonioJuarez... · 2009-11-05 · Descripción del problema Mejorando la

Resultados

Mejorando la Fusión de Datos en Recuperación de Información 12

Method Ad hoc 2005 GeoCLEF 2008 ImageCLEF 2008 RobustCLEF 2008

Fusion of all lists MAP SE MAP SE MAP SE MAP SE

maximum RSV 0.231 0.18 0.251 0.231

combMNZ 0.275 0.244 0.302 0.341

Fuzzy Borda 0.267 0.251 0.321 0.167

List Selection n = 2

maximum RSV 0.245 * 0.214 0.31 * 0.288 *

combMNZ 0.3 * 0.233 0.333 * 0.334

Fuzzy Borda 0.295 * 0.266 0.341 * 0.271 *

List Selection n = 3

maximum RSV 0.229 0.188 0.303 * 0.263 *

combMNZ 0.281 0.274 0.34 * 0.328

Fuzzy Borda 0.285 * 0.288 * 0.345 * 0.261 *

List Selection n = 4

maximum RSV 0.225 0.177 0.287 * 0.246 *

combMNZ 0.274 0.261 * 0.323 * 0.324

Fuzzy Borda 0.278 * 0.286 * 0.335 * 0.223 *

* Resultados estadísticamente significativos (Se utilizó la prueba paired Student’s t-test considerando un valor α = 0.05).

Page 13: Mejorando la Fusión de Datos en Recuperación de Informaciónccc.inaoep.mx/~tec_lenguaje09/uploads/Main/AntonioJuarez... · 2009-11-05 · Descripción del problema Mejorando la

Conclusiones

• La Fusión de Datos puede ser mejorada al realizar un análisisprevio de las listas a fusionar.

• La medida de relevancia utilizada, basada en elposicionamiento y redundancia de los elementos en las listases útil para seleccionar las listas a fusionar.

• La prueba estadística aplicada a los resultados nos permiteconcluir que la mejora sobre la Fusión de Datos sistemática(fusión de todas las listas disponibles) no fue por azar.

Mejorando la Fusión de Datos en Recuperación de Información 13

Page 14: Mejorando la Fusión de Datos en Recuperación de Informaciónccc.inaoep.mx/~tec_lenguaje09/uploads/Main/AntonioJuarez... · 2009-11-05 · Descripción del problema Mejorando la

Trabajo futuro

• Considerar el caso en que la intersección de las listas sea vacía.

• Considerar un número variable de listas por petición para la fusión.

• Seleccionar el método de fusión más adecuado para las listas seleccionadas.

Mejorando la Fusión de Datos en Recuperación de Información 14

Page 15: Mejorando la Fusión de Datos en Recuperación de Informaciónccc.inaoep.mx/~tec_lenguaje09/uploads/Main/AntonioJuarez... · 2009-11-05 · Descripción del problema Mejorando la

Mejorando la Fusión de Datos en Recuperación de Información 15

Gracias por su atención