análisis comparativo del comportamiento de diferentes...

20
Análisis comparativo del comportamiento de diferentes motores de búsqueda en el tratamiento de la investigación sobre Enfermedades Raras Trabajo Fin de Máster Máster Universitario en Gestión de la Información Autor: Cristina I. Font Julián Tutor: José Antonio Ontalba y Ruipérez Tutor: Enrique Orduña Malea Curso académico: 2015 - 2016

Upload: others

Post on 21-May-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

Análisis comparativo del comportamiento de diferentes motores de búsqueda en el tratamiento de la investigación sobre

Enfermedades Raras

Trabajo Fin de MásterMáster Universitario en Gestión de la Información

Autor: Cristina I. Font JuliánTutor: José Antonio Ontalba y Ruipérez

Tutor: Enrique Orduña Malea

Curso académico: 2015 - 2016

Page 2: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

1 - 2.000Prevalencia baja

3.000.000De afectados en

España

80%Son de origen

genético.

7%de la población mundial padece

una ER.

7.000ER catalogadas en

Europa

Enfermedades Raras

Page 3: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

3

Objetivo principal

Analizar la presencia y visibilidad web de los portales relacionados con enfermedades raras mediante la

cuantificación de diferencias en el tratamiento de los portales por parte de diferentes motores de

búsqueda.

Page 4: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

4

Metodología

Análisis del interés por enfermedad. Realizando una búsqueda de

enfermedades y recopilando datos

sobre el interés que suscitan.

Búsqueda y selección de asociaciones. Localizando

virtualmente el objeto de análisis debido a que no

existe un repositorio con dicha

información.

Recopilación de datos.

Programando las herramientas

necesarias para la extracción de datos en Google, Bing y

Majestic.

Preparación de los resultados.

Recopilando toda la información extraída de modo automático

y presentando las métricas a utilizar.

Análisis de resultados. Analizando y

discutiendo los resultados obtenidos

durante la investigación.

FASE 1 FASE 2 FASE 3 FASE 4 FASE 5

Page 5: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

5

Fase 1: Análisis del interés por enfermedad

Ejemplo de una ER en el listado XML

Búsqueda de enfermedades: ๏ Fuente: Orphadata๏ Formato: XML๏ Tratamiento: Libreria Python LXML

Recopilación de datos relativos al interés: ๏ E l i n t e r é s s e m i d e m e d i a n t e l a

cuantificación de los resultados que devuelve un buscador.

๏ Automatización del proceso mediante una Araña programada en Python utilizando Scrapy.

๏ Resultados extraídos en un fichero JSON.

Page 6: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

6

Ejemplo de Araña

Araña

Items

Configuración

Page 7: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

7

Fase 2: Búsqueda y selección de asociaciones

Búsqueda de asociaciones relacionadas con Enfermedades Raras:

๏ Método 1: realizar una búsqueda por enfermedad y extraer las asociaciones en los 50 primeros resultados.

๏ Método 2: buscar en FEDER, Orpha.net y EURORIDS y generar un listado único con 438 asociaciones.

Selección de las asociaciones a analizar: ๏ Utilizando el resultado de la Fase 1 se

genera una lista con 100 asociaciones únicas.

SOrpha.net

EURORDIS

FEDER

Page 8: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

8

Fase 3: Recopilación de datos

Se recopilan todas las URLs, datos de SERP1

y SERPN.

Se recopilan datos relativos

a enlaces, tamaño y

visibilidad.

Se recopila si existe tarjeta informativa de cada una de las

7.000 enfermedades.

Se programan 4 arañas diferentes para recopilar diferentes tipos de datos de las diferentes fuentes de información utilizadas.

Page 9: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

9

Fase 4: Preparación de los resultados

Preparación de los datos finales: se utiliza un script Python para extraer los datos de todos los ficheros y generar un listado final.

Métricas utilizadas:

CITATIONFLOWIndica el número de menciones rea l izado sobre un dominio.

ALEXA LINKING INIndica la cantidad de portales que enlazan a una web.

SERPResultados obtenidos al realizar una búsqueda.

IMPACTO (WIF)Fórmula del Factor de Impacto Web:

URLs ÚNICASDiferencia entre los resultados de los motores de búsqueda.

Indica si existen páginas importantes enlazando a un contenido concreto.

LINKS REFERENCIA

Page 10: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

Resultados

Page 11: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

11

Tamaño por buscador

๏ Los resultados muestran que existe diferencia entre buscadores.๏ Los resultados de Google son mejores que los de Bing.๏ Los resultados obtenidos por Bing muestran disparidad de tamaño debido a

su sistema de resultados.

Page 12: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

12

Tamaño por buscador

๏ Las gráficas de dispersión muestran una comparación de resultados entre Google (eje X) y Bing (eje Y) por asociación.

๏ Los resultados indican que el tamaño de los portales no es el adecuado.

Gráfica 1: Gráfico de dispersión de Hits en Google y Bing.

Gráfica 2: Gráfico de dispersión de menciones en Google y Bing.

Page 13: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

13

Factor de Impacto Web

๏ Se calcula para cada una de las asociaciones por buscador.

๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de impacto.

๏ Los resultados de Bing son incorrectos por el motivo indicado anteriormente.

๏ Los resultados muestran que el impacto de los portales no es bueno y debería ser mejorado.

Tabla 1: Resumen WIF mínimo, máximo y promedio.

Page 14: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

14

Correlación de Spearman

๏ La correlación existente entre los resultados de búsqueda es similar.

๏ La correlación existente entre ambos buscadores supera el 0,5 de correlación, por lo que cualquiera de los dos buscadores es válido.

๏ Los correlación existente entre los resultados de Google indica que es más estable.

Tabla 2: Coeficiente de Spearman sobre datos recogidos.

Page 15: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

15

Enlaces Externos

CITATIONFLOW

Mínimo: 0 Máximo: 58

LINKS DE REFERENCIA ALEXA LINKING IN

El numero de webs que enlazan a los portales es muy bajo

Los valores pueden ir desde 0 hasta 100, por l o q u e s e p u e d e e x t r a e r c o m o conc lus ión que e l impacto y visibilidad no es la adecuada.

Ú n i c a m e n t e 2 5 portales se encuentran enlazados.

La visibilidad de los o t r o s 7 5 % n o e s buena.

43% 11%

13%

33%

11-50

<10

55-99

+100

portales enlazados25

Gráfica 3: Porcentaje de resultados con portales que enlazan

Page 16: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

16

Dr. Google

๏ R e s u l t a d o t r a n s v e r s a l d e l a investigación.

๏ L o s re s u l t a d o s i n d i c a n q u e únicamente el 1% de las 7.000 ER tiene una tarjeta de información en Google.

๏ En relación con el Top 50: 40 de las enfermedades tiene tarjeta asociada, por lo que el ranking de interés en el que se basa el estudio es adecuado.

Page 17: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

17

Conclusiones

h i t s e n t o d a s l a s enfermedades del Top 50.

+100.000Asoc iac iones l i s tadas exhaustivamente en un directorio único.

438de los portales analizados tiene menos de 1.000 hits.

75%

calculado un impacto web muy bajo.

WIFde correlación en los resultados de Google.

0,95todos los objetivos del p r o y e c t o h a n s i d o alcanzados con éxito.

Page 18: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

“La ciencia más útil es aquella cuyo fruto es el más comunicable”

Leonardo Da Vinci

Page 19: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de

19

Trabajo Futuro

๏ Se han observado limitaciones y nuevas posibilidades por lo que como trabajo futuro a realizar en la Tesis Doctoral se propone:

๏ Ampliar el trabajo a nivel Europeo y Mundial, añadiendo nuevos indicadores que amplíen la visión del trabajo.

๏ Estudiar las conexiones existentes entre las asociaciones y redes para comprobar su comunicación.

๏ Generar una versión web de con los resultados del proyecto.

Page 20: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de