análisis comparativo del comportamiento de diferentes...
TRANSCRIPT
![Page 1: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/1.jpg)
Análisis comparativo del comportamiento de diferentes motores de búsqueda en el tratamiento de la investigación sobre
Enfermedades Raras
Trabajo Fin de MásterMáster Universitario en Gestión de la Información
Autor: Cristina I. Font JuliánTutor: José Antonio Ontalba y Ruipérez
Tutor: Enrique Orduña Malea
Curso académico: 2015 - 2016
![Page 2: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/2.jpg)
1 - 2.000Prevalencia baja
3.000.000De afectados en
España
80%Son de origen
genético.
7%de la población mundial padece
una ER.
7.000ER catalogadas en
Europa
Enfermedades Raras
![Page 3: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/3.jpg)
3
Objetivo principal
Analizar la presencia y visibilidad web de los portales relacionados con enfermedades raras mediante la
cuantificación de diferencias en el tratamiento de los portales por parte de diferentes motores de
búsqueda.
![Page 4: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/4.jpg)
4
Metodología
Análisis del interés por enfermedad. Realizando una búsqueda de
enfermedades y recopilando datos
sobre el interés que suscitan.
Búsqueda y selección de asociaciones. Localizando
virtualmente el objeto de análisis debido a que no
existe un repositorio con dicha
información.
Recopilación de datos.
Programando las herramientas
necesarias para la extracción de datos en Google, Bing y
Majestic.
Preparación de los resultados.
Recopilando toda la información extraída de modo automático
y presentando las métricas a utilizar.
Análisis de resultados. Analizando y
discutiendo los resultados obtenidos
durante la investigación.
FASE 1 FASE 2 FASE 3 FASE 4 FASE 5
![Page 5: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/5.jpg)
5
Fase 1: Análisis del interés por enfermedad
Ejemplo de una ER en el listado XML
Búsqueda de enfermedades: ๏ Fuente: Orphadata๏ Formato: XML๏ Tratamiento: Libreria Python LXML
Recopilación de datos relativos al interés: ๏ E l i n t e r é s s e m i d e m e d i a n t e l a
cuantificación de los resultados que devuelve un buscador.
๏ Automatización del proceso mediante una Araña programada en Python utilizando Scrapy.
๏ Resultados extraídos en un fichero JSON.
![Page 6: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/6.jpg)
6
Ejemplo de Araña
Araña
Items
Configuración
![Page 7: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/7.jpg)
7
Fase 2: Búsqueda y selección de asociaciones
Búsqueda de asociaciones relacionadas con Enfermedades Raras:
๏ Método 1: realizar una búsqueda por enfermedad y extraer las asociaciones en los 50 primeros resultados.
๏ Método 2: buscar en FEDER, Orpha.net y EURORIDS y generar un listado único con 438 asociaciones.
Selección de las asociaciones a analizar: ๏ Utilizando el resultado de la Fase 1 se
genera una lista con 100 asociaciones únicas.
SOrpha.net
EURORDIS
FEDER
![Page 8: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/8.jpg)
8
Fase 3: Recopilación de datos
Se recopilan todas las URLs, datos de SERP1
y SERPN.
Se recopilan datos relativos
a enlaces, tamaño y
visibilidad.
Se recopila si existe tarjeta informativa de cada una de las
7.000 enfermedades.
Se programan 4 arañas diferentes para recopilar diferentes tipos de datos de las diferentes fuentes de información utilizadas.
![Page 9: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/9.jpg)
9
Fase 4: Preparación de los resultados
Preparación de los datos finales: se utiliza un script Python para extraer los datos de todos los ficheros y generar un listado final.
Métricas utilizadas:
CITATIONFLOWIndica el número de menciones rea l izado sobre un dominio.
ALEXA LINKING INIndica la cantidad de portales que enlazan a una web.
SERPResultados obtenidos al realizar una búsqueda.
IMPACTO (WIF)Fórmula del Factor de Impacto Web:
URLs ÚNICASDiferencia entre los resultados de los motores de búsqueda.
Indica si existen páginas importantes enlazando a un contenido concreto.
LINKS REFERENCIA
![Page 10: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/10.jpg)
Resultados
![Page 11: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/11.jpg)
11
Tamaño por buscador
๏ Los resultados muestran que existe diferencia entre buscadores.๏ Los resultados de Google son mejores que los de Bing.๏ Los resultados obtenidos por Bing muestran disparidad de tamaño debido a
su sistema de resultados.
![Page 12: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/12.jpg)
12
Tamaño por buscador
๏ Las gráficas de dispersión muestran una comparación de resultados entre Google (eje X) y Bing (eje Y) por asociación.
๏ Los resultados indican que el tamaño de los portales no es el adecuado.
Gráfica 1: Gráfico de dispersión de Hits en Google y Bing.
Gráfica 2: Gráfico de dispersión de menciones en Google y Bing.
![Page 13: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/13.jpg)
13
Factor de Impacto Web
๏ Se calcula para cada una de las asociaciones por buscador.
๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de impacto.
๏ Los resultados de Bing son incorrectos por el motivo indicado anteriormente.
๏ Los resultados muestran que el impacto de los portales no es bueno y debería ser mejorado.
Tabla 1: Resumen WIF mínimo, máximo y promedio.
![Page 14: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/14.jpg)
14
Correlación de Spearman
๏ La correlación existente entre los resultados de búsqueda es similar.
๏ La correlación existente entre ambos buscadores supera el 0,5 de correlación, por lo que cualquiera de los dos buscadores es válido.
๏ Los correlación existente entre los resultados de Google indica que es más estable.
Tabla 2: Coeficiente de Spearman sobre datos recogidos.
![Page 15: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/15.jpg)
15
Enlaces Externos
CITATIONFLOW
Mínimo: 0 Máximo: 58
LINKS DE REFERENCIA ALEXA LINKING IN
El numero de webs que enlazan a los portales es muy bajo
Los valores pueden ir desde 0 hasta 100, por l o q u e s e p u e d e e x t r a e r c o m o conc lus ión que e l impacto y visibilidad no es la adecuada.
Ú n i c a m e n t e 2 5 portales se encuentran enlazados.
La visibilidad de los o t r o s 7 5 % n o e s buena.
43% 11%
13%
33%
11-50
<10
55-99
+100
portales enlazados25
Gráfica 3: Porcentaje de resultados con portales que enlazan
![Page 16: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/16.jpg)
16
Dr. Google
๏ R e s u l t a d o t r a n s v e r s a l d e l a investigación.
๏ L o s re s u l t a d o s i n d i c a n q u e únicamente el 1% de las 7.000 ER tiene una tarjeta de información en Google.
๏ En relación con el Top 50: 40 de las enfermedades tiene tarjeta asociada, por lo que el ranking de interés en el que se basa el estudio es adecuado.
![Page 17: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/17.jpg)
17
Conclusiones
h i t s e n t o d a s l a s enfermedades del Top 50.
+100.000Asoc iac iones l i s tadas exhaustivamente en un directorio único.
438de los portales analizados tiene menos de 1.000 hits.
75%
calculado un impacto web muy bajo.
WIFde correlación en los resultados de Google.
0,95todos los objetivos del p r o y e c t o h a n s i d o alcanzados con éxito.
![Page 18: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/18.jpg)
“La ciencia más útil es aquella cuyo fruto es el más comunicable”
Leonardo Da Vinci
![Page 19: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/19.jpg)
19
Trabajo Futuro
๏ Se han observado limitaciones y nuevas posibilidades por lo que como trabajo futuro a realizar en la Tesis Doctoral se propone:
๏ Ampliar el trabajo a nivel Europeo y Mundial, añadiendo nuevos indicadores que amplíen la visión del trabajo.
๏ Estudiar las conexiones existentes entre las asociaciones y redes para comprobar su comunicación.
๏ Generar una versión web de con los resultados del proyecto.
![Page 20: Análisis comparativo del comportamiento de diferentes ...mugi.webs.upv.es/wp-content/uploads/2016/11/... · ๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de](https://reader033.vdocumento.com/reader033/viewer/2022042221/5ec7c27acc6ac0375a5875ae/html5/thumbnails/20.jpg)