motor de búsqueda de google

17
Juan Manuel Morales Ciencias de la Complejidad Universidad Autónoma de la Ciudad de México (UACM - Campus del Valle) Redes complejas Instituto de Física - UNAM Diciembre 1 del 2016 FUNDAMENTOS MATEMÁTICOS DEL MOTOR DE BÚSQUEDA DE GOOGLE

Upload: onemanuel

Post on 12-Apr-2017

236 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Juan Manuel Morales Ciencias de la Complejidad

Universidad Autónoma de la Ciudad de México (UACM - Campus del Valle)

Redes complejas

Instituto de Física - UNAM

Diciembre 1 del 2016

FUNDAMENTOS

MATEMÁTICOS DEL

MOTOR DE BÚSQUEDA

DE GOOGLE

GRANDES HITOS DEL INTERNET 1

WORLD WIDE WEB (WWW) 2

Red informática mundial

Nodos: documentos, páginas web (~ 10 12 )

Vínculos: URL (Uniform Resource Locators)

Robots: recogen todas las URL’s encontradas en un documento y las siguen recursivamente

Hypertext Transfer Protocol (http)

Hypertext Markup Language (html)

MOTORES DE BÚSQUEDA 3

Dos ejemplos de la técnica matemática básica usada por los motores de búsqueda de páginas en internet de acuerdo a su orden de relevancia.

2 Redes de referencias entre seis páginas de WWW.

TOPOLOGÍA Y MATRIZ DE ADYACENCIA. 1

Topología de la red 1

A matriz de adyacencia 1

CADENAS DE MARKOV. 1

Vector de estado (en este ejemplo sabemos con certeza que al inicio estamos en la página 2).

B matriz de transición 1

(incorpora la información de probabilidad del avance al azar de una página al siguiente con el clic del ratón)

K CLICS Y VECTOR DE ESTADO. 1

Vector de estado x (k) (Da la probabilidad de que el navegador este en la i- ésima página después de k clics de ratón al azar)

RESULTADOS DEL PROCESO ITERATIVO. 1

VECTOR PROPIO DE LA MATRIZ DE TRANSICIÓN. 1

Usando Maple o Mathematica se puede calcular el vector propio de la matriz de transición.

Los valores

de estas

fracciones

son llamados

Page Ranks

(PR) y son

una medida

de la

importancia

relativa de las

páginas.

FACTOR DE AMORTIGUAMIENTO

Damping factor δ

Introducido para considerar la existencia de grupos no conectados o circuitos sin regreso a otras páginas

TOPOLOGÍA Y MATRIZ DE ADYACENCIA. 2

Topología de la red 2

A matriz de adyacencia 2

VECTOR DE ESTADO Y MATRIZ DE TRANSICIÓN. 2

Vector de estado inicial

de 2 (en este ejemplo no se

sabe en que página estamos)

B matriz de transición 2

CADENA DE MARKOV CON FACTOR DE

AMORTIGUACIÓN. 2 El vector de estado después de k clics, incorpora una nueva matriz de transición de la probabilidad M, a donde δ B representa una caminata aleatoria y el factor (1-δ )/n permite saltar al azar de un página a otra

RESULTADOS DEL PROCESO ITERATIVO. 2

FÓRMULA DEL ALGORITMO PAGE RANK DE

GOOGLE 4

El factor d representa la probabilidad de que un navegante continúe pulsando links al navegar por internet en vez de escribir un URL directamente o de pulsar uno de sus marcadores y es un valor establecido por Google (~0.85). La probabilidad deje de pulsar links y navegue directamente a otra web aleatoria es (1- d). La introducción del factor de amortiguación en la fórmula resta algo de peso a todas las páginas de Internet y consigue que las páginas que no tienen enlaces a ninguna otra página no salgan especialmente beneficiadas. Si un usuario aterriza en una página sin enlaces, lo que hará será navegar a cualquier otra página aleatoriamente, lo que equivale a suponer que una página sin enlaces salientes tiene enlaces a todas las paginas de internet.

Google ordena los resultados de la

búsqueda utilizando su propio algoritmo

PageRank. A cada página web se le asigna

un número en función del número de

enlaces de otras páginas que la apuntan, el

valor de esas páginas y otros criterios no

públicos 4

EJEMPLO DE BÚSQUEDA EN GOOGLE

REFERENCIAS BIBLIOGRÁFICAS CONSULTADAS

1) Grandes hitos del internet .Retrieved November 28 2016, from http://geektheplanet.net/wp-

content/uploads/2013/12/historiainternet-gtp-620x350.jpg

1) World Wide Web. Retrieved November 28, 2016, from

https://es.wikipedia.org/wiki/World_Wide_Web

3) Anton, H., & Rorres, C. (2013). Elementary linear algebra: with supplemental applications. Wiley. Pages 706-712

4) PageRank. Retrieved November 28 2016, from https://es.wikipedia.org/wiki/PageRank