web crawlers

38
Las Búsquedas Inteligentes en las Ciudades del Futuro Autor(es ): Mtr. Luis Fernando Aguas

Upload: luis-fernando-aguas-bucheli

Post on 13-Jan-2017

52 views

Category:

Automotive


0 download

TRANSCRIPT

Page 1: Web Crawlers

Las Búsquedas Inteligentes en las Ciudades del Futuro

Autor(es): • Mtr. Luis Fernando Aguas

Page 2: Web Crawlers

Contenidos• Introducción

• Knowledge Graph

• Búsquedas Inteligentes

• ¿Qué es un Webcrawler?

• Proceso de Webcrawling Inteligente

• Web Crawler- PHP

• Web Crawler aplicado a Redes Sociales

• Perfiles Digitales

• El futuro de las búsquedas

Page 3: Web Crawlers

Introducción

• Buscador (motor de búsqueda) es un sistema informático que busca archivos almacenados en servidores web gracias a sus “spider” (o Web crawler).

Page 4: Web Crawlers

Knowledge Graph:

• El buscador perfecto debería entender exactamente lo que quieres decir y debería devolver exactamente lo que quieres.

• El nuevo concepto de google Knowledge Graph “El gráfico de conocimiento” es una colección enorme de personas, lugares y cosas del mundo y la forma en que están interconectadas entre sí.

Page 5: Web Crawlers

Knowledge Graph:

• Resultados de cosas y de conceptos

Page 6: Web Crawlers

Knowledge Graph:

• Obtención de mejores resúmenes

Page 7: Web Crawlers

Knowledge Graph:

• Profundizar y ampliar resultados

Page 8: Web Crawlers

Búsquedas Inteligentes

Cola de Links

Agentes de descarga (b)

Agente de gestión links (a)

Agentes de proceso (c)

Páginas WEB

Distancias (Diccionario de

datos)

Servicios

Page 9: Web Crawlers

Búsquedas Inteligentes

Agentes de proceso

Distancias (Diccionario de

datos)

Servicio de agregado de palabras (a)

Servicio de agregado de frases (b)

Servicio de cálculo de distancias (c)

Proceso por lotes

Page 10: Web Crawlers

¿Qué es un Webcrawler?

• Exploran páginas web en forma automática.

• Suelen ser bots.

• Es utilizado por los motores de búsqueda.

Page 11: Web Crawlers

Proceso de Webcrawling Inteligente

• Lista inicial de links.

• Exploración de Sitios Web de la lista.

• Extracción de links

• Selección óptima de links

• Carga de nuevos links en la lista inicial

Page 12: Web Crawlers

Proceso de Webcrawling Inteligente

Page 13: Web Crawlers

Web Crawler- PHP

• Vamos a utilizar la clase

• Luego, agregamos las funciones que vamos a utilizar, transformamos las URL que necesitamos quitando caracteres especiales

Page 14: Web Crawlers

Web Crawler- PHP

Page 15: Web Crawlers

Web Crawler- PHP• Rastreamos las URLS Reales

Page 16: Web Crawlers

Web Crawler- PHP• Crawler se ejecuta aquí:

Page 18: Web Crawlers

Web Crawler aplicado a Redes Sociales

• Facebook:o Nos registramos como desarrollador de aplicaciones

https://developers.facebook.com/docs/appso Creamos un nuevo identificador de la aplicación

Page 19: Web Crawlers

Web Crawler aplicado a Redes Sociales

• Facebook:o Descargamos Simple Data Pull o el equivalente para python

o En la función principal colocamos, nuestro usuario y password: 12345

def main():     list_companies = [“usuario", “password"]    graph_url = "https://graph.facebook.com/

Page 20: Web Crawlers

Web Crawler aplicado a Redes Sociales

• Facebook:o Comenzamos a analizar. o Simplemente pegamos el APP_SECRET y APP_ID en el enlace

de abajo.

https://graph.facebook.com/usuario/posts/?key=value&access_token=APP_ID|APP_SECRET

• Colocando la línea anterior, nos retorna el id real del usuario

Page 21: Web Crawlers

Web Crawler aplicado a Redes Sociales

• Retorna, la fecha de los posteos en el muro:3456789101112131415161718192021222324252627282930313233343536373839404142

def scrape_posts_by_date(graph_url, date, post_data):       page_posts = render_to_json(graph_url)           next_page = page_posts["paging"]["next"]          page_posts = page_posts["data"]           collecting = True        for post in page_posts:              for post in page_posts:        try:             current_post = [post["id"], post["message"],                    post["created_time"],                                         post["shares"]["count"]]                                            except Exception:            current_post = [ "error", "error", "error", "error"]                    if current_post[2] != "error":                #compare dates            if date <= current_post[2]:                post_data.append(current_post)                        elif date > current_post[2]:                print "Done collecting"                collecting = False                break            #If we still don't meet date requirements, run on next page                if collecting == True:        scrape_posts_by_date(next_page, date, post_data)        return post_data

Page 22: Web Crawlers

Web Crawler aplicados a Redes Sociales

• Contenido reciente compartido:

Page 23: Web Crawlers

Web Crawler aplicados a Redes Sociales

• Para contar el número de likes:

• En resumen analizando esta técnica, podemos averiguar cualquier información del usuario en la red social en cuestión

• Combinando con exploit, se podría hasta hackear.

Page 24: Web Crawlers

Web Crawler aplicados a Redes Sociales

• Video 1.: Facebook Fan

• Video 2.: Recolección Mails – Atomic Email Hunter

Page 25: Web Crawlers

Perfiles Digitales

• Ficha personal de cada usuario en función de las publicaciones en internet (Redes Sociales, etc..)

• Estas publicaciones se relacionan con las emociones, personalidad, etc.

• Ciertas entidades en el mundo usan estos perfiles para empleos, análisis psicológico, etc.

• Se usan crawlers para su creación

Page 26: Web Crawlers

Perfiles Digitales

Filtrar

AnalizarExtraer

Buscar

Page 27: Web Crawlers

Perfiles Digitales

Page 28: Web Crawlers

Máquinas de Aprendizaje

• Uso tecnología de inteligencia artificial.

• Aprendizaje automático

• Búsquedas en base a la construcción de Perfiles Digitales

• Dar al motor de búsqueda la capacidad de decisióno Las aplicaciones más populares de Google ya cuentan con

máquinas de aprendizajeo Gmail cuenta con una inteligencia artificial que sugiere posibles

respuestas a un correo electrónico dependiendo de su texto e imágenes.

Page 29: Web Crawlers

Máquinas de Aprendizaje

• Sistemas Expertos convencionales:

(algunos) Sistemas Expertos de segunda generación:

Experiencia ReglasIngeniero de conocimiento

Experiencia ReglasAlgoritmo deaprendizaje

Page 30: Web Crawlers

Búsquedas Inteligentes

Cola de Links

Agentes de descarga (b)

Agente de gestión links (a)

Agentes de proceso (c)

Páginas WEB

Distancias (Diccionario de

datos)

Servicios

Page 31: Web Crawlers

Búsquedas Inteligentes

Agentes de proceso

Distancias (Diccionario de

datos)

Servicio de agregado de palabras (a)

Servicio de agregado de frases (b)

Servicio de cálculo de distancias (c)

Proceso por lotes

Page 32: Web Crawlers

Google Neural Machine Translation (GNMT)

• Fue empleada por primera vez para mejorar la eficiencia de traducciones de una sola frase

• El algoritmo era efectivo con múltiples frases, reduciendo errores en un 60%

• Los algoritmos convencionales de traducción son capaces de “recordar”

Page 33: Web Crawlers

Cloud Machine Learning Platform

• Máquina de aprendizaje en la nube.

• Creada por google.

• Para muchos de sus servicios como puedan ser en las búsquedas de imágenes, en las búsquedas por voz desde la aplicación, en las traducciones y en las respuestas inteligentes de Inbox.

• El API puede ser usado por los desarrolladores

Page 34: Web Crawlers

Cloud Machine Learning Platform

Page 35: Web Crawlers

Google Open Images

• Reúne más de 9 millones de enlaces a imágenes que han sido etiquetadas sobre unas 6.000 categorías.

• Han participado las universidades de Carnegie Mellon y Cornell.

• Sobre dichas imágenes se han llevado a cabo una serie de trabajos de investigación.

Page 36: Web Crawlers

Google Open Images

Page 37: Web Crawlers

El futuro de las búsquedas

• Uso de tecnología de inteligencia artificial.

• Aprendizaje automático

• Búsquedas en base a la construcción de Perfiles Digitales

• Dar al motor de búsqueda la capacidad de decisióno Las aplicaciones más populares de Google ya cuentan con

máquinas de aprendizajeo Gmail cuenta con una inteligencia artificial que sugiere posibles

respuestas a un correo electrónico dependiendo de su texto e imágenes.

Page 38: Web Crawlers

El futuro de las búsquedas