web scraping, codeando méxico

7

Click here to load reader

Upload: braulio-chavez

Post on 13-Jun-2015

2.556 views

Category:

Technology


0 download

DESCRIPTION

Herramientas para hacer web scraping básico

TRANSCRIPT

Page 1: Web scraping, Codeando México

Web ScrapingCodeando México

Page 2: Web scraping, Codeando México

Problema

El diario oficial de la federación tiene información muy valiosa del país.

Pero está en un formato horrible.http://www.dof.gob.mx/index.php

Page 3: Web scraping, Codeando México

Solución

Si pudiéramos obtener la información, almacenarla y presentarla en un formato amigable para el lector en forma de una suscripción para recibir notificaciones a ciertos temas de interés.

Page 4: Web scraping, Codeando México

Web Scraping

Es una técnica utilizada para la extracción de información de sitios web utilizando un programa de computadora que actúa de forma similar a un explorador web.

Page 5: Web scraping, Codeando México

Herramientas para web scraping

● Scrapy, scraping and web crawling framework para Python: https://github.com/scrapy/scrapy/

● Scraper wiki, es un servicio de workers automáticos que se quedan “scrapeando”: https://scraperwiki.com/

Page 6: Web scraping, Codeando México

Demo Scrapy

Código del demo en:https://github.com/CodeandoMexico/web-scraping

Guardar información en un archivo json:$ scrapy crawl dof -o notes.json -t json

Page 7: Web scraping, Codeando México

GraciasBraulio Chávez

[email protected]@HackerOfDreams