web scraping, codeando méxico
Post on 13-Jun-2015
2.556 Views
Preview:
DESCRIPTION
TRANSCRIPT
Web ScrapingCodeando México
Problema
El diario oficial de la federación tiene información muy valiosa del país.
Pero está en un formato horrible.http://www.dof.gob.mx/index.php
Solución
Si pudiéramos obtener la información, almacenarla y presentarla en un formato amigable para el lector en forma de una suscripción para recibir notificaciones a ciertos temas de interés.
Web Scraping
Es una técnica utilizada para la extracción de información de sitios web utilizando un programa de computadora que actúa de forma similar a un explorador web.
Herramientas para web scraping
● Scrapy, scraping and web crawling framework para Python: https://github.com/scrapy/scrapy/
● Scraper wiki, es un servicio de workers automáticos que se quedan “scrapeando”: https://scraperwiki.com/
Demo Scrapy
Código del demo en:https://github.com/CodeandoMexico/web-scraping
Guardar información en un archivo json:$ scrapy crawl dof -o notes.json -t json
GraciasBraulio Chávez
braulio@codeandomexico.org@HackerOfDreams
top related