web scraping, codeando méxico
DESCRIPTION
Herramientas para hacer web scraping básicoTRANSCRIPT
Web ScrapingCodeando México
Problema
El diario oficial de la federación tiene información muy valiosa del país.
Pero está en un formato horrible.http://www.dof.gob.mx/index.php
Solución
Si pudiéramos obtener la información, almacenarla y presentarla en un formato amigable para el lector en forma de una suscripción para recibir notificaciones a ciertos temas de interés.
Web Scraping
Es una técnica utilizada para la extracción de información de sitios web utilizando un programa de computadora que actúa de forma similar a un explorador web.
Herramientas para web scraping
● Scrapy, scraping and web crawling framework para Python: https://github.com/scrapy/scrapy/
● Scraper wiki, es un servicio de workers automáticos que se quedan “scrapeando”: https://scraperwiki.com/
Demo Scrapy
Código del demo en:https://github.com/CodeandoMexico/web-scraping
Guardar información en un archivo json:$ scrapy crawl dof -o notes.json -t json
GraciasBraulio Chávez
[email protected]@HackerOfDreams