web scraping, codeando méxico

Post on 13-Jun-2015

2.556 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Herramientas para hacer web scraping básico

TRANSCRIPT

Web ScrapingCodeando México

Problema

El diario oficial de la federación tiene información muy valiosa del país.

Pero está en un formato horrible.http://www.dof.gob.mx/index.php

Solución

Si pudiéramos obtener la información, almacenarla y presentarla en un formato amigable para el lector en forma de una suscripción para recibir notificaciones a ciertos temas de interés.

Web Scraping

Es una técnica utilizada para la extracción de información de sitios web utilizando un programa de computadora que actúa de forma similar a un explorador web.

Herramientas para web scraping

● Scrapy, scraping and web crawling framework para Python: https://github.com/scrapy/scrapy/

● Scraper wiki, es un servicio de workers automáticos que se quedan “scrapeando”: https://scraperwiki.com/

Demo Scrapy

Código del demo en:https://github.com/CodeandoMexico/web-scraping

Guardar información en un archivo json:$ scrapy crawl dof -o notes.json -t json

GraciasBraulio Chávez

braulio@codeandomexico.org@HackerOfDreams

top related