Download - Web scraping, Codeando México
![Page 1: Web scraping, Codeando México](https://reader038.vdocumento.com/reader038/viewer/2022100507/557b9e56d8b42aa0758b51a5/html5/thumbnails/1.jpg)
Web ScrapingCodeando México
![Page 2: Web scraping, Codeando México](https://reader038.vdocumento.com/reader038/viewer/2022100507/557b9e56d8b42aa0758b51a5/html5/thumbnails/2.jpg)
Problema
El diario oficial de la federación tiene información muy valiosa del país.
Pero está en un formato horrible.http://www.dof.gob.mx/index.php
![Page 3: Web scraping, Codeando México](https://reader038.vdocumento.com/reader038/viewer/2022100507/557b9e56d8b42aa0758b51a5/html5/thumbnails/3.jpg)
Solución
Si pudiéramos obtener la información, almacenarla y presentarla en un formato amigable para el lector en forma de una suscripción para recibir notificaciones a ciertos temas de interés.
![Page 4: Web scraping, Codeando México](https://reader038.vdocumento.com/reader038/viewer/2022100507/557b9e56d8b42aa0758b51a5/html5/thumbnails/4.jpg)
Web Scraping
Es una técnica utilizada para la extracción de información de sitios web utilizando un programa de computadora que actúa de forma similar a un explorador web.
![Page 5: Web scraping, Codeando México](https://reader038.vdocumento.com/reader038/viewer/2022100507/557b9e56d8b42aa0758b51a5/html5/thumbnails/5.jpg)
Herramientas para web scraping
● Scrapy, scraping and web crawling framework para Python: https://github.com/scrapy/scrapy/
● Scraper wiki, es un servicio de workers automáticos que se quedan “scrapeando”: https://scraperwiki.com/
![Page 6: Web scraping, Codeando México](https://reader038.vdocumento.com/reader038/viewer/2022100507/557b9e56d8b42aa0758b51a5/html5/thumbnails/6.jpg)
Demo Scrapy
Código del demo en:https://github.com/CodeandoMexico/web-scraping
Guardar información en un archivo json:$ scrapy crawl dof -o notes.json -t json