最近在做world wide数据信息的分析,偶然发现这个不错的工具。

Scrapy是用python语言写的网页信息抓取和解析的框架,可以用来采集网页然后导出格式化的数据。很多地方可以用到Scrapy比如数据挖掘或者数据监控以及自动化测试。

特别适合针对目标网站的信息采集以及有用信息的监控。你只需要写出需要解析的数据的规则,Scrapy就能从整个网站获取你需要的信息。据官方网站介绍Scrapy能分析500多个网站每天每台服务器。而且它的扩展性很好,可以轻松的做自己的定制。现在很多商业网站都用了这个100% 用Python写的工具。Python的东西总是看起来很灵巧,敏捷。

网站上有完整的简单应用的例子。抓取的信息的规则可以用Xpath来写。

Scray是我最近发现的最优秀的银弹之一。

Related articles

  • No Related Post