Scrapy-优秀的网页信息解析框架

February 25th, 2010 by Bruce Dou Views:334

最近在做world wide数据信息的分析,偶然发现这个不错的工具。

Scrapy是用python语言写的网页信息抓取和解析的框架,可以用来采集网页然后导出格式化的数据。很多地方可以用到Scrapy比如数据挖掘或者数据监控以及自动化测试。

特别适合针对目标网站的信息采集以及有用信息的监控。你只需要写出需要解析的数据的规则,Scrapy就能从整个网站获取你需要的信息。据官方网站介绍Scrapy能分析500多个网站每天每台服务器。而且它的扩展性很好,可以轻松的做自己的定制。现在很多商业网站都用了这个100% 用Python写的工具。Python的东西总是看起来很灵巧,敏捷。

网站上有完整的简单应用的例子。抓取的信息的规则可以用Xpath来写。

Scray是我最近发现的最优秀的银弹之一。

Share and Enjoy:
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks
  • Blogplay
  • 豆瓣
  • DZone
  • LinkedIn
  • MySpace
  • Reddit
  • RSS

Also see:

  • No Related Post

Tags:

Leave a Reply