Google对信息的索引已经接近实时了

March 1st, 2010

请看最新添加的1篇博客文章的索引时间。

目前博客发表一篇文章,在1分钟之内即可在google内搜索到,也许Google对博客提高了实时性。

Java nio 实现的爬虫性能

March 1st, 2010

这两天用NIO实现的爬虫,本机测试一下。
Test result:
————————–
Transfer: 3.66 MB
Complete content: 64
Peak connection num: 50
Used 24807 ms

Scrapy-优秀的网页信息解析框架

February 25th, 2010

最近在做world wide数据信息的分析,偶然发现这个不错的工具。

Scrapy是用python语言写的网页信息抓取和解析的框架,可以用来采集网页然后导出格式化的数据。很多地方可以用到Scrapy比如数据挖掘或者数据监控以及自动化测试。

特别适合针对目标网站的信息采集以及有用信息的监控。你只需要写出需要解析的数据的规则,Scrapy就能从整个网站获取你需要的信息。据官方网站介绍Scrapy能分析500多个网站每天每台服务器。而且它的扩展性很好,可以轻松的做自己的定制。现在很多商业网站都用了这个100% 用Python写的工具。Python的东西总是看起来很灵巧,敏捷。

网站上有完整的简单应用的例子。抓取的信息的规则可以用Xpath来写。

Scray是我最近发现的最优秀的银弹之一。

How to change Collation of tables or data in mysql

February 23rd, 2010

The default collation in mysql is not always utf-8. Because the company of mysql localed in Sweden, so the encoding or collation is latin1_swedish_ci by default. You should change this feature after you installed the mysql DB server. But If you have  operated your web site for a long time, then you want to update your site for reasons. There are lots of data existed in Mysql in the encoding latin or other not UTF8. How to change the encoding or Collation to UTF-8 ?

Just download this tool to change the collation of tables or data to UTF8:

http://www.phoca.cz/phoca-changing-collation/

The Phoca Changing collation tool changes the database collation of database, tables and columns. And it is easy to use.

如何输入日语

February 19th, 2010

收集自网络,首先按照微软IME日语输入法

适用于windows系统自带的IME下输入法,及电子词典的英式键盘。
Read the rest of this entry »