这是一篇关于Google 搜索引擎如何判断重复页面内容的算法论文。基于这样的方法来判定一个页面是否为复制其他页面。

Detecting NearDuplicates for Web Crawling

Also see:

Subscribe in reader