Heritrix的scope为抓取的范围限定,但是默认的domain和host都不能限制在域名内。需要进行修改。

scope返回值为

(( isSeed(uri) || focusFilter.accepts(uri) ) || transitiveFilter.accepts(uri) ) && ! excludeFilter.accepts(uri)

可见需要对excludeFilter进行重写。

 protected boolean excludeAccepts(Object o) {

}

具体内容略。

Also see:

  • No Related Post
Subscribe in reader