Heritrix的scope为抓取的范围限定,但是默认的domain和host都不能限制在域名内。需要进行修改。
scope返回值为
(( isSeed(uri) || focusFilter.accepts(uri) ) || transitiveFilter.accepts(uri) ) && ! excludeFilter.accepts(uri)
可见需要对excludeFilter进行重写。
protected boolean excludeAccepts(Object o) {
…
}
具体内容略。
Subscribe in reader

