lucene默认索引GBK格式文件没有问题,但是现在大多网站是UTF-8格式的。
假如在eclipse下调试的话,eclipse的控制台编码也是GBK格式的。
可以在运行的地方设置 eclipse的控制台编码方式。
lucene索引文件编码方式在如下地方更改:
IndexHtml.java=>HTMLDocument.java
FileInputStream fis = new FileInputStream(f);
//关键 更改被索引文件编码
HTMLParser parser = new HTMLParser(fis,"utf-8");
Subscribe in reader


