lucene默认索引GBK格式文件没有问题,但是现在大多网站是UTF-8格式的。

假如在eclipse下调试的话,eclipse的控制台编码也是GBK格式的。

可以在运行的地方设置 eclipse的控制台编码方式。

lucene索引文件编码方式在如下地方更改:

IndexHtml.java=>HTMLDocument.java

    FileInputStream fis = new FileInputStream(f);
    //关键 更改被索引文件编码
    HTMLParser parser = new HTMLParser(fis,"utf-8");

 

 

Also see:

  • No Related Post
Subscribe in reader