利用SOLR搭建企业搜索平台之二（中文分词）

　2009-09-10 00:00:00　来源：WEB开发网　　　

核心提示： 将该文件打包，如果你不愿打包，利用SOLR搭建企业搜索平台之二（中文分词）(2)，请到附件里面下吧，请将两个jar，最后剩下的结果才会加入到索引库中以备查询，分词的顺序如下：索引 1：空格whitespaceTokenize 2：过滤词StopFilter 3：拆字WordDelimite

将该文件打包，如果你不愿打包，请到附件里面下吧。

请将两个jar，一个是这个，还有一个是 paoding-analysis.jar 放到tomcat的webapps\solr\WEB-INF\lib\下

3》更改schema.xml文件，使分词器起到作用。如果你看过前面一个文章，schema.xml的具体位置在c:\solr-tomcat\solr\conf\下面。

更改内容为：

Xml代码

<fieldType　name="text"　class="solr.TextField"　positionIncrementGap="100">　　　　<analyzer　type="index">　　　　　　　　　　<tokenizer　class="com.yeedoo.slor.tokenizer.ChineseTokenizerFactory"　mode="most-words"/>　　　　···　···　　　　</analyzer>　　　　<analyzer　type="query">　　　　　　　　　　　　<tokenizer　　　class="com.yeedoo.slor.tokenizer.ChineseTokenizerFactory"　mode="most-words"/>　　　　　···　···　　　　</analyzer>　 </fieldType>

里面的为需要更改的内容

4》重启你的tomcat ，ok！

附：

[Solr分词顺序]

Solr建立索引和对关键词进行查询都得对字串进行分词，在向索引库中添加全文检索类型的索引的时候，Solr会首先用空格进行分词，然后把分词结果依次使用指定的过滤器进行过滤，最后剩下的结果才会加入到索引库中以备查询。分词的顺序如下：

索引

1：空格whitespaceTokenize

2：过滤词StopFilter

3：拆字WordDelimiterFilter

4：小写过滤LowerCaseFilter

5：英文相近词EnglishPorterFilter

6：去除重复词RemoveDuplicatesTokenFilter