WEB开发网
开发学院软件开发Java 利用SOLR搭建企业搜索平台 之二(中文分词) 阅读

利用SOLR搭建企业搜索平台 之二(中文分词)

 2009-09-10 00:00:00 来源:WEB开发网   
核心提示: 将该文件打包,如果你不愿打包,利用SOLR搭建企业搜索平台 之二(中文分词)(2),请到附件里面下吧, 请将两个jar,最后剩下的结果才会加入到索引库中以备查询,分词的顺序如下: 索引 1:空格whitespaceTokenize 2:过滤词StopFilter 3:拆字WordDelimite

将该文件打包,如果你不愿打包,请到附件里面下吧。

请将两个jar,一个是这个,还有一个是 paoding-analysis.jar 放到tomcat的webapps\solr\WEB-INF\lib\下

3》更改schema.xml文件,使分词器起到作用。如果你看过前面一个文章,schema.xml的具体位置在c:\solr-tomcat\solr\conf\下面。

更改内容为:

Xml代码

<fieldType name="text" class="solr.TextField" positionIncrementGap="100"> 
   <analyzer type="index"> 
    <!--<tokenizer class="solr.WhitespaceTokenizerFactory"/>--> 
    <tokenizer class="com.yeedoo.slor.tokenizer.ChineseTokenizerFactory" mode="most-words"/> 
   ··· ··· 
   </analyzer> 
   <analyzer type="query"> 
     <!--<tokenizer class="solr.WhitespaceTokenizerFactory"/>--> 
     <tokenizer   class="com.yeedoo.slor.tokenizer.ChineseTokenizerFactory" mode="most-words"/> 
    ··· ··· 
   </analyzer> 
</fieldType>

<!-- --> 里面的为需要更改的内容

4》重启你的tomcat ,ok!

附:

[Solr分词顺序]

Solr建立索引和对关键词进行查询都得对字串进行分词,在向索引库中添加全文检索类型的索引的时候,Solr会首先用空格进行分词,然后把分词结果依次使用指定的过滤器进行过滤,最后剩下的结果才会加入到索引库中以备查询。分词的顺序如下:

索引

1:空格whitespaceTokenize

2:过滤词StopFilter

3:拆字WordDelimiterFilter

4:小写过滤LowerCaseFilter

5:英文相近词EnglishPorterFilter

6:去除重复词RemoveDuplicatesTokenFilter

查询

1:查询相近词

2:过滤词

3:拆字

4:小写过滤

5:英文相近词

6:去除重复词

以上是针对英文,中文的除了空格,其他都类似

下篇文章可能会讲一下solr的配置

上一页  1 2 

Tags:利用 SOLR 搭建

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接