使用IBM OmniFind Enterprise Edition结合分类词典文件实现基于搜索结果分类
2010-02-16 14:59:56 来源:WEB开发网在弹出 Configure text analysis engines 页面中,单击Add Text Analysis Engine 按钮,添加之前生成的WFJ_UIMA.pear文件,并单击OK 完成。如图 19 所示:
图 19. 添加文本分析引擎
完成以上步骤后,我们就可以使用IBM OmniFind Enterprise Edition 来对已经准备好的.txt文档进行测试了:
首先我们需要在IBM OmniFind Enterprise Edition中创建一个Collection命名为UIMADemo,用来crawl File system类型的文档(具体创建Crawler的方法参见IBM OmniFind Enterprise Edition使用说明);
创建好后 Collection后,我们在Collection 页面中单击已经创建好的UIMADemo的Parse/Edit 按钮,在之后页面中我们单击Configure text processing options 选项;
在Configure text processing options 页面中Text analysis engine name: 一项选择之前添加近来的UIMA,同时单击Select a mapping file 选项,并在Local path 一项中选择之前建立的WFJDescriptorCasToIndex.xml文件后单击OK,如图 20 所示:
图 20. 配置文本分析引擎
之后我们便对该 Collection 进行 crawl、Parse 以及 index。当全部完成后,我们便可以访问 http://<OFServerName>/ESSearchApplication 来进行查询。当我们输入关键字“王府井”时,会按关键词查询一个结果,同时查看详细概要文件时,我们会在详细概要的属性中查看到之前 WFJDescriptorCasToIndex.xml中定义好的分类类型:restaurant 和 shop,如图 21、22 所示:
图 21. restaurant搜索结果
图 22. shop搜索结果
结论
通过本实践,利用IBM OmniFind Enterprise Edition结合IBM开源非结构化信息管理体系结构Unstructured Information Management Architecture(UIMA),来实现IBM OmniFind Enterprise Edition搜索引擎的语义搜索及结果分类。让我们的搜索空间和功能更加的广泛。满足了当前部分用户的更高需求,同时也增加了客户应用程序的竞争性。
本文配套源码
更多精彩
赞助商链接