使用 IBM OmniFind Enterprise Edition 结合分类词典文件实现基于搜索结果分类
2008-11-08 16:32:41 来源:WEB开发网核心提示: 图 2. 实现语义分析并将结果加入到索引的过程使用UIMA结合分类词典实现搜索结果的分类在以往使用 UIMA 实现语义搜索时,往往是对文件内容中的字符串进行分析,使用 IBM OmniFind Enterprise Edition 结合分类词典文件实现基于搜索结果分类(4),通过字符串所含
图 2. 实现语义分析并将结果加入到索引的过程
使用UIMA结合分类词典实现搜索结果的分类
在以往使用 UIMA 实现语义搜索时,往往是对文件内容中的字符串进行分析,通过字符串所含有的特定的规律来进行区别和识别。但是在进行搜索结果分类时,往往很难通过字符串规律来进行识别。举一个简单的例子:我们要对文件内容进行分析,把所有出现的商场信息都提取出来划分为一类,但是会发现,每一个商场的名字都没有特定的规律可循,比如“中友百货”、“西单购物中心”等,无法使用正则表达式根据特定字符串规则来识别。这时我们就采用 UIMA 结合分类词典来实现,便可以有效地进行分类。
分类词典:顾名思义就是把属于一类的信息写成一个特定的文件以便程序进行查询。在本文例子中我们使用 XML 文件格式来实现分类词典。
使用分类词典的好处包括:
根据分类词典中的关键词去文件内容中检索,若发现文件中存在,便可以对该词进行有效、准确的分类;
使用分类词典,还可以记录对每一个元素的其他属性,这样在分类后,还可以有效地提供该关键词其他一些相关信息,从而使搜索的内容更加充实。
在本例中,对搜索文件内容中出现的酒店、商场信息进行分类,凡是文件内容中出现的相关信息,都能有效地根据分类词典进行归类。我们设计的一个简单的酒店和商场分类词典中,包含了酒店和商场的名字、地址、电话以及其他一些相关信息,同时可以根据需要进行添加、删除和修改。如下所示:
更多精彩
赞助商链接