WEB开发网
开发学院数据库DB2 使用IBM OmniFind Enterprise Edition结合分类词典... 阅读

使用IBM OmniFind Enterprise Edition结合分类词典文件实现基于搜索结果分类

 2010-02-16 14:59:56 来源:WEB开发网   
核心提示:使用UIMA结合分类词典实现搜索结果的分类在以往使用UIMA实现语义搜索时,往往是对文件内容中的字符串进行分析,使用IBM OmniFind Enterprise Edition结合分类词典文件实现基于搜索结果分类(2),通过字符串所含有的特定的规律来进行区别和识别,但是在进行搜索结果分类时,结合IBM 非结构化信息管

使用UIMA结合分类词典实现搜索结果的分类

在以往使用UIMA实现语义搜索时,往往是对文件内容中的字符串进行分析,通过字符串所含有的特定的规律来进行区别和识别。但是在进行搜索结果分类时,往往很难通过字符串规律来进行识别。举一个简单的例子:我们要对文件内容进行分析,把所有出现的商场信息都提取出来划分为一类,但是会发现,每一个商场的名字都没有特定的规律可循,比如“中友百货”、“西单购物中心”等,无法使用正则表达式根据特定字符串规则来识别。这时我们就采用UIMA结合分类词典来实现,便可以有效地进行分类。

分类词典:顾名思义就是把属于一类的信息写成一个特定的文件以便程序进行查询。在本文例子中我们使用XML文件格式来实现分类词典。

使用分类词典的好处包括:

根据分类词典中的关键词去文件内容中检索,若发现文件中存在,便可以对该词进行有效、准确的分类;

使用分类词典,还可以记录对每一个元素的其他属性,这样在分类后,还可以有效地提供该关键词其他一些相关信息,从而使搜索的内容更加充实。

在本例中,对搜索文件内容中出现的酒店、商场信息进行分类,凡是文件内容中出现的相关信息,都能有效地根据分类词典进行归类。我们设计的一个简单的酒店和商场分类词典中,包含了酒店和商场的名字、地址、电话以及其他一些相关信息,同时可以根据需要进行添加、删除和修改。如下所示:

清单2. 表示酒店的分类字典 restaurant.XML

<?xml version="1.0" ?>
<restaurants>
<restaurant>
<name>北京国际饭店</name>
<address>北京东城区建国门大街9号</address>
<Tele>010-51659388</Tele>
<level></level>
<Web>http://www.bih.com.cn/</web>
<other></other>
</restaurant>
<restaurant>
<name>北京崇文门饭店</name>
<address>北京崇文门西大街2号</address>
<Tele>010-65122211</Tele>
<level></level>
<web>http://www.cwmhotel.com/</web>
<other></other>
</restaurant>
</restaurants>

清单3. 表示商店的分类字典 shop.xml

<?xml version="1.0" ?>
<shops>
<shop>
<id>1001</id>
<name>百货大楼</name>
<address>王府井大街255号</address>
<Tele>010-65126677</Tele>
<web>http://www.wfj.com.cn/</web>
<other></other>
</shop>
<shop>
<id>1002</id>
<name>东方广场</name>
<address>北京市东城区东长安街1号</address>
<Tele>010-65596277</Tele>
<web>http://www.fstourmall.com/</web>
<other></other>
</shop>
</shops>

下面就进入具体的例子,来讲述如何使用IBM OmniFind EntERPrise Edition,结合IBM 非结构化信息管理体系结构Unstructured Information Management Architecture (UIMA),以及分类词典,来实现搜索结果的分类。

上一页  1 2 3 4 5 6 7  下一页

Tags:使用 IBM OmniFind

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接