使用 IBM OmniFind Enterprise Edition 结合分类词典文件实现基于搜索结果分类
2008-11-08 16:32:41 来源:WEB开发网本文介绍了如何使用 IBM OmniFind Enterprise Edition 结合 IBM 开源非结构化信息管理体系结构 Unstructured Information Management Architecture(UIMA),来扩展 IBM OmniFind Enterprise Edition 搜索引擎的语意搜索和结果分类。并通过一个具体的例子,来展现 IBM OmniFind Enterprise Edition 强大的语义搜索功能。
背景介绍
搜索引擎是用于主动搜索计算机中的数据信息,并对其进行分析自动建立索引,其索引内容存储在可供查询的大型数据库中。当用户进行查询时,搜索引擎会告诉用户所要查找的内容在哪,并提供相关的链接以便查询。
处于当前这样一个信息爆炸的时代,能够有效地查找到所需要的数据尤为重要。大量的数据信息需要被自动化的进行索引并提供搜索。因此搜索引擎的作用也就变得越来越重要。而如何能够搜索要所需要的数据,如何保证搜索的质量则成为了当前搜索引擎开发人员首要解决的问题。
当前搜索引擎的主要工作方式都是基于关键字的搜索。比如 Google、AltaVista、Excite、Baidu 等。它们都是通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供关键字查询服务。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的内容,便将结果的链接返回给用户。基于关键字的搜索时当前搜索引擎采用的主要手段,但是基于关键字的搜索存在致命的弱点,就是索要搜索的内容中必须包含有查找时输入的关键字。这样,就会严格限制搜索到的结果。例如:当我们将“自然灾害”作为关键词查找时,搜索引擎返回的结果的内容中一定包含了“自然灾害”这个词,但是与自然灾害相关的内容比如:地震、火山、海啸、龙卷风、泥石流等一系列的信息,搜索引擎就查询不到了。
更多精彩
赞助商链接