开发学院操作系统 Linux/Unix 增强 WebSphere Service Registry and Repository... 阅读

增强 WebSphere Service Registry and Repository 的搜索功能

　2010-09-27 08:16:57　来源：WEB开发网　　　

核心提示： 而使用全文搜索功能时，您可以使用如下查询：/WSRR/GenericDocument[classifiedByAnyOf(.,'<classification URI>') and matches(@keywords,'.*<my keyword>

而使用全文搜索功能时，您可以使用如下查询：

/WSRR/GenericDocument[classifiedByAnyOf(.,'<classification URI>') and matches(@keywords,'.*<my keyword>.*') ] 正如您所看到的，第二个查询同时使用了本体 (classifiedByAnyOf) 和基于全文的谓词，实现了两种不同的搜索策略（本体和全文）之间的集成。这一集成的基础是谓词匹配，它允许正则表达式在一个属性（或所有属性）之上匹配。

验证器插件的角色是从提交的文档中提取关键字，将这些关键字放入属性关键字中，然后让运算符匹配并让 XPath 执行其余的操作。

Lucene 索引

此挑战的另一部分是找到一种智能且可重用的方法来对文档进行分析，从文档中提取统计上相关的令牌，然后使这些令牌可用于 Service Registry。我们将使用 Apache Lucene 来实现这一点。具体来说，我们将使用名为 token extraction 的主索引函数的附带行为。

当 Lucene 为文档建立索引时，它将执行分析（或标记化），此操作可能是非常复杂且依赖于语言的，但是会创建令牌及其在文档中出现的频率的映射。我们将截取 Lucene 索引的这一阶段，使用能产生相同结果的两种不同实现战略来提取令牌。

要牢记的一点是，我们的解决方案要求我们能够为多种不同的业务文档建立索引，其中包括 PDF 文档、Word 文档和 Excel 文档等。Lucene 只能为纯文本文档建立索引，因此我们需要找到一种方法将纯文本从上面提到的那些富文档格式的文档中提取出来，然后将其提供给 Lucene。（当然，XML 文件本身就是纯文本，不需要进行任何形式的转换。）为执行这一提取操作，我们将利用另外两个开源项目，如下所示：

Apache POI，用于处理 Microsoft™ 文档，如 Word 和 Excel 生成的文档

编缉推荐阅读以下文章