增强 WebSphere Service Registry and Repository 的搜索功能
2010-09-27 08:16:57 来源:WEB开发网而使用全文搜索功能时,您可以使用如下查询:
/WSRR/GenericDocument[classifiedByAnyOf(.,'<classification URI>') and matches(@keywords,'.*<my keyword>.*') ] 正如您所看到的,第二个查询同时使用了本体 (classifiedByAnyOf) 和基于全文的谓词,实现了两种不同的搜索策略(本体和全文)之间的集成。这一集成的基础是谓词匹配,它允许正则表达式在一个属性(或所有属性)之上匹配。
验证器插件的角色是从提交的文档中提取关键字,将这些关键字放入属性关键字中,然后让运算符匹配并让 XPath 执行其余的操作。
Lucene 索引
此挑战的另一部分是找到一种智能且可重用的方法来对文档进行分析,从文档中提取统计上相关的令牌,然后使这些令牌可用于 Service Registry。我们将使用 Apache Lucene 来实现这一点。具体来说,我们将使用名为 token extraction 的主索引函数的附带行为。
当 Lucene 为文档建立索引时,它将执行分析(或标记化),此操作可能是非常复杂且依赖于语言的,但是会创建令牌及其在文档中出现的频率的映射。我们将截取 Lucene 索引的这一阶段,使用能产生相同结果的两种不同实现战略来提取令牌。
要牢记的一点是,我们的解决方案要求我们能够为多种不同的业务文档建立索引,其中包括 PDF 文档、Word 文档和 Excel 文档等。Lucene 只能为纯文本文档建立索引,因此我们需要找到一种方法将纯文本从上面提到的那些富文档格式的文档中提取出来,然后将其提供给 Lucene。(当然,XML 文件本身就是纯文本,不需要进行任何形式的转换。)为执行这一提取操作,我们将利用另外两个开源项目,如下所示:
Apache POI,用于处理 Microsoft™ 文档,如 Word 和 Excel 生成的文档
编缉推荐阅读以下文章
- 使用 WebSphere Process Server 修复流程
- 设置并置 WebSphere Application Server 负载均衡器和内容主机
- 利用 WebSphere Application Server 6.1 构建 SIP 集群应用环境及其性能调优
- WebSphere Process Server V6.0.2 集群,第 1 部分:了解拓扑
- 如何实现WebSphere Application Server 6集群环境下的定时服务
- 迁移集群环境中的 WebSphere Commerce
- WebSphere Process Server V6.0.2 集群,第 2 部分:安装和配置 WebSphere Process Server 集群
- Websphere MQ v6集群的负载均衡新功能
- 将 JUnit 插件集成到 WebSphere Studio 中
- 使用 IBM WebSphere MQ JMS 提供程序
- ››WebSphere Application Server 7.0 XML Feature P...
- ››增强用户的体验愉悦性和专注度:保持用户的游戏体验...
- ››WebSphere 反向投资者: 解决 WebSphere Applicati...
- ››WebSphere sMash 的创新应用,第 2 部分: 借助包装...
- ››Websphere MQ v6集群的负载均衡新功能
- ››WebSphere Process Server V6.0.2 集群,第 2 部分...
- ››WebSphere Process Server V6.0.2 集群,第 1 部分...
- ››WebSphere MQ性能调优浅谈
- ››WebSphere配置资源库管理
- ››WebSphere中的SSL/TLS:用法、配置和性能
- ››websphere ejb远程/本地调用总结
- ››WebSphere Application Server对SIP的支持
更多精彩
赞助商链接