增强 WebSphere Service Registry and Repository 的搜索功能
2010-09-27 08:16:57 来源:WEB开发网图 3 显示了插件代码的简化版本:
图 3. 插件代码
此插件显示了 CRUD 方法之一(方法 (3))的实现,仅为了说明代码。
如果传递的对象为 Document 类型,则意味着该对象是二进制对象,而不是基于 XML 的技术文档,可以传递给负责对其进行处理的 injectProperty 方法。此方法 (2) 检索内容和文档的名称,然后使用文档分析器实现(通过工厂)计算最常用的令牌的集合,最后调用 setPropertyValue 方法 (1) 将 keywords 属性的值设置为关键字集的字符串表示形式。
速度极快、基于 RAM 的 Lucene 实现
此实现基于 Lucene 核心和专用包,即 Lucene Memory,此包可提供内存中索引功能。正如您在图 2 中看到的,索引工作流包括:
文档标记化,它是将二进制文档转换为包含文档的大部分内容的纯文本的阶段
索引引擎,它负责在统计层面上分析纯文本(由二进制文档派生而来),然后计算令牌的列表,按使用频率排序
在我们的实现中,第一步是通过 Converter 类实现的(为了简洁起见,此处并未显示第一步,但是可以在包括的资源中找到)。Converter 类提取文档名称(可能是从文件名派生的)的扩展名,然后使用此扩展名将文档分派给适当的文本提取程序:
Apache POI 用于 Microsoft Excel 和 Word 文档
PDFBox 用于 PDF 文档
Java Swing 用于 RTF 文档
AnalyzerUtil 类(源自 Lucene Memory 包)用于从纯文本中提取最常见的术语。此类负责直接在 RAM 中创建动态、可变的索引。虽然此类的使用可以实现非常快的索引处理,但是它所创建的索引不可供进一步的操作访问。
编缉推荐阅读以下文章
- 使用 WebSphere Process Server 修复流程
- 设置并置 WebSphere Application Server 负载均衡器和内容主机
- 利用 WebSphere Application Server 6.1 构建 SIP 集群应用环境及其性能调优
- WebSphere Process Server V6.0.2 集群,第 1 部分:了解拓扑
- 如何实现WebSphere Application Server 6集群环境下的定时服务
- 迁移集群环境中的 WebSphere Commerce
- WebSphere Process Server V6.0.2 集群,第 2 部分:安装和配置 WebSphere Process Server 集群
- Websphere MQ v6集群的负载均衡新功能
- 将 JUnit 插件集成到 WebSphere Studio 中
- 使用 IBM WebSphere MQ JMS 提供程序
- ››WebSphere Application Server 7.0 XML Feature P...
- ››增强用户的体验愉悦性和专注度:保持用户的游戏体验...
- ››WebSphere 反向投资者: 解决 WebSphere Applicati...
- ››WebSphere sMash 的创新应用,第 2 部分: 借助包装...
- ››Websphere MQ v6集群的负载均衡新功能
- ››WebSphere Process Server V6.0.2 集群,第 2 部分...
- ››WebSphere Process Server V6.0.2 集群,第 1 部分...
- ››WebSphere MQ性能调优浅谈
- ››WebSphere配置资源库管理
- ››WebSphere中的SSL/TLS:用法、配置和性能
- ››websphere ejb远程/本地调用总结
- ››WebSphere Application Server对SIP的支持
更多精彩
赞助商链接