开发学院操作系统 Linux/Unix 增强 WebSphere Service Registry and Repository... 阅读

增强 WebSphere Service Registry and Repository 的搜索功能

　2010-09-27 08:16:57　来源：WEB开发网　　　

核心提示： 图 3 显示了插件代码的简化版本：图 3. 插件代码此插件显示了 CRUD 方法之一（方法 (3)）的实现，仅为了说明代码，增强 WebSphere Service Registry and Repository 的搜索功能(7)，如果传递的对象为 Document 类型，则意味着该对象是二进制

图 3 显示了插件代码的简化版本：

图 3. 插件代码

此插件显示了 CRUD 方法之一（方法 (3)）的实现，仅为了说明代码。

如果传递的对象为 Document 类型，则意味着该对象是二进制对象，而不是基于 XML 的技术文档，可以传递给负责对其进行处理的 injectProperty 方法。此方法 (2) 检索内容和文档的名称，然后使用文档分析器实现（通过工厂）计算最常用的令牌的集合，最后调用 setPropertyValue 方法 (1) 将 keywords 属性的值设置为关键字集的字符串表示形式。

速度极快、基于 RAM 的 Lucene 实现

此实现基于 Lucene 核心和专用包，即 Lucene Memory，此包可提供内存中索引功能。正如您在图 2 中看到的，索引工作流包括：

文档标记化，它是将二进制文档转换为包含文档的大部分内容的纯文本的阶段

索引引擎，它负责在统计层面上分析纯文本（由二进制文档派生而来），然后计算令牌的列表，按使用频率排序

在我们的实现中，第一步是通过 Converter 类实现的（为了简洁起见，此处并未显示第一步，但是可以在包括的资源中找到）。Converter 类提取文档名称（可能是从文件名派生的）的扩展名，然后使用此扩展名将文档分派给适当的文本提取程序：

Apache POI 用于 Microsoft Excel 和 Word 文档

PDFBox 用于 PDF 文档

Java Swing 用于 RTF 文档

AnalyzerUtil 类（源自 Lucene Memory 包）用于从纯文本中提取最常见的术语。此类负责直接在 RAM 中创建动态、可变的索引。虽然此类的使用可以实现非常快的索引处理，但是它所创建的索引不可供进一步的操作访问。

编缉推荐阅读以下文章