WEB开发网
开发学院数据库DB2 使用IBM OmniFind Enterprise Edition结合分类词典... 阅读

使用IBM OmniFind Enterprise Edition结合分类词典文件实现基于搜索结果分类

 2010-02-16 14:59:56 来源:WEB开发网   
核心提示:准备工作在进行例子之前,我们需要安装一些必要的软件,使用IBM OmniFind Enterprise Edition结合分类词典文件实现基于搜索结果分类(3),包括:Java 2 Standard Edition SDK:在安装Eclipse 之前,您需要拥有一个Java SDK的工作安装,建立新的Variable,

准备工作

在进行例子之前,我们需要安装一些必要的软件,包括:

Java 2 Standard Edition SDK:在安装Eclipse 之前,您需要拥有一个Java SDK的工作安装。可以从以下位置下载 1.4.x 版本或更高版本:http://java.sun.com/J2SE/1.5.0/download.JSP;

Eclipse IDE:UIMA SDK 可用于Eclipse开发环境的第 2 版和第 3 版,但本教程中假定您使用的是3.1.1 版。更高的版本也可以正常使用,不过具体的步骤可能会略有不同。您可以从以下位置下载 Eclipse:http://www.eclipse.org/downloads/index.PHP

UIMA SDK:UIMA SDK具有多个不同变体,提供适合Windows 和 Unix的安装程序。本教程假定您已经下载了独立于平台的zip文件,该文件可从 http://alphaworks.ibm.com/tech/uima/download 下载,其中提供了详细的安装说明;

IBM OmniFind Enterprise Edition。

在准备的过程中,需要注意并完成以下几个步骤:

安装好Eclipse后,我们需要安装Eclipse Modeling Framework(EMF),同时需要保证安装了正确版本的EMF。

选择单击Eclipse菜单中Help/Software Updates/Find and install... 来安装EMF;

在弹出的Install/Update窗口中,选择Search for new features to install并单击Next;

之后再弹出的Install窗口中,选择离自己最近的节点进行下载;

对于EMF是否安装的验证:如果安装好了EMF,那么可以通过单击Eclipse菜单中Help/About Eclipse SDK,并在其弹出的窗口中单击Plug-in Details 进行查看。

正确安装了UIMA工具之后,需要将UIMA的一些插件加载到Eclipse中,我们会在UIMA的安装目录中发现eclipsePlugin文件夹,在这个文件夹中,我们会发现uima_1.4.4_EclipsePlugins.zip文件,需要将其解压缩至 Eclipse的plugins文件夹中。

为了能够让 UIMA的测试工具Common Analysis Structure(CAS)正常的运行,保证我们在开发自己的文本语义分析引擎的过程中,能够方便的进行测试,我们需要在已安装的UIMA中加载 IBM OmniFind EntERPrise Edition 基本文本分析器(IBM OmniFind Enterprise Editionbase text analysis)。我们会在已安装的IBM OmniFind Edition的安装目录 ES_INSTALL_ROOT/packages/uima 目录中,找到OF_base_annotators.zip文件,需要将其解压至之前安装的UIMA SDK 根目录中。

建立自己的UIMA语义分析引擎

在完成了以上准备工作后,我们就可以建立满足自己需要的语义分析引擎了。在这一个部分中,我们会利用Eclipse编写Java程序,并利用正则表达式或其他方式来取得文本中我们需要的信息,并利用UIMA工具生成相应的语义分析引擎文件。

实质:首先从相关分类词典的XML文件中提取出关键词及其信息;之后在Java程序中,利用正则表达式对收集到的文本信息进行分析,通过内容的匹配,进行分类,并建立不同的分类索引。

创建 UIMA 语义分析引擎

建立语义分析引擎,步骤如下:

在Eclipse中建立新的Java project,并将工程命名为“WFJ_UIMA”。之后我们需要为该工程指定 classpath:

右键单击工程,并选择Properties/Java Build Path

在弹出窗口中右侧选择Libraries 标签,并单击Add Variable/Configure Variables/New

在弹出的Edit Variable Entry窗口中,建立新的Variable,Name:UIMA_HOME,Path:为之前安装的UIMA 安装目录,建立好之后入下图所示:

图 3. 指定 classpath

上一页  1 2 3 4 5 6 7 8  下一页

Tags:使用 IBM OmniFind

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接