使用IBM OmniFind Enterprise Edition结合分类词典文件实现基于搜索结果分类
2010-02-16 14:59:56 来源:WEB开发网完成以上工作之后,我们就可以编写程序来实现语义分析引擎,步骤如下:
右键单击src文件夹,选择New/Package 创建 Package并命名为:com.ibm.uima.Analyze;
右键单击创建的com.ibm.uima. Analyze 包,并选择单击New/Class,创建分析引擎用来分析文本并分类的类,我们将其命名为:WFJAnnotator。这里需要注意的是:所创建的WFJAnnotator 类的superclass 不应该使用Java.lang.Object,我们应该选择com.ibm.uima.analysis_engine.annotator.JTextAnnotator_ImplBase,如图 8 所示:
图 8. 建立 WFJAnnotator 类
在编写WFJAnnotator.java 之前,我们首先需要创建一个描述文件,这个描述文件采用XML文件描述方式,其中包含了内容分析分类的结构信息,其创建过程步骤如下:
右键单击desc文件夹并选择单击New/Other,之后在弹出的窗口中选择UIMA/Analysis Engine Descriptor,并单击Next;
在弹出的New Analysis Engine Descriptor File窗口中,我们定义文件名为 WFJDescriptor.xml并单击Finish 完成创建,之后 WFJDescriptor.xml文件会以UIMA descriptor editor的方式打开。之后在编辑窗口的Runtime Information 一栏中,需要填写Name of the Java class file 一项,其内容为 com.ibm.uima.Analyze. WFJAnnotator,如图 9 所示:
图 9. 建立 WFJAnnotator 类
根据之前的需要,我们在搜索 .txt 英文文档时,当内容中包涵了分类词典中酒店或商场名字的关键词时,语义分析器能够对搜索到的结果进行分类,将酒店和商场进行分类。那么我就需要在之前一步的UIMA descriptor editor中对 WFJDescriptor.XML 描述文件进行配置,包括:
在编辑窗口中选择单击Type System 标签,在出现的Type System Definition窗口中单击Add Type 按钮,之后在弹出的Add a Type窗口中,填写Type Name 一项为:com.ibm.uima.restaurant后单击OK 按钮;
为建立的这个Type 创建 Feature 特征:在Type System Definition窗口中单击选择之前建立好的com.ibm.uima.restaurant,并单击Add… 按钮,在弹出的Add a Feature窗口中,填写Feature Name 一项为:Name,填 Range Type 一项为:uima.cas.String;
在Type System Definition窗口中继续单击Add Type 按钮,之后在弹出的Add a Type窗口中,填写Type Name 一项为:com.ibm.uima.shop后单击OK 按钮;
为建立的这个Type 创建 Feature 特征:在Type System Definition窗口中单击选择之前建立好的com.ibm.uima.shop,并单击Add… 按钮,在弹出的Add a Feature窗口中,填写Feature Name 一项为:Name,填 Range Type 一项为:uima.cas.String;
为 WFJDescriptor.xml 描述文件添加 IBM OmniFind EntERPrise Edition base text analysis type system:需要将UIMA_HOME/docs/examples/descriptors/analysis_engine 目录中的tt_core_typesystem.xml文件拷贝至工程的desc文件夹下,之后刷新工程保证该文件可见;完成以上步骤后,在Type System Definition窗口中的Imported Type Systems 一栏中单击Add… 按钮,在弹出的Imported File(s) Selection窗口中选中工程 desc文件夹下的tt_core_typesystem.xml文件,并选择Import by location 单选按钮,此时我们单击JcasGen 按钮并再次刷新工程,会发现工程 src文件夹下自动生成了描述文件对应的Java程序文件,如图 10 所示:
图 10. 配置 WFJDescriptor.xml 描述文件
更多精彩
赞助商链接