使用 IBM OmniFind Enterprise Edition 结合分类词典文件实现基于搜索结果分类
2008-11-08 16:32:41 来源:WEB开发网图 9. 建立 WFJAnnotator 类
根据之前的需要,我们在搜索 .txt 英文文档时,当内容中包涵了分类词典中酒店或商场名字的关键词时,语义分析器能够对搜索到的结果进行分类,将酒店和商场进行分类。那么我就需要在之前一步的 UIMA descriptor editor 中对 WFJDescriptor.xml 描述文件进行配置,包括:
在编辑窗口中选择单击 Type System 标签,在出现的 Type System Definition 窗口中单击 Add Type 按钮,之后在弹出的 Add a Type 窗口中,填写 Type Name 一项为:com.ibm.uima.restaurant 后单击 OK 按钮;
为建立的这个 Type 创建 Feature 特征:在 Type System Definition 窗口中单击选择之前建立好的 com.ibm.uima.restaurant,并单击 Add… 按钮,在弹出的 Add a Feature 窗口中,填写 Feature Name 一项为:Name,填 Range Type 一项为:uima.cas.String;
在 Type System Definition 窗口中继续单击 Add Type 按钮,之后在弹出的 Add a Type 窗口中,填写 Type Name 一项为:com.ibm.uima.shop 后单击 OK 按钮;
为建立的这个 Type 创建 Feature 特征:在 Type System Definition 窗口中单击选择之前建立好的 com.ibm.uima.shop,并单击 Add… 按钮,在弹出的 Add a Feature 窗口中,填写 Feature Name 一项为:Name,填 Range Type 一项为:uima.cas.String;
为 WFJDescriptor.xml 描述文件添加 IBM OmniFind Enterprise Edition base text analysis type system:需要将 UIMA_HOME/docs/examples/descriptors/analysis_engine 目录中的 tt_core_typesystem.xml 文件拷贝至工程的 desc 文件夹下,之后刷新工程保证该文件可见;完成以上步骤后,在 Type System Definition 窗口中的 Imported Type Systems 一栏中单击 Add… 按钮,在弹出的 Imported File(s) Selection 窗口中选中工程 desc 文件夹下的 tt_core_typesystem.xml 文件,并选择 Import by location 单选按钮,此时我们单击 JcasGen 按钮并再次刷新工程,会发现工程 src 文件夹下自动生成了描述文件对应的 Java 程序文件,如图 10 所示:
更多精彩
赞助商链接