开发学院数据库 DB2 使用UIMA和DB2 Intelligent Miner进行文本挖掘阅读

使用UIMA和DB2 Intelligent Miner进行文本挖掘

　2008-05-15 14:58:13　来源：WEB开发网　　　

核心提示：用 UIMA 进行文本分析UIMA 组件从源数据中的非结构化数据字段中提取出结构化的数据，不同的组件从源数据库中读取文档、分析文档来寻找提到的人名以及将结果保存到一个新数据库（Extracted Information Database，使用UIMA和DB2 Intelligent Miner进行文本挖掘(2)，EID

用 UIMA 进行文本分析

UIMA 组件从源数据中的非结构化数据字段中提取出结构化的数据。不同的组件从源数据库中读取文档、分析文档来寻找提到的人名以及将结果保存到一个新数据库（Extracted Information Database，EIDB）中。

文档是由 SQLReader 从源数据库中读取的，这个组件实现了 UIMA 的 CollectionReader 接口，是使用 SDK 开发的。当 UIMA 框架调用 SQLReader 的初始化方法时，它使用 JDBC™ 连接到数据库并发出一个 SQL SELECT 语句，这个语句在 SQLReader 存储的 ResultSet 对象中返回需要的数据，比如文本字符串。然后，这个框架使用 CollectionReader 接口的迭代器类方法（比如 getNext()）实际地获取每个文档的文本和元数据。这些数据在一个 UIMA 定义的数据对象中返回给框架，这个对象称为 Common Analysis Structure（CAS）。实际上，因为正在分析文本文档，所以这个数据对象是文本 CAS（TCAS），但是为了简单，本文忽略这一区别，只讨论 CAS。当框架调用 getNext 时，它提供一个空的 CAS。SQLReader 用来自 ResultSet 中当前行的数据填充 CAS。所需代码的结构见清单 1。它显示了如何将来自输入表的 TRIVIA 列的文档文本和一些元数据（比如文档的 URI）放进 CAS 中。SQLReader 还必须实现 hasNext() 方法（这里未显示）以便完成迭代器接口。

清单 1. 在 SQLReader 的 getNext 方法中对 CAS 进行初始化。为了简单，省略了错误检查。

　　　　Connection conn; 　　　　 ResultSet rs; 　　　　 // Not shown: code to set up the Connection and to 　　　　 // populate the ResultSet from the input database 　　　　　　　　 public void getNext( CAS cas) { 　　　　　 // Not shown: code to check that the ResultSet contains more data 　　　　　　　　　　 // Get the document text and put it into the CAS 　　　　　 String content = resultSet.getString( "TRIVIA"); //get document text 　　　　　 JCas jcas = cas.getJCas(); 　　　　　 jcas.setDocumentText( content);　　　　　　// set document text 　　　　　　　　　　　　　　　 // Construct a URI for this document 　　　　　 String id = rs.getString( idColName);　　　// get primary key 　　　　　 String url = conn.getMetaData().getURL();　// database URL 　　　　　 String uri = url + "/" + tableName + "/" + idColName + "#" + id; 　　　　　 // set URI into a SourceDocumentInfo 　　　　　 SourceDocumentInfo docInfo = new SourceDocumentInfo( jcas); 　　　　　 docInfo.setURI( uri);　　　　　　　　　　　// set uri feature value 　　　　　 docInfo.addToIndexes(); 　　　　　 // Advance to next row in the ResultSet 　　　　　 nextRow(); 　　　　 }

使用一个 XML 描述符文件让 UIMA 框架了解 SQLReader。每个 UIMA 组件都有这样的文件，可以使用 SDK 中的工具或手工创建这种文件。描述符指向组件的实现，在这种情况下是一个类文件，还包含组件需要的任何配置信息。对于 SQLReader，描述符包含源数据库的 URL 和登录所需的用户 id/密码等信息。在进行初始化时，使用 UIMA 提供的方法读取这些信息。

描述符中另一个非常重要的信息是组件使用的类型系统的引用。CAS 将数据存储为有类型的结构，类型系统定义了类型以及类型之间的关系。图 2 显示 Preston 中使用的类型系统。类型系统是使用 SDK 工具定义的，这些工具还创建与类型系统中的类型对应的 Java ™ 类。清单 1 中的 SourceDocumentInfo 就是这样的类。它的 URI 属性用于保存 SQLReader 创建的文档 URI。（在 UIMA 处理结束时，这个 URI 将从 CAS 复制到 EIDB 中。）

图 2. Preston 使用的 UIMA 类型系统。内置的 UIMA 类型名显示为斜体。箭头指出继承关系。