开发学院数据库 DB2 使用UIMA和DB2 Intelligent Miner进行文本挖掘阅读

使用UIMA和DB2 Intelligent Miner进行文本挖掘

　2008-05-15 14:58:13　来源：WEB开发网　　　

核心提示：EIDB 使用的数据模型见图 4，MENTIONS 表保存 NameReferenceAnnotator 探测到的对名字的各次提及，使用UIMA和DB2 Intelligent Miner进行文本挖掘(4)， DOCENT 表保存文档实体，来自这些表的示例数据见图 5，并在 DE_INST 表中创建对应的行，Ext

EIDB 使用的数据模型见图 4。MENTIONS 表保存 NameReferenceAnnotator 探测到的对名字的各次提及， DOCENT 表保存文档实体。来自这些表的示例数据见图 5。EIDB 中的其他表在后面讨论。尽管这个简单的模式对于我们现在的意图来说已经很好了，但是还可以让它更高效。例如，文档 URI 是长字符串，由一个不变的部分和一个与文档相关的部分组成。可以将不变的部分转移到一个单独的表中。在调用 EidbManager 的初始化方法时，它进行的数据库设置包括以图 4 所示的模式创建四个表，所使用的 SQL 语句是从它的描述符文件中读取的。CAS 消费者 cas2jdbc 是 WebSphere® Information Integrator OmniFind Edition V8.3 的一部分，Preston 使用它填充 MENTIONS 和 DOCENT 表。它是一个通用组件，用于在 XML 配置文件的控制下将来自文本 CAS 的数据写入关系数据库表中。从 UIMA 类型系统到关系模式的映射由配置文件控制。Preston 中 cas2jdbc 的部分配置见清单 2，这显示如何用 CAS 中的 NameReference 实例信息填充 MENTIONS 表的两列。关于如何构造映射文件的完整细节，请参考 cas2jdbc 的文档。

如图 5 所示，EIDB 的 MENTIONS 和 DOCENT 表中的行是从文档 “He was married to 'Cicely Tyson' (qv) by 'Andrew Young (IV)' (qv) in the home of 'Bill Cosby' (qv). 'Bill Cosby' (qv) was the best man, and gave away the bride” 中产生的。注意，这里两次提到了 Bill Cosby，但是只有一个文档实体。为了简单，已经将键缩短了。

图 5. MENTIONS 和 DOCENT 表中的行

清单 2 中的代码段显示如何用 NameReference 标注的 name 特性填充 MENTIONS 表的 span 列，以及如何用 entity 特性填充 docent_id 列，这使用了 cas2jdbc 为 CAS 中的每个特性结构创建的惟一 ID。

清单 2. Preston 中 CasConsumer cas2jdbc 的部分配置文件

<explicitMappingRule applyToSubtypes="false"> 　　 <type>com.ibm.fisc.preston.NameReference</type> 　　 <table>MENTIONS</table> 　　 <featureMappings> 　　　　 <featureMapping> 　　　　　　 <feature>name</feature> 　　　　　　 <length>1024</length> 　　　　　　 <column>SPAN</column> 　　　　 </featureMapping> 　　　　 <featureMapping> 　　　　　　 <feature> 　　　　　　　　 entity/com.ibm.fisc.preston.DocumentEntity:uniqueId() 　　　　　　 </feature> 　　　　　　 <column>DOCENT_ID</column> 　　　　 </featureMapping> 　　 </featureMappings> 　　 </explicitMappingRule>

在处理完最后一个文档之后，EIDB 中的 MENTIONS 和 DOCENT 表保存着找到的所有人名提及的信息。但是，给定的人名可能在多个文档中被提及。使用实例（instance）这个术语表示在一个或多个文档中提到的一个实体。EIDB 中的 INSTANCES 表记录关于实例的信息，DE_INST 表维护从每个文档实体到对应的实例的链接。需要判断来自不同文档的哪些实体实际上是同一实例，这种处理称为跨文档共同引用（cross-document co-reference）。在 Preston 中，跨文档共同引用的处理是在框架调用 EidbManager CAS 消费者的 collectionProcessComplete 方法时执行的。在 Preston 中，这个任务相当简单，因为在 IMDB 中总是以完全相同的方式提到人名，所以很容易判断不同文档中的哪些实体应该链接到同一实例。在其他生产应用程序中，跨文档共同引用可能非常复杂，实际上这个领域还有待研究。在 Preston 中，这种处理只需要两条 SQL 语句，它们在 INSTANCES 表中为 DOCENT 表中的每组独特人名创建一个条目，并在 DE_INST 表中创建对应的行。Extracted Information Database 已经完成了，可以用于数据挖掘了。