开发学院数据库 DB2 使用UIMA和DB2 Intelligent Miner进行文本挖掘阅读

使用UIMA和DB2 Intelligent Miner进行文本挖掘

　2008-05-15 14:58:13　来源：WEB开发网　　　

核心提示：为关联进行数据挖掘我们对 EIDB 中的数据进行数据挖掘，寻找高度相关的人，使用UIMA和DB2 Intelligent Miner进行文本挖掘(5)，两个人之间有关联的证据是在同一个文档中提到了他们，也就是，例如一个人实例的名字，

为关联进行数据挖掘

我们对 EIDB 中的数据进行数据挖掘，寻找高度相关的人。两个人之间有关联的证据是在同一个文档中提到了他们，也就是，他们被共同提及。还可以包含其他证据，这可以通过包含其他结构化数据（比如用数据库表记录哪些人为同一部电影工作过），或者通过进行更深入的文本分析。其他文本分析使我们能够根据文本中的语句寻找人们之间的其他关系。通过添加更多标注器来寻找这些关系，并在类型系统中添加更多可以存储在 CAS 中的类型，就能够创建包含 “实体-关系-实体” 三元组（也称为 “主体-谓词-对象” 三元组）的数据库表。为了便于以后提供这种功能，将 EIDB 中的共同提及数据转换为一个面向三元组的模式，实现的方法是在数据库上定义一个具有这种结构的视图。这个视图的模式称为 UIMA_RELATIONS，见表 1。

表 1. UIMA_RELATIONS 视图的模式。所有列的类型都是 VARCHAR。

列名	说明
subject_type	主体实体的类型，例如 NameReference。
subject_uri	主体实体的惟一标识符，采用 URI 形式。
predicate_type	谓词的类型，例如 Has_name。
object_type	对象的类型，比如 Document 或 String。
object_name	对象实体的 URI（如果它的类型是 Document），或者对象的字符串值（如果它的类型是 String）。
evidence_uri	应用程序用来获得这个关系的证据的 URI，例如文档的 URI。

这种模式称为垂直模式（vertical schema），它有两个主要优点。它非常灵活，因为通过在 predicate_type 列中使用不同的值，可以很轻松地插入新的关系。其次，它使关系和它们的语义变成显式的，而在标准的数据库模式中许多关系隐含在模式的设计中。垂直模式还更加接近于语义 Web 标准，比如 RDF。通过定义视图而不是显式的表，可以避免垂直模式的主要缺点，即许多查询要求它与本身进行联结，而这种操作是很昂贵的。

将 UIMA_RELATIONS 视图创建为两个 SQL 选择语句的联合。一个选择语句为 “Mentioned_in” 谓词创建行，另一个为 “Has_name” 谓词创建行。第一个选择语句将人和文档联系起来。它从 EIDB 中的 INSTANCES 表中取出人实例，并通过与其他表进行联结，寻找提到这个人实例的文档。证据 URI 是文档 URI。第二个 SQL 选择语句为 “Has_name” 谓词创建行，它将人实例与他们的名字字符串联系起来。因为这个谓词所需的所有信息都在 INSTANCES 表中，因此构造一个证据 URI 指向这个表中的相关行。

Preston 中的数据挖掘要寻找关联，它需要定义另一个视图 MINING_VIEW，这个视图的格式根据下面描述的 DB2 Intelligent Miner 工具的需求进行定义。它是通过对 UIMA_RELATIONS 视图进行自我联结建立的。挖掘视图只包含两列，见表 2。第一个列是人可读的实体标识符，在这个例子中是人名。第二个列是出现此人的 “事务” 的惟一 ID。在这个例子中是提到此人的文档的 URI。

表 2. MINING_VIEW 视图的模式。两个列的类型都是 VARCHAR。

列名	说明
name	一个描述实体的字符串，例如一个人实例的名字。
transaction_id	出现此实体的事务的惟一标识符，例如文档的 URI。