WEB开发网
开发学院数据库DB2 使用UIMA和DB2 Intelligent Miner进行文本挖掘 阅读

使用UIMA和DB2 Intelligent Miner进行文本挖掘

 2008-05-15 14:58:13 来源:WEB开发网   
核心提示:如果我们考虑到关联挖掘最初的动机 —— Market Basket Analysis,那么事务 ID 的重要性就很明显了,使用UIMA和DB2 Intelligent Miner进行文本挖掘(6),如果把购物篮(Market Basket,例如超级市场中的购物车)看作 “事务&rdq

如果我们考虑到关联挖掘最初的动机 —— Market Basket Analysis,那么事务 ID 的重要性就很明显了。如果把购物篮(Market Basket,例如超级市场中的购物车)看作 “事务”,把它的标识符看作事务 ID,那么关联挖掘就可以用来寻找购物车中两个或多个商品之间的关联。在 Preston 中,文档相当于购物车,文档中提到的人相当于购物车中的商品。如果还有其他关系,尤其是采用 “人-关系-人” 形式的二元关系,那么关系实例相当于购物车,关系中的主体和对象是购物车中的商品,事务标识符是关系实例的标识符。

关联挖掘的输出是一组采用以下形式的规则

entity1, entity2 => entity 3

这表示,在一个事务中如果同时存在 entity1 和 entity2,那么 entity3 可能以一定的概率存在。这个例子是一个长度为 3 的规则。在 Preston 中,我们寻找的规则只是将两个人联系起来,比如:

personA => personB,

这种规则的长度是 2。这个规则的强度表示 personA 和 personB 在同一个文档中一起出现的可能性。强度的几种度量由关联的挖掘算法进行计算。

我们使用 DB2 Intelligent Miner 进行关联挖掘。安装了 DB2 之后,可以通过在 SQL 语句中调用存储过程来调用这个产品。清单 3 所示的调用使用了 Intelligent Miner 提供的一个 “简单挖掘过程”。在这个调用中,PRESTON 是创建的模型名,MINING_VIEW 是要挖掘的视图,下面两个数字参数为生成的规则的强度设置阈值,即最低支持度为 0.01%,最低可靠度是 1%。最后一个参数指定最大规则长度是 2。支持度 和可靠度 是关联规则强度的度量。支持度就是符合这一规则的事务的比例,可靠度度量包含 personA 的文档也提到 personB 的可能性。

考虑共同提及的一种办法是定义一个网络或图,如果两个人在至少一个文档中被同时提到,那么在网络中就在他们之间建立链接。这个网络隐含在挖掘视图中。DB2 Intelligent Miner 的有用功能之一是能够在这个网络中寻找强连接的子图。这些子图中的人频繁地被同时提到。一个例子见 图 6,这是由 DB2 Intelligent Miner Visualization 绘制的。可以看到,通过对 IMDB 传记文档中的共同提及数据进行数据挖掘,找到了现实生活中一些著名的关联。这里采用不同的颜色表示关联的强度,橙色比白色强,白色比蓝色强。这个子图指出了披头士乐队和与他们高度相关的人。

清单 3. 这个 SQL 语句调用 “简单挖掘过程” 来进行关联挖掘。BuildRuleModel 是 DB2 Intelligent Miner 提供的一个用户定义函数。

     CALL IDMMX.BuildRuleModel( 'PRESTON', 'MINING_VIEW',
     'TRANSACTION_ID', 0.01, 1, 2)

图 6. DB2 Intelligent Miner 在文本分析找到的共同提及关系网络中发现的强连接子图。

未来的方向

本文描述了一个简单的应用程序 Preston,它使用 UIMA 中的文本分析在文档中寻找提到的人名,用找到的数据建立一个数据库,并调用针对关联的数据挖掘来在共同提及关系网络中寻找强连接子图。尽管这个应用程序非常简单,但是它说明了使用 UIMA 在非结构化数据和结构化数据之间建立联系的主要特性。对这个应用程序可能进行的一种扩展是,通过进行更复杂的文本分析,识别更多类型的实体以及实体之间的关系。来自不同来源的标注器或文本分析引擎可以轻松地插入 UIMA 框架。IBM 已经声明有几家业务合作伙伴正在开发与 UIMA 兼容的文本分析组件。与 UIMA 兼容的开放源码组件也可以从 University of Sheffield 的 GATE 项目获得(参见 参考资料)。

另一个扩展是,不是将这个应用程序部署在 SDK 上的 UIMA 框架实现中,而是部署在支持的 IBM 产品上:WebSphere Information Integrator OmniFind Edition。OmniFind 支持 UIMA 并添加了其他支持,比如从许多不同类型的数据库中收集文档,以及集成文本分析和文本搜索来提供语义文本搜索。在这种情况下,一定要使用从 developerWorks 获得的兼容 OmniFind 的 SDK 版本。

在 IBM Research 的推动下,UIMA 框架还在继续发展。尽管本文主要关注文本分析,但是 UIMA 还可以用于分析其他类型的非结构化信息,比如音频和图像。

致谢

作者希望感谢 IBM Hursley Laboratory 的 Graham Bent 将 DB2 Intelligent Miner 与文本分析组合起来,还要感谢 Internet Movie Database 允许使用其中的内容。

上一页  1 2 3 4 5 6 

Tags:使用 UIMA DB

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接