高性能数据挖掘:在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能
2009-11-14 00:00:00 来源:WEB开发网通过获取 PMML 格式的 SAS Logistic 回归模型并将其导入到数据库中,在 IBW 中建立数据挖掘。
在数据库中建立 5 个数据表,每个表采用 4 种不同的分区模式。
使用 SQL 脚本对各分区模式的 5 个数据表应用数据挖掘模型,并报告执行时间。
图 1:用于测试的服务器环境,包括一个 InfoSphere Balanced Warehouse E7100 系统
服务器环境
IBW 环境是在由运行 IBM AIX 之上的 11 IBM System p6 570 服务器集群组成的 IBW E7100 上配置的(参见图 1)。E7100 集群包括一台管理员服务器和 10 台数据服务器。每台服务器包含 4 个处理器和 64 GB 内存。服务器将通过 Gigabit Ethernet 交换器建立连接。IBM System Storage DS4800 和 DS4700 单元用于存储。
数据挖掘模型
我们使用 SAS Enterprise Miner 5 获得了一个 logistic 回归模型。此数据挖掘模型是以 PMML 格式从 SAS Enterprise Miner 中导入的,然后又被导入到 IBW 环境中的 DB2 表中,从而能够整合到 DB2 计分流程中。
数据创建和分区
用于研究的数据来自 IBM 客户所提供的一个非常大的数据库。提取的数据包括分别从 100 万条记录和 1000 万条记录中随机选择的样例。这两条样例用于构建供计分使用的 5 个表,它们分别包括 1000 万行、3000 万行、1 亿行和 3 亿行。
这 5 个表都采用了 4 种不同的分区模式进行创建,以演示 IBW 环境中的数据挖掘查询的 “向上扩展”(更多记录)和 “水平扩展”(更多分区)。这些分区模式分别包含 1 到 10 台不等的数据服务器。这 4 个模式分别采用以下配置设置:1 台数据服务器和 8 个分区,3 台数据服务和 24 个分区,5 台数据服务和 40 个分区,10 台数据服务和 80 个分区。
Tags:高性能 数据挖掘 InfoSphere
编辑录入:爽爽 [复制链接] [打 印]更多精彩
赞助商链接