开发学院数据库 DB2 高性能数据挖掘：在 InfoSphere Balanced Warehou... 阅读

高性能数据挖掘：在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能

　2009-11-14 00:00:00　来源：WEB开发网　　　

核心提示： 通过获取 PMML 格式的 SAS Logistic 回归模型并将其导入到数据库中，在 IBW 中建立数据挖掘，高性能数据挖掘：在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能(2)，在数据库中建立 5 个数据表，每个表采用 4 种不同

通过获取 PMML 格式的 SAS Logistic 回归模型并将其导入到数据库中，在 IBW 中建立数据挖掘。

在数据库中建立 5 个数据表，每个表采用 4 种不同的分区模式。

使用 SQL 脚本对各分区模式的 5 个数据表应用数据挖掘模型，并报告执行时间。

图 1：用于测试的服务器环境，包括一个 InfoSphere Balanced Warehouse E7100 系统

高性能数据挖掘：在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能　

服务器环境

IBW 环境是在由运行 IBM AIX 之上的 11 IBM System p6 570 服务器集群组成的 IBW E7100 上配置的（参见图 1）。E7100 集群包括一台管理员服务器和 10 台数据服务器。每台服务器包含 4 个处理器和 64 GB 内存。服务器将通过 Gigabit Ethernet 交换器建立连接。IBM System Storage DS4800 和 DS4700 单元用于存储。

数据挖掘模型

我们使用 SAS Enterprise Miner 5 获得了一个 logistic 回归模型。此数据挖掘模型是以 PMML 格式从 SAS Enterprise Miner 中导入的，然后又被导入到 IBW 环境中的 DB2 表中，从而能够整合到 DB2 计分流程中。

数据创建和分区

用于研究的数据来自 IBM 客户所提供的一个非常大的数据库。提取的数据包括分别从 100 万条记录和 1000 万条记录中随机选择的样例。这两条样例用于构建供计分使用的 5 个表，它们分别包括 1000 万行、3000 万行、1 亿行和 3 亿行。

这 5 个表都采用了 4 种不同的分区模式进行创建，以演示 IBW 环境中的数据挖掘查询的 “向上扩展”（更多记录）和 “水平扩展”（更多分区）。这些分区模式分别包含 1 到 10 台不等的数据服务器。这 4 个模式分别采用以下配置设置：1 台数据服务器和 8 个分区，3 台数据服务和 24 个分区，5 台数据服务和 40 个分区，10 台数据服务和 80 个分区。