开发学院数据库 DB2 高性能数据挖掘：在 InfoSphere Balanced Warehou... 阅读

高性能数据挖掘：在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能

　2009-11-14 00:00:00　来源：WEB开发网　　　

核心提示： 以分区为基准时，性能将保持不变的，高性能数据挖掘：在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能(4)，而与数据量和配置大小无关（参见图 2），相对计分时间性能会随着分区数量的变化而呈比例变化（参见图 3），可以使用图 5 所示公式，

以分区为基准时，性能将保持不变的，而与数据量和配置大小无关（参见图 2）。

相对计分时间性能会随着分区数量的变化而呈比例变化（参见图 3）。性能随数据量的增长呈线性增长（参见图 4）。

图 2：计分性能：每分区计分率 vs. 分区数量（相对 100 万条记录 8 分区）

高性能数据挖掘：在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能

图 3：计分性能：计分时间 vs. 分区数量（相对 100 万条记录 8 分区）

高性能数据挖掘：在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能

图 4：计分性能：计分时间 vs. 记录数量

高性能数据挖掘：在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能

缓冲区溢出表示需要为各服务器添加额外内存，或者向集群添加更多服务器。在达到这个内存阀值之前，性能仍然保持线性增长关系。

IBW 的导入 PMML 数据挖掘模型的功能表示可以使用分析和 IBW 环境创建和使用数据挖掘模型，通过操作业务应用程序或自动流程实现高速、高容量的计分。使用此战略的组织可以利用它们在分析技术和工具中的已有投资，结合一个 IBW 环境来更好地支持决策定制流程。

最佳实践建议

从研究结果中可以得出 3 个配置 IBW 数据挖掘环境的最佳实践：

要消除日志开销，将计分结果的输出表设置为 Not Logged Initially。

要便于缓冲池调优和单独的磁盘活动，应该将源表和计分结果表放置在不同的表空间和不同的缓冲池中。

要计算特定数据挖掘模型的配置指标，可以使用图 5 所示公式。其中，模型的性能（每秒每分区处理的行数）将通过对数据随机字集计分来确定。

图 5：计算集群中的数据挖掘模型服务器的指标

高性能数据挖掘：在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能　

上一页 1 2 3 4

Tags：高性能 数据挖掘 InfoSphere

编辑录入：爽爽　[复制链接] [打印]

更多精彩

赞助商链接

热点阅读

焦点图片

最新推荐

精彩阅读

技术首页　|　关于本站　|　广告合作　|　联系我们　|　友情连接　|　网站地图

飞鹰联盟成员网站　Copyright © 2003-2013 CnCms.Com. All Rights Reserved　京ICP备10000768号