高性能数据挖掘:在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能
2009-11-14 00:00:00 来源:WEB开发网核心提示: 以分区为基准时,性能将保持不变的,高性能数据挖掘:在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能(4),而与数据量和配置大小无关(参见图 2),相对计分时间性能会随着分区数量的变化而呈比例变化(参见图 3),可以使用图 5 所示公式,
以分区为基准时,性能将保持不变的,而与数据量和配置大小无关(参见图 2)。
相对计分时间性能会随着分区数量的变化而呈比例变化(参见图 3)。性能随数据量的增长呈线性增长(参见图 4)。
图 2:计分性能:每分区计分率 vs. 分区数量(相对 100 万条记录 8 分区)
图 3:计分性能:计分时间 vs. 分区数量(相对 100 万条记录 8 分区)
图 4:计分性能:计分时间 vs. 记录数量
缓冲区溢出表示需要为各服务器添加额外内存,或者向集群添加更多服务器。在达到这个内存阀值之前,性能仍然保持线性增长关系。
IBW 的导入 PMML 数据挖掘模型的功能表示可以使用分析和 IBW 环境创建和使用数据挖掘模型,通过操作业务应用程序或自动流程实现高速、高容量的计分。使用此战略的组织可以利用它们在分析技术和工具中的已有投资,结合一个 IBW 环境来更好地支持决策定制流程。
最佳实践建议
从研究结果中可以得出 3 个配置 IBW 数据挖掘环境的最佳实践:
要消除日志开销,将计分结果的输出表设置为 Not Logged Initially。
要便于缓冲池调优和单独的磁盘活动,应该将源表和计分结果表放置在不同的表空间和不同的缓冲池中。
要计算特定数据挖掘模型的配置指标,可以使用图 5 所示公式。其中,模型的性能(每秒每分区处理的行数)将通过对数据随机字集计分来确定。
图 5:计算集群中的数据挖掘模型服务器的指标
Tags:高性能 数据挖掘 InfoSphere
编辑录入:爽爽 [复制链接] [打 印]更多精彩
赞助商链接