WEB开发网
开发学院数据库DB2 高性能数据挖掘:在 InfoSphere Balanced Warehou... 阅读

高性能数据挖掘:在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能

 2009-11-14 00:00:00 来源:WEB开发网   
核心提示: 计分性能我们对分区和行的各种组合进行了评估,在每次测试时,高性能数据挖掘:在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能(3),DB2 缓冲池都需要先进行预热,以便能确保记录时间的一致性和可比性,结果和结论此项研究的结果表示在 IBW

计分性能

我们对分区和行的各种组合进行了评估。在每次测试时,DB2 缓冲池都需要先进行预热,以便能确保记录时间的一致性和可比性。对于每次测试,每秒计分的记录数量并每秒每分区计分的记录数量在报告时将以基本的 100 万条记录和 8 个分区作为标准。参见表 1 了解计分执行时间和性能指标。图 2-4 展示了计分性能。在图 2 中,我们看到相对计分性能表示为相对基本标准的每秒每分区计分的记录数量(即每分区的相对计分率)在分区增加时仍然保持不变。对于 1000 万条记录 8 分区、3000 万条记录 8、24 和 40 分区的情况,性能将受到可用物理内存的限制。

表 1

高性能数据挖掘:在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能

研究此性能限制发现,这是由于缓冲池溢出造成的。在我们的测试中,源和目标表都在相同的表空间和缓冲池中。当记录数量足够多时,读取和写入操作将开始争用相同的缓冲池资源,因此会减缓总体计分速度。在图 3 中,相对计分时间性能(相对基准的每秒计分的记录数量)会随着分区数量的变化而成比例变化。对于 100 万条记录的情况,我们看到分区数量从 8 翻了 3 倍变成 24 之后,相对计分时间也减小了三倍(从 1 变为 0.3)。

在图 4 中,我们看到相对计分时间随记录数量的增长而呈线性增长。未符合线性性能规律的情况包括 8、24 和 40 分区的情况,这反映了可用物理内存的限制。

结果和结论

此项研究的结果表示在 IBW 环境中使用 PMML 数据挖掘模型的计分性能与数据量及硬件配置呈线性关系。此外,性能会受到可用物理内存的限制。特别是:

上一页  1 2 3 4  下一页

Tags:高性能 数据挖掘 InfoSphere

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接