WEB开发网      濠电娀娼ч崐濠氬疾椤愶附鍋熸い鏍ㄧ〒闂勫嫰鏌﹀Ο渚Ц闁诲氦顕ч湁婵犲﹤楠告禍鍓х磼鏉堛劌绗氶柟宄版嚇閹晠宕归銈嗘濠电偞鍨堕幐鎾磻閹捐秮褰掓偐閻戞﹩妫勯梺鎼炲妼鐎涒晝绮嬪澶樻晝闁挎繂鏌婇敃鍌涚厵閻庢稒锚閻忥絾绻濇繝鍐ㄧ伌闁诡垰鍟村畷鐔碱敂閸♀晙绱樺┑鐐差嚟婵儳螞閸曨剚鍙忛柍鍝勬噹缁€澶嬬箾閹存繄锛嶆鐐灲閹綊宕惰濡插鏌涢妸銉ヮ劉缂佸倸绉归弫鎾绘晸閿燂拷 ---闂備焦瀵уú鈺呭箯閿燂拷
开发学院数据库DB2 高性能数据挖掘:在 InfoSphere Balanced Warehou... 阅读

高性能数据挖掘:在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能

 2009-11-14 00:00:00 来源:WEB开发网 闂備線娼уΛ鎾箯閿燂拷闂備礁鎲¢崹鐢垫崲閹扮増鍎嶆い鎺戝€甸崑鎾斥槈濞嗗秳娌紓鍌氱▌閹凤拷濠电姭鎷冮崨顓濈捕闂侀潧娲ゅú銊╁焵椤掍胶鈯曢柕鍥╁仧缁辩偤鏁撻敓锟�闂備線娼уΛ鎾箯閿燂拷  闂備胶枪缁绘鈻嶉弴銏犳瀬闁绘劖顐煎☉妯锋瀻闁归偊鍓涘▔姘舵⒑閸涘⿴娈旀繛灞傚妼閳绘捇骞嬪┑鎰濡炪倖姊婚崢褏鎲撮敓锟�
核心提示: 通过获取 PMML 格式的 SAS Logistic 回归模型并将其导入到数据库中,在 IBW 中建立数据挖掘,高性能数据挖掘:在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能(2),在数据库中建立 5 个数据表,每个表采用 4 种不同

通过获取 PMML 格式的 SAS Logistic 回归模型并将其导入到数据库中,在 IBW 中建立数据挖掘。

在数据库中建立 5 个数据表,每个表采用 4 种不同的分区模式。

使用 SQL 脚本对各分区模式的 5 个数据表应用数据挖掘模型,并报告执行时间。

图 1:用于测试的服务器环境,包括一个 InfoSphere Balanced Warehouse E7100 系统

高性能数据挖掘:在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能 

服务器环境

IBW 环境是在由运行 IBM AIX 之上的 11 IBM System p6 570 服务器集群组成的 IBW E7100 上配置的(参见图 1)。E7100 集群包括一台管理员服务器和 10 台数据服务器。每台服务器包含 4 个处理器和 64 GB 内存。服务器将通过 Gigabit Ethernet 交换器建立连接。IBM System Storage DS4800 和 DS4700 单元用于存储。

数据挖掘模型

我们使用 SAS Enterprise Miner 5 获得了一个 logistic 回归模型。此数据挖掘模型是以 PMML 格式从 SAS Enterprise Miner 中导入的,然后又被导入到 IBW 环境中的 DB2 表中,从而能够整合到 DB2 计分流程中。

数据创建和分区

用于研究的数据来自 IBM 客户所提供的一个非常大的数据库。提取的数据包括分别从 100 万条记录和 1000 万条记录中随机选择的样例。这两条样例用于构建供计分使用的 5 个表,它们分别包括 1000 万行、3000 万行、1 亿行和 3 亿行。

这 5 个表都采用了 4 种不同的分区模式进行创建,以演示 IBW 环境中的数据挖掘查询的 “向上扩展”(更多记录)和 “水平扩展”(更多分区)。这些分区模式分别包含 1 到 10 台不等的数据服务器。这 4 个模式分别采用以下配置设置:1 台数据服务器和 8 个分区,3 台数据服务和 24 个分区,5 台数据服务和 40 个分区,10 台数据服务和 80 个分区。

上一页  1 2 3 4  下一页

Tags:高性能 数据挖掘 InfoSphere

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接