高性能数据挖掘:在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能
2009-11-14 00:00:00 来源:WEB开发网核心提示:谈到预测分析和商业智能 (BI) 时,拥有大信息仓库的组织通常面临这样一个选择:直接在数据库环境中创建和实现数据挖掘模型,高性能数据挖掘:在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能,还是在单独的分析环境中创建它们,比如数据挖掘工作台,评估跨广泛硬件配置和
谈到预测分析和商业智能 (BI) 时,拥有大信息仓库的组织通常面临这样一个选择:直接在数据库环境中创建和实现数据挖掘模型,还是在单独的分析环境中创建它们,比如数据挖掘工作台。
通过并行机制和降低总体软件许可成本来改善计分性能,在数据库环境中部署挖掘模型有时可以更快地产生业务成果。此外,通过将高成本数据挖掘软件限制于小开发环境,然后将数据挖掘模型迁移到大规模生产环境,可以在软件许可方面实现显著的节省。另一方面,一些组织需要在分析环境中开发和部署数据挖掘模型,投入大量资源并体验其挖掘模型和流程。
对于许多组织来说,最好的选择可能是允许在分析环境中开发数据挖掘模型,然后将其部署到针对高速、高容量计分流程优化过的数据库环境中。此方法的实现归功于 Predictive Model Markup Language (PMML),它定义了一种表达数据挖掘模型的格式。使用 PMML 创建的数据挖掘模型可以方便地导入到数据库,以便于数据库环境中的计分流程可以使用它们。
IBM InfoSphere Balanced Warehouse (IBW) 是一个出色平台,可以帮助组织部署外部创建的 PMML 数据挖掘模型,以便创建高速、高容量的 BI 和预测分析环境。为了演示 IBW 的功能,IBM 执行了一项计分性能研究,其目标如下:
展示 PMML 数据挖掘模型可以成功地在高速、高容量的 IBW 环境中实现计分。
评估跨广泛硬件配置和数据量的 IBW 环境中的计分伸缩性能。
开发配置 IBW 数据挖掘环境的最佳实践建议。
设置测试环境
研究分为四个步骤:
准备服务器环境。
Tags:高性能 数据挖掘 InfoSphere
编辑录入:爽爽 [复制链接] [打 印]赞助商链接