教程:SQL Server 2008 数据挖掘的概念
2009-06-05 18:58:08 来源:WEB开发网
浏览和验证模型
如以下关系图中突出显示的那样,数据挖掘过程的第五步就是浏览您已经生成的挖掘模型并测试其有效性。
在将模型部署到生产环境之前,您需要测试模型的性能。此外,在生成模型时,您通常需要使用不同配置创建多个模型,并对所有这些模型进行测试,以便查看哪个模型为您的问题和数据生成最佳结果。
Analysis Services 提供的工具可帮助您将数据分成定型数据集和测试数据集,使您可以更准确地评估基于相同数据的所有模型的性能。您使用定型数据集生成模型,并通过创建预测查询来使用测试数据集测试模型的准确性。在 SQL Server 2008 Analysis Services 中,生成挖掘模型时可自动执行该分区操作。
可以使用 BI Development Studio 中数据挖掘设计器内的查看器来浏览算法发现的趋势和模式。还可以使用该设计器中的工具(如,提升图和分类矩阵)来测试模型创建预测的性能。若要验证模型是否特定于您的数据,或者是否可用于推断总体,您可以使用称为“交叉验证”的统计方法来自动创建数据子集,并参照每个子集测试模型。
如果您在生成模型步骤中创建的所有模型都无法正常工作,则必须返回到此过程的上一个步骤,并重新定义问题或重新调查原始数据集中的数据。
部署和更新模型
如下面的关系图中突出显示的那样,数据挖掘过程的最后一步是将性能最佳的模型部署到生产环境。
当生产环境中部署了挖掘模型之后,便可根据您的需求执行许多任务。下面是一些可以执行的任务:
使用模型创建预测,然后可以使用这些预测作出业务决策。SQL Server 提供可用于创建预测查询的 DMX 语言,同时还提供有助于生成查询的预测查询生成器。
创建内容查询以检索模型中的统计信息、规则或公式。
直接将数据挖掘功能嵌入到应用程序。您可以包括含有一组对象的分析管理对象 (AMO),应用程序可使用这组对象创建、更改、处理以及删除挖掘结构和挖掘模型。另外,可以直接将 XML for Analysis (XMLA) 消息发送到 Analysis Services 实例。
使用 Integration Services 创建一个包,在这个包中,挖掘模型用于将传入数据合理地分离到多个表中。例如,如果数据库不断地通过潜在客户进行更新,则可以结合使用挖掘模型和 Integration Services 将传入数据拆分为可能购买产品的客户和不可能购买产品的客户。
创建可让用户直接对现有挖掘模型进行查询的报表。
在查看和分析后更新模型。任何更新都要求您重新处理该模型。
随着组织传入的数据不断增多,应将动态更新模型并进行一致更改(以便提高解决方案的效率)作为部署策略的一部分。
更多精彩
赞助商链接