教程:SQL Server 2008 数据挖掘的概念
2009-06-05 18:58:08 来源:WEB开发网核心提示:准备数据如以下关系图中突出显示的那样,数据挖掘过程的第二步就是合并和清除定义问题步骤中标识的数据,教程:SQL Server 2008 数据挖掘的概念(3),数据可以分散在公司的各个部门并以不同的格式存储,或者可能包含错误项或缺少项之类的不一致性,这些数据源可以包括文本文件、Excel 工作簿或来自其他外部提供程序的数
准备数据
如以下关系图中突出显示的那样,数据挖掘过程的第二步就是合并和清除定义问题步骤中标识的数据。
数据可以分散在公司的各个部门并以不同的格式存储,或者可能包含错误项或缺少项之类的不一致性。例如,数据可能显示客户在产品推向市场之前购买该产品,或者客户在距离她家 2,000 英里的商店定期购物。
数据清除不仅仅是删除错误数据,还包括查找数据中的隐含相关性、标识最准确的数据源并确定哪些列最适合用于分析。例如,应当使用发货日期还是订购日期?最佳销售影响因素是数量、总价格,还是打折价格?不完整数据、错误数据和输入看似独立,但实际上有很强的关联性,它们可以以意想不到的方式影响模型的结果。因此,在开始生成挖掘模型之前,应确定这些问题及其解决方式。
通常,您使用的是一个非常大的数据集,并且无法仔细查看每个事务。因此,必须使用某种自动化的形式(如,在 Integration Services 中)来浏览数据并找到这些不一致。Microsoft SQL Server 2008 Integration Services (SSIS) 包含完成该步骤所需的所有工具,步骤内容包括转换到自动执行数据清除和合并。
需要特别注意的是用于数据挖掘的数据不必存储在联机分析处理 (OLAP) 多维数据集中,或者甚至不必存储在关系数据库中,但是您可以将它们作为数据源使用。您可以使用已被定义为 Analysis Services 数据源的任何数据源执行数据挖掘。这些数据源可以包括文本文件、Excel 工作簿或来自其他外部提供程序的数据。
浏览数据
如以下关系图中突出显示的那样,数据挖掘过程的第三步就是浏览已准备的数据。
- ››sql server自动生成批量执行SQL脚本的批处理
- ››sql server 2008亿万数据性能优化
- ››SQL Server 2008清空数据库日志方法
- ››sqlserver安装和简单的使用
- ››SQL Sever 2008 R2 数据库管理
- ››SQL SERVER无法安装成功,sqlstp.log文件提示[未发...
- ››Sql Server中通过父记录查找出所有关联的子记录
- ››SqlServer触发器、存储过程和函数
- ››SQL Server 中的事务(含义,属性,管理)
- ››Sqlite数据库插入和读取图片数据
- ››Sql server 2005拒绝了对对象 'xx表' (数...
- ››Sql server 2005拒绝了对对象 'xx表' (数...
更多精彩
赞助商链接