将 InfoSphere Warehouse 数据挖掘与 IBM Cognos 报告集成,第 2 部分: 使用 InfoSphere Warehouse 和 Cognos 检测偏差
2009-12-31 00:00:00 来源:WEB开发网使用 InfoSphere Warehouse 进行偏差检测
什么是偏差检测?
偏差检测是一项在大型数据集中发现异常数据记录的任务。这些记录称为离群值。“异常” 的确切定义还有待讨论,但它与应用偏差检测的领域有关。通常而言,偏差检测的目标是发现不符合大多数数据记录整体统计分布的数据记录。根据应用领域不同,偏差可能是:
不正确的数据(例如,如果一个人的年龄为 300,这很可能是数据库中一个不正确的条目)
异常行为(例如,不符合通常模式的信用卡事务)
相应地,偏差检测可用于不同的任务。如果您猜测数据集包含不正确的数据,那么可以应用偏差检测进行数据清洗,从而发现数据库中不正确的条目。在第二种情况下,数据是正确的,但是反映出某个过程表现出异常的行为。这可用于检测欺诈,这是偏差检测的第二个主要应用。前面已指出,异常的行为不一定是欺诈。例如,也可能表明新兴的模式,比如 “过度使用在线拍卖的老年客户”。尽早检测出新兴模式有助于公司尽早提供新的产品或服务,从而获得竞争优势。在财务部门就可以发现类似的应用。可以使用偏差检测来发现有前景的投资,这种投资不符合通常的模式,因而到目前为止还没有人意识到。在所有这些案例中,必须由分析师来检查离群值,看看是数据是否正确,是否需要采取措施避免欺诈,或者利用还没有人意识到的机遇。接下来将了解 InfoSphere Warehouse 如何检测离群值,以及如何对数据应用偏差检测。本文剩下的内容讨论如何在 Cognos 中交互式地可视化离群值。
InfoSphere Warehouse 中的偏差检测
近年来产生了很多不同的用于检测偏差的方法。InfoSphere Warehouse 使用一种特别强大的方法来进行偏差检测,这种方法基于数据集群。集群是一种数据挖掘技术,这种技术根据数据记录的属性将相近的数据记录指定到集群中。我们来看看 图 1。图中每个点表示一个客户。在这个简单的案例中,客户只以年龄和平均余额来描述。InfoSphere Warehouse 使用一个统计集群算法将在这两个维上相近的客户分到集群中。可以看到,有些集群比其他集群更大,更集中(集群 1 相对于集群 3)。InfoSphere Warehouse 结合一些属性为每个集群赋予一个 “偏差” 度。这个度越高,则该集群中的记录越有可能是离群值。
Tags:InfoSphere Warehouse 数据挖掘
编辑录入:爽爽 [复制链接] [打 印]- 中查找“将 InfoSphere Warehouse 数据挖掘与 IBM Cognos 报告集成,第 2 部分: 使用 InfoSphere Warehouse 和 Cognos 检测偏差”更多相关内容
- 中查找“将 InfoSphere Warehouse 数据挖掘与 IBM Cognos 报告集成,第 2 部分: 使用 InfoSphere Warehouse 和 Cognos 检测偏差”更多相关内容
- 上一篇:将 InfoSphere Warehouse 数据挖掘与 IBM Cognos 报告集成,第 3 部分 : 使用市场购物篮分析的例子从 Cognos 动态调用挖掘
- 下一篇:将 InfoSphere Warehouse 数据挖掘与 IBM Cognos 报告集成,第 1 部分: InfoSphere Warehouse 与 Cognos 集成架构概述
更多精彩
赞助商链接