开发学院数据库 MSSQL Server 数据挖掘算法-Apriori Algorithm（关联规则）阅读

数据挖掘算法-Apriori Algorithm（关联规则）

　2010-04-08 00:00:00　来源：WEB开发网　　　

核心提示：本人刚开始学数据挖掘，虽然之前看过一本《数据挖掘原理与应用：SQL Server 2005数据库》，数据挖掘算法-Apriori Algorithm（关联规则），但是只是大体上了解了一些数据挖掘的概念，并没有深入去了解一个算法，那个就是支持度；2.解释二：在100个人去超市买东西的，其中买苹果的有9个人，前段时间开始比

本人刚开始学数据挖掘，虽然之前看过一本《数据挖掘原理与应用：SQL Server 2005数据库》，但是只是大体上了解了一些数据挖掘的概念，并没有深入去了解一个算法。前段时间开始比较深入的学习，就以关联规则作为学习的入口点。这才有了这篇文章。

Apriori algorithm是关联规则里一项基本算法。是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法。关联规则的目的就是在一个数据集中找出项与项之间的关系，也被称为购物蓝分析 (Market Basket analysis)，因为“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。

关于这个算法有一个非常有名的故事："尿布和啤酒"。故事是这样的：美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿布，而丈夫在买完尿布后又要顺手买回自己爱喝的啤酒，因此啤酒和尿布在一起被购买的机会很多。这个举措使尿布和啤酒的销量双双增加，并一直为众商家所津津乐道。

【1】一些概念和定义

资料库（Transaction Database）：存储着二维结构的记录集。定义为：D

所有项集（Items）：所有项目的集合。定义为：I。

记录（Transaction ）：在资料库里的一笔记录。定义为：T，T ∈ D

项集（Itemset）：同时出现的项的集合。定义为：k-itemset（k项集），k-itemset ? T。除非特别说明，否则下文出现的k均表示项数。

支持度（Support）：定义为 supp(X) = occur(X) / count(D) = P(X)。

1.　解释一：比如选秀比赛，那个支持和这个有点类似，那么多人（资料库），其中有多少人是选择（支持）你的，那个就是支持度；

2.　解释二：在100个人去超市买东西的，其中买苹果的有9个人，那就是说苹果在这里的支持度是　9，9/100；

1 2 下一页