开发学院软件开发 Java 用 WEKA 进行数据挖掘，第 2 部分: 分类和群集阅读

用 WEKA 进行数据挖掘，第 2 部分: 分类和群集

　2010-06-23 00:00:00　来源：WEB开发网　　　

核心提示： 很显然，这看上去不怎么有趣，用 WEKA 进行数据挖掘，第 2 部分: 分类和群集(10)，对于一个具有 10 行和三个群集的数据集，若使用电子数据表，看看这些列、属性数据以及列的分布等，在加载数据后，需要花上 30 分钟才能完成，那么想象一下

很显然，这看上去不怎么有趣。对于一个具有 10 行和三个群集的数据集，若使用电子数据表，需要花上 30 分钟才能完成。那么想象一下，如果有 100,000 数据行和 10 个群集，若用手工完成那将花费多长时间。所幸的是，计算机在几秒内就可以完成这类计算。

WEKA 的数据集

我们为群集示例要使用的这个数据集同样也围绕着我们虚构的 BMW 经销店。这个经销店保留了人们如何在经销店以及展厅行走、他们看了哪些车以及他们最终购车的机率的记录。经销店期望通过寻找数据内的模式挖掘这些数据并使用群集来判断其客户是否有某种行为特点。在这个例子中有 100 行数据，并且每个列都描述了顾客在他们各自的 BMW 体验中所到达的步骤，比如列中的 1 表示到达这一步的顾客看过这辆车，0 表示他们不曾到达看过车的这一步。清单 4 显示了我们在 WEKA 中所使用的 ARFF 数据。

清单 4. 群集 WEKA 数据

@attribute　Dealership　numeric　 @attribute　Showroom　numeric　 @attribute　ComputerSearch　numeric　 @attribute　M5　numeric　 @attribute　3Series　numeric　 @attribute　Z4　numeric　 @attribute　Financing　numeric　 @attribute　Purchase　numeric　　 @data　　 1,0,0,0,0,0,0,0　 1,1,1,0,0,0,1,0　 ...

在 WEKA 内进行群集

采用与将数据加载到 Preprocess 选项卡时的相同步骤来将数据文件 bmw-browsers.arff 加载到 WEKA 内。花上几分钟时间来查看一下这个选项卡内的数据。看看这些列、属性数据以及列的分布等。在加载数据后，屏幕应该类似于图 5。

图 5. WEKA 内的 BMW 群集数据
用 WEKA 进行数据挖掘，第 2 部分: 分类和群集