开发学院软件开发 Java 用 WEKA 进行数据挖掘，第 2 部分: 分类和群集阅读

用 WEKA 进行数据挖掘，第 2 部分: 分类和群集

　2010-06-23 00:00:00　来源：WEB开发网　　　

核心提示： 好了，对于分类树的背景和技术方面的介绍已经够多了，用 WEKA 进行数据挖掘，第 2 部分: 分类和群集(5)，让我们现在开始获得一些真正的数据并将其带入 WEKA， WEKA 数据集我们用于分类示例的数据集所围绕的仍然是我们虚构的 BMW 经销店，某些被用来测试模型以确保没有过拟合，在加载了数

好了，对于分类树的背景和技术方面的介绍已经够多了。让我们现在开始获得一些真正的数据并将其带入 WEKA。

WEKA 数据集

我们用于分类示例的数据集所围绕的仍然是我们虚构的 BMW 经销店。这个经销店正在启动一个推销计划，试图向其老客户推销两年延保。这个经销店过去曾做过类似的计划并从过去的销售中收集了 4,500 个数据点。数据集中的属性有：

收入水平 [0=$0-$30k, 1=$31k-$40k, 2=$41k-$60k, 3=$61k-$75k, 4=$76k-$100k, 5=$101k-$150k, 6=$151k-$500k, 7=$501k+]

第一辆 BMW 购买的年/月

最近的 BMW 购买的年/月

是否过去曾响应过延保计划

让我们来看看在这个例子中使用的 Attribute-Relation File Format (ARFF)。

清单 2. 分类 WEKA 数据

@attribute　IncomeBracket　{0,1,2,3,4,5,6,7}　 @attribute　FirstPurchase　numeric　 @attribute　LastPurchase　numeric　 @attribute　responded　{1,0}　　 @data　　 4,200210,200601,0　 5,200301,200601,1　 ...

在 WEKA 内进行分类

使用我们之前使用过的相同步骤来将数据文件 bmw-training.arff （参见下载）载入 WEKA。请注意：这个文件只包含经销店记录内的这 4,500 个记录中的 3,000 个。我们需要分割我们的记录以便某些数据实例被用来创建模型，某些被用来测试模型以确保没有过拟合。在加载了数据后，屏幕应该类似于图 1。

图 1. WEKA 内的 BMW 分类数据
用 WEKA 进行数据挖掘，第 2 部分: 分类和群集