WEB开发网
开发学院软件开发Java 用 WEKA 进行数据挖掘,第 2 部分: 分类和群集 阅读

用 WEKA 进行数据挖掘,第 2 部分: 分类和群集

 2010-06-23 00:00:00 来源:WEB开发网   
核心提示: 好了,对于分类树的背景和技术方面的介绍已经够多了,用 WEKA 进行数据挖掘,第 2 部分: 分类和群集(5),让我们现在开始获得一些真正的数据并将其带入 WEKA, WEKA 数据集我们用于分类示例的数据集所围绕的仍然是我们虚构的 BMW 经销店,某些被用来测试模型以确保没有过拟合,在加载了数

好了,对于分类树的背景和技术方面的介绍已经够多了。让我们现在开始获得一些真正的数据并将其带入 WEKA。

WEKA 数据集

我们用于分类示例的数据集所围绕的仍然是我们虚构的 BMW 经销店。这个经销店正在启动一个推销计划,试图向其老客户推销两年延保。这个经销店过去曾做过类似的计划并从过去的销售中收集了 4,500 个数据点。数据集中的属性有:

收入水平 [0=$0-$30k, 1=$31k-$40k, 2=$41k-$60k, 3=$61k-$75k, 4=$76k-$100k, 5=$101k-$150k, 6=$151k-$500k, 7=$501k+]

第一辆 BMW 购买的年/月

最近的 BMW 购买的年/月

是否过去曾响应过延保计划

让我们来看看在这个例子中使用的 Attribute-Relation File Format (ARFF)。

清单 2. 分类 WEKA 数据

@attribute IncomeBracket {0,1,2,3,4,5,6,7} 
@attribute FirstPurchase numeric 
@attribute LastPurchase numeric 
@attribute responded {1,0} 
 
@data 
 
4,200210,200601,0 
5,200301,200601,1 
...

在 WEKA 内进行分类

使用我们之前使用过的相同步骤来将数据文件 bmw-training.arff (参见 下载) 载入 WEKA。请注意:这个文件只包含经销店记录内的这 4,500 个记录中的 3,000 个。我们需要分割我们的记录以便某些数据实例被用来创建模型,某些被用来测试模型以确保没有过拟合。在加载了数据后,屏幕应该类似于图 1。

图 1. WEKA 内的 BMW 分类数据
用 WEKA 进行数据挖掘,第 2 部分: 分类和群集

上一页  1 2 3 4 5 6 7 8 9 10  下一页

Tags:WEKA 进行 数据挖掘

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接