WEB开发网
开发学院软件开发Java 用 WEKA 进行数据挖掘,第 2 部分: 分类和群集 阅读

用 WEKA 进行数据挖掘,第 2 部分: 分类和群集

 2010-06-23 00:00:00 来源:WEB开发网   
核心提示: 分类分类 (也即分类树或决策树)是一种数据挖掘算法,为如何确定一个新的数据实例的输出创建逐步指导,用 WEKA 进行数据挖掘,第 2 部分: 分类和群集(3),它所创建的这个树上的每个节点都代表一个位置,在这个位置必须基于输入做出决策,用来生成模型;然后拿剩下的数据放入一个测试集,在模型生成后,

分类

分类 (也即分类树或决策树)是一种数据挖掘算法,为如何确定一个新的数据实例的输出创建逐步指导。它所创建的这个树上的每个节点都代表一个位置,在这个位置必须基于输入做出决策,并且会从一个节点移到下一个节点直至到达能够得出预测的输出的叶子节点。这虽然听起来有些让人迷惑,但其实它非常直观。让我们看一个例子。

清单 1. 简单的分类树

  [ Will You Read This Section? ] 
     /       \ 
    Yes       No 
    /         \ 
[Will You Understand It?] [Won't Learn It] 
  /     \ 
 Yes     No 
 /       \ 
 [Will Learn It] [Won't Learn It]

这个简单的分类树试图回答这个问题:“您理解分类树么?”在每个节点,您都会回答这个问题并继续沿着分支下移,直到您到达一个回答了是或不是的叶子节点。这个模型可用于任何未知的数据实例,来预测这个未知数据实例是否通过只询问两个简单问题就能理解分类树。这看上去像是分类树的一大优势 — 它无需有关数据的大量信息就能创建一个十分准确且信息丰富的树。

分类树的一个重要概念非常类似于我们在 用 WEKA 进行数据挖掘,第 1 部分:简介和回归 回归模型中看到的概念:使用一个“训练集”来生成模型。就是拿一组输出值已知的数据集并使用此数据集来创建我们的模型。之后,只要我们有一个输出值未知的新的数据点,我们都可以将其放入这个模型并生成预期的输出。这与我们在回归模型中看到的没有差别。只不过,这个模型更进了一步,通常会把整个训练集分成两个部分:拿数据的约 60-80 % 放入我们的训练集,用来生成模型;然后拿剩下的数据放入一个测试集,在模型生成后,立即用其来测试我们模型的准确性。

上一页  1 2 3 4 5 6 7 8  下一页

Tags:WEKA 进行 数据挖掘

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接