WEB开发网      濠电娀娼ч崐濠氬疾椤愶附鍋熸い鏍ㄧ〒闂勫嫰鏌﹀Ο渚Ц闁诲氦顕ч湁婵犲﹤楠告禍鍓х磼鏉堛劌绗氶柟宄版嚇閹晠宕归銈嗘濠电偞鍨堕幐鎾磻閹捐秮褰掓偐閻戞﹩妫勯梺鎼炲妼鐎涒晝绮嬪澶樻晝闁挎繂鏌婇敃鍌涚厵閻庢稒锚閻忥絾绻濇繝鍐ㄧ伌闁诡垰鍟村畷鐔碱敂閸♀晙绱樺┑鐐差嚟婵儳螞閸曨剚鍙忛柍鍝勬噹缁€澶嬬箾閹存繄锛嶆鐐灲閹綊宕惰濡插鏌涢妸銉ヮ劉缂佸倸绉归弫鎾绘晸閿燂拷 ---闂備焦瀵уú鈺呭箯閿燂拷
开发学院软件开发Java 用 WEKA 进行数据挖掘,第 2 部分: 分类和群集 阅读

用 WEKA 进行数据挖掘,第 2 部分: 分类和群集

 2010-06-23 00:00:00 来源:WEB开发网 闂備線娼уΛ鎾箯閿燂拷闂備礁鎲¢崹鐢垫崲閹扮増鍎嶆い鎺戝€甸崑鎾斥槈濞嗗秳娌紓鍌氱▌閹凤拷濠电姭鎷冮崨顓濈捕闂侀潧娲ゅú銊╁焵椤掍胶鈯曢柕鍥╁仧缁辩偤鏁撻敓锟�闂備線娼уΛ鎾箯閿燂拷  闂備胶枪缁绘鈻嶉弴銏犳瀬闁绘劕鐏氱€氼剟姊洪崹顕呭剰闁逞屽墮缁夊綊寮婚妸褉鍋撻棃娑欏暈闁伙綀浜埀顒傛暬閸嬪﹪宕伴弽褏鏆﹂柨鐕傛嫹
核心提示: 很显然,这看上去不怎么有趣,用 WEKA 进行数据挖掘,第 2 部分: 分类和群集(10),对于一个具有 10 行和三个群集的数据集,若使用电子数据表,看看这些列、属性数据以及列的分布等,在加载数据后,需要花上 30 分钟才能完成,那么想象一下

很显然,这看上去不怎么有趣。对于一个具有 10 行和三个群集的数据集,若使用电子数据表,需要花上 30 分钟才能完成。那么想象一下,如果有 100,000 数据行和 10 个群集,若用手工完成那将花费多长时间。所幸的是,计算机在几秒内就可以完成这类计算。

WEKA 的数据集

我们为群集示例要使用的这个数据集同样也围绕着我们虚构的 BMW 经销店。这个经销店保留了人们如何在经销店以及展厅行走、他们看了哪些车以及他们最终购车的机率的记录。经销店期望通过寻找数据内的模式挖掘这些数据并使用群集来判断其客户是否有某种行为特点。在这个例子中有 100 行数据,并且每个列都描述了顾客在他们各自的 BMW 体验中所到达的步骤,比如列中的 1 表示到达这一步的顾客看过这辆车,0 表示他们不曾到达看过车的这一步。清单 4 显示了我们在 WEKA 中所使用的 ARFF 数据。

清单 4. 群集 WEKA 数据

@attribute Dealership numeric 
@attribute Showroom numeric 
@attribute ComputerSearch numeric 
@attribute M5 numeric 
@attribute 3Series numeric 
@attribute Z4 numeric 
@attribute Financing numeric 
@attribute Purchase numeric 
 
@data 
 
1,0,0,0,0,0,0,0 
1,1,1,0,0,0,1,0 
...

在 WEKA 内进行群集

采用与将数据加载到 Preprocess 选项卡时的相同步骤来将数据文件 bmw-browsers.arff 加载到 WEKA 内。花上几分钟时间来查看一下这个选项卡内的数据。看看这些列、属性数据以及列的分布等。在加载数据后,屏幕应该类似于图 5。

图 5. WEKA 内的 BMW 群集数据
用 WEKA 进行数据挖掘,第 2 部分: 分类和群集

上一页  5 6 7 8 9 10 

Tags:WEKA 进行 数据挖掘

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接