WEKA K-Means聚类

时间:2011-04-26 14:09:34

标签: cluster-analysis data-mining weka k-means

任何人都能解释一下WEKA中K-Means聚类的输出实际意味着什么。

例如

kMeans


Number of iterations: 9

Within cluster sum of squared errors: 9434.911100488926

Missing values globally replaced with mean/mode

Cluster centroids:

                  Cluster#
Attribute         Full Data          0          1                           
                      (400)      (310)       (90)
=================================================
competency134        0.0425     0.0548          0  
competency207        0.0425     0.0548          0  
competency263          0.01     0.0129          0  
competency264          0.01     0.0129          0  
competency282          0.01     0.0129          0  
competency289          0.01     0.0129          0  

列中的数字实际意味着什么,它表示表格上方的聚类质心,但如何确定两个聚类的质心是什么?

如果有人能够解释数字意味着什么,我将非常感激。

如果有人有任何想法如何完成对发现的群集的轮廓评估,那也很棒。

由于

4 个答案:

答案 0 :(得分:4)

第一列为您提供总体人口质心。第二列和第三列分别为集群0和1提供了质心。每行给出特定维度的质心坐标。

我相信你需要了解K-means。寻找质心是算法的重要组成部分。质心是特定算法运行的结果,并不是唯一的 - 不同的运行可能会生成不同的质心集。

有关详细信息,请参阅Michael Abernethy's description of Weka clustering

答案 1 :(得分:3)

只是第一步,

  1. 将可视化选项卡中的绘图保存为arff文件。

  2. 使用weka打开它并单击编辑,您将自动查看每个实例所属的群集。

  3. 将此表复制到excel(以便更容易想象)

  4. 使用excel或matlab通过经典方法找到silhoutte,cohesion,separation。

答案 2 :(得分:0)

首先,聚类是一种描述性统计方法。 其次,算法Kmeans需要事先输入簇的数量,找到最优簇数,几种统计方法。 第三,数值数据的质心是产生聚类的数据的算术平均值。所以这些数据代表了组数据。

答案 3 :(得分:-1)

如果属性是名义上的,则为群集中的属性使用最常用的值。     如果属性为数字,请使用群集中属性的平均值。     查看this link了解详情。