理解K均值聚类

时间:2017-07-24 19:52:45

标签: matlab cluster-analysis k-means

我正在尝试使用Matlab学习k-means聚类算法。问题是我找不到任何样本数据,这样可以更容易理解算法。 但是,我在mathworks上找到了一个例子,它指明了k-means聚类。但不幸的是,我无法忍受它。我试图理解我在Stack-overflow 上找到的这个简单的数据集。

请,我需要一个关于k-means聚类的基本例子,如果我在任何软件(即matlab)上实现它,我将保证我正确应用它。

最后,例如UCI上的所有数据集都太大了,我无法确定我的实现是否正确。

先谢谢。

3 个答案:

答案 0 :(得分:0)

我知道您正在使用MatLab,但R有许多用于测试聚类算法的数据集,包括一些相当小的数据集。 ruspini数据集是一个很好的起点。这些数据集作为github的csv文件提供,MatLab应该能够读取csv文件。只需在此页面中搜索单词群集。

答案 1 :(得分:0)

我们有一组数据,任何人都会说这些数据属于三个集群。我们知道群集号将是3,但我们希望软件为我们进行群集。

首先,随机将三个对象分配给聚类中心。现在浏览,并将每个对象分配到最近的集群。结果是三个星团,但相当丑陋,因为我们不太可能第一次击中三个实际的质心。

因此,取您生成的每个群集的平均值,然后再次检查,将对象分配给新的群集质心。重复,直到算法达到稳定。采取均值的过程往往会迫使猜测集群中心朝向实际中心。

仅在数据实际聚集时才有效。

答案 2 :(得分:0)

非常经典的 iris 数据可以理解k-means。

甚至可以看到k-means的一些问题。

相关问题