比较k-means聚类

时间:2016-01-29 13:53:15

标签: matlab machine-learning cluster-analysis data-mining k-means

我有150张图片,每10个不同的人15张。所以基本上我知道哪个图像应该属于一起,如果是聚类的。

这些图像有73个维度(特征向量),我使用matlab中的kmeans函数将它们聚类成10个聚类。

后来,我处理了这150个数据点,并将其尺寸从73减少到3,并对它们应用了相同的kmeans函数。

我想通过应用相同的k-means函数来比较在这些数据集(已处理和未处理)上获得的结果,并希望知道将其缩小到较低维度的处理是否改进了kmeans聚类。

我认为比较每个聚类的方差可以作为比较的一个参数,但是我不确定我是否可以直接比较和评估我的结果(在距离的簇总和之内等),因为两个案例都具有不同的维度。任何人都可以建议一种方法,我可以比较kmean结果,某种方式来规范它们或任何其他我可以做的比较?

1 个答案:

答案 0 :(得分:1)

我可以想到三个选择。我不知道有任何完善的方法来专门用K-means聚类来做这件事。

  1. 查看两种方法之间的混淆矩阵。
  2. 将群集之间的mahalanobis distances以及群集中的项目与最近的其他群集进行比较。
  3. 看看Vornoi细胞,看看你的点离细胞边界有多远。
  4. 3的问题是距离度量偏差,3D距离与73D距离不相称,所以我不喜欢这种方法。我建议你阅读一些关于K-means的书籍,如果你坚持这条道路,排名猜测很有趣,但站在巨人的肩膀上会更好。