簇形状和大小

时间:2014-07-19 22:04:33

标签: database cluster-analysis data-mining

我想问一下如何通过数学方法确定簇的形状和大小。例如,我已经读过K-means聚类算法无法找到非凸形状的聚类,只能找到球形或凸形聚类。此外,它试图找到相同大小的集群。这与它的距离相似函数有关吗?如果是的话,找到不同大小的非凸簇形状有什么样的相似函数?如果不是,请告诉我影响群集形状和大小的因素。

另外,基于概率的相似度函数是否能够很好地找到不同大小的非凸簇形状?

请帮我弄清楚答案,非常感谢。

此致

1 个答案:

答案 0 :(得分:0)

算法不“定义”形状或大小。

你引用的大部分内容(“k-means只能找到球形星团”)只是一个经验法则,而不是数学属性。

从技术上讲,k-means会将您的数据划分为Voronoi单元格。因此很容易看出k-means无法找到哪些簇(例如,voronoi单元是凸的)。但这几乎就是你所拥有的 - 如果你生成一个基于Voronoi单元的数据集,k-means将无法恢复它。它需要在细胞中间的质心。

还有一些变体,例如内核k-means,它可以发现哪种类型的集群远非明显。

k-means 必须不能与其他距离一起使用。不要将其视为基于距离,最小化方差。对于其他距离,请使用k-medoids。内核k-means应该是安全的,它将最小化预计内核空间中的方差,并终止。对于其他距离,k均值可能无法收敛,因为均值仅最小化平方欧几里德(因此您需要替换均值)。

如果要查找其他群集形状,请不要以k-means开头。将k均值视为最小二乘量化,而不是尝试找到特定形状的聚类(对于相同大小的球形聚类,它不是“设计”的,但它只关心优化平方和公式)

相关问题