K表示群集初始化

时间:2013-09-03 03:21:33

标签: cluster-analysis k-means

在k-means聚类中,如何开始这个过程?

我应该选择 k 最远点或随机点并形成k个簇并将其他点连接到簇?

选择单个点,然后根据它检查其他点[欧几里德距离]如果< THRESHOLD添加或组建新群集?

2 个答案:

答案 0 :(得分:1)

为K-Means算法提供种子,它是从您的数据集中选择K随机观测的标准。由于K-Means受到局部最优(例如,取决于初始化,它总是找不到最佳解决方案),因此使用不同的初始化运行它几次也是标准的,并选择结果最低误差。

答案 1 :(得分:0)

原始MacQueen k-means使用第一个k对象作为初始配置。 Forgy / Lloyd似乎使用 k随机对象。两者都可以运行得足够好,但更聪明的启发式方法(参见k-means ++)可能需要更少的迭代次数。

请注意, k-means 基于距离。它最小化了聚类内方和(WCSS)。这恰好可以最小化欧氏距离的平方,从而最小化欧几里德距离。但最后,如果你在欧几里德距离内思考,可能会得出错误的结论。更好地考虑最小化方差