K-means是否用于聚合具有许多零值的数据?

时间:2013-08-05 16:26:23

标签: matrix cluster-analysis k-means

我需要聚类一个主要包含零值的矩阵...... K-means适用于这类数据还是我需要考虑不同的算法?

2 个答案:

答案 0 :(得分:2)

没有。原因是平均值对稀疏数据不敏感。得到的平均向量将具有与实际数据非常不同的特征;他们往往最终会变得彼此更相似,而不是真实的文件!

有一些修改可以改善稀疏数据的k均值,例如球形 k-means。

但在很大程度上,这种数据的k均值只是一种粗略的启发式算法。结果并非完全没用,但它们也不是你能做到的最好的。它有效,但偶然,不是设计。

答案 1 :(得分:0)

k -means被广泛用于聚类稀疏数据,例如文档术语向量,所以我要说继续。当然,取得好成绩取决于数据和你要找的东西。

有几点需要注意:

  • 如果您的数据非常稀疏,那么输入的sparse representation可以将内存使用量和运行时间减少许多个数量级,因此请选择一个好的 k -means实现。
  • 欧几里德距离并不总是稀疏向量的最佳度量标准,但将它们标准化为单位长度可能会产生更好的结果。
  • 无论输入稀疏程度如何,群集质心都很可能会变得密集,所以不要使用太多的功能。
  • 进行降维,例如样本上的SVD可能会大大增加运行时间和集群质量。
相关问题