如何找到k均值的k值?

时间:2019-04-08 12:24:40

标签: python-3.x scikit-learn k-means

我在包含超过150k个文档的数据集上使用k均值,但我不知道k的值是多少。 我尝试用弯头法找到它,但是惯性值变化不大。(我正在使用sklearn)。

这是chart of MSEs

1 个答案:

答案 0 :(得分:1)

如果肘方法没有明确的答案,那么簇数可能不是特别好。 k均值只能模拟球形关系,这可能是限制性的。您也许可以尝试其他功能表示形式,例如基于Word Embeddings的功能。

对于文档分组任务,您可能希望使用主题建模方法来代替聚类,例如潜在Dirichlet分配(LDA)或非负矩阵分解(NMF)。