Mahout KMeans相对群集大小

时间:2013-06-25 16:50:20

标签: cluster-analysis mahout

我目前正在Mahout上运行各种不同语料库的kmeans聚类算法,范围从2K-250K文档开始。

我注意到无论我选择哪个k值,群集的相对大小似乎都被归一化到相同的数量级。

我的意思是,如果我将k = 10的100K文档聚类,我将获得10个大小为10K的聚类。如果我选择k = 100,我会得到100个簇,大约1K大小。这种效果发生在我运行的所有不同语料库中。

这是kmeans工作方式的一部分,我可以改变一些设置,或者某种方式我的数据结果?

感谢您的帮助!

0 个答案:

没有答案
相关问题