将K均值用于文档聚类

时间:2015-02-12 05:42:10

标签: hadoop mapreduce cluster-analysis k-means hierarchical-clustering

我目前正在研究文档聚类。 我想在我的数据集(文本文档)上运行Java中的Bisecting KMeans。 任何人都可以提供相同的代码。 最终的运行将使用MapReduce在Hadoop中。

谢谢。

1 个答案:

答案 0 :(得分:0)

您是否查看了MahoutSpark MLLib来编写群集算法?这些是Hadoop上机器学习的事实行业标准。两个图书馆都有K-Means(以及其他图书馆),但它们都没有发布版本的Bisecting K-Means。在Github的Spark项目中有一个pull request用于分层K-Means(SPARK-2429)(不确定这是否与Bisecting K-Means相同)。

我想做的另一点是你考虑Spark而不是MapReduce。对于迭代算法,例如K-Means,Spark的性能要高得多。