文本CLustering算法

时间:2014-06-10 04:18:50

标签: cluster-analysis data-mining text-mining text-analysis

我希望根据他们的主题聚集一堆Twitter主题标签。与同一主题相关的所有主题标签都将位于同一个群集下。我一直在寻找任何流行且高效的基于python的库。我还想知道我应该考虑哪些算法将它们聚集在一起。

2 个答案:

答案 0 :(得分:1)

祝你好运: Twitter数据非常混乱,我怀疑你能否获得有意义的结果。

绝对尝试使用TF-IDF,并且可以使用尽可能多的算法来处理数据。

但你打算怎么做这样的推文:

  

酷:#HashTagIMadeUpForYourSOQuestionASDAS

这应该是哪个“话题”?您如何期望聚类算法有意义地聚类?

答案 1 :(得分:0)

我可以在python(NLTK包)中推荐自然语言处理。但令人悲伤的是,Twitter可能具有挑战性(但也很有趣)。我可能知道,你需要什么呢?;)