文档聚类的特征提取

时间:2017-07-20 10:16:27

标签: scikit-learn cluster-analysis extraction

我使用http://scikit-learn.org/stable/auto_examples/text/document_clustering.html中的脚本通过群集进行特征提取。

输入是将被聚类的新闻数据和用作标签的新闻类别。输出是质心,其中包含来自新闻的热门词汇 如何将每个质心与开头输入的新闻类别相关联?在此示例中输入类别(标签)的目的是什么?聚类是无监督方法,不需要标签,但在此示例中使用标签。

我正在寻找一种提取主题的方法,但希望了解它们对于不同标签的不同之处? 感谢

0 个答案:

没有答案