Sci-Kit学习和单个单词的tf-idf分数?

时间:2017-04-19 20:11:50

标签: python scikit-learn tf-idf

我有一个pandas数据框,每个条目包含两个字符串和一个关键字。它看起来像这样:

    \n  05 Temmuz 2016 17:59                                  \
    0  Suriyelilere vatandaşlığa neden karşı çıkılıyor                                           
    1  Selin Girit Kendi ülkesinde savaştan kaçacak s...                                           

    \n 10 Temmuz 2016 09:01                                  \
    0  Öteki Suriyeliler: Türkiye vatandaşı olursak a...                                           
    1  Cumhurbaşkanı Tayyip Erdoğan Suriyelilere vata...                                           

我正在尝试做的是使用sci-kit学习获取第二个字符串中每个单词的tf-idf并将其与一般单词的语料库进行比较。但我不确定该怎么做。如果我使用tfidfVectorize(),我最终得到的结果如下:

    (0, 1)  0.520040083208
    (0, 8)  0.307144050546
    (0, 5)  0.307144050546
    (0, 4)  0.520040083208
    (0, 7)  0.520040083208
    (1, 8)  0.326309521953
    (1, 5)  0.326309521953
    (1, 3)  0.420182921489
    (1, 2)  0.552490047084
    (1, 0)  0.552490047084
    (2, 8)  0.294893556078
    (2, 5)  0.294893556078
    (2, 3)  0.759458290886
    (2, 6)  0.499298193039

但是这个输出不是单独的每个单词,它是字典中的单词之间的比较而不是一般语料库...我不知道如何做我正在寻找的东西,我希望有人可能有一些建议,因为Sci-Kit Learn文档不是很清楚。

0 个答案:

没有答案