Question

我正在尝试使用Sklearn的TfidfVectorizer对象获取单个文档的tf-idf向量。我根据一些训练文档创建词汇表，并使用fit_transform训练TfidfVectorizer。然后，我想找到任何给定测试文档的tf-idf向量。

from sklearn.feature_extraction.text import TfidfVectorizer

self.vocabulary = "a list of words I want to look for in the documents".split()
self.vect = TfidfVectorizer(sublinear_tf=True, max_df=0.5, analyzer='word', 
                 stop_words='english')
self.vect.fit_transform(self.vocabulary)

...

doc = "some string I want to get tf-idf vector for"
tfidf = self.vect.transform(doc)

问题是这会返回一个包含n行的矩阵，其中n是我的doc字符串的大小。我希望它只返回一个代表整个字符串的tf-idf的向量。我怎样才能将字符串视为单个文档，而不是每个字符都是文档？另外，我对文本挖掘很新，所以如果我在概念上做错了，那就太棒了。任何帮助表示赞赏。

Answer 1

如果您只想为给定的词汇表计算tf-idf，请使用vocabulary参数TfidfVectorizer构造函数，

vocabulary = "a list of words I want to look for in the documents".split()
vect = TfidfVectorizer(sublinear_tf=True, max_df=0.5, analyzer='word', 
           stop_words='english', vocabulary=vocabulary)

然后，为了适应（即计算计数）给定的corpus，即一个可迭代的文档，使用fit：

vect.fit(corpus)

方法fit_transform是

的缩写

vect.fit(corpus)
corpus_tf_idf = vect.transform(corpus)

最后，transform方法接受语料库，因此对于单个文档，您应该将其作为列表传递，或者将其视为符号的可迭代，每个符号都是文档。

doc_tfidf = vect.transform([doc])

使用Sklearn的TfidfVectorizer变换

1 个答案: