Question

我使用scikit的tfidf向量化一些文本数据。通过documentation我读到你可以将idf和normalization设置为False以获得0/1输出（二进制特征向量？）。所以我尝试了以下内容：

tfidf_vect= TfidfVectorizer(use_idf=False,
                            smooth_idf=True,
                            sublinear_tf=False,
                            ngram_range=(2,2),
                            norm=False)

这样，特征向量将是二进制？另一方面，documentation还有另一个模块可以执行此任务，即预处理。知道如何接受这个吗？

Answer 1

TfidfVectorizer使用名为binary的参数：

tfidf_vect= TfidfVectorizer(use_idf=False,binary=True, norm=False, ngram_range=(2, 2))

这将使功能二进制

如何用scikit学习文本数据？

1 个答案: