具有自定义词汇的CountVectorizer

时间:2018-08-17 04:26:13

标签: scikit-learn tf-idf countvectorizer

向CountVectorizer提供一组词汇时,这意味着我恰好需要该组词汇。可能有一组由多个单词组成的词汇表吗?例如

my_vocab=['my name', 'go to']

代替

my_vocab=['my', 'name', 'go', 'to']

换句话说,我希望特征向量包含某些单词短语而不是孤立的单词

0 个答案:

没有答案