Python将多个单词视为单个单词

时间:2014-05-08 07:08:45

标签: python tf-idf

在Python中有没有什么方法可以将多个单词视为单个?我写了一个脚本来查找文档集合中单词的Tf-Idf值。问题在于,它为单个单词提供了Tf-Idf。但有些情况下我会将多个单词视为一个单词,例如大数据机器学习这样的单词应该被视为单个单词和Tf-Idf应计算这些单词的分数。任何帮助都非常有用。

1 个答案:

答案 0 :(得分:1)

我会使用scikit-learn和TfidfVectorizer来接近它。调整其中的一些参数基本上可以让你完成所有的工作。

虽然没有一个很好的例子,但很难展示它的功能。

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = "lots of text"    
vectorizer = TfidfVectorizer(ngram_range=(2,2))
result = vectorizer.fit_transform(corpus)

知道ngram_range参数可让您选择是否对此感兴趣。通过选择范围,双胞胎,三卦等。

相关问题