重命名Sckit-learn的CountVectorizer()中的功能

时间:2018-03-05 14:23:14

标签: python replace scikit-learn text-classification countvectorizer

我有一个非常大的pandas数据帧。以下是样本

Id      description
1        switvch for air conditioner transformer..............
2        control tfrmr...........
3        coling pad.................
4        DRLG machine
5        hair smothing kit...............

对于进一步的过程,我将使用Sckit-learn的countvectorizer构建上述数据的doument-term矩阵

 countvec = CountVectorizer()
 documenttermmatrix=countvec.fit_transform(  dataset['description'])

我必须更正说明中拼写错误的功能。用大数据集的正确拼写单词替换错误拼写的单词需要花费大量时间。

所以我想到使用代码

给出的计数向量化器中的特征列表来修正特征
features_names= countvec.get_feature_names()

是否可以使用上面的列表重命名功能,并进一步将其用于分类过程???

0 个答案:

没有答案