Question

如果我使用Scikit-learn配置一个CountVectorizer对象并将 n 个 n 个句子（长度不一样）的矩阵传递给fit_transform函数，我可以举个例子获得n-gram表示 F 。像这样：

vectorizer = CountVectorizer(min_df = 1,
                             max_features = 2000,
                             ngram_range = (2, 2),
                             analyzer="word)

F = vectorizer.fit_transform(A)

这很有效。 F 现在将具有形状（2000， n ），因为我已将max_features设置为2000.

但是，让我说我再获得一个句子，并希望生成一个与 F 的特征对齐且具有相同长度（2000）的矢量..这是否可能，或者我是否需要保留原始矩阵 M ，将新句子添加到其中，然后重新生成所有功能？

Answer 1

如果我理解您的要求，可以使用vectorizer.transform(['New sentence here'])转换其他句子。

从现有矩阵中获取特征向量

1 个答案: