machine-learning - 代表在向量空间模型中的文档 - Thinbug

代表在向量空间模型中的文档

时间：2012-12-21 20:31:23

标签： machine-learning nlp classification svm

我有一个非常基本的问题。我有两套文件，一套用于培训，另一套用于测试。我想用训练文档训练Logistic回归分类器。我想知道我做的是否正确。

首先找到培训文档中所有唯一单词的列表，并将其称为词汇表。
对于词汇表中的每个单词，在每个培训文档中找到它的TFIDF。然后将文档表示为这些TFIDF分数的向量。

我的问题是： 1.我如何代表测试文件？比如说，其中一个测试文档没有词汇表中的任何单词。在这种情况下，对于该文档的词汇表中的所有单词，TFIDF分数将为零。

我正在尝试使用稀疏矢量格式的LIBSVM。对于上述文档的情况，其矢量表示中的所有条目都设置为0，我该如何表示它？

1 个答案:

答案 0 :(得分：2)

您必须存储有关训练语料库的足够信息，以便对看不见的文档进行TF IDF转换。这意味着您将需要训练语料库中术语的文档频率。忽略测试文档中看不见的单词很好。无论如何，你的svm不会为他们学习重量。请注意，如果您的训练和测试分布相似，那么在测试语料库中看不见的术语应该是罕见的。因此，即使删除了一些术语，您仍然会有足够的术语来对文档进行分类。