代表在向量空间模型中的文档

时间:2012-12-21 20:31:23

标签: machine-learning nlp classification svm

我有一个非常基本的问题。我有两套文件,一套用于培训,另一套用于测试。我想用训练文档训练Logistic回归分类器。我想知道我做的是否正确。

  1. 首先找到培训文档中所有唯一单词的列表,并将其称为词汇表。
  2. 对于词汇表中的每个单词,在每个培训文档中找到它的TFIDF。然后将文档表示为这些TFIDF分数的向量。
  3. 我的问题是: 1.我如何代表测试文件?比如说,其中一个测试文档没有词汇表中的任何单词。在这种情况下,对于该文档的词汇表中的所有单词,TFIDF分数将为零。

    1. 我正在尝试使用稀疏矢量格式的LIBSVM。对于上述文档的情况,其矢量表示中的所有条目都设置为0,我该如何表示它?

1 个答案:

答案 0 :(得分:2)

您必须存储有关训练语料库的足够信息,以便对看不见的文档进行TF IDF转换。这意味着您将需要训练语料库中术语的文档频率。忽略测试文档中看不见的单词很好。无论如何,你的svm不会为他们学习重量。请注意,如果您的训练和测试分布相似,那么在测试语料库中看不见的术语应该是罕见的。因此,即使删除了一些术语,您仍然会有足够的术语来对文档进行分类。

相关问题