我有一个非常基本的问题。我有两套文件,一套用于培训,另一套用于测试。我想用训练文档训练Logistic回归分类器。我想知道我做的是否正确。
我的问题是: 1.我如何代表测试文件?比如说,其中一个测试文档没有词汇表中的任何单词。在这种情况下,对于该文档的词汇表中的所有单词,TFIDF分数将为零。
答案 0 :(得分:2)
您必须存储有关训练语料库的足够信息,以便对看不见的文档进行TF IDF转换。这意味着您将需要训练语料库中术语的文档频率。忽略测试文档中看不见的单词很好。无论如何,你的svm不会为他们学习重量。请注意,如果您的训练和测试分布相似,那么在测试语料库中看不见的术语应该是罕见的。因此,即使删除了一些术语,您仍然会有足够的术语来对文档进行分类。