machine-learning - 朴素贝叶斯分类器 - 长度非常不同的文件

朴素贝叶斯分类器 - 长度非常不同的文件

时间：2013-11-24 06:26:23

标签： machine-learning

我正在尝试构建一个Naive Bayes分类器，它接收一个文档，并将文档视为一个单词和不同的书作为单独的类，将文档作为该书的概率（我知道这有点荒谬）但它是其他东西的起点）。我正在使用这个：http://www.stanford.edu/class/cs124/lec/naivebayes.pdf作为我如何做到这一点。

所以，例如，如果我们把文件d作为“福尔摩斯的回归”，然后看一堆p（b | d）的一堆书，“福尔摩斯的回归”会很高和“夏洛克福尔摩斯历险记”一样，詹姆斯·乔伊斯的“尤利西斯”也不太可能。

问题是，当我运行它时，它通常会得到正确的书作为第一个结果，有时会提供类似的书籍作为高结果，但它倾向于使用相同的真正长书集合填充顶部结果，最不可能的书总是诗歌，散文和短篇小说。当我在其中一个短篇小说上运行时，它仍然包含所有短文档，包括我正在查看的文档，具有最低或接近最低的非标准化概率，而最可能的书籍仍然是真正的长文本。因此，这种模式的作品，如果一本书足够长，从正确的单词给予它的重量将足以将它放在顶部，但如果一本书太短，那么这个重量将是不够的并且它仍然接近底部，由其他书籍的绝对长度支配。

为什么会发生这种情况？如何修复我的模型，以免发生这种情况？

3 个答案:

答案 0 :(得分：2)

很长的书会有很多单词。 Naive Bayes会赞成这些文件，因为您在输入中使用的所有单词很可能在很长的书中出现过多次。因为它是一个特征向量（我假设你使用的是unigrams），所以单词的顺序无关紧要。因此，您的输入中的单词可能会与一本长书相匹配，因为这些单词出现在那本书中。

1）如果你想要很好的概率，你应该远离天真的贝叶斯。独立性假设导致非常糟糕的概率结果。关于其概率值的问题有many papers。

2）文档长度的数量级变化可能难以处理。您可以查找余弦相似度函数，以获得有关我们在处理文本时使用规范化的原因的一些解释 - 并尝试将其应用于特征向量。

3）如果你想坚持天真的海湾，你可能想尝试使用伯努利分布而不是多项式。它应该受字数/文件长度的影响较小，因为这似乎是你的问题。

4）您可能希望将stop words应用于您的语料库。

假设您正在自学，对待这是一个标准的分类问题是一个良好的开端。如果您对正在处理的特定任务更感兴趣 - 您可能需要查看作者身份识别，这与您尝试做的事情非常密切相关（给出文本，识别撰写文本的人 - 您说的是一个文本，识别它来自哪本书）。在你的情况下，“作者”将成为文本来自的书籍。

答案 1 :(得分：1)

这是多项分类器的标准问题，正如Raff所提到的，由于较大的文档淹没了训练中的总计数。看起来你在大多数时候都得到了正确的结果，但是你希望后验是准确的吗？朴素贝叶斯是一个非常糟糕的概率模型，希望现实的后验极不可能。

更好的文档概率模型是Dirichlet Compound Multinomial和Latent Dirichlet Allocation。这些都是生成性的。既然你只对后验课程感兴趣，你应该考虑一个歧视性的模型。 Naive Bayes的判别版本是MaxEnt / Logistic回归/ Log-Linear模型（这些都是相同的，但您可能会听到一个术语使用或另一个术语）。您还可以使用带有Platt方法的SVM来获得概率，或者使用具有softmax输出和交叉熵损失的神经网络。对于判别模型，我建议你用每个文档中的单词总和来标准化你的计数，因为这会使所有文档计数相同。但是，您不能为生成模型执行此操作，因为它们是为计数数据定义的。

答案 2 :(得分：0)

p(w|b)中的分母似乎很奇怪。你应该尝试只使用

p(w|b) = (# of times word w appears in book b + 1)/(# of words in book b)