machine-learning - 如何在垃圾邮件过滤中使用Naive Bayes分类器嵌入Assosciation规则？

实际上我正在使用Naive Bayes分类器来过滤邮件。我在SPAM检测中达到了95％的准确率，在HAM检测中达到了94％，但我相信它可以通过关联规则挖掘得到进一步改善。我正在计算来自训练数据集的邮件中单词的可能性和先验概率，并将测试邮件映射到SPAM或HAM类中，如下所示，

formula

其中，

p（d / c）表示文档d在c类中的概率。

p（c）表示特定班级的概率（在我的情况下是垃圾邮件或HAM）。

p（f1，f2，f3 ... fn / c）表示单词f1，f2 ... fn在c类中的可能性。

但是到达等式no。 2.7，我们假设词语假设和条件独立，它近似于准确性（为了容易起见而假设）例如在幸运中存在单词彩票的单词彩票的乐趣应该大于单词 my_name（mahesh）的存在。所以单词的存在及其位置确实会影响概率。

因此，应该有一些与Naive Bayes一致的关联模型，以进一步提高准确性。

如果我可以这样重写你的问题：

＆＃34;放宽Naive Bayes的条件独立性假设会提高我的分类器的表现吗？＆＃34;

然后答案是一个令人惊讶和违反直觉的＃34; No。＆＃34;

一般来说，朴素贝叶斯分类器在特征之间强加了严格的类条件独立性，它将提供与更一般的贝叶斯网络相同或更好的性能，这允许更丰富的依赖性（并且甚至可以从数据中学习依赖结构），虽然一般不完全正确。）

原因在于，虽然朴素贝叶斯一般会得到错误的概率，但它通常会使决策边界正确[1]。

所以：你最好只做一个单词假设。