多个朴素贝叶斯分类器

时间:2017-04-18 13:39:23

标签: machine-learning theory naivebayes

我正在考虑为评论网站实施Naive Byes分类器,以识别垃圾评论并提出几个问题。

  1. 我发现有多种类型的垃圾邮件,例如与他们正在审核的内容无关的直接营销垃圾,以及欺骗性审核。为不同的目的实施多个分类器是否明智,以便更好地进行一般的垃圾邮件检测,而另一个则学习欺骗性的评论?

  2. 在类似的徒劳中,有多种类别的项目正在审核中,因此对于欺骗性审核"分类器,最好是只有一个试图从所有评论中学习的分类器?或者每个类别都有一个分类器,以便它能够学习这些类别中的细微差别?

  3. 我知道这些不是万无一失的,它只是标记了手动检查的潜在评论,但我还不清楚最佳设置。

1 个答案:

答案 0 :(得分:0)

只要你使用任何足够复杂的算法,你就应该能够用任何一种方法区分“好”和“坏”数据。如果你使用一个模型完成所有操作,你只需要增加模型大小,这样综合模型就可以构建(最坏的)两个决策的独立路径,“垃圾邮件”和“欺骗”。

如果您正在对三种不同的分类进行培训:良好,垃圾邮件和欺骗性;然后你做得很好。但请注意,通过单独的培训,您的模型尺寸较小,并且您的培训时间会缩短,因为在途中会有更少的不准确猜测。

另一方面,使用两个模型以供以后实际使用可能会减慢检测速度,因为通过第一个模型的每个输出必须在第二个模型中运行。对于大多数应用来说,这个时间不是一个重要因素。

最重要的是,我会从每个类的单独模型开始:实现和培训的任何问题都会更快找到并更容易隔离。