垃圾邮件过滤的维度减少

时间:2014-04-09 10:38:39

标签: data-mining weka text-mining spam-prevention text-classification

我正在进行一项实验,我需要比较几种分类算法的分类性能,以便进行垃圾邮件过滤,即: Naive Bayes,SVM,J48,k-NN,RandomForests等我正在使用WEKA数据挖掘工具。在浏览文献的过程中,我了解了各种降维方法,这些方法大致可分为两种类型 -

  1. 特征缩减:主成分分析,潜在语义分析等
  2. 特征选择:Chi-Square,InfoGain,GainRatio等
  3. 我还在他的博客中阅读了Jose Maria的WEKA教程:http://jmgomezhidalgo.blogspot.com.es/2013/02/text-mining-in-weka-revisited-selecting.html

    在这篇博客中,他写道,“一个典型的文本分类问题,其中降维可能是一个很大的错误就是垃圾邮件过滤”。那么,现在我很困惑,在垃圾邮件过滤的情况下,降维是否有用呢?

    此外,我还在文献中读到了关于文档频率和TF-IDF作为特征减少技术之一。但我不确定它在分类过程中是如何起作用的。

    我知道如何使用weka,链式过滤器和分类器等。我面临的问题是因为我对功能选择/减少(包括TF-IDF)没有足够的了解我无法决定如何使用我应该结合哪些特征选择技术和分类算法来使我的研究有意义。我也不知道我应该使用卡方,信息增益等的最佳阈值。

    在StringToWordVector类中,我有一个IDFTransform选项,所以它是否可以将它设置为TRUE并使用特征选择技术,比如InfoGain?

    请指导我,如果可能的话,请提供资源链接,我可以详细了解降维,并可以有意义地规划我的实验!

1 个答案:

答案 0 :(得分:0)

嗯,朴素贝叶斯似乎最适合垃圾邮件过滤,它并没有很好地减少维数。

许多降维方法试图识别最高方差的特征。这当然不会对垃圾邮件检测有很大帮助,你需要具有辨别力的功能。

另外,不仅有一种类型的垃圾邮件,还有很多垃圾邮件。这可能是为什么天真的贝叶斯比许多其他假设只有一种类型的垃圾邮件的方法效果更好。