Question

我在LingSpam数据集上运行SVM分类器，我在WEKA中遇到了以下混淆矩阵：

enter image description here

如果我们考虑合法 - >正面类和垃圾邮件 - >负面类，则True Positives = 2405，True Negatives = 470。

但我对假阴性和假阳性感到困惑。如果您阅读“混淆表”部分here，则似乎假阳性= 11且假阴性= 7。但是如果你阅读here（请使用Ctrl + F并搜索'这些数字的含义是什么意思？'），似乎假阳性= 7，假阴性= 11。

我很困惑:(。请帮帮我！此外，WEKA中的IR_Precision和IR_Recall是什么？是legal_precision和legit_recall还是spam_precision和spam_recall？

注意：将合法电子邮件视为POSITIVE类，将垃圾邮件视为NEGATIVE类。

Answer 1

这取决于您定义为“积极”类的内容。 “合法”没有什么特别的，这意味着它是积极的阶级;你可以这样做。

在这里将“垃圾邮件”称为正面类是更常规的，因为它是您正在检测的异常属性。在这种解释中，有470个真正的正面，等等。在你的解释中有2405.本身都没有错，但同样，将“垃圾邮件”视为积极的阶级可能更为习惯。

关于精确度和召回的相同答案。这是积极的阶级，但取决于你用作积极的阶级。如果你输入这个混淆矩阵，它将寻找精确度和回忆“合法”作为积极的类。理想情况下，我会反过来说。

Answer 2

首先，如果您仔细查看有关垃圾邮件分类问题的研究文章，几乎所有这些文章都将垃圾邮件定义为正面和火腿作为底片。在你的情况下，它是相反的。所以，它有机会混淆读者。

然而，Weka混淆矩阵完全没问题。以下是根据传统垃圾邮件分类任务的正面和负面定义：

True positives: original label spam, predicted label spam (very good)
False positives: original label ham, predicted label spam (very dangerous)
False negatives: original label spam, predicted label ham (less dangerous)
True negatives: original label hams, predicted labels ham (very good)

在您的情况下（如果您想与经典垃圾邮件分类任务中的内容进行比较），

True positives: 470
False positives: 7
False negatives: 11
True negatives: 2405

只需将混淆矩阵颠倒过来以这种方式阅读它们。我认为主要的困惑来自你对正面和负面的定义。

希望有所帮助。

混淆与混淆矩阵＆＃39;在Weka

2 个答案: