performance - 什么是糟糕，体面，优秀和出色的F1测量范围？

时间：2016-04-19 00:23:50

标签： performance machine-learning precision measurement precision-recall

我知道F1测量是精确度和召回的调和平均值。但是什么价值观定义了F1衡量标准的优劣？我似乎无法找到任何参考（谷歌或学术）来回答我的问题。

答案 0 :(得分：10)

考虑sklearn.dummy.DummyClassifier(strategy='uniform')，它是一个随机猜测的分类器（a.k.a坏分类器）。我们可以将DummyClassifier视为击败的基准，现在让我们看看它的f1得分。

在二元分类问题中，使用平衡数据集：总样本为6198，标记为0的3099个样本和标记为1的3099个样本，两个类的f1-score为0.5，加权平均值为0.5：

第二个例子，使用DummyClassifier(strategy='constant')，即每次猜测相同的标签，在这种情况下每次猜测标签1，f1分数的平均值为0.33，而标签为f1 0是0.00：

考虑到平衡数据集，我认为这些是差的f1分数。

PS。使用sklearn.metrics.classification_report

生成的摘要

答案 1 :(得分：0)

您没有找到任何f1测量范围的参考，因为没有任何范围。 F1度量是精确度和召回率的组合矩阵。

假设您有两种算法，一种具有更高的精度和更低的召回率。通过这种观察，您无法确定哪种算法更好，除非您的目标是最大化精度。

因此，考虑到如何在两个中选择优秀算法（一个具有更高的召回率和另一个具有更高精度）的模糊性，我们使用f1-measure来选择其中的优越性。

f1-measure是一个相对术语，这就是没有绝对范围来定义算法效果的原因。