多级分类中负面例子的经验法则

时间:2018-01-11 00:42:19

标签: tensorflow machine-learning dataset

对于在多类分类任务中代表“其他所有”的标签,样本数应该有多大,是否有经验法则?

示例:我想将输入归类为X类之一。当输入为“以上都不是”时,X + 1类会激活。假设我的数据集包含来自10个“正”类中的每一个的5,000个样本。对于代表“未知”类的样本,我会使用可能在生产中找到的多个现实示例,但这些示例不是来自其他类。

这些负面例子的数量相对于其他分布有多大?

1 个答案:

答案 0 :(得分:1)

这可能有点偏离主题,但无论如何,我认为没有一般的经验法则,这取决于你的问题和你的方法。

我会考虑以下因素:

  • 数据的性质。这有点抽象,但您可以问自己,您是否希望“其他”类的样本容易与实际类混淆。例如,如果你想检测动物的一般图像中的狗或猫,可能有许多其他动物(例如狐狸)可能会混淆系统,但如果你的输入只有狗,猫或家具的图像,可能不是这样许多。然而,这只是一种直觉,而在其他问题中,它可能不那么清楚。
  • 你的模特。例如,在this answer I gave to a related question中,我提到了一种方法来模拟其他类函数中的“其他所有”,所以你可以说,如果输入不太相似(前一点),即使没有例子“其他一切”它可能正常工作,因为没有其他类被触发。其他技巧,例如为每个类提供不同的训练“权重”(例如,根据每个类的实例数计算得出),可以补偿不平衡的数据集。
  • 你的目标。显然你希望你的系统是完美的,但是你可能会考虑你是否更喜欢误报或漏报(例如,错过狗的形象会更糟糕,或者当没有狗的时候说它有一只狗)。如果您希望您的输入主要由“其他所有”的实例组成,那么您的模型偏向该类可能是有意义的,或者可能是因为您希望确保不丢弃任何可能有趣的样本

不幸的是,判断你是否正常的唯一好方法是尝试并在代表性测试数据集上有良好的指标(混淆矩阵,每类精确度/召回等)。