训练数据对比测试数据

时间:2017-09-10 00:07:07

标签: machine-learning classification training-data test-data

这可能听起来像是一个基本问题,但我对训练集和测试存在很大的困惑。

当我们使用诸如分类之类的监督学习技术来预测某些事情时,通常的做法是将数据集分成训练和测试集两部分。训练集将具有预测变量,我们在数据集上训练模型并且"预测"的东西。

让我们举个例子。我们将预测银行中的贷款违约者,我们有德国信用数据集,我们预测违约者和非违约者,但已经有一个定义栏,说明客户是违约者还是非违约者。

我理解UNSEEN数据的预测逻辑,如泰坦尼克号的生存数据,但是已经提到过类的预测点,例如德国信贷出口数据。

3 个答案:

答案 0 :(得分:1)

正如您所说,我们的想法是建立一个可以预测 UNSEEN 数据的模型。测试数据仅用于测量通过训练数据创建的模型的性能。您希望确保您出现的模型不会“过度匹配”您的训练数据。这就是测试数据很重要的原因。最后,您将使用该模型来预测新贷款人是否会违约,从而做出是否批准贷款申请的业务决策。

答案 1 :(得分:0)

它们包含默认值的原因是您可以验证模型是否按预期工作并预测正确的结果。没有它,任何人都无法确信他们的模型是按预期工作的。

答案 2 :(得分:0)

培训模型的最终目的是将其应用于您所谓的 UNSEEN 数据。

即使在您的德国信用贷款示例中,在一天结束时,您将拥有一个经过培训的模型,您可以用它来预测新的 - 看不见的 - 信用申请是否会违约。只要您能够以与训练模型相同的格式表示新的信用数据,您就可以在将来用于任何新的信用申请。

另一方面,测试集只是用于估计模型有多好的形式。您无法确定您的模型在未来的信用申请中的准确程度,但您可以做的是保存一小部分培训数据,并使用来检查模型的数据它建成后的性能。这就是你所谓的测试集(或者更准确地说,是一个验证集)。