在训练SVM时是否需要单独的验证和测试集?

时间:2015-01-02 03:16:18

标签: svm

给定从训练数据集中提取的一组用于训练SVM的特征。 使用k倍交叉验证来选择SVM参数(例如,c,γ),例如,训练数据集分为5个折叠,其中一个被选为验证集。完成折叠旋转,平均精度用于选择最佳参数 那么我应该有另一套(测试集)和报告(如纸质出版物)的结果吗?我的理解是,由于验证集用于选择参数,因此需要测试集 在机器学习中,直到我们决定分类器才会看到测试集(例如,在比赛中,测试集是未知的,我们仅根据训练集提交我们的最终分类器)。

1 个答案:

答案 0 :(得分:0)

常见的方法是在交叉验证阶段之后,您需要进一步调整参数,因此需要验证集来控制每个模型的质量。

一旦您拥有一个您认为无法在验证集上显着改进而没有过度拟合风险的模型,那么您可以在测试集上使用您的模型来报告结果。

编辑:

由于您特别询问k-fold交叉验证,该技术隐含地分离了用于测试结果模型的模型,因此无需额外的测试步骤。

来自维基百科的文章:

"在k个子样本中,保留单个子样本作为用于测试模型的验证数据,并且剩余的k-1个子样本用作训练数据" Wikipedia