如果K折交叉验证中的K太小怎么办?

时间:2019-12-23 04:47:28

标签: machine-learning statistics dataset data-science k-fold

使用比数据集小的K值会带来什么后果?

2 个答案:

答案 0 :(得分:0)

K的值指定您计划将数据集拆分为的折叠数。较小的K值意味着将数据集分为更少的部分,但每个部分都包含更大的百分比。

获取具有100行的数据集。

  • 2折交叉验证-每折将包含50行。
  • 10折交叉验证-每折将包含10行。

这样,在训练时,10折交叉验证将具有90-10的火车测试成绩,而2折交叉验证将具有50-50的火车测试成绩。

使用更多的折痕,将为模型提供更多的数据进行训练,但由于需要训练和验证K的不同时间,因此需要更多的时间。

答案 1 :(得分:0)

K折交叉验证中的K表示我们要分割训练数据并在给定的有限训练数据上执行K次重新采样的次数相等。

正值:

  • 即使数据有限,也可以开发出良好的模型。
  • 我们获得超参数的最优值(KNN中的k,朴素贝叶斯中的alpha,等等),这为我们提供了最佳性能指标(准确性,AUC,精度等)。

否定词:

  • 当我们训练模型K次时,计算最佳超参数所需的时间增加了K次。
相关问题