如何选择最佳数据集来训练模型

时间:2019-07-23 01:06:24

标签: r machine-learning data-science sampling training-data

我想通过运行模型的所有可能训练和测试组合,并根据最佳R2进行选择,从给定的数据点集合中创建最佳训练样本。 我不想使用所有可能的组合来运行模型,而是希望每次都像分层集合一样选择并运行模型。有没有办法在R中做到这一点。

样本数据集

df1 <- data.frame(
    cbind(sno=1:30 
        ,x1=c(14.3,14.8,14.8,15,15.1,15.1,15.4,15.4,16.1,14.3,14.8,14.8,15.2,15.1,15.1,15.4,15.4,16.1,14.2,14.8,14.7,15.1,15,15,15.3,15.3,15.9,15.1,15,15.3)
        ,y1=c(79.2,78.7,79,78.2,78.7,79.1,78.4,78.7,78.1,79.2,78.7,79,78.2,78.6,79.2,78.4,78.7,78.1,79.1,78.5,78.9,78,78.5,79,78.2,78.5,78,79.2,78.7,78.7)
        ,z1=c(219.8,221.6,232.5,213.1,231,247.6,230.2,240.9,245.5,122.8,124.2,131.5,119.1,130.5,141.1,130.8,137.7,140.8,25.4,30.5,30.5,23.8,29.6,34.6,29.5,33.3,35.2,105,170.7,117.3)
    ))

1 个答案:

答案 0 :(得分:0)

这违反了培训的目的。理想情况下,您拥有一个或多个训练数据集以及未经修改的测试数据集,一旦模型适合,它们将最终针对这些测试数据进行测试。对此,使用R平方或其他任何指标来挑选训练数据集会带来偏差。更糟糕的是,如果模型参数根据所使用的训练集而千差万别,则模型可能不是很好,并且针对测试数据集的结果可能是虚假的。