Question

我想通过运行模型的所有可能训练和测试组合，并根据最佳R2进行选择，从给定的数据点集合中创建最佳训练样本。我不想使用所有可能的组合来运行模型，而是希望每次都像分层集合一样选择并运行模型。有没有办法在R中做到这一点。

样本数据集

df1 <- data.frame(
    cbind(sno=1:30 
        ,x1=c(14.3,14.8,14.8,15,15.1,15.1,15.4,15.4,16.1,14.3,14.8,14.8,15.2,15.1,15.1,15.4,15.4,16.1,14.2,14.8,14.7,15.1,15,15,15.3,15.3,15.9,15.1,15,15.3)
        ,y1=c(79.2,78.7,79,78.2,78.7,79.1,78.4,78.7,78.1,79.2,78.7,79,78.2,78.6,79.2,78.4,78.7,78.1,79.1,78.5,78.9,78,78.5,79,78.2,78.5,78,79.2,78.7,78.7)
        ,z1=c(219.8,221.6,232.5,213.1,231,247.6,230.2,240.9,245.5,122.8,124.2,131.5,119.1,130.5,141.1,130.8,137.7,140.8,25.4,30.5,30.5,23.8,29.6,34.6,29.5,33.3,35.2,105,170.7,117.3)
    ))

Answer 1

这违反了培训的目的。理想情况下，您拥有一个或多个训练数据集以及未经修改的测试数据集，一旦模型适合，它们将最终针对这些测试数据进行测试。对此，使用R平方或其他任何指标来挑选训练数据集会带来偏差。更糟糕的是，如果模型参数根据所使用的训练集而千差万别，则模型可能不是很好，并且针对测试数据集的结果可能是虚假的。

如何选择最佳数据集来训练模型

1 个答案: