在小数据集上极为不同的r平方得分

时间:2018-05-31 17:46:52

标签: machine-learning scikit-learn regression

我目前处于回归分配的中间。我们交付了一个非常小的数据集,包含47个数据点,包含2个特征和1个目标值。它看起来像这样:

N level,species,Plant Weight(g)
L,brownii,0.3008
L,brownii,0.3288
M,brownii,0.3304
M,brownii,0.388
M,brownii,0.406
H,brownii,0.3955
H,brownii,0.3797
H,brownii,0.2962

每株植物有3L,3M和3H(每株植物9株)。赋值得到最好的r平方分数,但是有6个数据点被阻止(从我得到的数据集中删除了6个数据点,意味着每个花(有6个)被删除L,M或H的一个数据点。正如您在样本abvoe中看到的那样,“brownii”中的一个L被删除了。我尝试了几种回归算法,尝试了KFolds,LeaveOneOut并手动拆分数据集,但似乎数据集太小,以至于依赖于测试数据,结果变化A LOT。在一些测试数据上,我可以得到0.95的得分,但在某些测试数据上我可能只得到0.2。

有没有办法在这里实现任何一致性?

0 个答案:

没有答案