machine-learning - 我们是否需要将数据集划分为测试和培训？

我们是否需要将数据集划分为测试和培训？

时间：2013-10-14 11:15:49

标签： machine-learning svm libsvm

我提前为这样一个愚蠢的问题道歉！我认为我们需要将数据集划分为svm中的训练和测试，然后使用训练集来查找模型。然后使用测试集检查此模型的准确性。在libsvm数据集“http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass.html”中，一些数据集具有培训和测试，而其他数据集没有经过培训和测试，因此根据libsvm网站中的libsvm指南，相关代码是不同的。例如，在svmguide2数据集中没有指定测试集。那么我们如何测试模型的准确性。

2 个答案:

答案 0 :(得分：0)

这里至少有两个重要方面，首先是你需要自己创造这样的灵感。

第二件事是，将该组分成两部分是相当不够的，因为您仍然可以找到完全无用的模型，对于这一模型，特定的分割将产生良好的结果。这就是交叉验证等概念/策略发挥作用的地方。在CV设置中，您将数据拆分为K个相等大小的块（其中k取自区间[1，n]，其中n是数据的大小），并且您在每个块上测试模型的k倍，同时训练它其余的部分。这样，从有限的一组示例中，您可以生成k个独特的测试用例，每个测试用例都具有非重叠的训练和测试子集。特别是设置k = n，你测试所谓的“留一个”情景，这在理论研究中经常被提到。 k的最常见选择是10,5或3。

答案 1 :(得分：-1)

您必须自己划分整个数据。我实际上建议有两套以上。一旦完成了训练和测试，有一个额外的设置来检查你是否没有受到先前的训练 - 训练 - 再训练迭代的偏倚是有帮助的。

此外，如果您打算使用交叉验证来查找参数，则需要更多数据集。