machine-learning - 大型多级NLP分类的不平衡数据和样本大小

为了确定测试集的样本大小，您可以使用Hoeffding的不等式。

让 E 为正容差值， N 为数据集的样本大小。

然后我们可以计算Hoeffding的不等式， p = 1 - （2 * EXP（-2 *（ E ^ 2）* N ））。

设 E = 0.05（±5％）且 N = 750，然后 p = 0.9530。这意味着，在95.3％的确定性下，您的（样本内）测试错误不会偏离样本超过5％。

关于培训和验证集的样本规模，有一个既定的惯例将数据分割如下：50％用于培训，25％用于验证和测试。这些集合的最佳大小很大程度上取决于训练集和数据中的噪声量。有关详细信息，请参阅“统计学习要素”中的“模型评估和选择”。