machine-learning - 什么是数据挖掘中的自举数据？

获取周六醒来的时间样本。有些星期五晚上你喝了太多酒，所以你早起（但回去睡觉）。其他几天你在正常时间醒来。你入睡的其他日子。

结果如下：

[3.1,4.8,6.3,6.4,6.6,7.3,7.5,7.7,7.9,10.1]

你醒来的平均时间是多少？

那是6.8（或6:48）。早点给我一点触动。

下周六你醒来的预测有多好？你能量一下你的错误吗？

这是一个非常小的样本，我们不确定基础过程的分布，因此使用标准参数统计技术†可能不是一个好主意。

为什么我们不随机抽取样本，计算均值并重复这个？这将使我们估计我们的估计有多糟糕。

我这样做了几次，平均值在5.98到7.8之间

这被称为 bootstrap ，它于1979年由Bradley Efron首次提及。

变体称为 jackknife ，您可以在其中对除了一个数据集之外的所有数据集进行采样，取均值并重复。折刀平均值为6.8（与算术平均值相同），范围从6.4到7.2。

另一个变体称为 k-fold交叉验证，您可以（随机）将数据集拆分为k个大小相等的部分，计算除一个部分以外的所有部分的平均值，并重复k倍。 5倍交叉验证平均值为6.8，范围为4至9。

†这种分布恰好是正常的。平均值的95％置信区间为5.43至8.11，相当接近但大于自助均值。

如果您没有足够的数据来训练您的算法，您可以通过（统一）随机选择项目并复制它们（替换）来增加训练集的大小。

在机器学习中，自举是对已知集合的迭代训练。 http://en.wikipedia.org/wiki/Bootstrapping_(machine_learning)