什么是数据挖掘中的自举数据?

时间:2010-09-16 09:18:26

标签: machine-learning data-mining

最近我遇到了这个词,但我真的不知道它的含义。我在网上搜索过,但收获甚微。 感谢。

3 个答案:

答案 0 :(得分:38)

获取周六醒来的时间样本。有些星期五晚上你喝了太多酒,所以你早起(但回去睡觉)。其他几天你在正常时间醒来。你入睡的其他日子。

结果如下:

[3.1,4.8,6.3,6.4,6.6,7.3,7.5,7.7,7.9,10.1]

你醒来的平均时间是多少?

那是6.8(或6:48)。早点给我一点触动。

下周六你醒来的预测有多好?你能量一下你的错误吗?

这是一个非常小的样本,我们不确定基础过程的分布,因此使用标准参数统计技术†可能不是一个好主意。

为什么我们不随机抽取样本,计算均值并重复这个?这将使我们估计我们的估计有多糟糕。

我这样做了几次,平均值在5.98到7.8之间

这被称为 bootstrap ,它于1979年由Bradley Efron首次提及。

变体称为 jackknife ,您可以在其中对除了一个数据集之外的所有数据集进行采样,取均值并重复。折刀平均值为6.8(与算术平均值相同),范围从6.4到7.2。

另一个变体称为 k-fold交叉验证,您可以(随机)将数据集拆分为k个大小相等的部分,计算除一个部分以外的所有部分的平均值,并重复k倍。 5倍交叉验证平均值为6.8,范围为4至9。

†这种分布恰好是正常的。平均值的95%置信区间为5.43至8.11,相当接近但大于自助均值。

答案 1 :(得分:25)

如果您没有足够的数据来训练您的算法,您可以通过(统一)随机选择项目并复制它们(替换)来增加训练集的大小。

答案 2 :(得分:0)

在机器学习中,自举是对已知集合的迭代训练。 http://en.wikipedia.org/wiki/Bootstrapping_(machine_learning)

相关问题