在给定特征数量的情况下找到随机森林的最大深度

时间:2015-10-06 21:00:34

标签: machine-learning random-forest depth regularized

如果我们知道特征的数量,我们如何找到随机森林的最大深度?

这是规范随机森林分类器所必需的。

1 个答案:

答案 0 :(得分:1)

我以前没想过这个。通常,树木是非确定性的。而不是问最大深度是多少?您可能想知道平均深度是多少,或者树的深度为20的几率......无论如何,可以计算出最大深度的某些界限。因此,节点用完(a)inbag样本或(b)可能的分裂。

(a)如果inbag样本(N)是限制部分,可以想象一个分类树,其中除了一个样本之外的所有样本都被转发为每个分割。然后最大深度为N-1。这种结果极不可能,但可能。最小深度树,其中所有子节点同样大,那么最小深度将是~log2(N),例如, 16,8,4,2,1。在实践中,树深度将介于最小值之间。控制最小节点大小的设置会降低深度。

(b)要检查特征是否限制树深度,并且您事先了解训练集,然后计算有多少训练样本是唯一的。唯一样本(U)不能拆分。为了每个树只选择〜0.63个样本进行加速处理。 N~U * 0.63。使用(a)节中的规则。在引导期间可以选择所有唯一的样本,但这也不太可能。

如果您不知道您的训练集,请尝试估计在每个特征(i)中可以找到多少级别(L [i])。对于分类特征,可以给出答案。对于从实际分布中绘制的数字特征,将存在与样本一样多的级别。可能的唯一样本是U = L [1] * L [2] * L [3] ...... * L [d]。