machine-learning - 在给定特征数量的情况下找到随机森林的最大深度

我以前没想过这个。通常，树木是非确定性的。而不是问最大深度是多少？您可能想知道平均深度是多少，或者树的深度为20的几率......无论如何，可以计算出最大深度的某些界限。因此，节点用完（a）inbag样本或（b）可能的分裂。

（a）如果inbag样本（N）是限制部分，可以想象一个分类树，其中除了一个样本之外的所有样本都被转发为每个分割。然后最大深度为N-1。这种结果极不可能，但可能。最小深度树，其中所有子节点同样大，那么最小深度将是~log2（N），例如， 16,8,4,2,1。在实践中，树深度将介于最小值之间。控制最小节点大小的设置会降低深度。

（b）要检查特征是否限制树深度，并且您事先了解训练集，然后计算有多少训练样本是唯一的。唯一样本（U）不能拆分。为了每个树只选择〜0.63个样本进行加速处理。 N~U * 0.63。使用（a）节中的规则。在引导期间可以选择所有唯一的样本，但这也不太可能。

如果您不知道您的训练集，请尝试估计在每个特征（i）中可以找到多少级别（L [i]）。对于分类特征，可以给出答案。对于从实际分布中绘制的数字特征，将存在与样本一样多的级别。可能的唯一样本是U = L [1] * L [2] * L [3] ...... * L [d]。

在给定特征数量的情况下找到随机森林的最大深度

1 个答案: