tree - 关于信息获取的决策树

我知道这个问题已经很老了，但是如果你仍然对答案感兴趣，一般来说，更短更宽的树会“更好”。考虑这样一个事实，它将需要另外的决定来达到内部决策节点“C”。

您真正需要注意的是每个内部决策节点上的 entropy 和 gain 。熵是具有特定变量的不确定性或随机性的量。例如，考虑一个具有两个类的分类器， YES 和 NO （在您的情况下为true或false）。如果一个特定的变量或属性，比如 x 有三个类YES的训练样例和三个训练样例NO（总共六个），则熵将为1.这是因为有一个这个变量的两个类的数量相等，是你可以得到的最“混合”。同样，如果 x 具有特定类的所有六个训练样例，例如YES，则熵将为0，因为此特定变量将是纯的，因此使其成为决策树中的叶节点。

熵可以通过以下方式计算：

enter image description here

现在考虑增益。请注意，决策树的每个级别，我们选择为该节点提供最佳增益的属性。增益只是通过学习随机变量 x 的状态实现的熵的预期减少。增益也称为Kullback-Leibler分歧。增益可以通过以下方式计算：

Kullback-Leibler divergence

关于信息获取的决策树

1 个答案: