理解大型决策树图以进行变量选择?

时间:2019-07-12 10:37:18

标签: python scikit-learn

我有1100个样本和2000个二进制变量,并想确定相对于我的连续响应变量(我使用labelencoder转换的变量)而言,哪个变量最重要和最重要。我不需要模型来进行预测,我只想知道重要的变量。建议我使用决策树,该决策树首先将样本按最重要的变量分为两类。我创建了决策树,但是我仍然不确定哪个变量最重要。我认为第一次拆分是最重要的变量,但是这两个叶子现在又根据两个更多的变量拆分成更多的叶子了呢?其中哪个更重要?如果我的第一个变量将1100个样本拆分为1050个真和50个假,那么将1050个样本拆分的变量比将50个样本拆分的变量更重要吗?我是决策树的新手,所以我可能会误解整个概念。我无法理解是什么条件将值分为真和假以及这意味着什么。仅仅是将其拆分的那个变量的二进制吗?另外,这可能不在主题之列,但我不明白“ gini”在很多框中的含义。

1 个答案:

答案 0 :(得分:0)

基本决策树使用Gini Indexing or Information Gain来确定哪些变量最重要,并将该变量放在树的顶部。您是否尝试过使用Graphviz打印树?您会得到类似的信息enter image description here