python - 理解大型决策树图以进行变量选择？

我有1100个样本和2000个二进制变量，并想确定相对于我的连续响应变量（我使用labelencoder转换的变量）而言，哪个变量最重要和最重要。我不需要模型来进行预测，我只想知道重要的变量。建议我使用决策树，该决策树首先将样本按最重要的变量分为两类。我创建了决策树，但是我仍然不确定哪个变量最重要。我认为第一次拆分是最重要的变量，但是这两个叶子现在又根据两个更多的变量拆分成更多的叶子了呢？其中哪个更重要？如果我的第一个变量将1100个样本拆分为1050个真和50个假，那么将1050个样本拆分的变量比将50个样本拆分的变量更重要吗？我是决策树的新手，所以我可能会误解整个概念。我无法理解是什么条件将值分为真和假以及这意味着什么。仅仅是将其拆分的那个变量的二进制吗？另外，这可能不在主题之列，但我不明白“ gini”在很多框中的含义。

理解大型决策树图以进行变量选择？

1 个答案: