如何在rpart中获取代理变量

时间:2017-11-23 14:12:58

标签: variables rpart

我随处可见,但我找不到有关rpart包的问题的答案。

我使用rpart构建了一个回归树,我有大约700个变量。我想获得实际用于构建树的变量,包括代理。我可以使用tree $ variable.importance找到使用的实际变量,但我还必须得到代理,因为我需要它们来预测我的测试集数据。我不想在测试集中保留所有700个变量,因为我有一个非常大的数据(20mil观测值),而且我的内存不足。

1 个答案:

答案 0 :(得分:0)

rpart 对象中的列表 variable.importance 确实显示了代理变量,但它只显示了受最小重要性值限制的顶级变量。

rpart 对象中的矩阵 splits 列出了所有拆分变量及其代理变量以及其他一些数据,例如 index、它拆分的值(对于连续变量)或类别被拆分的(对于分类变量),count 拆分适用于多少个观察值。它没有给出哪个代理适用于哪个拆分的层次结构,但它确实列出了每个变量。要获得层次结构,您必须执行 summary(rpart_object)

相关问题