试图在随机森林(PySpark)中获得特征重要性

时间:2016-10-27 06:00:24

标签: pyspark random-forest feature-selection

我的客户数据接近15k列。 我正在尝试对数据运行RF以减少列数,然后在其上运行其他ML算法。

我可以在PySpark上运行RF,但无法提取变量的功能重要性。

任何人都有任何线索可以帮助我将15k变量减少到200多个变量。

0 个答案:

没有答案