标签: pyspark random-forest feature-selection
我的客户数据接近15k列。 我正在尝试对数据运行RF以减少列数,然后在其上运行其他ML算法。
我可以在PySpark上运行RF,但无法提取变量的功能重要性。
任何人都有任何线索可以帮助我将15k变量减少到200多个变量。