scikit-learn - scikit学习extratreeclassifier挂

时间：2014-05-27 09:22:33

标签： scikit-learn

我正在运行scikit学习一些相当大的训练数据集~1,600,000,000行，具有~500个特征。该平台是Ubuntu服务器14.04，硬件有100GB RAM和20个CPU核心。

测试数据集大约是行数的一半。

我设置n_jobs = 10，并且我是forest_size = 3 * number_of_features所以大约1700棵树。

如果我将功能数量减少到大约350，它可以正常运行但从未完成训练阶段，完整功能设置为500+。该进程仍在执行并耗尽大约20GB的内存，但使用的是0％的CPU。我还成功完成了大约400,000行的数据集，但只有大约1小时后完成的功能的两倍。

我小心删除任何未使用的数组/对象。

有没有人有我想尝试的想法？

答案 0 :(得分：1)

根据orgrisel的建议安装当前主分支版本。我确实需要做一个＆＃34; make clean＆＃34;正如here所述。

新版本似乎是一个非常大的改进。我希望很快就会发布。

非常感谢orgisel和其他贡献者提供了这么棒的软件！