python - 随机森林模型对大量数据的影响

随机森林模型对大量数据的影响

时间：2015-12-30 16:29:35

标签： python r machine-learning classification random-forest

我需要基于具有100个预测变量和30行行的数据集构建随机森林分类模型。目标变量是二进制的。计算每行的分数值很重要，这是RF算法的标准选项。我成功构建了多达70,000行的射频模型。处理较大的数据集最终会出现内存限制错误消息。我知道有可能将大型数据集拆分成许多足够小的数据集，并单独处理它们。但是有了30万条记录，我会有太多的子集，我宁愿找到更方便的方法。

所以，这是我的问题：有没有办法同时处理30万行以构建RF模型？首先，我对R或Python解决方案感兴趣。预期的时间限制是什么？

2 个答案:

答案 0 :(得分：1)

除了找到一台拥有大量RAM的机器或稍微启动一个AWS实例并在那里拟合模型之外，您还可以使用分布式随机林的工具，因为它并不是一个难以并行化的算法。我使用了H2O.ai，它是免费的，有Python和R钩子，但我知道还有其他选项。

答案 1 :(得分：0)

我会考虑在构建模型时对输入数据集进行采样，直到模型收敛为止。通常，并非所有数据都需要用于训练模型。训练模型后，您可以将其应用于任意数量的行以生成分数。

在R包randomForest中，采样由参数sampsize控制。