随机森林模型对大量数据的影响

时间:2015-12-30 16:29:35

标签: python r machine-learning classification random-forest

我需要基于具有100个预测变量和30行行的数据集构建随机森林分类模型。目标变量是二进制的。计算每行的分数值很重要,这是RF算法的标准选项。 我成功构建了多达70,000行的射频模型。处理较大的数据集最终会出现内存限制错误消息。 我知道有可能将大型数据集拆分成许多足够小的数据集,并单独处理它们。但是有了30万条记录,我会有太多的子集,我宁愿找到更方便的方法。

所以,这是我的问题:有没有办法同时处理30万行以构建RF模型?首先,我对R或Python解决方案感兴趣。预期的时间限制是什么?

2 个答案:

答案 0 :(得分:1)

除了找到一台拥有大量RAM的机器或稍微启动一个AWS实例并在那里拟合模型之外,您还可以使用分布式随机林的工具,因为它并不是一个难以并行化的算法。我使用了H2O.ai,它是免费的,有Python和R钩子,但我知道还有其他选项。

答案 1 :(得分:0)

我会考虑在构建模型时对输入数据集进行采样,直到模型收敛为止。通常,并非所有数据都需要用于训练模型。训练模型后,您可以将其应用于任意数量的行以生成分数。

在R包randomForest中,采样由参数sampsize控制。