并行化预测在R中

时间:2017-06-19 19:27:45

标签: r hadoop apache-spark parallel-processing predict

我正在研究R和我的预测模型 使用mgcv包。当前的预测模型与GAM一起运行。然而, 使用R需要很多天,我想优化命令。

我正在研究与Hadoop和Spark R的并行性。我在Spark R上找到了预测命令,但我不认为它有GAM。您是否可以告诉我是否有任何方法可以运行我们在R中使用的预测,并行和使用GAM?

换句话说,我可以使用带有(例如)4个节点的群集运行下面的R代码吗?

PS:有可能使用Azure,HDInsight

PS2:花费很多时间的代码(实际上只在R服务器上运行,仅使用一台机器)

cl <- makeCluster(detectCores()-1)

predict_x <- predict("FORMULA_X", newdata=database_x, 
                     type="response", se=TRUE, cluster=cl)

FORMULA_Xdatabase_x已确定

1 个答案:

答案 0 :(得分:0)

如果您想将培训模型与Spark并行化,则无法使用标准R软件包,而是需要使用Spark MLlib。以下是支持的算法列表:https://spark.apache.org/docs/latest/sparkr.html#machine-learning

您还可以尝试另一个支持并行度的R库:http://docs.h2o.ai/h2o/latest-stable/index.html

最复杂的选项是使用RDDDataFrame操作在Spark中实现您的算法。

原因是您需要为培训模型提供专用实现,以实现并行性。

相关问题