Question

我正在研究R和我的预测模型使用mgcv包。当前的预测模型与GAM一起运行。然而，使用R需要很多天，我想优化命令。

我正在研究与Hadoop和Spark R的并行性。我在Spark R上找到了预测命令，但我不认为它有GAM。您是否可以告诉我是否有任何方法可以运行我们在R中使用的预测，并行和使用GAM？

换句话说，我可以使用带有（例如）4个节点的群集运行下面的R代码吗？

PS：有可能使用Azure，HDInsight

PS2：花费很多时间的代码（实际上只在R服务器上运行，仅使用一台机器）

cl <- makeCluster(detectCores()-1)

predict_x <- predict("FORMULA_X", newdata=database_x, 
                     type="response", se=TRUE, cluster=cl)

FORMULA_X和database_x已确定

Answer 1

如果您想将培训模型与Spark并行化，则无法使用标准R软件包，而是需要使用Spark MLlib。以下是支持的算法列表：https://spark.apache.org/docs/latest/sparkr.html#machine-learning

您还可以尝试另一个支持并行度的R库：http://docs.h2o.ai/h2o/latest-stable/index.html

最复杂的选项是使用RDD或DataFrame操作在Spark中实现您的算法。

原因是您需要为培训模型提供专用实现，以实现并行性。