事先了解clusterExport的对象

时间:2012-05-21 15:33:48

标签: r foreach parallel-processing

我是新手使用并行软件包并开始探索它们以加快我的一些工作。我经常遇到的烦恼是foreach命令会在我没有clusterExport相关函数/变量时抛出问题。

实施例

我知道下面的示例并不一定需要foreach才能让它变快,但为了便于说明,我会使用它。

library(doParallel)
library(parallel)
library(lubridate)
library(foreach)

cl <- makeCluster(c("localhost", "localhost", "localhost","localhost"), type = "SOCK")
registerDoParallel(cl, cores = 4)

Dates <- sample(c(dates = format(seq(ISOdate(2010,1,1), by='day', length=365), format='%d-%m-%Y')), 500, replace = TRUE)

foreach(i = seq_along(Dates), .combine = rbind) %dopar% dmy(Dates[i])

Error in dmy(Dates[i]) : task 1 failed - "could not find function "dmy""

如您所见,有一个错误表明未找到dmy函数。然后我必须继续添加以下内容:

clusterExport(cl, c("dmy"))

所以我的问题是,除了查看错误以寻找导出内容的线索之外,是否有一种更优雅的方式可以预先知道要导出哪些对象,或者是否有办法在运行之前与所有从属设备共享全局环境foreach

1 个答案:

答案 0 :(得分:2)

无需像这样手动导出单个包函数。您可以使用.packages函数的foreach参数来加载所需的包,因此所有包函数都可用于%dopar%表达式。