R:大数据集上的字符串操作(如何加速?)

时间:2013-11-04 22:11:28

标签: r bigdata

我有一个大的data.frame(> 4M行),其中一列包含字符串。我想在每个文本字段上执行几个字符串操作/匹配正则表达式(例如gsub)。

我想知道如何加快运营速度?基本上,我正在表演一堆

gsub(patternvector," [token] ",tweetDF$textcolumn)
gsub(patternvector," [token] ",tweetDF$textcolumn)
....

我正在8 GB RAM上运行R并尝试将其移至云端(具有~64GB RAM的Amazon EC2大型实例),但速度并不快。

我听说过几个软件包(bigmemoryff)并找到了有关R here的高性能/并行计算的概述。

有没有人建议最适合加速字符串操作的软件包?或者知道一个来源,解释如何将标准R字符串函数(gsub,..)应用于这些“高性能计算软件包”创建的“对象”?

感谢您的帮助!

1 个答案:

答案 0 :(得分:1)

mclapply或允许并行处理的任何其他功能应该显着加快任务。如果您不使用并行处理,则无论您的计算机有多少CPU,您只使用1个CPU。