在使用R时我应该更喜欢hadoop vs condor吗?

时间:2010-11-04 10:21:38

标签: r hadoop condor

我正在寻找在大学计算机网格上为多台计算机发送作品的方法。

目前它正在运行Condor并且还提供Hadoop。

因此,我的问题是,我是否应该尝试将R与Hadoop或Conder连接以用于我的项目?

对于讨论,我们假设我们正在谈论令人尴尬的并行任务。

p.s:我见过CRAN task views中描述的资源。

1 个答案:

答案 0 :(得分:5)

你可以做到这两点。

您可以将HDFS用于数据集,使用Condor进行作业调度。使用Condor在机器上放置执行程序和使用HDFS + Hadoops Map-Reduce处理数据的功能(假设您的问题是map-reduce mappable)。然后你正在使用最合适的工具:Condor是一个作业调度程序,因此它比Hadoop工作得更好。而Hadoop的HDFS和M-R框架是Condor没有的东西(但对于在Condor上运行的作业非常有用)。

我个人会看到HDFS在作为Condor作业离散运行的作业之间共享数据。特别是在大学环境中,共享计算资源不是100%可靠并且可以随意出入,Condor在此类设置中的弹性将使得完成工作变得更加轻松。

相关问题