hadoop - 对于数据流不是那么大的系统，Hadoop是否有开销？

我打算编写一个批量分布式计算系统，它将使用大约10-20台计算机。系统某些部分的数据流量约为50GB，而其他部分的数据流量则相当于~1GB。

我正在考虑使用Hadoop。可扩展性并不重要，但我非常喜欢Hadoop framewok提供的容错和推测性运行功能。像MPI或gearman这样的框架似乎没有提供这样的机制，我必须自己实施。

但是，我有一些疑问，因为它似乎针对更大的数据量和可能更多的计算机进行了优化。例如，Hadoop the Definitive Guide一书明确提到：

高性能计算（HPC）和网格计算社区拥有多年来一直在进行大规模数据处理，使用Message Passing等API 接口（MPI）。从广义上讲，HPC中的方法是在集群中分配工作由SAN托管的访问共享文件系统的计算机。这适用于主要是计算密集型作业，但在节点需要时成为问题访问更大的数据量（数百GB，MapReduce真正的点由于网络带宽是瓶颈和计算节点，因此开始大放异彩变得闲着。

我的问题是：

使用相对少量的数据和/或计算机时，Hadoop是否会产生相当大的开销？
是否有另一个框架以接近Hadoop的方式提供容错处理？

对于数据流不是那么大的系统，Hadoop是否有开销？

1 个答案: