hadoop的哪个分布更好?

时间:2013-07-30 21:39:32

标签: hadoop cloudera mapr

我正在处理大量数据,我的输入数据大约是100 GB。我想选择其中一个hadoop发行版,但我不知道选择mapr集群还是cloudera集群。我想使用免费版本(mapr M3和使用hadoop 0.20的cloudera CDH4)。 哪个更好?我使用哪种配置,他们的工作效果最好? 感谢。

1 个答案:

答案 0 :(得分:2)

实际上,回答这个问题是这个世界上最常见的答案,取决于。这完全取决于您和您的要求。人们可能会发现一种特别的味道更适合他/她的需要,你可能会发现同样的味道没那么有用。此外,这完全取决于个人选择,就像我个人喜欢Apache的Hadoop一样。一切都很好。只是哪一个符合您的需求。

哪个更好?是一个有争议的话题。像这样的问题往往最终成为激烈的争论。例如,请参阅此question。所以,我不打算列出任何一方的优势。但是这些不同风格的Hadoop之间存在某些差异,这可能在您的思考过程中对您有所帮助。

CDH(Apache Hadoop)和MapR之间的主要区别在于MapR使用自己的专有文件系统 MapRFS 而不是HDFS。 M3版是免费的,可供无限制的生产使用。通过社区和MapR的论坛提供支持。 CDH是100%开源的,您可以免费使用Cloudera Manager的“标准”版本。而Apache,它就是Apache :)。做你想做的事。

MapR最近与Ubuntu操作系统背后的组织 Canonical 合作,努力通过其存储库使Hadoop成为Ubuntu的集成部分。该合作伙伴关系宣布,MapR的用于Apache Hadoop的M3版将打包并作为Ubuntu操作系统的集成部分提供下载(如果您需要更多信息,请参阅this)。源代码可在Github上找到。 CDH代码库与Apache相同,有一些自己的补丁。

但免费版缺少一些好的功能,如 JobTracker HA,NameNode HA,镜像,快照等。基于Hadoop-2.x的CDH4虽然为您提供了HA功能。凭借其设计,MapR没有任何SPOF,就像CDH3(或Hadoop-1.x)那样。 MapRFS将数据存储在卷中,概念上存储在分布在集群中的一组容器中。每个容器都包含自己的元数据,从而消除了中心NameNode单点故障。 API仍然与Apache Hadoop兼容。 MapR设置要求与Apache / CDH不同。例如,MapR要求原始卷可用于安装。一旦你有了正确的硬件和操作系统的先决条件,设置时间和评估时间应与Apache / CDH处于同一数量级。

恕我直言,M3不会给你带来比Apache / CDH更大的优势,因为M3免费版中没有一些引人注目的MapR功能,如 NFS-HA,Snapshots 等。

作为第一个,Cloudera在经验和稳固的客户群方面绝对具有额外的优势。但MapR在MapReduce和HDFS组件的重大变化方面变得更具创新性,以提高性能。

我会在一段时间之后再写一些,因为我正在打电话而你正在等待答案;)