hadoop基准测试的最佳实践是什么?

时间:2016-09-27 05:56:58

标签: apache hadoop benchmarking bigdata

我正在使用TestDFSIO来测试hadoop I / O性能。 我使用的测试装备是一个由3个数据节点和一个名称节点组成的小型虚拟集群。 每个vm将具有6-8 GB RAM和100-250 GB HDD。

我想知道两件事:

  1. 关于我的设置,每个文件(fileSize)参数的文件数(nrFIles)和文件大小应该是什么值,以便我们可以将我的小群集的结果与标准大小的群集相关联比如拥有8-12 x 2 TB的硬盘和64 GB的RAM以及更高的处理速度。这样做是否正确。

  2. 一般来说,对hadoop进行基准测试的最佳做法是什么?喜欢: 什么是推荐的集群规范(datanode,namenodes的规格),推荐的测试数据大小,测试床应具有哪些配置/规格,以便获得符合现实生活中hadoop应用的结果

  3. 简单地说我想了解正确的hadoop测试台设置和正确的测试方法,以便我的结果与生产集群相关。

    参考经过验证的工作会很有帮助。

    另一个问题是 假设我有-nrFiles 15 -fileSize 1GB 我发现map任务的数量将等于nrFiles所提到的数量 但它们如何在3个数据节点之间分配?我不清楚15个地图任务的数量。对于15个文件,每个文件是否会有一个映射器工作?

    我没有找到任何关于testDFSIO如何工作的文档或描述。

1 个答案:

答案 0 :(得分:0)

您无法比较两个群集的结果。结果可能会因节点上的映射器数量,复制因子,网络等而异。 群集规范将取决于您尝试使用它的目的。 如果您提供-nrFiles 15 -fileSize 1000,则每个1GB将创建15个文件。每个映射器都可以在一个文件上工作,因此会有15个映射任务。对于3节点集群,假设您在一个节点上只有1个映射器,那么将有5个波来写入完整数据。 请参阅以下链接以获取testDFSIO和其他基准测试工具:http://www.michael-noll.com/blog/2011/04/09/benchmarking-and-stress-testing-an-hadoop-cluster-with-terasort-testdfsio-nnbench-mrbench/