hadoop基准 - terasort

时间:2011-08-07 10:31:17

标签: hadoop benchmarking

我为Hadoop构建了自己的4个节点(namenode + 3xDatanodes)集群 现在 - 我想测试它的表现:

花了我71秒:
hadoop jar $ HADOOP_INSTALL / hadoop-examples.jar randomwriter random-data -test.randomwrite.bytes_per_map = 5000000 -Dtest.randomwrite.total_bytes = 50000000

花了我218秒:
hadoop jar $ HADOOP_INSTALL / hadoop-examples.jar sort random-data sorted-data

花了我368秒的时间 hadoop jar $ HADOOP_INSTALL / hadoop-test.jar testmapredsort -sortInput random-data -sortOutput sorted-data

我怎么知道我的群集配置得好?我的custer - 节点配置需要花费多少时间:
4xIntel(R)Xeon(R)CPU E5645 @ 2.40GHz(每个6芯)
24 Gb RAM

感谢。

1 个答案:

答案 0 :(得分:2)

我在我的群集上快速运行你的婴儿车(1个名字节点+ 2个运行Hadoop-0.21.0的数据节点)。 最终分别花了27秒,23秒,26秒。

使用4xIntel(R)Xeon(R)CPU E5607 @ 2.27GHz(每个4核)进行测试 31GB RAM

我按原样离开了hadoop配置,但关闭了推测任务:mapred.map.tasks.speculative.execution,mapred.reduce.tasks.speculative.execution - >假

您还可以使用块大小的不同设置(dfs.block.size,最好大于默认值128)。看看是否加快了速度。

有关hadoop基准测试的更多信息:http://www.michael-noll.com/blog/2011/04/09/benchmarking-and-stress-testing-an-hadoop-cluster-with-terasort-testdfsio-nnbench-mrbench/