Question

我是hadoop的新手，这可能是一个愚蠢的问题，但我一直在寻找它几个小时，但找不到怎么做。

我正在使用不同数量的映射器和缩减器运行Hadoop MapReduce，以查看性能差异（例如执行时间）。我想检查是否使用了指定数量的映射器/缩减器，但我无法弄清楚我是如何做到的。

Hadoop 1.2.1安装在具有超线程的四核机器上，我正在服务器上运行，而Hadoop正在以伪分布式模式运行。

我的MapReduce程序是用Python编写的，所以我使用的是hadoop-streaming，这就是我运行MR程序的方式。

$ hadoop jar /Users/hadoop/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar 
-file /Users/hadoop/map.py 
-mapper /Users/hadoop/map.py 
-file /Users/hadoop/reduce.py 
-reducer /Users/hadoop/reduce.py 
-input file:///Users/hadoop/inputfile 
-output file:///Users/hadoop/outputfile

我希望看到类似this的日志信息，或者提供此类信息的任何内容。

Answer 1

您正在寻找一种名为资源管理器的服务 - 此Web界面包含指向您在问题中链接到的日志的链接。 This stackoverflow post有一些关于如何实现它的答案。鉴于您的hadoop版本，从运行hadoop的机器上，您应该能够访问localhost：50030以查看资源管理器。

hadoop：跟踪MapReduce任务

1 个答案: