hadoop:跟踪MapReduce任务

时间:2013-12-04 04:56:17

标签: python hadoop mapreduce

我是hadoop的新手,这可能是一个愚蠢的问题,但我一直在寻找它几个小时,但找不到怎么做。

我正在使用不同数量的映射器和缩减器运行Hadoop MapReduce,以查看性能差异(例如执行时间)。我想检查是否使用了指定数量的映射器/缩减器,但我无法弄清楚我是如何做到的。

Hadoop 1.2.1安装在具有超线程的四核机器上,我正在服务器上运行,而Hadoop正在以伪分布式模式运行。

我的MapReduce程序是用Python编写的,所以我使用的是hadoop-streaming,这就是我运行MR程序的方式。

$ hadoop jar /Users/hadoop/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar 
-file /Users/hadoop/map.py 
-mapper /Users/hadoop/map.py 
-file /Users/hadoop/reduce.py 
-reducer /Users/hadoop/reduce.py 
-input file:///Users/hadoop/inputfile 
-output file:///Users/hadoop/outputfile

我希望看到类似this的日志信息,或者提供此类信息的任何内容。

1 个答案:

答案 0 :(得分:0)

您正在寻找一种名为资源管理器的服务 - 此Web界面包含指向您在问题中链接到的日志的链接。 This stackoverflow post有一些关于如何实现它的答案。鉴于您的hadoop版本,从运行hadoop的机器上,您应该能够访问localhost:50030以查看资源管理器。