Sandbox - Mappers和redurs确定

时间:2013-07-05 02:52:45

标签: hadoop mapreduce

我已经采用云计算并在Mapreduce中创建了一个用于天气分析的项目。为此,我在笔记本电脑中安装了以下软件。

  • Oracle Virtualbox
  • HortonWorks沙箱

我选择了Redhat Linux并分配了2 GB作为主内存。我使用沙盒网站的hadoop图像并使用virtualbox加载它。如果我的理解是正确的,那么从我的系统分配2 GB,MapReduce作业在我的本地机器本身完成。我在这一点上是否正确?

我创建了MapReduce程序并在沙箱中运行它。它工作正常,我得到了所需的输出。

  • 对于我的工作,作业跟踪器显示使用了8个映射器,并且使用了减少一个减速器。因此,8个映射器基本上是我的2 GB主存储器的8个分区,它们被用作处理数据的映射器。

如果上述说法正确,为什么我只看到使用了一个减速机?

如果地图制作者来自沙箱,他们是否有像亚马逊的EMR这样的服务器?

2 个答案:

答案 0 :(得分:0)

我很抱歉,但我并没有完全明白你想要问的是什么。你的问题看起来像一个帖子的标题而不仅仅是一个问题。

Mappers和Reducers是MapReduce framework的组成部分。 Hortonworks只是提供自定义Hadoop发行版的供应商之一。这些不同风格的Hadoop之间存在一定的差异,但Mapper和Reducer创建的标准在任何地方都是相同的。

  

如果我的理解是正确的,那么从我的系统中分配2 GB   MapReduce作业在我的本地机器上完成。我对么   在这一点上?

首先推荐的内存为4GB

是的,它将从运行virtualbox的机器中分配。当virtualbox在“这台”机器上运行时,你还能从哪里获得资源?分配的内存与MR作业运行的位置有什么关系?当您使用沙箱时,它们将在沙箱中运行。

  

对于我的工作,作业跟踪器显示使用了8个映射器   减少使用一个减速器。因此,8个映射器基本上是8个分裂   我的2 GB主内存用作处理器的映射器   数据

8个映射器是Mapper代码的8个实例,它们处理了8个输入数据分割和NOT 8个内存分割或其他任何内容。

If the mappers are from sandbox, do they have servers like Amazon's EMR?

对我来说,这是一个完全的保镖。请改写一下。

答案 1 :(得分:0)

当您想要读取数据并按原样处理而不做任何更改时,将使用身份映射器。