hadoop - 调整YARN上的Hadoop作业执行

一点介绍 - 我正在学习Hadoop。我已经在Hadoop（集群）之上实现了机器学习算法，并且仅在一个小例子（30MB）上进行了测试。

几天前，我安装了Ambari并创建了一个由四台机器组成的小型集群（主机和3台机器）。 Master有资源管理器和NameNode。

现在我通过增加数据量（300MB，3GB）来测试我的算法。我正在寻找一个如何调整我的迷你群集的指针。具体来说，我想知道如何在Ambari中确定MapReduce2和YARN设置。

如何确定容器的最小/最大内存，容器的保留内存，排序分配内存，映射内存和减少内存？

问题是Hadoop上我的作业执行速度非常慢（聚类是一种迭代算法，这会让事情变得更糟）。

我感觉我的群集设置不好，原因如下：

HDFS上的块大小是128MB，所以我认为这会导致加速，但事实并非如此。我的疑问是集群设置（最小/最大RAM大小，映射和减少RAM）不好，因此即使实现了更大的数据位置也无法改善。

这可能是设置错误的结果，还是我错了？