Question

我是Hadoop和Linux的新手。我正在按照一个教程构建一个简单的3节点集群，并成功安装了一个pseduo分布式集群之后，现在我需要将其重新配置为完全分布式。

我到了需要为fsimage文件提供冗余的地步。因此，根据本教程，我需要以这种方式编辑hdfs-site.xml：

当前设置（伪分布式）

<property>
   <name>dfs.namenode.name.dir</name>
   <value>file:/hadoop/hdfs/namenode</value>
</property>

更改为（完全分布式）

<property>
  <name>dfs.namenode.name.dir</name>
  <value>file:///u01/dfs/namenode,file:///u02/dfs/namenode</value>
</property>

这似乎很简单，但是对于新的Linux用户而言，它会提出一个问号。

u01和u02是什么意思？这些只是我需要创建的新目录吗？是否有任何与之关联的隐式配置？该教程没有提供更多信息，所以我想我缺少一些常识。我是否应该只创建目录，修改xml文件并继续前进？

任何关于uXX目录及其与Hadoop群集之间的关系的解释都将受到赞赏。

Answer 1

属性dfs.namenode.name.dir确定HDFS名称节点必须在本地文件系统中的何处存储持久性HDFS元数据（fsimage和edits）。至少需要一个目录路径作为此属性的值。

如果提供用逗号分隔的目录路径列表，则namenode将尝试在所有这些路径中复制相同的元数据。它仅用于冗余。

目录路径可以是任何结构，只要运行namenode进程的用户可以访问它们即可。这里的uXX纯粹是为了区分它们是不同的目录路径。

除了本地FS之外，此属性还接受远程（如NFS）文件系统目录路径。