hadoop - 带RAID的HDP集群？

我建议在Hadoop主机上不要使用RAID。有一点需要注意，如果您正在运行像Oozie这样的服务以及在幕后使用关系数据库的Hive Metastore，那么raid可能在数据库主机上有意义。

在主节点上，假设您有Namenode，zookeeper等 - 通常在服务中内置冗余。对于名称节点，所有数据都存储在两个名称节点上。对于Zookeeper，如果丢失一个节点，则其他两个节点都拥有所有信息。

Zookeeper喜欢快速磁盘 - 理想情况下，将完整磁盘专用于zookeeper。如果您有namenode HA，请将namenode edits目录和每个日志节点都指定为专用磁盘。

对于从属节点，datanode将在所有磁盘上写入，无论如何都有效地剥离数据。每个'write'最多都是HDFS块大小，所以如果你正在写一个大文件，你可以在磁盘1上获得128MB，然后在磁盘上获得下一个128MB等等。