我正在运行带有一些datanode的hdfs,每个datanode有8个1TB硬盘驱动器。
我想为每个datanode添加2 x 2TB硬盘驱动程序。我知道如何为datanode添加新的硬盘驱动程序,但我混淆了新的硬盘驱动程序比旧的驱动程序更大,所以它可能在datanode上的硬驱动程序之间的数据分配方面存在问题。
我认为最好在2TB硬盘驱动程序上创建2个逻辑驱动程序(1TB),然后将其安装到OS,以便每个datanode路径的卷都相同。
我需要一些建议。感谢阅读!
答案 0 :(得分:2)
如果在datanode中有混合大小的磁盘,则较小的磁盘填充速度比最大的磁盘快。这是因为datanode中的默认卷选择策略是循环法。基本上,datanode会依次将新数据写入每个磁盘,而不考虑磁盘的大小或其可用空间。
有一种替代卷选择策略,非常适合在具有混合大小磁盘的数据节点上使用,称为AvailableSpaceVolumeChoosingPolicy - 我不确定您使用的Hadoop的分布情况,但CDH文档是:
如果更改为该策略,则默认情况下,75%的新写入将转到未使用的磁盘,直到它们赶上其他磁盘,然后它将回退到循环写入。