hadoop - Hadoop输出和流水线写入 - Thinbug

Hadoop输出和流水线写入

时间：2014-03-13 05:57:22

标签： hadoop

几个问题： 1. File_Bytes_Read与HDfs_bytes_read之间的区别是什么。 2.当客户端即将写入文件hdfs时，如果在将第一个块传递给第一个Datanode时假设它是DN1，如果DN1失败，则客户端仍然最终写入或丢失它。 Name节点如何在此阶段处理？谢谢小号

1 个答案:

答案 0 :(得分：0)

我可以回答问题1

File_Bytes_Read：是本地文件系统读取的字节数。假设所有地图输入数据都来自HDFS，那么在地图阶段它应该为零。另一方面，reducers的输入文件是从映射端磁盘获取的reduce端本地磁盘上的数据。因此，它表示reducers读取的总字节数。

HDfs_bytes_read：读取的字节数：表示作业启动时映射器从HDFS读取的字节数。此数据不仅包括源文件的内容，还包括有关拆分的元数据。