Hadoop输出和流水线写入

时间:2014-03-13 05:57:22

标签: hadoop

几个问题: 1. File_Bytes_Read与HDfs_bytes_read之间的区别是什么。 2.当客户端即将写入文件hdfs时,如果在将第一个块传递给第一个Datanode时假设它是DN1,如果DN1失败,则客户端仍然最终写入或丢失它。 Name节点如何在此阶段处理? 谢谢 小号

1 个答案:

答案 0 :(得分:0)

我可以回答问题1

File_Bytes_Read:是本地文件系统读取的字节数。假设所有地图输入数据都来自HDFS,那么在地图阶段它应该为零。另一方面,reducers的输入文件是从映射端磁盘获取的reduce端本地磁盘上的数据。因此,它表示reducers读取的总字节数。

HDfs_bytes_read:读取的字节数:表示作业启动时映射器从HDFS读取的字节数。此数据不仅包括源文件的内容,还包括有关拆分的元数据。