如何在HDFS文件中使用linux split命令?

时间:2017-02-03 03:53:04

标签: hadoop hdfs

我在HDFS中有一个大文件,并希望将其拆分为多个块。

如果文件在我的本地文件系统中,我可以使用split来实现它。

但是,该文件在HDFS中,我不希望(不能)将其复制到本地文件系统中。

如何在HDFS文件中直接使用拆分命令?

1 个答案:

答案 0 :(得分:0)

如果文件大小不是很大,HDFS和Unix命令的组合可以完成这项工作。

但是,我不推荐它。 Hadoop框架会将文件拆分为较小的块(Hadoop-1.X的默认大小为64MB,Hadoop-2.X的默认大小为128MB),并在群集中物理分布。

您能描述在HDFS上拆分文件的原因吗?