从hdfs中删除非常大的文件

时间:2017-04-10 05:07:36

标签: hadoop hdfs

我在Cento 7.2上的单节点hadoop群集HDFS中有400万个文件。由于我的应用程序有些损坏,数十万个重复文件存储在HDFS中。我想从hdfs中删除这些文件。

我尝试使用shell脚本,但它需要花费很多时间(2天内有100k文件)。脚本包含单个命令(hdfs dfs -rm --skipTrash <file path>

1 个答案:

答案 0 :(得分:0)

试试这个

hdfs dfs -find <path> | xargs -n 1000 hdfs dfs -rm -skipTrash