删除早于N天的hdfs中的分区文件夹

时间:2017-05-10 10:25:23

标签: hadoop hdfs purge

我想删除超过N天的分区文件夹。

下面的命令给出了50天前的文件夹。我想要所有小于50天的文件夹列表

hadoop fs -ls /data/publish/DMPD/VMCP/staging/tvmcpr_usr_prof/chgdt=`date --date '50 days ago' +\%Y-\%m-\%d`

2 个答案:

答案 0 :(得分:1)

您可以尝试使用solr hdfsfindtool:

hadoop jar /opt/cloudera/parcels/CDH/lib/solr/contrib/mr/search-mr-job.jar org.apache.solr.hadoop.HdfsFindTool -find /data/publish/DMPD/VMCP/staging/tvmcpr_usr_prof -mtime +50 | xargs hdfs dfs -rm -r -skipTrash

答案 1 :(得分:1)

可以使用bash脚本

完成
today=`date +'%s'`
hdfs dfs -ls /data/publish/DMPD/VMCP/staging/tvmcpr_usr_prof/ | grep "^d" | while read line ; do 
dir_date=$(echo ${line} | awk '{print $6}')
difference=$(( ( ${today} - $(date -d ${dir_date} +%s) ) / ( 24*60*60 ) ))
filePath=$(echo ${line} | awk '{print $8}')

if [ ${difference} -lt 50 ]; then
    echo "${filepath}"
fi
done