AWS S3 - 如何获取GLACIER存储类的所有文件

时间:2017-03-06 03:52:36

标签: amazon-web-services amazon-s3 aws-cli

我的目标是使用aws cli s3api将当前GLACIER存储类的所有文件转换为STANDARD。为了做到这一点,我需要首先获取所有这些文件的列表,然后发出restore命令,最后发出copy命令将它们全部更改为STANDARD。

问题是,文件数量太大(约500万),如果最大项目超过600k到700k,最终会导致core dump segmentation fault错误。如果我不提供--max-item参数,我会得到同样的错误。所以我无法获得低于700k阈值的文件。这是我使用的命令:

aws s3api list-objects --bucket my-bucket --query 'Contents[?StorageClass==`GLACIER`]' --max-item 700000 > glacier.txt

有解决方法吗?

2 个答案:

答案 0 :(得分:3)

所以我从--starting-token命令发现了list-objects选项。所以我写了一个脚本来扫描批量100k对象中的所有项目。此脚本将输出包含所有GLACIER对象的S3键的文件。

#!/bin/bash
BUCKET="s3-bucket-name"
PREFIX="foldername"
PROFILE="awscliprofile"
MAX_ITEM=100000

var=0
NEXT_TOKEN=0
while true; do

    var=$((var+1))

    echo "Iteration #$var - Next token: $NEXT_TOKEN"

    aws s3api list-objects \
    --bucket $BUCKET \
    --prefix $PREFIX \
    --profile $PROFILE \
    --max-item $MAX_ITEM \
    --starting-token $NEXT_TOKEN > temp

    awk '/GLACIER/{getline; print}' temp >> glacier.txt

    NEXT_TOKEN=$(cat temp | grep NextToken | awk '{print $2}' | sed 's/\("\|",\)//g')
    if [ ${#NEXT_TOKEN} -le 5 ]; then
        echo "No more files..."
        echo "Next token: $NEXT_TOKEN"
        break
        rm temp
    fi
    rm temp
done
echo "Exiting."

之后我可以使用restore-object,最后copy-object将所有这些文件的存储类更改为STANDARD。查看更多脚本here。希望这可以帮助任何需要达到同样目标的人。

答案 1 :(得分:0)

这是一种衬管解决方案

 aws s3api list-objects --bucket *bucket-name*| grep "StorageClass" > nonglacier.txt

然后您可以使用grep存储类

cat nonglacier.txt | grep GLACIER | wc -l

也可以概括为

aws s3api list-objects --bucket <bucket-name>| grep "StorageClass" |  grep GLACIER | wc -l