“gsutil ls”每次显示不同的列表

时间:2016-12-19 16:45:34

标签: google-cloud-storage google-cloud-dataflow

我们使用GCS作为数据流管道的数据接收器,并且由于某种原因,每当我在目录上尝试“gsutil ls”时,输出目录“显示”不同的文件列表。 具体来说,文件数应该是4,000(因为指定了管道将输出分成4,000个文件)。 但是,我看到的列表是那些4,000个文件中的($ prefix - ????? - of-04000)和一些的临时文件($ prefix- TEMP-*)。 自数据流作业(2016-12-18_19_30_32-7274262445792076535)完成以来已经超过10个小时,我仍然看到不同的文件列表(它不仅仅是增加,但有时会减少意味着某些文件消失然后再次出现)。 这会影响我们运行的从此目录读取的其他数据流管道。

此数据流问题或GCS问题,以及我们如何解决此问题? 我之前看过GCS的这种行为,但通常是在数据流管道完成后的前几分钟,但这次它似乎正在进行一段时间。

1 个答案:

答案 0 :(得分:2)

GCS的列表操作是eventually consistent。这可能意味着列出存储桶仅返回一段时间内的部分数据。

如果您查看4000中的特定文件,它是否始终存在?

更新:GCS存在临时问题,导致列表存储桶的结果不一致:https://status.cloud.google.com/incident/storage/16036