如何在S3上合并数百万个小的(<1MB)文件?

时间:2018-09-21 00:47:37

标签: hadoop amazon-s3 mapreduce hdfs

我有大约500万个小型(800kB)文件存储在AWS S3上。我想将它们合并成每个〜100MB的较大文件,因为对500万个小文件进行地图缩小会降低性能。

合并这些文件的好方法是什么?我想快速有效地做到这一点。我愿意使用S3 API的MapReduce来完成所有工作。

0 个答案:

没有答案
相关问题