Question

我在S3中有大量的事件被yyyy / mm / dd / hh分区。每个分区都有大约80.000个原始文本文件。每个原始文件都有大约1.000个JSON格式的事件。

当我运行脚本进行转换时：

datasource0 = glueContext.create_dynamic_frame.from_catalog(database=from_database,
                                                                table_name=from_table,
                                                                transformation_ctx="datasource0")
map0 = Map.apply(frame=datasource0, f=extract_data)
applymapping1 = ApplyMapping.apply(......)
applymapping1.toDF().write.mode('append').parquet(output_bucket, partitionBy=['year', 'month', 'day', 'hour'])

我最终在跨分区命名为：

的大量小文件

part-00000-a5aa817d-482c-47d0-b804-81d793d3ac88.snappy.parquet
part-00001-a5aa817d-482c-47d0-b804-81d793d3ac88.snappy.parquet
part-00002-a5aa817d-482c-47d0-b804-81d793d3ac88.snappy.parquet

每个都是1-3KB大小。数字大致相当于我拥有的原始文件数。

我的印象是Glue将从目录中获取所有事件，按照我想要的方式对它们进行分区，并将存储在每个分区的单个文件中。

我如何实现这一目标？

Answer 1

您只需要设置repartition(1)，它会将所有分区中的数据混洗到单个分区，该分区将在写入时生成单个输出文件。

applymapping1.toDF()
             .repartition(1)
             .write
             .mode('append')
             .parquet(output_bucket, partitionBy=['year', 'month', 'day', 'hour'])

将多个原始文件合并到单个拼花文件中

1 个答案: