AWS Glue Catalog无法检测到镶木地板文件,而是将根路径创建为单个表

时间:2019-08-19 17:18:22

标签: amazon-web-services parquet aws-glue aws-glue-data-catalog

我有500多个以拼花形式存储在AWS S3中的表的列表。结构如下:

aws-bucket/
└── parquet/
    └── table1/t1.parquet
    └── table2/t2.parquet
    └── table3/t3.parquet
    └── table4/t4.parquet
    └── table5/t5.parquet
    └── table6/t6.parquet
    └── table7/t7.parquet
    └── table8/t8.parquet

当我在“ s3:// aws-bucket / parquet /”上运行Glue Crawler并尝试创建Athena DB时,它只会创建一个名为parquet的表,而不是创建所有500多个表。我尚未尝试对搜寻器参数进行任何自定义。

请帮助。

1 个答案:

答案 0 :(得分:0)

检查https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html?icmpid=docs_glue_console#crawler-grouping-policy

S3数据的分组行为(可选)

为每个S3路径创建一个架构

默认情况下,搜寻器为存储在S3中的数据定义表时,会同时考虑数据兼容性和架构相似性。选中此复选框,可将所提供的包含路径下的所有S3对象中的兼容架构分组为一个表定义。仍将考虑其他标准来确定适当的分组。

在粘合搜寻器控制台中选中此选项。它将创建500多个表

相关问题