apache-spark - AWS Glue 数据目录和 Spark 更新分区等

我了解到 Glue 数据目录需要一个爬网程序来运行以查看任何新分区，或使用 AWS Glue ETL 的新 enableUpdateCatalog 功能。

然而，如果

在 EMR 上运行原生 Spark 作业并选择 Glue 数据目录作为 Spark 持久性 MetaStore，然后，
- 我假设如果您已将分区添加到 Spark 表，
  - AWS Glue 数据目录将自动更新。

这就是我想要确认的。如果没有的话看起来很奇怪，但是......

<块引用>

来自手册：

AWS Glue 提供了多种将元数据填充到 AWS 中的方法 AWS Glue 数据目录。 AWS Glue 爬网程序扫描您的各种数据存储拥有自动推断模式和分区结构和使用相应的表填充 AWS AWS Glue 数据目录定义和统计。您还可以安排爬虫运行定期更新，以便您的元数据始终保持最新和同步与基础数据。或者，您可以添加和更新表使用 AWS Glue 控制台或调用 API 手动获取详细信息。您还可以通过 Amazon Athena 控制台运行 Hive DDL 语句或 Amazon EMR 集群上的 Hive 客户端。最后，如果你已经有了持久的 Apache Hive Metastore，您可以执行批量导入使用我们的导入将该元数据导入 AWS AWS Glue 数据目录脚本。

我假设 EMR 上的 Spark 将使用该 API。

AWS Glue 数据目录和 Spark 更新分区等

1 个答案: