amazon-web-services - AWS Glue爬网程序做什么

时间：2018-12-04 08:32:48

标签： amazon-web-services aws-glue

我已阅读过以下内容的AWS胶水文档：https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html，但我仍不清楚Glue搜寻器的确切用途。抓取工具是否会遍历您的S3存储桶，并创建指向这些存储桶的指针？

当文档说“搜寻器的输出由您的数据目录中定义的一个或多个元数据表组成”时，这些元数据表的目的是什么？

答案 0 :(得分：1)

CRAWLER创建允许GLUE和诸如ATHENA之类的服务将S3信息作为具有表的数据库查看的元数据。也就是说，它允许您创建胶水目录。

这样，您可以看到s3作为由多个表组成的数据库的信息。

例如，如果要创建搜寻器，则必须指定以下字段：

数据库->数据库名称服务角色service-role / AWSGlueServiceRole 选定的分类器->指定分类器包含路径-> S3位置

答案 1 :(得分：1)

需要抓取工具来分析指定s3位置中的数据并生成/更新Glue数据目录，该目录基本上是实际数据的元存储（类似于Hive metastore）。换句话说，它保留了有关数据物理位置，模式，格式和分区的信息，这使得可以通过Athena查询实际数据或将其加载到Glue作业中。

我建议您阅读this文档，以更好地了解Glue爬虫，当然还要做一些实验。