AWS GLUE数据导入问题

时间:2017-11-28 21:24:16

标签: amazon-web-services aws-glue

有一个excel文件testFile.xlsx,如下所示:

ID  ENTITY  STATE
1   Montgomery County Muni Utility Dist No.39   TX
2   State of Washington WA
3   Waterloo CUSD 5 IL
4   Staunton CUSD 6 IL
5   Berea City SD   OH
6   City of Coshocton   OH

现在,我想将数据导入AWS GLUE数据库,已创建AWS GLUE中的爬网程序,运行爬网程序后,AWS GLUE数据库中的表中没有任何内容。我想这应该是AWS GLUE中的分类器问题,但是不知道如何创建一个合适的分类器来成功地将excel文件中的数据导入AWS GLUE数据库。感谢您的任何答案或建议。

3 个答案:

答案 0 :(得分:1)

胶搜寻器不支持MS Excel文件。 如果要为excel文件创建表,则必须先将其从excel转换为csv / json / parquet,然后在新创建的文件上运行搜寻器。

您可以使用熊猫轻松地将其转换。 创建一个普通的python作业并读取excel文件。

import pandas as pd
df = pd.read_excel('yourFile.xlsx', 'SheetName', dtype=str, index_col=None)
df.to_csv('yourFile.csv', encoding='utf-8', index=False)

这会将您的文件转换为csv,然后在此文件上运行搜寻器,然后将加载您的表。

希望有帮助。

答案 1 :(得分:0)

当你说“在运行抓取工具后,AWS Glue数据库的表格中没有任何内容”你是说在Glue UI中,你点击数据库,然后点击数据库名称,然后点击“xxx中的表格”,什么都没有出现?

您问题的第二部分似乎表明您正在寻找Glue将文件的实际数据行导入Glue数据库。那是对的吗? Glue数据库不存储数据行,只存储有关文件的架构信息。您将需要使用Glue ETL作业或Athena或hive来实际将数据从数据文件移动到类似mySQL的内容。

答案 2 :(得分:0)

您应该编写脚本(最有可能是使用胶水的python shell作业)将excel转换为csv,然后在其上运行搜寻器。