使用AWS Glue进行数据处理

时间:2019-03-25 09:55:18

标签: bigdata aws-glue

我正在尝试使用pySpark AWS Glue进行数据处理/数据清理。数据为CSV格式,并保存在S3中。数据大约有7k列和7k行。 清理是另一个CSV中的一组规则,需要遍历每个规则并根据条件查询数据框,并根据操作更新数据。

我将数据加载到数据帧中,并且清理需要3个多小时。

我如何提高性能?我如何并行进行清洁?在普通的python中,我可以将数据划分为多个块,并为块并行应用清理规则。

请建议AWS Glue是否适合于此。

问候 MaX

0 个答案:

没有答案
相关问题