是否有用于针对API运行脚本的AWS服务。保存收到的数据

时间:2018-06-03 17:45:51

标签: amazon-web-services etl

我在AWS环境中工作,我需要执行以下[编辑]作为日常计划任务[/编辑]:

  1. 运行python / http脚本多次调用外部(AWS外部)API。
  2. 将每个调用的输出保存为CSV
  3. 将多个CSV转储到Redshift数据库中。
  4. 我查看了AWS Glue,但我认为我无法在其中迈出第一步。您会建议使用哪种工作流程或工具组合?

2 个答案:

答案 0 :(得分:1)

  1. 使用EC2点击API并存储CSV
  2. 使用boto3库将这些库上传到S3
  3. 使用COPY命令将S3中的数据加载到Redshift中(迄今为止最快的方式)

答案 1 :(得分:1)

您可以编写Lambda function with scheduled events来抓取API。

与配置EC2实例相比,使用Lambda最有可能更便宜,因为您的工作不耗时且数据量较少。

如果您希望仍然使用EC2实例,您可以将Lambda计划事件用于start and stop the EC2 instance(或者,一旦作业完成,EC2实例本身就可以关闭。)

相关问题