AWS胶水增量载荷关系数据库

时间:2019-01-23 03:44:57

标签: aws-glue

我正在使用AWS Glue ETL将数据从Amazon RDS(Aurora数据库)加载到Redshift。但是我不知道如何进行增量加载(upsert)?从源数据库读取数据时,是否有办法在日期上创建过滤器/参数,以便仅将新的/更改的记录加载到Redshift?

我看到S3源可与AWS书签一起使用,但是在关系数据库的情况下可以选择什么。非常感谢您的建议!谢谢!

1 个答案:

答案 0 :(得分:0)

我已将mysql连接器用作上传到S3的外部zip文件,并在我的AWS Glue python中用于嵌入Mysql查询并运行INSERT INTO表...在DUPLICATE KEY上进行对RDS Aurora的更新操作。如果使用的是Mysql,则可以根据where子句遵循相同的规则来过滤结果集。请参考此链接:

  

Error while using INSERT INTO table ON DUPLICATE KEY, using a for loop array