使用Python脚本加载Redshift数据

时间:2020-04-22 10:56:49

标签: python-3.x pandas pyspark amazon-redshift

我必须将数百万条记录加载到redshift DB中(这是必须的),最有效/最快的方法是什么?现在,我正在创建一个字典,在其中存储大块行,这些行被强制转换为字符串,以便可以将它们放在查询字符串中,然后使用Pandas:

send_key ctrl+shift+c

由于具有动态信息,因此每次都会从头开始创建表。

是否适合使用Pyspark(如果可能)或并行模块?在这种情况下,该怎么办?谢谢,问候。

1 个答案:

答案 0 :(得分:2)

您有几种选择,但是将插件分批处理不是很好!

我的最爱:

  • 选项1-Python-> S3 CSV->使用Redshift COPY命令进行Redshift
  • 选项2-Python-> S3 PARQUET->使用Redshift Spectrum的Redshift

您的选择将取决于您所考虑的用例。

相关问题