Spark和Postgres - 如何以分区方式读取大表?

时间:2017-05-17 15:25:09

标签: postgresql apache-spark

我正在寻找解决此问题的建议:

  • 使用JDBC驱动程序的并行查询
  • 大(成排)Postgres表
  • 没有数字列可用作partitionColumn

我想使用多个并行查询来读取这个大表,但是没有明显的数字列来对表进行分区。我虽然关于使用CTID的数据的物理位置,但我不确定我是否应该遵循这条道路。

1 个答案:

答案 0 :(得分:0)

spark-postgres库提供了几个用于读取/加载postgres数据的功能。它在后台使用COPY语句。结果,它可以处理大型postgres表。

相关问题