将文件从GCS加载到BigQuery - 最好的方法是什么?

时间:2016-12-22 19:31:21

标签: google-bigquery google-cloud-storage

我需要在bigquery表中加载大约100万行。我的方法是将数据写入云存储,然后使用load api一次加载多个文件。 最有效的方法是什么?我可以将写入并行化为gcs部分。当我调用load api时,我传入所有的uris,所以我只需要调用一次。我不确定这种加载是如何在后端进行的。如果我传入多个文件名,这个加载会在多个进程中运行吗?如何确定每个文件的大小以获得最佳性能? 感谢

1 个答案:

答案 0 :(得分:3)

将所有百万行放在一个文件中。如果文件未压缩,BigQuery可以与许多工作者并行读取它。

来自https://cloud.google.com/bigquery/quota-policy

  • BigQuery可以读取高达4GB的压缩文件(.gz)。

  • BigQuery可以读取高达5000GB的未压缩文件(.csv,.json,...)。 BigQuery会想出如何并行阅读它 - 你不必担心。