BigQuery

时间:2016-10-06 15:10:21

标签: google-bigquery

我试图将一些记录批量加载到BigQuery,但是上传甚至数千条记录需要很长时间。

我使用以下命令加载gzip压缩的JSON文件。该文件有~2k行,每行约200列:

./bin/bq load --project_id=my-project-id --source_format=NEWLINE_DELIMITED_JSON dataset.table /tmp/file.json.gz
Waiting on bqjob_r3a269dd7388c7b8e_000001579a6e064f_1 ... (50s)
Current status: DONE 

此命令需要约50秒才能加载记录。由于我想加载至少100万条记录,这需要大约7个小时,这对于一个应该处理数PB数据的工具来说似乎太多了。

是否有可能加快这个过程?

1 个答案:

答案 0 :(得分:1)

尝试使用--nosync标志。这将启动一个基于bigQuery的异步作业,发现它具有更好的性能。

最好,我建议将file.json.gz存储在Google云端存储中。

./bin/bq load --nosync