加载Bigquery表时出现内部错误

时间:2016-01-27 00:46:48

标签: google-bigquery

使用bq load加载带有1000万条记录的1.3Gb json文件时出现此类错误--source_format = NEWLINE_DELIMITED_JSON

如果我只将前100万条记录放入一个单独的文件中,它会正常加载,但是当我尝试在完整文件上运行时,我会得到这个:

  

当前状态:待定
  在加载操作中等待bqjob_r6ac3e4 BigQuery错误:错误   处理工作   'my-project-prod:bqjob_r6ac3e4da72b48e4f_000001528037b394_1':太多了   遇到错误。限制是:0。失败详情:    - 文件:0:发生内部错误,无法完成请求。

我已经能够加载其他大型表,但是当我去加载这个时总是会出现这个错误。有没有办法解决这个问题,除了将文件分成越来越小的部分以试图找到有问题的行?

(类似于Internal error while loading to Bigquery table

3 个答案:

答案 0 :(得分:3)

查看我们关于你的工作的日志bqjob_r6ac3e4da72b48e4f_000001528037b394_1,好像我们无法读取第一个文件(也许是其他文件,但它抱怨第一个文件)。

文件是否被压缩?当文件被压缩得有些不正确时,我们在过去看到过类似的错误。

当然可能是其他问题。但我现在没有足够的信息。如果您可以与我们分享其他失败的工作ID,将会很有帮助。如果那些导入作业与文件0一致失败,我可以帮助您检查我们的后端。谢谢!

答案 1 :(得分:0)

如果您在BigQuery的Web UI中找到工作,它应该会向您显示前五个错误。这些可能有用也可能没用。

此外,您可以将允许的最大错误记录数设置为非常高的数字(10,000,000)。这样,只会跳过违规行,您可以尝试通过检查结果来识别它们。 (在Java api中,这是方法JobConfigurationLoad.setMaxBadRecords(int),如果您使用命令行,则它是--max_bad_records=int选项。

答案 2 :(得分:0)

根据链接: https://cloud.google.com/bigquery/docs/loading-data#limitations

当前,当您将数据加载到BigQuery中时,gzip是唯一的 CSV和JSON文件支持的文件压缩类型。

正如您提到的那样,您尝试加载bzip(不支持的格式)时,可能会收到错误消息。尝试解压缩文件并加载它,可能会有所帮助。