Question

我想知道Google BigQuery目前是否支持Parquet file format，或者是否有计划支持它？

我知道它目前支持CSV和JSON格式。

Answer 1

** 自2018年3月1日起，可以获得对loading Parquet 1.0 files的支持。

在BigQuery CLI中，有--source_format PARQUET选项，在bq --help的输出中有描述。

我从来没有使用它，因为当我尝试使用此功能时，它仍然只是邀请，我没有请求邀请。

我的用例是Parquet文件的大小是Avro文件的一半。我想尝试新的东西并有效地上传数据（按此顺序）。

% bq load --source_format PARQUET test.test3 data.avro.parquet schema.json 
Upload complete.
Waiting on bqjob_r5b8a2b16d964eef7_0000015b0690a06a_1 ... (0s) Current 
status: DONE   
[...]

Answer 2

此时BigQuery不支持Parquet文件格式。但是，我们有兴趣了解有关您的用例的更多信息 - 您是对进口，出口还是两者都感兴趣？你打算如何使用它？更好地理解场景将有助于BigQuery团队相应地进行规划。

Answer 3

如果要在BigQuery和Hadoop之间共享文件格式，可以使用换行符分隔的JSON记录。

BigQuery支持导入和导出。

Hadoop也支持这一点。搜索互联网会发现许多点击显示使其工作的配方。这是一个：Processing JSON using java Mapreduce

Answer 4

当你处理数亿行并需要将数据移动到内部部署的Hadoop集群时，这就是从bigQuery导出，json只是不可行的选择，avro不是更好，是今天唯一有效的选择对于这样的数据移动是gz，遗憾的是不能在Hadoop中本地读取，Larquet是这个用例的唯一有效方式，我们没有任何其他有效选项

Answer 5

示例（此处是 part-* 的秘密调味料）：

bq load --source_format=PARQUET --replace=true abc.def gs://abc/def/part-*

Google BigQuery是否支持Parquet文件格式？

5 个答案: