如何将压缩文件加载到BigQuery中

时间:2014-06-10 01:08:56

标签: google-bigquery

我想将http://dumps.wikimedia.org/other/pagecounts-raw/的维基百科综合浏览量上传到BigQuery,这是最快的方式吗?

1 个答案:

答案 0 :(得分:5)

这是一个经典的演示,我展示了如何轻松地将数据加载到BigQuery中。

要从维基百科获取一小时的综合浏览量,只需输入文件:

wget http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-06/pagecounts-20140602-180000.gz

然后将其加载到BigQuery中(应该花费更少或大约5分钟):

bq load -F" " --quote "" fh-bigquery:wikipedia.pagecounts_20140602-18 pagecounts-20140602-180000.gz language,title,requests:integer,content_size:integer

请注意,此文件的压缩大小约为100MB(gz),您无需解压缩此大小的文件以将其加载到BigQuery中。它包含大约800万行每小时的综合浏览量。

  • -F" ":此文件由空格分隔,而不是逗号
  • --quote "":此文件不使用字符串引号
  • language,title,requests:integer,content_size:integer:列。默认情况下,所有内容都以字符串形式加载,除非我们将其明确地转换为其他类型(在本例中为整数)。

(需要先前安装bq tool

我将此数据集设为公开,您可以在https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_20140602_18找到此表。

我还将所有八月份的综合浏览量保留在https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.wikipedia_views_201308(如果您SELECT SUM(requests) FROM [fh-bigquery:wikipedia.wikipedia_views_201308],则会有53亿次综合浏览量。

相关问题