Bigquery 分区表比全表花费更多时间(没有时间改进!)

时间:2021-02-24 04:28:57

标签: google-bigquery bigdata

使用 StackOverflow 公共数据集我在一个完整的表上运行我的查询,它花了 1 分 29 秒(见附图)

SELECT * from `bigquery-public-data.stackoverflow.stackoverflow_posts` 
WHERE creation_date between "2011-01-01 00:00:00 UTC" and "2011-03-31 23:59:59 UTC"

enter image description here

我使用 creation_time 对数据集进行分区

CREATE TABLE `ml-demo-304017.stackoverflow.questions_partitioned`
PARTITION BY Date(creation_date) AS 
(SELECT * FROM `bigquery-public-data.stackoverflow.stackoverflow_posts`)

分区后,我尝试在分区表上运行相同的查询(见下图),耗时 1 分 41 秒

#get data between 01-01-2017 and 31-03-2017 using the partitioned table. (Check how much data will be processed)
SELECT * from `ml-demo-304017.stackoverflow.questions_partitioned`
WHERE creation_date between "2011-01-01 00:00:00 UTC" and "2011-03-31 23:59:59 UTC"

enter image description here

谁能解释为什么即使第二次处理的数据(638.5GB)与完整数据(29.4GB)相比如此小,为什么会发生这种情况?

0 个答案:

没有答案
相关问题