分区表中未分区的旧行

时间:2019-01-09 10:08:53

标签: google-bigquery

我正在使用BigQuery分区表。分区基于数据中的Timestamp列(而不是基于接收)。我们正在以每天几百万行的速度将数据流式传输到该表中。

我们注意到,基于特定日期的查询所扫描的数据比分区表中的数据要多得多。

这是UNPARTITIONED分区的当前状态:

Current state of the UNPARTITIONED partition

我假设右下角的小斑点是正常的(今天早晨插入行的流缓冲区),但是在11月中旬到12月初之间有大量的数据块驻留在UNPARTITIONED分区中,而不是发送到适当的每日分区(该时段的分区似乎在__PARTITIONS_SUMMARY__中根本不存在)。

我的两个问题是:

  • 有没有特定的原因为什么这些行没有被正确地分区,而这段时间之前和之后的数据还可以呢?

  • 是否可以“刷新” UNPARTITIONED分区,即强制BigQuery将行分派到正确的每日分区?

1 个答案:

答案 0 :(得分:0)

我遇到了类似的问题,在基于列的分区表中许多行未分区。因此,我观察到由于流插入的来源,某些记录未分区。对于灵魂精神,我使用更新来更新表并设置一个分区日期,其中分区列的日期为null。为了安全起见,请确保分区日期列不应为空。

相关问题