Polybase:将数据从外部表加载到根blob文件夹以获取特定日期/时间范围

时间:2018-01-19 15:06:04

标签: azure azure-sqldw polybase

我在blob存储帐户中有数据,该帐户按以下结构组织:

/日志/ YYYY / MM / DD / HH

假设有几年的数据,我想将特定时间段(或时间段)的数据提取到Azure数据仓库表中。

以下内容在Polybase如何检索数据方面有何不同:

1)创建表作为从外部表中选择指向根文件夹(/ logs)的一个where子句,该子句考虑特定时间值的值范围(例如x和y之间的时间戳)。

2)来自UNION外部表的CTAS,它指向构成我想要的特定时间段的各个文件夹。

我认为2)上面会更快,因为Polybase不必查看任何不需要的文件夹?它是否正确?

如果是这样,有没有办法从指向根文件夹的外部表中进行选择,但在某种程度上只选择特定时间段内的文件?

也许有一些文件可以解释这个?

1 个答案:

答案 0 :(得分:3)

是的,你是对的。

1将引入所有数据,然后在SQL DW中应用where子句。

2会更快,因为它只会带来单个文件夹中的数据。

目前,PolyBase外部表不能识别文件夹/文件/分区,以便能够根据过滤条款跳过。