我在blob存储帐户中有数据,该帐户按以下结构组织:
/日志/ YYYY / MM / DD / HH
假设有几年的数据,我想将特定时间段(或时间段)的数据提取到Azure数据仓库表中。
以下内容在Polybase如何检索数据方面有何不同:
1)创建表作为从外部表中选择指向根文件夹(/ logs)的一个where子句,该子句考虑特定时间值的值范围(例如x和y之间的时间戳)。
2)来自UNION外部表的CTAS,它指向构成我想要的特定时间段的各个文件夹。
我认为2)上面会更快,因为Polybase不必查看任何不需要的文件夹?它是否正确?
如果是这样,有没有办法从指向根文件夹的外部表中进行选择,但在某种程度上只选择特定时间段内的文件?
也许有一些文件可以解释这个?
答案 0 :(得分:3)
是的,你是对的。
目前,PolyBase外部表不能识别文件夹/文件/分区,以便能够根据过滤条款跳过。