gzip文件会在DataLake Analytics中使用多个AU吗?

时间:2017-11-29 00:20:32

标签: azure azure-data-lake u-sql

在EXTRACT文档中,为gzip文件(我们正在使用)提供了(非常棒的)自动魔术支持。

但我应该假设它不会使用多个AU吗?好像我理解正确,文件需要"可拆分"分散在澳大利亚各地?

或者它会在一次性提取时分散到AU&和/或gziped文件是否有一个索引来指示它们可以以某种方式分割?

或者我可能会用AU混淆顶点概念?

1 个答案:

答案 0 :(得分:1)

这是一个很好的问题:)。

通常,如果文件格式是可拆分的(例如,基本上是面向行的,行的行数小于行大小限制,当前为4MB),那么大文件将被拆分为每个顶点1GB。

但是,GZip本身不是可拆分格式。因此,我们不能在解压缩期间拆分GZip文件,并且我们最终也不会拆分解压缩文件的处理(当前框架不提供此功能)。因此,我们将GZip文件的大小限制为4GB。如果您希望使用GZip文件进行扩展,我们建议将数据拆分为多个GZip文件,然后使用文件集来扩展处理。

相关问题