火花生成的ORC文件中条纹大小不一致

时间:2017-01-25 12:46:23

标签: java hadoop apache-spark hive orc

我们正在使用Spark 1.6(Cloudera 5.8.2)。我们使用下面的命令来生成ORC输出。

dataframe.write().format("orc").save("spark_orc_output");

在其中一个输出文件中,我们运行了hive --orcfiledump。它显示该输出文件中有196个Stripes。每个条带的数据大小在19KB到19MB之间。

根据我们的理解,条带大小由某些属性(orc.stripe.size,hive.exec.orc.default.stripe.size)驱动,这是应用程序中的常量。 所以,

  1. 为什么我们会看到数据大小的这种变化?

  2. Spark ORC中的默认条带大小是什么?

  3. enter image description here

0 个答案:

没有答案