如何附加ORC文件

时间:2015-09-03 12:11:07

标签: java hadoop hive orc

我们需要appednd ORC文件。我试着谷歌但没有结果。 org.apache.hadoop.hive.ql.io.orc.WriterImpl的{​​{1}}也没有附加API。无论如何都要附加ORC文件? (更具体地说,使用JAVA)

1 个答案:

答案 0 :(得分:4)

ORC数据文件细分为独立的条带;每个条带都在一个原子步骤中创建。有关详细信息,请参阅the official documentation

我不相信您可以直接附加到现有文件中。这意味着在写作时发生作业崩溃时会留下一个损坏的条带(因此是一个损坏的文件)。

但你可以

  • 创建一个新的ORC数据文件(包含1..N条带取决于 每个reducer的实际数据量与orc.stripe.size属性的关系
  • 然后使用Hive V0.14 and above
  • “连接”这些数据文件 - 和现有文件