将ORC文件转换为Parquet文件

时间:2018-02-21 03:43:37

标签: hadoop apache-spark parquet orc

是否有任何已知的库/方法将ORC文件转换为Parquet文件?否则我想使用Spark将ORC导入数据帧然后输出到镶木地板文件

2 个答案:

答案 0 :(得分:0)

这样做的一种方法是:

步骤1)首先,您需要从ORC表创建一个表,其中"存储为文本" 步骤2)其次,您可以从以前的输出创建一个表格作为"存储为Parquet" 步骤3)之后你可以删除中间表。

答案 1 :(得分:0)

您提到使用Spark读取ORC文件,创建DataFrames然后将这些DF存储为Parquet文件。这是一种非常有效且非常有效的方法!

另外,根据您的偏好,也可以根据您的使用情况,您可以使用Hive或Pig [可能是您可以在这里使用Tez以获得更好的性能]或Java MapReduce甚至是NiFi / StreamSets [取决于您的发行版] 。这是一个非常简单的实现,你可以做任何最适合你的[或者你最满意的事情:]]