如何将文本文件保存到spark中的orc

时间:2017-07-10 18:30:48

标签: apache-spark pyspark

我是新来的火花,我试图将我的文本文件保存到orc使用spark-shell是他们的任何方式吗?

vall data =sc.textFile("/yyy/yyy/yyy")
data.saveAsOrcFile("/yyy/yyy/yyy")

1 个答案:

答案 0 :(得分:2)

您可以将RDD转换为DataFrame,然后保存。

data.toDF().write.format("orc").save("/path/to/save/file")

要读回来,请使用sqlContext

import org.apache.spark.sql._
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

val data = sqlContext.read.format("orc").load("/path/to/file/*")