如何使用pyspark来读取orc文件

时间:2017-07-03 09:28:34

标签: apache-spark pyspark pyspark-sql

spark有两种类型的压缩文件格式。一个是实木复合地板,它很容易阅读:

from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
hiveCtx.parquetFile(parquetFile)

但是对于ocr文件。我找不到一个很好的例子来告诉我如何使用pyspark来阅读。

1 个答案:

答案 0 :(得分:1)

嗯,有两种方法:

Spark 2.x

orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')

Spark 1.6

df = hiveContext.read.orc('python/test_support/sql/orc_partitioned')