Spark读取实木复合地板压缩数据

时间:2019-07-22 08:14:27

标签: apache-spark pyspark parquet

我已经将嵌套的JSON转换为Parquet(快照),而没有进行任何展平。例如,该结构具有以下内容:

{“ a”:{“ b”:{“ c”:“ abcd”,“ d”:[1,2,3]},“ e”:[“ asdf”,“ pqrs”]}}}

df = spark.read.parquet('<File on AWS S3>')

df.createOrReplaceTempView("test")
query = """select a.b.c from test"""
df = spark.sql(query)
df.show()

执行查询时,Spark是否只读取查询中引用的最低级别属性列,还是读取其层次结构中具有此引用属性的顶级属性?

0 个答案:

没有答案