读取大量小文件时Apache Spark Orc的读取性能

时间:2018-10-31 16:59:07

标签: apache-spark apache-spark-sql apache-spark-2.2

从目录下的HDFS读取大量orc文件时,spark会在一段时间内不会启动任何任务,并且在这段时间内我看不到任何任务在运行。我正在使用以下命令读取orc和spark.sql配置。

发出spark.read.orc时,引擎盖下的火花在做什么?

spark.read.schema(schame1).orc("hdfs://test1").filter("date >= 20181001")
"spark.sql.orc.enabled": "true",
"spark.sql.orc.filterPushdown": "true

我也没有直接读取orc文件,而是尝试在同一数据集上运行Hive查询。但是我无法推送过滤谓词。我应该在哪里设置以下配置     "hive.optimize.ppd":"true",     "hive.optimize.ppd.storage":"true"

建议从HDFS读取orc文件和调整参数的最佳方法是什么?

0 个答案:

没有答案