apache-spark - 读取大量小文件时Apache Spark Orc的读取性能

从目录下的HDFS读取大量orc文件时，spark会在一段时间内不会启动任何任务，并且在这段时间内我看不到任何任务在运行。我正在使用以下命令读取orc和spark.sql配置。

发出spark.read.orc时，引擎盖下的火花在做什么？

spark.read.schema(schame1).orc("hdfs://test1").filter("date >= 20181001")
"spark.sql.orc.enabled": "true",
"spark.sql.orc.filterPushdown": "true

我也没有直接读取orc文件，而是尝试在同一数据集上运行Hive查询。但是我无法推送过滤谓词。我应该在哪里设置以下配置 "hive.optimize.ppd":"true", "hive.optimize.ppd.storage":"true"

建议从HDFS读取orc文件和调整参数的最佳方法是什么？