_spark_metadata导致问题

时间:2018-11-26 10:54:58

标签: scala apache-spark spark-streaming

我在Scala中使用Spark,并且我有一个目录,其中有多个文件。

在此目录中,我有Spark生成的Parquet文件和Spark Streaming生成的其他文件。

Spark流式传输将生成目录 _spark_metadata

我面临的问题是,当我用Spark(sparksession.read.load)读取目录时,它仅读取Spark流式传输生成的数据,就像其他数据不存在一样。

有人知道如何解决此问题,我认为应该有一个属性来强制Spark忽略 spark_metadata 目录。

谢谢您的帮助

1 个答案:

答案 0 :(得分:0)

我有同样的问题(Spark 2.4.0),我知道的唯一方法是使用遮罩/图案加载文件,类似这样

sparksession.read.format("parquet").load("/path/*.parquet")

据我所知有no way to ignore this directory。如果存在,Spark会考虑。