如何获取DataFrameWriter写入的分区数

时间:2017-10-10 17:11:51

标签: apache-spark apache-spark-sql spark-dataframe

假设我们在Spark中有以下代码:

dataset.write.partitionBy("c1", "c2", "c3").parquet("myDir")

我在SO上看到了几个主题,解释了如何在parquet方法完成后获取文件或记录的数量。但是,我想要访问的是创建的分区目录的名称,即目录的数量myDir/c1=XX/c2=YY/c3=ZZ,其中XX,YY和ZZ是与域相关的值。

我需要这些目录名的一个原因是在ETL过程之后执行数据完整性检查,并且需要知道在ETL期间创建了哪些目录(比如我的用例中的3-4个目录)。 / p>

有没有人知道是否有办法检索此信息(在Spark API级别)?

0 个答案:

没有答案