Question

我有一个csv文件集合，可以使用pyspark-sql进行读取，过滤和写入。我想记录有关为监视目的而处理的数据量的信息。

我尝试使用累加器来执行此操作，但是将计数插入正确的位置非常棘手。使用SparkListeners似乎是错误的（内部API，并且pyspark对此非常有用）。但是该信息在Spark-UI上可用？！？大概执行者可以在存在之前通过rest API进行查询，但这也很奇怪。

df = sqlContext.read.csv("/path/xyz-20190131*.csv")
filtered = df.filter(some_filter_function)
res = filtered.write.partitionBy(["year", "month", date"]).parquet("/path/parquet/)
print res
None

理想情况下，我希望镶木地板功能返回一个类似于Spark-UI中呈现的工作统计数据结构。

（py）spark-sql关于已处理文件/记录的统计信息？

0 个答案: