spark sql是否在所有分区上都有效?

时间:2017-10-18 21:12:20

标签: apache-spark pyspark apache-spark-sql

我无法找到确认"从表格中选择不同列的任何来源"在火花数据框上可以找到数据框的所有分区中所有记录的不同值。我知道的方式是,spark基于哈希值对数据进行洗牌,然后在必须执行不同查询时删除冗余记录。但它是否多次这样做以确保删除所有重复项?

有人可以确认Distinct查询跨分区而不仅仅是在分区级别上工作吗?

0 个答案:

没有答案