过滤后如何重新分区数据帧?火花

时间:2021-05-12 08:09:50

标签: apache-spark pyspark apache-spark-sql

我有以下代码:

plotOptions: {
  bubble: {
    minSize: '1%',
    maxSize: '20%',
    dataLabels : {
      style: {
        color: 'contrast',
        textOutline: 'none'
      }
    }
  },
  series: {
    dataLabels: {
      enabled: true,
      format: '{point.name}',
      
    },
    animation: false
  }
},

过滤器之前的 Df 有 500M 行,过滤器之后它有 10M 行。
我知道在这种情况下重新分区可以提高性能,因为数据大小发生了巨大变化,而分区数保持不变。
我的问题是如何选择要重新分区的列?
我有所有值之间唯一的键列和不明显的类别列
我应该制作 df = df.where(df.count>5) 吗? (key 在 10M 中有 10M 个不同的值)
我应该做 df.repartition("key") 吗? (类别在 10M 中有 200k 个不同的值)

0 个答案:

没有答案
相关问题