python - 使用Column Pyspark优化多个 - Thinbug

使用Column Pyspark优化多个

时间：2019-05-09 16:45:35

标签： python pyspark

根据某些条件，我必须向PySpark数据框添加多个列。长话短说，代码看起来像这个愚蠢的例子：

for col in df.columns:
    df = df.withColumn('{}_without_otliers'.format(col), F.lit(1))

问题是，当我没有那么多列（例如15或20）时，它的性能很好，但是当我有100列时，火花花了很长时间才能开始工作，而DAG看起来很大。我该如何优化呢？有什么方法可以“强制”执行每10列的操作？

0 个答案:

没有答案