从同一dataFrame Pyspark

时间:2017-11-03 10:40:16

标签: pyspark spark-dataframe

我有一个Pyspark数据框df,如下所示:

+---+----+---+
| id|name|  c|
+---+----+---+
|  1|   a|  5|
|  2|   b|  4|
|  3|   c|  2|
|  4|   d|  3|
|  5|   e|  1|
+---+----+---+

我想添加一个match_name列的nameid == c

是否可以使用函数withColumn()执行此操作?

目前我必须创建两个数据帧,然后执行连接。 这对大型数据集来说效率低下。

预期产出:

+---+----+---+----------+
| id|name|  c|match_name|
+---+----+---+----------+
|  1|   a|  5|         e|
|  2|   b|  4|         d|
|  3|   c|  2|         b|
|  4|   d|  3|         c|
|  5|   e|  1|         a|
+---+----+---+----------+

1 个答案:

答案 0 :(得分:1)

是的,可以使用when

<div class="backgrounds">
    <img src="http://via.placeholder.com/350x150" data-bkg="plains-bkg">
    <img src="http://via.placeholder.com/350x150" data-bkg="island-bkg">
    <img src="http://via.placeholder.com/350x150" data-bkg="mountain-bkg">
    <img src="http://via.placeholder.com/350x150" data-bkg="forest-bkg">
    <img src="http://via.placeholder.com/350x150" data-bkg="swamp-bkg">
</div>

如果不符合条件,您也可以使用otherwise提供不同的值。

相关问题