Question

我正在使用2个数据帧，让我们说＆＃39; df1＆＃39;和＆＃39; df2＆＃39;，这是下一种：

DF1：

+--------+--------+
|  Col1  |  Col2  |
+--------+--------+
|  'A'   |  1     |
+--------+--------+
|  'B'   |  2     |
+--------+--------+
|  'C'   |  3     |
+--------+--------+

DF2：

+--------+--------+
|  Col1  |  Col2  |
+--------+--------+
|  'A'   |  -     |
+--------+--------+
|  'B'   |  -     |
+--------+--------+
|  'B'   |  -     |
+--------+--------+

我想要做的是更新列＆＃39; Col2＆＃39; ＆＃39; df2＆＃39;考虑到＆＃39; df1＆＃39;的值。我的意思是，我想设置＆＃39; df2＆＃39;的值。＆＃39; col2的＆＃39;值为＆＃39; df1＆＃39; COL2＆＃39;根据参考文献＆＃39; Col1＆＃39;。

结果数据框＆＃39; df2＆＃39;应该是：

+--------+--------+
|  Col1  |  Col2  |
+--------+--------+
|  'A'   |  1     |
+--------+--------+
|  'B'   |  2     |
+--------+--------+
|  'B'   |  2     |
+--------+--------+

如何使用pyspark数据帧进行操作？

Answer 1

一个简单的左连接应该这样做，

df2.join(df1,df1.col1==df2.col1,'left')

如何根据与其他数据框列的相似性更新Pyspark数据框的列？

1 个答案: