我正在使用2个数据帧,让我们说' df1'和' df2',这是下一种:
DF1:
+--------+--------+
| Col1 | Col2 |
+--------+--------+
| 'A' | 1 |
+--------+--------+
| 'B' | 2 |
+--------+--------+
| 'C' | 3 |
+--------+--------+
DF2:
+--------+--------+
| Col1 | Col2 |
+--------+--------+
| 'A' | - |
+--------+--------+
| 'B' | - |
+--------+--------+
| 'B' | - |
+--------+--------+
我想要做的是更新列' Col2' ' df2'考虑到' df1'的值。我的意思是,我想设置' df2'的值。 ' col2的'值为' df1' COL2'根据参考文献' Col1'。
结果数据框' df2'应该是:
+--------+--------+
| Col1 | Col2 |
+--------+--------+
| 'A' | 1 |
+--------+--------+
| 'B' | 2 |
+--------+--------+
| 'B' | 2 |
+--------+--------+
如何使用pyspark数据帧进行操作?
答案 0 :(得分:0)
一个简单的左连接应该这样做,
df2.join(df1,df1.col1==df2.col1,'left')