如何根据与其他数据框列的相似性更新Pyspark数据框的列?

时间:2018-03-21 10:54:41

标签: python pandas dataframe pyspark similarity

我正在使用2个数据帧,让我们说' df1'和' df2',这是下一种:

DF1:

+--------+--------+
|  Col1  |  Col2  |
+--------+--------+
|  'A'   |  1     |
+--------+--------+
|  'B'   |  2     |
+--------+--------+
|  'C'   |  3     |
+--------+--------+

DF2:

+--------+--------+
|  Col1  |  Col2  |
+--------+--------+
|  'A'   |  -     |
+--------+--------+
|  'B'   |  -     |
+--------+--------+
|  'B'   |  -     |
+--------+--------+

我想要做的是更新列' Col2' ' df2'考虑到' df1'的值。我的意思是,我想设置' df2'的值。 ' col2的'值为' df1' COL2'根据参考文献' Col1'。

结果数据框' df2'应该是:

+--------+--------+
|  Col1  |  Col2  |
+--------+--------+
|  'A'   |  1     |
+--------+--------+
|  'B'   |  2     |
+--------+--------+
|  'B'   |  2     |
+--------+--------+

如何使用pyspark数据帧进行操作?

1 个答案:

答案 0 :(得分:0)

一个简单的左连接应该这样做,

df2.join(df1,df1.col1==df2.col1,'left')