在PySpark数据框中添加具有不同长度的列作为新列

时间:2017-09-26 11:07:05

标签: python pyspark pyspark-sql

我有这个数据帧,我将调用DF1:

enter image description here

我有第二个数据帧DF2(只有3行):

enter image description here

我想在DF1中创建一个新列我将调用total_population_by_year1,其中:

total_population_by_year1 =(DF2的内容,如果年份DF1 ==年DF2) 换句话说,新的列行将填充每年的总人口。

到目前为止我做了什么:

leftText.Text = "Exa";
centerText.Text = "m";
rightText.Text = "ple";

这会返回错误。

使这项工作成功的一些想法?

1 个答案:

答案 0 :(得分:0)

你可以试试这个:

DF2 = DF2.toDF(['Year_2','total_population_by_year'])
DF1 = DF1.join(DF2, DF1.Year == DF2.Year_2).drop('Year_2')