Spark-SQL连接具有相同列名的两个数据帧/数据集

时间:2017-04-19 21:48:19

标签: java apache-spark apache-spark-sql apache-spark-dataset

我有两个数据集

controlSetDF : has columns loan_id, merchant_id, loan_type, created_date, as_of_date
accountDF : has columns merchant_id, id, name, status, merchant_risk_status

我使用Java spark api加入它们,我只需要最终数据集中的特定列

private String[] control_set_columns = {"loan_id", "merchant_id", "loan_type"};
private String[] sf_account_columns = {"id as account_id", "name as account_name", "merchant_risk_status"};

controlSetDF.selectExpr(control_set_columns)                                               
.join(accountDF.selectExpr(sf_account_columns),controlSetDF.col("merchant_id").equalTo(accountDF.col("merchant_id")), 
"left_outer"); 

但我得到以下错误

org.apache.spark.sql.AnalysisException: resolved attribute(s) merchant_id#3L missing from account_name#131,loan_type#105,account_id#130,merchant_id#104L,loan_id#103,merchant_risk_status#2 in operator !Join LeftOuter, (merchant_id#104L = merchant_id#3L);;!Join LeftOuter, (merchant_id#104L = merchant_id#3L)

似乎存在问题,因为两个数据框都有merchant_id列。

注意:如果我不使用.selectExpr(),它可以正常工作。但它将显示第一个和第二个数据集中的所有列。

2 个答案:

答案 0 :(得分:1)

您正在使用sf_account_columns中列出的列加入DataFrame。此数组不包含要加入的列,因此DataFrame也没有。将此列添加到提到的数组

答案 1 :(得分:1)

如果两个DataFrame中的连接列的名称相同,则可以将其定义为连接条件。在Scala中它更清晰,使用Java需要将Java List转换为Scala Seq:

Seq<String> joinColumns = scala.collection.JavaConversions
  .asScalaBuffer(Lists.newArrayList("merchant_id"));

controlSetDF.selectExpr(control_set_columns)
  .join(accountDF.selectExpr(sf_account_columns), joinColumns), "left_outer");

这将导致DataFrame仅包含一个连接列。