使用字典值作为键的 Pyspark 连接条件

时间:2021-05-17 15:17:15

标签: python dataframe pyspark

我正在编写一个脚本,用于根据生产表测试一些新生成的表的内容。新生成的表可能有也可能没有相同的列名,并且可能有多个必须在连接条件中使用的列。我试图写出一个函数,其中使用字典传递所需的键。 像这样:

def check_subset_rel(self, remote_df, local_df, keys):
    join_conditions = []
    for key in keys:
        join_conditions.append(local_df.key['local_key']==remote_df.key['remote_key'])

    missing_subset_df = local_df.join(remote_df, join_conditions, 'leftanti')

pyspark/python 不喜欢 local_df.key['local_key']remote_df.key['remote_key'] 中的字典用法。我收到“'DataFrame' 对象没有属性'key'”错误。我很确定它期待的是列的实际名称而不是任何变量,但我不确定是否可以在值和列名之间进行对话。

有人知道我该怎么做吗?

0 个答案:

没有答案
相关问题