Question

我正在编写一个脚本，用于根据生产表测试一些新生成的表的内容。新生成的表可能有也可能没有相同的列名，并且可能有多个必须在连接条件中使用的列。我试图写出一个函数，其中使用字典传递所需的键。像这样：

def check_subset_rel(self, remote_df, local_df, keys):
    join_conditions = []
    for key in keys:
        join_conditions.append(local_df.key['local_key']==remote_df.key['remote_key'])

    missing_subset_df = local_df.join(remote_df, join_conditions, 'leftanti')

pyspark/python 不喜欢 local_df.key['local_key'] 和 remote_df.key['remote_key'] 中的字典用法。我收到“'DataFrame' 对象没有属性'key'”错误。我很确定它期待的是列的实际名称而不是任何变量，但我不确定是否可以在值和列名之间进行对话。

有人知道我该怎么做吗？

使用字典值作为键的 Pyspark 连接条件

0 个答案: