我正在编写一个脚本,用于根据生产表测试一些新生成的表的内容。新生成的表可能有也可能没有相同的列名,并且可能有多个必须在连接条件中使用的列。我试图写出一个函数,其中使用字典传递所需的键。 像这样:
def check_subset_rel(self, remote_df, local_df, keys):
join_conditions = []
for key in keys:
join_conditions.append(local_df.key['local_key']==remote_df.key['remote_key'])
missing_subset_df = local_df.join(remote_df, join_conditions, 'leftanti')
pyspark/python 不喜欢 local_df.key['local_key']
和 remote_df.key['remote_key']
中的字典用法。我收到“'DataFrame' 对象没有属性'key'”错误。我很确定它期待的是列的实际名称而不是任何变量,但我不确定是否可以在值和列名之间进行对话。
有人知道我该怎么做吗?