Question

使用Redshift时遇到了独特的问题。请参见以下说明性示例：

drop table if exists joinTrim_temp1;
create table joinTrim_temp1(rowIndex1 int, charToJoin1 varchar(20));
insert into joinTrim_temp1 values(1, 'Sudan' );
insert into joinTrim_temp1 values(2, 'Africa' );
insert into joinTrim_temp1 values(3, 'USA' );

drop table if exists joinTrim_temp2;
create table joinTrim_temp2(rowIndex2 int, charToJoin2 varchar(20));
insert into joinTrim_temp2 values(1, 'Sudan ' );
insert into joinTrim_temp2 values(2, 'Africa ' );
insert into joinTrim_temp2 values(3, 'USA ' );

select * from joinTrim_temp1 a join joinTrim_temp2 b on a.charToJoin1 = b.charToJoin2;

查询的输出如下：

在查询中，您可以看到第二个表中有一个尾随空格。因此，不应进行内部连接。但是似乎Redshift在加入时可以修剪尾随的空格。

在将现有的Redshift sql代码转换为PySpark时遇到了这个问题。

关于，库马尔

Answer 1

啊！确实，这是一个非常有趣的发现！

来自Character Types - Amazon Redshift：

比较值时，VARCHAR和CHAR值中的尾随空格被视为语义上无关紧要的。

看来，如果您想强制比较，是否需要避免尾随空格，例如：

SELECT * 
FROM joinTrim_temp1 a 
JOIN joinTrim_temp2 b 
ON a.charToJoin1 || '.' = b.charToJoin2 || '.';

为什么在加入时Redshift自动修剪varchar列？

1 个答案: