背景: 我们的小组正在将Cloudera升级到6.1.1,我的任务是确定如何处理跨数据类型的隐式数据类型转换的丢失。有关发行说明的详细信息,请参见下面的链接。
此问题不仅会影响UNION ALL查询,而且还有一个函数可以对不同数据类型(即STRING到BIGINT)的列进行比较。
该小组已决定我们不想更改基础表元数据。因此解决方案是通过使用CAST()函数强制转换数据来允许潜在的数据丢失。对于UNION ALL,我们将转换为目标表的元数据。但是,在进行比较时,我试图确定最简单,最简单的比较方法,而不会得到错误的结果。
问题:
执行比较时,是否可以将所有内容都强制转换为STRING或VARCHAR()?是否存在任何可能导致错误结果的潜在问题?
更新: 如果这种方法有问题,是否有解决此问题的正确解决方案?
注意:这是我第一次与Hadoop / HIVE合作,并且我了解到我在RDBMS领域中所了解的一切并不总是适用。
答案 0 :(得分:1)
您可能会遇到问题。例如,如果将字符串与整数进行比较,则:
'1.00' = 1
->是,因为将值作为数字进行比较但是作为字符串:
'1.00' = '1'
->否,因为将值作为字符串进行比较我认为您会在日期上遇到类似的问题。