teradata制服中的示例命令

时间:2016-11-14 13:33:56

标签: teradata

只是想知道,teradata中的SAMPLE是否以均匀的概率选择(即给出每一行选择相同的概率)。例如:

select * from employee_table sample 8;

每次执行后,返回的数据也将保证不同

1 个答案:

答案 0 :(得分:2)

每个SAMPLE都是随机的,但使用默认值不是真正的简单样本。所有AMP进行通信以确定哪个AMP将返回多少行,即默认SAMPLE是n个单独样本的UNION,每个AMP一个。很难注意到因为数据是散列分布的,但是带有NUPI的偏斜表可能会对某些行进行采样的概率更高。

当您需要真正的随机样本时,您必须使用SAMPLE RANDOMIZED ALLOCATION选项,现在所有AMP中的所有行都具有相同的概率。

但由于它是随机的,当然不能保证每个样本中都有不同的行。