由于数据源不同,事实表未连接至暗淡

时间:2019-05-16 15:14:29

标签: data-modeling data-warehouse snowflake

我有一个事实表,我正在从来源A获取数据。

然后,我有源B,它与源A有一个公共字段。因此,我想知道如何用暗表中的键填充事实表?

这不仅是简单的数据提取,还需要进行认真的清理。我假设在登台表中我不应该进行任何转换。这是否意味着如下所示?

  1. 将数据从源B拉到登台表。
  2. 进行清洁并将结果保存在pre_dim表中
  3. 将事实表公共字段与(2)中的表一起加入吗?
  4. 创建暗表
  5. 通过代理键将暗表与事实表链接起来?

每天都截断(2)中的表并重新创建新表-请参见(2)?

1 个答案:

答案 0 :(得分:2)

您的方向是正确的,但是我通常将所有级别(staging,etl,dwh)分开,因为这样可以更轻松地控制数据,清理和验证。

这就是我要做的:

  1. 将数据从源B和A拉到登台表(st_A和st_B)。
  2. 使用PK dim_B和FK dim_B创建表etl_A和etl_B。
  3. 截断表并将数据从源B插入到etl_B中,并在dim_B中创建唯一的PK数据。
  4. 截断表并从加入了​​etl_B的源A中插入数据(您现在可以填充FK dim_B)
  5. 下一步可能是分区交换吗?或插入或散装。我不知道您使用的RDBMS是什么以及您的目的。