加入两个窄格式表

时间:2014-03-13 02:03:13

标签: sql algorithm join relational-database relational-algebra

我有一个场景,我有数千列的表(在适当的数据存储区中)。导出用于查询之前的表将转换为窄格式(http://en.wikipedia.org/wiki/Wide_and_Narrow_Data)。

我正在开发一个查询执行器。此查询执行程序的输入是窄表而不是原始表。我想在两个类似的窄表上执行连接,但无法弄清楚它背后的确切一般逻辑。

例如,假设我们有两个原始格式的表R和S(宽格式)

Table R
C1  C2  C3  R1  R2  R3
5   6   7   1234    4552    12532
5   6   8   4512    21523   434
15  16  17  1254    1212    3576

Table S
C1  C2  C3  S1  S2  S3
5   6   7   5412    35112   3512
5   6   8   125393  1523    6749
15  16  17  74397   4311    1153

C1,C2,C3是表格之间的公共列。

表R的窄表是

C1  C2  C3  Key Value
5   6   7   R1  1234
            R2  4552
            R3  12532
5   6   8   R1  4512
            R2  21523
            R3  434
15  16  17  R1  1254
            R2  1212
            R3  3576 

表S的窄表是

C1  C2  C3  Key Value
5   6   7   S1  5412
            S2  35112
            S3  3512
5   6   8   S1  125393
            S2  1523
            S3  6749
15  16  17  S1  74397
            S2  4311
            S3  1153

现在,当我加入原始表R和S(在C1,C2和C3上)时,我得到了结果

C1  C2  C3  R1  R2  R3  S1  S2  S3
5   6   7   1234    4552    12532   5412    35112   3512
5   6   8   4512    21523   434 125393  1523    6749
15  16  17  1254    1212    3576    74397   4311    1153

其格式是

C1  C2  C3  Key Value
5   6   7   R1  1234
            R2  4552
            R3  12532
            S1  5412
            S2  35112
            S3  3512
5   6   8   R1  4512
            R2  21523
            R3  434
            S1  125393
            S2  1523
            S3  6749
15  16  17  R1  1254
            R2  1212
            R3  3576
            S1  74397
            S2  4311
            S3  1153

如何通过加入我得到的输入的窄表(在公共列上)来获得上表。 如果在两个窄表之间使用普通的表格连接(自然连接,外连接等),您将得到一个爆炸表,因为表R上的每个键都乘以表S中的所有键。

我没有使用SQL,postgres或任何数据库系统。我正在寻找算法或关系代数表达式的答案。

1 个答案:

答案 0 :(得分:1)

您正在寻找set union运算符:A∪B被定义为出现在A,B或两者中的所有元组的集合,假设这两个关系具有相同的模式。窄表都具有相同的模式(id,key,value),因此它们完全兼容。

我有证据:

假设我们有关系A(id, val1, val2 ... val_n)B(id, val_n+1 ... val_n+m)。我们还需要一个包含变量名V(variable) = {('val1'), ('val2') ... ('val_n+m')}的关系。 A的窄格式等价物是A'(id, variable, value),我们可以这样构造:

\bigcup_{i=1}^{n}  \rho_{value/val_i}( \pi_{id, val_i}(A) ) \times  \sigma_{variable="val_i"}(V)

也就是说,对于每个值,我们将A项目转换为(id,val_i),将val_i重命名为" value",将变量名称放在表格中(通过在V中使用单个元组的交叉积) );那么我们就把所有这些关系结合起来。让我们以类似的方式构建B'(id, variable, value)

可以仅使用基元来定义自然连接:

A \Join B = \pi_{id, val_1 ... val_{n+m}} ( \sigma_{id = x} ( A \times \rho_{x/id}(B) ) )

因此,我们可以像这样构建(A ⋈ B)'(结合投影):

\bigcup_{i=1}^{n+m}  \rho_{value/val_i}( \pi_{id, val_i}( \sigma_{id = x} ( A \times \rho_{x/id}(B) ) ) ) \times  \sigma_{variable="val_i"}(V)

让我们更早地应用预测:

\bigcup_{i=1}^{n+m}  \rho_{value/val_i}( \pi_{id, val_i}( \sigma_{id = x} ( \pi_{id, val_i}(A) \times \rho_{x/id}(\pi_{id, val_i}(B))) ) ) \times  \sigma_{variable="val_i"}(V)

但是val_i只能出现在A或B中,而不能同时出现在两者中,使得交叉产品的一个项在一半的时间内为零,因此可以将其减少并重新排序为

\bigcup_{i=1}^{n}  \rho_{value/val_i}( \pi_{id, val_i}(A)) \times  \sigma_{variable="val_i"}(V) \cup \bigcup_{i=n+1}^{m}  \rho_{value/val_i}( \pi_{id, val_i}(B)) \times  \sigma_{variable="val_i"}(V)

正是A' U B'

因此,我们已经证明(A ⋈ B)' = A' U B',即连接表的窄格式是窄格式表的并集。