Question

我有一个名为datarecords的表，其中包含7个固定列，这些列在select查询中始终是必需的。用户可以添加他们想要的任意数量的自定义列。我将此信息存储在名为datacolumn的表中，并将值存储在另一个名为datavalue的表中。

现在我想创建一个查询，它带来来自datarecord的7个固定列，然后添加自定义列并从这些表中获取数据值，因为每个数据记录在数据值表中都有对应的值。

Answer 1

您可以尝试将PIVOT自定义属性从行添加到列中，但您会发现即使在Microsoft SQL Server中支持PIVOT，您也需要在编写查询之前了解这些属性，并且查询代码需要指定所有属性。 SQL中没有办法要求所有自定义属性根据需要神奇地填充尽可能多的列。

只能通过逐行提取任意数量的自定义属性来检索它们，因为它们存储在数据库中。然后编写应用程序代码以循环结果。如果需要，可以编写一个类，将多行自定义属性映射到应用程序中对象的字段。

使用SQL查询非关系数据很尴尬和不优雅。这是因为SQL旨在假设相同类型的每个逻辑实体具有固定数量的列，并且在编写查询之前就知道了这些列。如果您的实体具有变量属性，则根据定义，它不能存储为关系。

许多人尝试使用您正在使用的设计来扩展它，但他们发现它很难管理并且不能很好地扩展。此设计通常称为Entity-Attribute-Value模型或键值对。有关EAV设计陷阱的更多详细信息，请参阅我的书SQL Antipatterns。

如果您需要支持自定义属性，可以选择以下几种方法：

将所有自定义属性存储在BLOB中，并使用一些内部结构来分隔字段名称和值（Serialized LOB）。您可以选择创建反向索引，以帮助您查找给定字段具有给定值的行（请参阅How FriendFeed Uses MySQL）。
使用面向文档的数据库（例如MongoDB或Solr）作为动态数据。
当用户需要自定义属性时，使用ALTER TABLE将常规列添加到表中。这意味着您需要为所有用户强制执行相同的自定义属性集，或者存储所有用户的自定义属性，并希望您的表不会过宽（Single Table Inheritance），或者为每个用户创建一个单独的表，适用于所有列（Concrete Table Inheritance）或仅适用于自定义列（Class Table Inheritance）。

Answer 2

编辑：有关更多详细信息，请参阅底部的注释。

我遇到了同样的问题，我找到了一个缓慢的解决方案。也许其他人有一个加速我的发现的解决方案。在我的代码中，我有一个包含三列的表：Col1，Col2，Col3。 Col1是我的记录ID。 Col2是我的动态列的名称。 Col3是该列的值。因此，如果我想表示ID为1的记录，两列2和3，以及这些列的值：4和5，我会有以下内容：

Col1, Col2, Col3
1, 2, 4
1, 3, 5

然后我们转过第2列并选择MAX（或MIN或AVG，无关紧要，因为col2和col3组合是唯一的）col3在枢轴中。为了使用可变数量的列来完成数据透视，我们使用动态SQL生成来生成SQL。这适用于小输入数据（我相信动态SQL的FROM子句中的派生表）。一旦数据集变大，平均函数就会花费很长时间来执行。很长一段时间。它似乎从大约1000行开始，所以可能有一个提示或其他方法使它更短。

注意，由于Col2和Col3的值映射为1：1，我还尝试动态生成如下所示的SELECT语句：

SELECT Col1,
   CASE WHEN Col2 = '4' THEN Col3 END [4],
   CASE WHEN Col2 = '5' THEN Col3 END [5],
   CASE WHEN Col2 = '6' THEN Col3 END [6], -- ... these were dyanmically generated
FROM #example
GROUP BY Col1

这对我的数据集来说同样慢。你的里程可能会有所不同。以下是为SQL Server编写的工作原理的完整示例（2005+应该运行此命令）。

--DROP TABLE #example
CREATE TABLE #example
(
    Col1 INT,
    Col2 INT,
    Col3 INT
)

INSERT INTO #example VALUES (2,4,10)
INSERT INTO #example VALUES (2,5,20)
INSERT INTO #example VALUES (2,6,30)
INSERT INTO #example VALUES (2,7,40)
INSERT INTO #example VALUES (2,8,50)
INSERT INTO #example VALUES (3,4,11)
INSERT INTO #example VALUES (3,5,22)
INSERT INTO #example VALUES (3,6,33)
INSERT INTO #example VALUES (3,7,44)
INSERT INTO #example VALUES (3,8,55)

DECLARE @columns VARCHAR(100)
SET @columns = ''

SELECT @columns = @columns + '[' + CAST(Col2 AS VARCHAR(10)) + '],'
FROM (SELECT DISTINCT Col2 FROM #Example) a

SELECT @columns = SUBSTRING(@columns, 0, LEN(@columns) )

DECLARE @dsql NVARCHAR(MAX)

SET @dsql = '
select Col1, ' + @columns + '
from
    (select Col1, Col2, Col3 FROM #example e) a
PIVOT
(
    MAX(Col3)
    FOR Col2 IN (' + @columns + ')
) p'

print @dsql
EXEC sp_executesql @dsql

编辑：由于我这样做的独特情况，我设法使用两个表（一个包含实体，另一个包含属性 - 值对）以及在表上创建聚簇索引来提高速度。属性 - 值对，包括所有列（ID，属性，值）。如果你需要快速插入，大量列，大量数据行等，我建议你以另一种方式解决这个问题。我对数据的大小和增长率有一些已知的确定性，myy解决方案适合我的范围。

还有许多其他解决方案更适合解决此问题。例如，如果需要快速插入和单记录读取（或慢速读取无关紧要），则应考虑将XML字符串打包到字段中并在数据库使用者中序列化/反序列化。如果您需要超快速写入，则很少添加超快速读取和数据列，那么您可以考虑更改表格。在大多数实践中，这是一个糟糕的解决方案，但可能适合一些问题。如果您的列经常更改，但您还需要快速读取和写入不是问题，那么我的解决方案可能适用于您，直到某个数据集大小。

在sql查询中添加N个动态列

2 个答案: