sql - Google BigQuery移至SQL Server，优化大数据表

我有一个奇怪的问题，顾名思义，我是一个新手，所以请多多包涵，哦，大家好，我已经使用该网站学到了很多东西。

我有一个面向客户的MSSQL数据库，我每天都在尝试跟踪他们的状态，将各种属性记录在多个表中，然后使用数据表将它们合并在一起以创建一个主表，该主表产生大约6亿美元的收入行。

您可以想象在中型服务器（Intel i5，SSD HD OS，2tb 7200rpm HD，Standard SQL Server 2017）上查询此野兽确实很慢。我当时使用的是Google BigQuery，但很快就花了很多钱。我已经实现了一些索引，这些索引在某种程度上加快了该过程，但仍然不够快。对于一个给定的属性，一个简单的，针对客户ID的不同选择，首次运行平均仍需要12分钟。

每天查看数据的全部要点是使tableau或QLIK之类的内容易于连接到单个表，从而使最终用户只需拖动所需的列即可轻松创建报告。我曾考虑过使用创建主表并将其参数化的主查询，但是可视化工具不适用于传递许多变量。

这是表格的摘要，大约有300,000个客户，每天为在2010年至2017年之间加入的客户创建一行。如果离开，则不在列表之列。

我的问题是：

1）我什至不应该创建平面文件，还是只对查询参数化。

2）除了为每一列设置最小的数据类型以使DB大小保持最小之外，我还有什么可以使用的技术。

3）实际上有一百多个属性列，一旦将它们设置为0或1，很少将它们更改，是否有另一种方法可以实现此目的并节省空间？

4）如果许多属性都是二进制的，我应该在主表上拥有哪些类型的索引

任何想法都会受到欢迎。

Google BigQuery移至SQL Server，优化大数据表

0 个答案: