Question

假设我们正在存储1000个设备的数据，这些设备每10秒收集一种类型的数据。每个设备可以位于不同的时区。快速查询以可视化数据的能力非常重要。我们可以询问系统问题如下：

1. For a specific device, I want the last 7 days of data grouped by day totals for my local timezone.
2. For a specific device, I want the last year's data grouped by month totals for my local timezone.

以UTC格式存储所有数据似乎是最干净的方法，但在要求本地数据分组时变得棘手。例如，每个时区的一天分组具有不同的偏移量。因此，如果我们要说日，月，年“桶”，它们都会相对于UTC进行分组，这对于询问除UTC本身以外的时区的问题是没有用的。

如果我们以分钟和小时“桶”对数据进行分组（忽略关闭时间不到一小时的时区，例如IST +5：30），我们可以使用小时“桶”来构建答案。以上问题。对于问题2，每个分组将有12个分组，最多744小时“桶”。

使用分钟和小时的方法（忽略不到一小时关闭的时区，例如IST +5：30）“水桶”看起来像一个体面的设计？有没有人用不同的建议设计类似的东西？

Answer 1

是的，通过偏移创建存储桶是合理的设计，这通常发生在数据仓库中（例如）。

虽然以1小时为增量进行分组意味着忽略了许多真实的地方。正如您所指出的，印度是一个使用:30偏移的位置。如果您想覆盖世界上的每个现代时区，您实际上需要扣除15分钟段，因为有几个段落:30或:45偏移。

当然，如果您发现可以接受错误，那么您可以使用您可以容忍的任何粒度。从理论上讲，你可能会超过一个小时 - 你只会有更大的误差。

如果您想考虑不同的方法，可以使用设备的本地时间以date-time-offset形式存储该值。索引这样的值时，大多数数据库都会转换为UTC，因此您可能还需要一个计算列来提取和索引本地时间部分。然后，您可以按当地时间分组，而不必知道如何与UTC联系。这种方法的缺点是数据固定在其原始时区。您无法轻松重新组合以推断出不同的时区。虽然这些是现实世界中的实际设备，但这通常不是问题。

按时间间隔对时间序列数据进行分组

1 个答案: