Question

我有一个名为MySQL的{{1}}表，其中有5列transaction。

我每天需要为某些特定的接收者id(int), from(int), to(int), value(float), time(datetime)计算累积用户(the number of unique "from")。

例如：

("to")

特定的+-----+------+-----+-------+----------------------------+ | id | from | to | value | time | +-----+------+-----+-------+----------------------------+ | 1 | 1 | 223 | 1 | 2019-01-01 01:11:30.000000 | | 2 | 1 | 224 | 2 | 2019-01-01 21:37:30.000000 | | 3 | 2 | 25 | 0.1 | 2019-01-02 03:05:30.000000 | | 4 | 2 | 223 | 0.2 | 2019-01-02 13:26:30.000000 | | 5 | 3 | 26 | 3 | 2019-01-02 19:29:30.000000 | | 6 | 3 | 227 | 4 | 2019-01-03 21:37:30.000000 | | 7 | 1 | 224 | 5 | 2019-01-05 22:03:30.000000 | | 8 | 4 | 224 | 1 | 2019-01-05 23:48:30.000000 | | 9 | 5 | 223 | 2 | 2019-01-06 05:41:30.000000 | | 10 | 6 | 28 | 2 | 2019-01-06 20:19:30.000000 | +-----+------+-----+-------+----------------------------+是to

那么预期的结果是：

[223, 224, 227]

直接方法是使用2019-01-01: 1 # [1] 2019-01-02: 3 # [1, 2, 3] 2019-01-03: 3 # [1, 2, 3] 2019-01-04: 3 # [1, 2, 3] 2019-01-05: 4 # [1, 2, 3, 4] 2019-01-05: 5 # [1, 2, 3, 4, 5]

SQL

但是问题是，SELECT COUNT(DISTINCT(`From`)) FROM `transaction` FORCE INDEX (to_time_from) WHERE `time` < '2019-01-0X' AND `to` IN (223, 224, 227)表很大（每天一百万，大约2年），并且transaction列表大约为to。即使我在1000上创建了索引并强制使用它，上面的SQL还是很慢。

此外，尽管每日交易量达到约100万，但每日活动用户仅为10,000。因此，我正在考虑将DAU列表存储在[to, time, from]中，例如

No-SQL

当给定日期2019-01-01: [1] 2019-01-02: [2, 3] 2019-01-03: [3] 2019-01-04: [] 2019-01-05: [1, 4] 2019-01-05: [5]时，我不迟于d检索所有DAU列表，并进行联合以获取累积用户。类似于：d

但是我不知道要使用哪个len(set([dau_list1]+[dau_list2]+[dau_list3]...))。

No-SQL会将所有内容加载到内存中，但查询时只需要这些数据。
Redis
1. 似乎我需要为每个日期创建一个集合，因为我需要在MongoDB上创建唯一索引。我说的对吗？
2. 我知道我可以使用数组字段和from操作。但这是$addToSet，非常慢。

那么，制作它的正确方法是什么？

Answer 1

在MySQL中，使用类似（没有redis，没有MongoDB）的方法：

SELECT  DATE(`time`),
        COUNT(*),
        GROUP_CONCAT(`from`)
    FROM  tbl
    WHERE  `to` IN (...)
    GROUP BY  1;    -- shorthand for "DATE(time)"

INDEX(`to`, `from`, `time`)  -- if applying to entire table
INDEX(`to`, `time`, `from`)  -- if you have `AND time ...`

加上一些格式。（这种可以用一个混乱的CONCAT完成，或者留给应用程序代码使用。）

由于这似乎也是一个“扩展”问题，因此也许您需要一个“摘要表”，该表每天都使用前一天的条目进行更新，从而使查询速度更快。

CREATE TABLE Daily (
    `day` DATE NOT NULL,
    `from` ... NOT NULL,
    `to` ... NOT NULL,
    `ct` SMALLINT UNSIGNED NOT NULL,
    PRIMARY KEY(`to`, `day`, `from`)
) ENGINE=InnoDB;

查询变为

SELECT  `day`,
        SUM(ct),
        GROUP_CONCAT(DISTINCT `from`)
    FROM Daily
    WHERE  `to` IN (...)`
    GROUP BY `day`;

（这可以帮助您提供CREATE TABLE和INSERTs来构建测试用例。）

每天计算累计用户的正确方法是什么？

1 个答案: