我有一个名为MySQL
的{{1}}表,其中有5列transaction
。
我每天需要为某些特定的接收者id(int), from(int), to(int), value(float), time(datetime)
计算累积用户(the number of unique "from")
。
例如:
("to")
特定的+-----+------+-----+-------+----------------------------+
| id | from | to | value | time |
+-----+------+-----+-------+----------------------------+
| 1 | 1 | 223 | 1 | 2019-01-01 01:11:30.000000 |
| 2 | 1 | 224 | 2 | 2019-01-01 21:37:30.000000 |
| 3 | 2 | 25 | 0.1 | 2019-01-02 03:05:30.000000 |
| 4 | 2 | 223 | 0.2 | 2019-01-02 13:26:30.000000 |
| 5 | 3 | 26 | 3 | 2019-01-02 19:29:30.000000 |
| 6 | 3 | 227 | 4 | 2019-01-03 21:37:30.000000 |
| 7 | 1 | 224 | 5 | 2019-01-05 22:03:30.000000 |
| 8 | 4 | 224 | 1 | 2019-01-05 23:48:30.000000 |
| 9 | 5 | 223 | 2 | 2019-01-06 05:41:30.000000 |
| 10 | 6 | 28 | 2 | 2019-01-06 20:19:30.000000 |
+-----+------+-----+-------+----------------------------+
是to
那么预期的结果是:
[223, 224, 227]
直接方法是使用2019-01-01: 1 # [1]
2019-01-02: 3 # [1, 2, 3]
2019-01-03: 3 # [1, 2, 3]
2019-01-04: 3 # [1, 2, 3]
2019-01-05: 4 # [1, 2, 3, 4]
2019-01-05: 5 # [1, 2, 3, 4, 5]
SQL
但是问题是,SELECT COUNT(DISTINCT(`From`))
FROM `transaction`
FORCE INDEX (to_time_from)
WHERE `time` < '2019-01-0X'
AND `to` IN (223, 224, 227)
表很大(每天一百万,大约2年),并且transaction
列表大约为to
。即使我在1000
上创建了索引并强制使用它,上面的SQL
还是很慢。
此外,尽管每日交易量达到约100万,但每日活动用户仅为10,000。因此,我正在考虑将DAU列表存储在[to, time, from]
中,例如
No-SQL
当给定日期2019-01-01: [1]
2019-01-02: [2, 3]
2019-01-03: [3]
2019-01-04: []
2019-01-05: [1, 4]
2019-01-05: [5]
时,我不迟于d
检索所有DAU列表,并进行联合以获取累积用户。类似于:d
但是我不知道要使用哪个len(set([dau_list1]+[dau_list2]+[dau_list3]...))
。
No-SQL
会将所有内容加载到内存中,但查询时只需要这些数据。Redis
MongoDB
上创建唯一索引。我说的对吗?from
操作。但这是$addToSet
,非常慢。那么,制作它的正确方法是什么?
答案 0 :(得分:2)
在MySQL中,使用类似(没有redis,没有MongoDB)的方法:
SELECT DATE(`time`),
COUNT(*),
GROUP_CONCAT(`from`)
FROM tbl
WHERE `to` IN (...)
GROUP BY 1; -- shorthand for "DATE(time)"
INDEX(`to`, `from`, `time`) -- if applying to entire table
INDEX(`to`, `time`, `from`) -- if you have `AND time ...`
加上一些格式。 (这种 可以用一个混乱的CONCAT
完成,或者留给应用程序代码使用。)
由于这似乎也是一个“扩展”问题,因此也许您需要一个“摘要表”,该表每天都使用前一天的条目进行更新,从而使查询速度更快。
CREATE TABLE Daily (
`day` DATE NOT NULL,
`from` ... NOT NULL,
`to` ... NOT NULL,
`ct` SMALLINT UNSIGNED NOT NULL,
PRIMARY KEY(`to`, `day`, `from`)
) ENGINE=InnoDB;
查询变为
SELECT `day`,
SUM(ct),
GROUP_CONCAT(DISTINCT `from`)
FROM Daily
WHERE `to` IN (...)`
GROUP BY `day`;
(这可以帮助您提供CREATE TABLE
和INSERTs
来构建测试用例。)