高变时间序列数据中的异常检测

时间:2021-04-28 15:08:50

标签: statistics time-series unsupervised-learning anomaly-detection

我正在尝试通过名为 count 的列检测异常情况。数据是时间序列数据,每天每 5 分钟出现一次。数据框如下所示:

datetime         |  count
_________________|________
2021-03-31 00:05 |  25
2021-03-31 00:10 |  13
2021-03-31 00:15 |  0
2021-03-31 00:20 |  3
...              | ...
2021-04-15 22:10 | 111
2021-04-15 22:15 | 0
2021-04-15 22:20 | 9

但是,count 列上的差异很大,因此当我尝试使用窗口为 288 的滚动 z 得分技术时(每 5 分钟,意味着一个数据点中有 12 个数据点)小时,24*12 = 288,1 天窗口)和 -3,+3 的阈值,根据中心极限定理,它失败了,因为对于大多数数据点,分数远远超出这些范围,因此大约 50 % 点被宣布为异常。同样,我已经尝试过隔离森林、一类 SVM 和椭圆包络技术,但似乎没有任何效果。当我尝试绘制异常点时,图表中充满了异常点,并且该图也没有任何意义。

我之前没有处理过这种数据,我想我在某处出错了。谁能建议我应该采取哪些步骤来检测此类数据中的异常情况,以及我可以尝试哪些好的算法?

0 个答案:

没有答案