如何在Prometheus警报中计算触发的警报并将其附加到警报标签?

时间:2019-01-28 10:24:33

标签: prometheus prometheus-alertmanager

例如,我有2个主机,当CPU> 90%时将触发警报。 我可以打开Prometheus UI和Alert Manager UI,然后看到2个主机的警报触发。

我使用webhook作为接收器,我想获取每个主机的CPU> 90%的警报计数,如何实现?

我考虑是否可以从某处获取计数值,然后将其附加到警报标签中,最后可以从webhook界面的标签中获取计数值。

我已经提到了Count alerts fired by prometheus,它们使用了changes函数,但是如果值没有变化(例如CPU保持90%),它就无法覆盖。

1 个答案:

答案 0 :(得分:0)

考虑到,我认为Prometheus和Alert manager不支持这种情况,因为这没有道理。

对于用户来说,如果他/她想知道在过去1个小时内特定规则(例如CPU> 90%)触发了多少警报,他们将只关注收到了多少警报,而不是Prometheus发出了许多警报。

我们知道,警报管理器具有“ group_wait”,“ repeat_interval”和“ Inhibited”规则,这些参数将影响警报管理器发出警报的数量和频率。即使我可以得到Prometheus触发的警报时间,但该数字对于用户来说还是错误的,因为Alert Manger可能会“抑制”警报。

相关问题