针对不再报告的指标发出警报

时间:2018-01-24 22:23:09

标签: prometheus prometheus-operator

我根据节点导出器报告的指标发出警报 - 每当节点停机超过2分钟时进行报告。我们在kubernetes集群中运行node-exporter作为DaemonSet。

问题是有时会永久删除节点,我们会继续收到警报。我想知道什么是以自动方式解决这些警报的正确方法。

如果“FOR”子句允许范围,比如FOR 2m到24h,那么这对我有用,但我不知道是否支持。

这里的参考是我们的规则 -

ALERT InstanceDown
  IF up{job="kubernetes-node-exporter"} == 0
  FOR 2m
  LABELS { 
    severity = "page"
   }
  ANNOTATIONS {
    summary = "Node {{ $labels.instance }} is down",
    description = "Node {{ $labels.instance }} of job {{ $labels.job }} has been down for more than 2 minutes.",
  }

PS:在https://groups.google.com/forum/#!topic/prometheus-developers/iP2k68eUVrM的讨论中,Brian Brazil说了以下内容。它是否也适用于需要在每个节点上运行的节点导出器?

  

我们认为每台机器的一个出口商是一个反模式,如   它在技术和操作上都是瓶颈   增加一个出口商失败的影响。

1 个答案:

答案 0 :(得分:0)

这听起来像普罗米修斯1.x中的陈旧,一个更高的FOR条款,如10米将处理它。

  

它是否也适用于需要在每个节点上运行的节点导出器?

每台机器只有一个出口商可以完成所有工作。在任何地方运行节点导出器都是使用它的预期方式。

相关问题