python - 使用Prometheus中的指标监视批处理作业的状态

我们的几个应用程序具有批处理作业，这些作业每晚都会汇总数据。这些批处理作业是Python脚本，它们使用Prometheus Pushgateway将度量标准值推入Prometheus，并且我们有规则，当这些度量标准变为无效（例如，超过特定阈值）时，会触发警报（在Alertmanager中）。

我们现在还想使用Prometheus度量标准来仔细检查批处理作业本身是否正确运行：例如，作业是否按时启动？有没有发生错误？工作完成了吗？为此，我们希望更改Python脚本以在脚本开始和结束以及发生任何错误时推送指标。但是，这确实带来了一些问题：我们有很多批处理作业，每个批处理作业有3个指标，因此会为规则/警报创建大量的手动配置；我们还想在Grafana中以图形方式显示状态，并且不确定真正的视觉效果是什么。

是否还有其他人试图解决类似的问题以使用Prometheus指标来监视多个批处理作业的状态？您记录了哪些指标，警报/规则是什么样的？您是否找到一种直观的方式以图形方式显示每个批处理作业的状态？

使用Prometheus中的指标监视批处理作业的状态

1 个答案: