Kubernetes Pod正常运行时间监控

时间:2017-05-23 10:13:45

标签: kubernetes

我的要求是将Kubernetes集群中某些pod的正常运行时间指标放在一起。

我正在考虑使用Kubernetes准备情况检查,如果有人做过类似事情,我很好奇吗?

基本上我正在尝试生成报告,说这个pod在过去一周/月内的正常运行时间为95%。

3 个答案:

答案 0 :(得分:1)

我建议查看Prometheus,它是监控Kubernetes集群内部服务,资源使用(主机级别以及Kubernetes API级别),当然还有您的应用程序的最强大方式。

注意:对于pod正常运行时间,您可以使用通用的up指标。

答案 1 :(得分:1)

最好是使用可以存储正常运行时间指标的时间序列数据库。您可以根据需要使用grafana,它是头等公民,具有k8s集群推出。

我们使用Wavefront来存储和可视化此正常运行时间指标以及大量其他指标。一旦有了可用的正常运行时间值,您就会看到容器容器停机期间突然下降,prometheus / wavefront / grafan全部可以让您应用时间序列函数来查看(在特定时间段内的总停机时间/总的容器停机时间)(一个月)以反映您的需求

答案 2 :(得分:0)

再多想一想,我们决定采用这种可能的方法:

  1. 部署定期执行BASH脚本的Docker容器(Cron)
  2. BASH脚本使用Kubernetes API服务器来发现需要检查的窗格
  3. BASH脚本生成一份报告,该报告将复制到主机上的已安装目录
  4. 此报告可以由其他应用程序接收并处理