新的自定义插件指标

时间:2013-11-06 06:12:10

标签: newrelic-platform

我正在直接使用HTTP API并尝试从我们的存储中获取一些指标。

文档说明“提示:如果您希望度量标准在用户界面中显示为百分比,则必须将其定义为JSON中的百分比。”

但是 - 我无法发送百分比的指标值; POST响应的状态为400,带有正文

{"error":"Unable to parse request: null"}

我的帖子是

{"components": [
   {"duration": 1,
    "guid": "com.cumulus.Test5",
    "name":"ServerX",
    "metrics": {
      "Component/Filesystem/root/Percentage Used": "62%"
    }
   }],
 "agent": {"host": "vss-syd", "version": "1.0.0", "pid": 1080}
}

另外 - 我有一个度量“脱机设备数量”(对于ZFS存储池),它是离散的,即不连续的 - 因此平均值没有意义,只是绝对值。

如果它超过0,我想设置警报。 我知道阈值只是“大于”,所以我可以设置阈值@ 0.1 Alert& 0.2严重无可能。

然而 - 请有人指出我应该如何

朝正确的方向发展
  1. 发送此类指标(即需要指定[单位]和汇总?)
  2. 在前端创建摘要度量标准+图表? (选择'值',例如'每分钟呼叫')

1 个答案:

答案 0 :(得分:1)

有两个问题看起来可能是原因。

第一个是持续时间应为60,表示报告的指标对应的秒数。 NewRelic已针对此特定时间间隔进行了优化,虽然您可以使用更大的值(建议的最大值为300秒),但所需的最小值为60. API可以接受较小的值,但结果将无法预测。

第二个是使用的百分比是一个字符串值,如果你想保持这个精度水平,它应该被报告为整数值,例如62,或者浮点值为62.0。

关于报告和显示与“失败磁盘数量”相关的指标的问题的第二部分:

New Relic目前不支持报告代表绝对值的指标。所有度量标准值在某个特定时间段内汇总显示。摘要度量标准在最近约4分钟内汇总,而图表和表格的度量标准在时间选择器中选择的时间段内汇总。

也就是说,您可以尝试一些“失败磁盘百分比”的内容,其中平均值可能仍然有用,因为任何非零值都表示失败。

一旦聚合时间段变得大于几分钟,该平均值将具有可疑价值。但是,鉴于汇总指标始终在约4分钟的固定时间段内汇总 - 而且它是触发警报的汇总指标 - 这可能对您仍然有用。