Prometheus监控的4个黄金指标及示例

Prometheus的黄金指标通常指的是在监控和度量系统性能时,关注的四个核心指标:延迟(Latency)、流量(Throughput)、错误(Errors)和饱和度(Saturation)。下面我将为你解释这些指标以及对应的PromQL(Prometheus Query Language)写法。

  1. 延迟(Latency)

    延迟是服务请求或操作所需的时间。例如,HTTP请求的平均响应时间。

    PromQL写法示例:

    histogram_quantile(0.95, sum(rate({job="my-service"}[5m]) by (le)))
    

    这个查询假设你有一个名为histogram_quantile的直方图指标,它记录了延迟分布。这个查询将计算过去5分钟内95%的请求延迟。

  2. 流量(Throughput)

    流量是系统在给定时间内处理的事务数量。例如,每秒处理的HTTP请求数。

    PromQL写法示例:

    rate({job="my-service"}[1m])
    

    这个查询将计算过去1分钟内my-service作业的HTTP请求率。

  3. 错误(Errors)

    错误是失败的服务请求或操作的数量。例如,返回HTTP 5xx状态码的请求。

    PromQL写法示例:

    increase(http_requests_total{code=~"5.."}[1m])
    

    这个查询将计算过去1分钟内HTTP响应码以5开头的请求数量(即错误请求)的增长量。

  4. 饱和度(Saturation)

    饱和度是指系统资源的利用情况,如CPU、内存、磁盘I/O等的使用率。

    PromQL写法示例(以CPU为例):

    (1 - avg(irate(node_cpu_seconds_total{mode="idle"}[5m]))) * 100
    

    这个查询将计算过去5分钟内CPU的平均非空闲时间(即饱和度),并将其转换为百分比。

请注意,上面的PromQL查询示例是基于假设的指标名和标签集。在实际使用中,你需要根据你的Prometheus设置和指标命名约定来调整这些查询。同时,确保你的Prometheus实例已经收集了相关的指标数据。

热门相关:大文豪   风流医圣   帝少夜宠:小甜妻,乖!   寒门状元   我真的是正派