K8s集群nginx-ingress监控告警最佳实践

2024-04-18 09:42 由华为云开发者联盟发表于 #其他

本文分享自华为云社区《K8s集群nginx-ingress监控告警最佳实践》，作者：可以交个朋友。

一背景

nginx-ingress作为K8s集群中的关键组成部分。主要负责k8s集群中的服务发布，请求转发等功能。如果在访问服务过程中出现404和502等情况，需要引起注意。

二方案简介

可以通过CCE集群插件kube-prometheus-stack进行nginx-ingress服务的指标监控，Grafana仪表盘视图可以自己制作或者导入开源模板，方便时刻观察nginx-ingress的各项运行指标是否处于健康状态。

CCE Prometheus监控指标数据统一remotewrite到华为云AOM2.0服务，可以在AOM2.0服务中展示Prometheus采集的指标数据，并根据业务实际诉求，实现基于指标的的告警通知。

CCE监控插件对接AOM:

AOM查看nginx-ingress

三 nginx-ingress关键指标

确保Prometheus已成功抓取nginx-ingress指标

nginx-ingress配置热加载失败次数
count(nginx_ingress_controller_config_last_reload_successful{} == 0)
nginx-ingress每个nginx-ingress-controller实例的连接数
sum(nginx_ingress_controller_nginx_process_connections) by (controller_namespace,controller_pod)
nginx-ingress每个nginx-ingress-controller实例中process数
nginx_ingress_controller_nginx_process_num_procs
nginx-ingress每个nginx-ingress-controller实例的每秒请求数
sum(irate(nginx_ingress_controller_requests{}[1m])) by (controller_namespace,controller_pod)
nginx-ingress请求时延
histogram_quantile(0.90, sum(rate(nginx_ingress_controller_request_duration_seconds_bucket{status="200"}[1m])) by (le, ingress, host, path)) * 1000

histogram_quantile(0.95, sum(rate(nginx_ingress_controller_request_duration_seconds_bucket{status="200"}[1m])) by (le, ingress, host, path)) * 1000

histogram_quantile(0.99, sum(rate(nginx_ingress_controller_request_duration_seconds_bucket{status="200"}[1m])) by (le, ingress, host, path)) * 1000
请求失败率
sum(rate(nginx_ingress_controller_requests{status=~"[4-5].*"}[5m])) / sum(rate(nginx_ingress_controller_requests{}[5m])) * 100

四如何根据nginx-ingress指标进行告警

前往AOM告警管理tab页

配置告警规则

选择指标告警规则，配置方式可使用PromQL语句，选择对应的AOM实例

配置告警通知规则

触发指标告警规则，邮箱收到告警

点击关注，第一时间了解华为云新鲜技术~

如何写好一篇技术文章

摘抄网上文章SCZ 来源：scz.617.cn 翻看前些年的笔记，发现笔记内容的详尽程度将决定未来能留下来多少有用的知识。不论记性多好，大多数内容都会随着时间遗忘在历史的长河中。在得到听了很多课程，基本上能记住的不多，最终能用上的可能还是记录下来的一些东西，古人云：「不动笔墨不读书」还是挺有道理的。 ...阅读全文

基于ChatGPT打造安全脚本工具流程

前言以前想要打造一款自己的工具，想法挺好实际上是难以实现，第一不懂代码的构造，只有一些工具脚本构造思路，第二总是像重复造轮子这种繁琐枯燥工作，抄抄改改搞不清楚逻辑，想打造一款符合自己工作的自定义的脚本工具难度倍增，但是随着AI的兴起极大的改变了我们的生活工作方式，只需利用ChatGPT即可打造自己 ...阅读全文

深入解析Rivest Cipher 4：理论与实践

title: 深入解析Rivest Cipher 4：理论与实践 date: 2024/4/17 20:30:58 updated: 2024/4/17 20:30:58 tags: - 密码学 - RC4算法 - 流密码 - 密钥调度 - 安全分析 - 优缺点 - 应用实践第一章：引言密码学简 ...阅读全文

ImageJ使用教程（一）：开始使用

目录简介界面介绍Edit->Options开始使用打开图片放大拖拽图片信息色彩分析保存图片总结参考文章 ImageJ软件简介 ImageJ是一个基于java的公共的图像处理软件，它是由美国国立卫生研究院开发的，可运行于Windows、Linux等多种平台。软件下载解压后可直接使用，注意软件目录不要 ...阅读全文

接口自动化测试工程实践分享

本文作者：欧海锋，碧桂园服务高级测试工程师，致力于研究测试技术。一、前言接口自动化测试是一种软件测试技术，它通过模拟用户系统操作来对系统的接口进行自动化测试。接口自动化测试的目的是为了提高测试效率和准确性，同时降低测试成本和周期。以下是为什么需要进行接口自动化测试的一些原因： 1、提高测试效率： ...阅读全文

夜莺监控 V7 第二个 beta 版本发布，内置集成故障自愈能力，简化部署

经过一个半月的打磨改进，夜莺监控 V7 第二个 beta 版本发布了，本次发布的主要亮点是内置集成故障自愈能力，简化架构，同时做了其他 19 项改进。一些重要的改进如下： feat: 集成故障自愈的能力，不需要再单独部署 ibex 模块了 refactor: 内置仪表盘和内置规则页面重构 refac ...阅读全文

说说你对树的理解？相关的操作有哪些？

一、是什么在计算机领域，树形数据结构是一类重要的非线性数据结构，可以表示数据之间一对多的关系。以树与二叉树最为常用，直观看来，树是以分支关系定义的层次结构二叉树满足以下两个条件：本身是有序树树中包含的各个结点的不能超过 2，即只能是 0、1 或者 2 如下图，左侧的为二叉树，而右侧的因为头结 ...阅读全文

如何辨别：DNS污染or DNS劫持？

DNS劫持和DNS污染的情况在互联网中并不少见，到底是出现了DNS污染还是DNS劫持。什么是DNS污染？什么是DNS劫持？我们该如何辨别DNS污染和DNS劫持？ DNS劫持： DNS 劫持是指恶意攻击者通过非法手段篡改了网络中的 DNS 服务器，将用户的访问请求导向了错误的 IP 地址，从而达到欺骗 ...阅读全文

Windows系统安装软件提示comct332.ocx未注册或缺少控件问题

其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题，如果是新手第一时间会认为是软件或游戏出错了，其实并不是这样，其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库，这时你可以下载这个comct332.ocx文件(挑选合适的版本文件)把它放入到程序或系统目录 ...阅读全文

Windows系统安装软件出现找不到comct232.ocx或未注册控件问题

其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题，如果是新手第一时间会认为是软件或游戏出错了，其实并不是这样，其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库，这时你可以下载这个comct232.ocx文件(挑选合适的版本文件)把它放入到程序或系统目录 ...阅读全文

一 背景

二 方案简介

三 nginx-ingress关键指标

四 如何根据nginx-ingress指标进行告警

一背景

二方案简介

四如何根据nginx-ingress指标进行告警