通过滴滴技术博客：探寻造成此次P0故障的真正原因

2023-11-30 10:38 由架构成长指南发表于 #其他

2023年11月27日晚至2023年11月28日早晨，滴滴发生了长达12小时的P0级故障，导致滴滴核心业务都受到了影响，比如不显示定位无法打车、滴滴单车无法扫码等问题，期间滴滴进行了多次致歉

目前问题故障已经恢复，根据最新的消息得知造成此次事故的原因，是由于升级K8S 集群导致

那么在K8s升级过程中，遇到了那些问题，我们可以从滴滴弹性云基于 K8S 的调度实践文章中看出一些原因

1. 集群体量大

最大集群规模已经远远超出了社区推荐的5千个 node 上限，有问题的爆炸半径大；

2. 版本升级跨度大

直接从1.12 升级到了1.20，跨越多个版本，有可能存在api不兼容的问题

3. 升级方式应该选择了原地升级

虽然滴滴有能力基于K8S二次开发，但是由于版本跨度较大，细节点较多，原地升级风险我觉得比替换升级
大不少。

比如集群版本已经升级为1.20，但是Node节点的kubelet的版本还是 1.12，如果api不兼容，那么这个影响是非常大的，集群回滚又没有那么快。

基于以上三点P0故障就这样产生了，至于为什么不采用替换升级方式？

作者认为替换升级需要业务系统配合，推进难

通常情况下，替换升级的风险最小，因为一旦出现问题，可以及时回滚，然而这种方式需要与业务系统进行配合改造。

对于像滴滴这样规模巨大的业务，让每个业务方逐一配合是非常困难的(也可能业务方核心人员被降本增效了)。

同时，如果替换升级出现问题，业务方也有一定的责任，因此干脆由运维团队来负责这个任务可能更为合适。

一行代码解决IE停用后无法继续使用IE弹窗功能的问题

微软在2023年2月14日通过Edge浏览器更新，彻底封死IE。Windows Update中没有记录、开始菜单中的IE以及桌面IE图标双击自动打开Edge，默认程序设置了IE也没有任何效果，仅能通过Edge浏览器设置IE模式浏览。但是之前通过这种方式使用IE最近发现无法弹窗了，而有些IE应用要求必 ...阅读全文

读像火箭科学家一样思考笔记13_失败是最大的成功（上）

1. 载人飞行任务中也发生过许多事故 1.1. 在火箭科学中，失败可能意味着丧失生命，还可能让纳税人损失数亿美元资金 1.2. 失败意味着数十年的工作烟消云散 1.3. 没人会为太空竞赛期间发生的无数爆炸和不幸事件庆祝，它们实在令人尴尬，而且是灾难性的，人们不会视之如儿戏 2. 过度害怕失败 2.1 ...阅读全文

跟敬姐读《程序员的自我修养》

最近刚读完陈逸鹤老师的《程序员的自我修养》，结合敬姐十几年的程序员生涯，分享给大家。短视频为王的时代，为什么要阅读？敬姐也曾经有过这种想法，读过的书，不管当时觉得多么震撼和共鸣，过一段时间好像都会忘记。那我们还为什么要花费时间去阅读呢？我赞同这本书里面的一段话：阅读就像是跨越时空的对话，这本书 ...阅读全文

单调队列

一、算法描述本篇文章讲述的数据结构是单调队列，主要用于解决滑动窗口类问题的数据结构，即，在长度为 \(n\) 的序列中，求每个长度为 \(m\) 的区间的区间最值，时间复杂度 \(O(n)\)。思路如下：用一个队列 \(q[N]\) 来存储可能是答案的下标。先判断是否滑出了窗口，如果滑出 ...阅读全文

week1-深度学习概论

1. What is a neural network? 神经网络又称人工神经网络 (ANN) 或模拟神经网络 (SNN)，是机器学习的子集，同时也是深度学习算法的核心。神经网络其名称和结构均受到人脑的启发，可模仿生物神经元相互传递信号的方式。人工神经网络 (ANN) 由节点层组成，包含一个输入 ...阅读全文

十、Docker 可视化与监控

6.1 常用工具介绍当 Docker 部署规模逐步变大后，可视化监控容器环境的性能和健康状态将会变得越来越重要。 Docker的图形化管理工具，提供状态显示面板、应用模板快速部署、容器镜像网络数据卷的基本操作（包括上传下载镜像，创建容器等操作）、事件日志显示、容器控制台操作、Swarm集群和 ...阅读全文

九、安装Docker Compose 编排工具

根据前面所学的知识可知，想要使用Docker部署应用，就要先在应用中编写Dockerfile 文件来构建镜像。同样，在微服务项目中，我们也需要为每一个服务编写Dockerfile文件来构建镜像。构建完成后，就可以根据每一个镜像使用docker run或者docker service create命 ...阅读全文

B树删除和创建（C）

不得不说，这个我写了两天。第一天晚上想移植一篇博客的，后来经过四个小时发现是错了谁懂啊！今天早上又找了一篇，大错误我都改了，有一个潜在的小bug是自己调试跳出来的，谁懂啊！得找阅读量高的才行！先把刚刚的小错误放一下也不知道博主怎么想的，同时i和keynum++，害，害我好找！！！改后就好了由 ...阅读全文

八、Docker 网络

袖珍指南 Docker作为目前最火的轻量级容器技术，牛逼的功能，如Docker的镜像管理，不足的地方网络方面。 Docker自身的4种网络工作方式，和一些自定义网络模式安装Docker时，它会自动创建三个网络，bridge（创建容器默认连接到此网络）、 none 、host host：容器将不会虚 ...阅读全文

性能测试：系统架构性能优化思路

今天谈下业务系统性能问题分析诊断和性能优化方面的内容。这篇文章重点还是谈已经上线的业务系统后续出现性能问题后的问题诊断和优化重点。系统性能问题分析流程我们首先来分析下如果一个业务系统上线前没有性能问题，而在上线后出现了比较严重的性能问题，那么实际上潜在的场景主要来自于以下几个方面。业务出现大并 ...阅读全文