利用 AI 构建 SRE 标准的故障响应与处理工作流
解决复杂系统在面对生产事故时响应混乱、沟通脱节的问题:通过定义一套严格的 SRE 故障响应机制,引导 AI 协调多个专业角色(如观测工程师、安全审计员、后端架构师)快速恢复服务并完成无责复盘。
为什么需要这个技能
在真实的生产环境下,故障响应不仅是修复 Bug,更是一场关于时间与信息的协同战。传统的处理方式依赖于个别专家的经验,容易出现信息不对称、止损不及时或复盘流于形式的情况。
本技能将现代 SRE(站点可靠性工程)的“事件指挥系统(ICS)”引入 AI 工作流。它将响应过程标准化为五个阶段,确保在压力环境下依然能维持有序的指挥链,通过量化的严重等级(P0-P3)和标准的操作步骤,将故障恢复时间(MTTR)降至最低。
适用场景
- 紧急故障止损:服务出现 P0/P1 级中断,需要快速切换流量或回滚版本。
- 深度根因分析:面对偶发性性能抖动或复杂链路超时,需要结合 Trace 和 Log 进行五次追问(Five Whys)分析。
- 标准化沟通:在处理故障的同时,需要向管理层、客户和技术团队同步不同颗粒度的进度报告。
- 闭环复盘:故障修复后,需要自动生成无责复盘文档并将其转化为可执行的系统增强清单。
核心工作流
该技能通过多 Agent 协作模式,将故障处理分为五个核心阶段:
-
检测与分诊 (Detection & Triage):
- 快速分析 PagerDuty/Grafana 等告警,定义严重等级(P0-P3)。
- 评估业务影响范围及 SLO 违规情况,建立指挥结构。
-
调查与根因分析 (Investigation & RCA):
- 观测分析:调用 OpenTelemetry 或 ELK 检索异常模式。
- 安全评估:排查是否为 DDoS 攻击或权限泄露。
- 性能工程:分析 CPU 尖峰、内存泄漏或数据库锁。
-
解决与恢复 (Resolution & Recovery):
- 设计最小可行修复方案,制定灰度发布或蓝绿部署策略。
- 执行紧急部署并实时验证健康检查指标。
-
沟通与协调 (Communication):
- 根据严重程度,每 15-30 分钟更新一次状态页、内部技术群及管理层摘要。
-
复盘与预防 (Postmortem & Prevention):
- 编写无责复盘报告,定义具体 Action Items。
- 升级监控阈值,通过混沌工程验证预防措施的有效性。
下载和安装
下载 incident-response-incident-response 中文版 Skill ZIP
解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。
你可能还需要
暂无推荐