利用 AI 构建 SRE 标准的故障响应与处理工作流

解决复杂系统在面对生产事故时响应混乱、沟通脱节的问题:通过定义一套严格的 SRE 故障响应机制,引导 AI 协调多个专业角色(如观测工程师、安全审计员、后端架构师)快速恢复服务并完成无责复盘。

为什么需要这个技能

在真实的生产环境下,故障响应不仅是修复 Bug,更是一场关于时间与信息的协同战。传统的处理方式依赖于个别专家的经验,容易出现信息不对称、止损不及时或复盘流于形式的情况。

本技能将现代 SRE(站点可靠性工程)的“事件指挥系统(ICS)”引入 AI 工作流。它将响应过程标准化为五个阶段,确保在压力环境下依然能维持有序的指挥链,通过量化的严重等级(P0-P3)和标准的操作步骤,将故障恢复时间(MTTR)降至最低。

适用场景

  • 紧急故障止损:服务出现 P0/P1 级中断,需要快速切换流量或回滚版本。
  • 深度根因分析:面对偶发性性能抖动或复杂链路超时,需要结合 Trace 和 Log 进行五次追问(Five Whys)分析。
  • 标准化沟通:在处理故障的同时,需要向管理层、客户和技术团队同步不同颗粒度的进度报告。
  • 闭环复盘:故障修复后,需要自动生成无责复盘文档并将其转化为可执行的系统增强清单。

核心工作流

该技能通过多 Agent 协作模式,将故障处理分为五个核心阶段:

  1. 检测与分诊 (Detection & Triage)

    • 快速分析 PagerDuty/Grafana 等告警,定义严重等级(P0-P3)。
    • 评估业务影响范围及 SLO 违规情况,建立指挥结构。
  2. 调查与根因分析 (Investigation & RCA)

    • 观测分析:调用 OpenTelemetry 或 ELK 检索异常模式。
    • 安全评估:排查是否为 DDoS 攻击或权限泄露。
    • 性能工程:分析 CPU 尖峰、内存泄漏或数据库锁。
  3. 解决与恢复 (Resolution & Recovery)

    • 设计最小可行修复方案,制定灰度发布或蓝绿部署策略。
    • 执行紧急部署并实时验证健康检查指标。
  4. 沟通与协调 (Communication)

    • 根据严重程度,每 15-30 分钟更新一次状态页、内部技术群及管理层摘要。
  5. 复盘与预防 (Postmortem & Prevention)

    • 编写无责复盘报告,定义具体 Action Items。
    • 升级监控阈值,通过混沌工程验证预防措施的有效性。

下载和安装

下载 incident-response-incident-response 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md

你可能还需要

暂无推荐