利用 AI 构建 SRE 标准的故障响应与处理工作流

解决复杂系统在面对生产事故时响应混乱、沟通脱节的问题：通过定义一套严格的 SRE 故障响应机制，引导 AI 协调多个专业角色（如观测工程师、安全审计员、后端架构师）快速恢复服务并完成无责复盘。

为什么需要这个技能

在真实的生产环境下，故障响应不仅是修复 Bug，更是一场关于时间与信息的协同战。传统的处理方式依赖于个别专家的经验，容易出现信息不对称、止损不及时或复盘流于形式的情况。

本技能将现代 SRE（站点可靠性工程）的“事件指挥系统（ICS）”引入 AI 工作流。它将响应过程标准化为五个阶段，确保在压力环境下依然能维持有序的指挥链，通过量化的严重等级（P0-P3）和标准的操作步骤，将故障恢复时间（MTTR）降至最低。

该技能通过多 Agent 协作模式，将故障处理分为五个核心阶段：

检测与分诊 (Detection & Triage)：
- 快速分析 PagerDuty/Grafana 等告警，定义严重等级（P0-P3）。
- 评估业务影响范围及 SLO 违规情况，建立指挥结构。
调查与根因分析 (Investigation & RCA)：
- 观测分析：调用 OpenTelemetry 或 ELK 检索异常模式。
- 安全评估：排查是否为 DDoS 攻击或权限泄露。
- 性能工程：分析 CPU 尖峰、内存泄漏或数据库锁。
解决与恢复 (Resolution & Recovery)：
- 设计最小可行修复方案，制定灰度发布或蓝绿部署策略。
- 执行紧急部署并实时验证健康检查指标。
沟通与协调 (Communication)：
- 根据严重程度，每 15-30 分钟更新一次状态页、内部技术群及管理层摘要。
复盘与预防 (Postmortem & Prevention)：
- 编写无责复盘报告，定义具体 Action Items。
- 升级监控阈值，通过混沌工程验证预防措施的有效性。

解压后将目录放入你的 AI 工具 skills 文件夹，重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。

暂无推荐