如何利用 AI 构建生产级故障处理 Runbook 模板

解决运维响应碎片化问题：通过 AI 生成标准化的 Runbook 模板，将复杂的故障排查步骤、K8s 诊断指令和沟通模版结构化，确保值班工程师在压力下也能快速执行正确操作。

为什么需要这个技能

在生产环境发生故障时，工程师往往处于高压状态，容易出现记忆模糊或操作失误。如果依赖口头传达或碎片化的 Wiki 文档，会导致响应时间（MTTR）过长。

一个优秀的 Runbook 应该为“凌晨 3 点的大脑”编写，即无需深度思考，只需通过检查清单（Checklist）和预设的命令块（Command Blocks）即可完成从发现到修复的全过程。本技能通过 AI 快速生成涵盖 SEV 分级、K8s 诊断、数据库止损及沟通矩阵的标准化模板。

确定事故分级：根据影响范围（如全站宕机 vs 部分功能异常）定义 SEV 等级及响应时间要求。
构建 Runbook 结构：遵循“概览 $\to$ 检测 $\to$ 初始分诊 $\to$ 缓解 $\to$ 根因分析 $\to$ 验证 $\to$ 回滚 $\to$ 沟通”的标准化链路。
填充可执行指令：将抽象的排查步骤转化为具体的代码块。例如，将“检查 Pod 状态”转化为 kubectl get pods -n <namespace>。
设定沟通模版：预设内部通知、状态更新和解决通知的文字模版，避免在危机时刻浪费时间斟酌措辞。
建立升级矩阵：定义何时需要通知工程经理、安全团队或法务部门。

解压后将目录放入你的 AI 工具 skills 文件夹，重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。

暂无推荐