如何利用 AI 撰写高质量的无责故障回顾报告(Postmortem)
解决技术团队在处理事故后容易陷入“相互指责”或“分析浅表化”的痛点,通过 AI 引导将事故回顾转化为系统性的组织学习机会。
为什么需要这个技能
在处理生产环境故障后,很多团队的回顾文档往往变成了“谁操作失误”的指责书,或者仅仅记录了“重启服务后恢复”的表面现象。这种做法不仅掩盖了深层的系统漏洞,还会导致团队成员在面对事故时产生恐惧心理,倾向于隐藏关键信息。
一个高效的 Postmortem 应该聚焦于无责文化(Blameless Culture)。这意味着我们要从“谁导致了故障”转向“什么样的系统条件允许了这次故障发生”。本技能通过提供结构化的模板(如 5 Whys 分析法)和严谨的工作流,帮助 AI 辅助你将零散的日志和时间线转化为可量化的改进方案。
适用场景
- 发生 SEV1/SEV2 级重大事故或导致用户感知明显的长时间宕机。
- 出现了某种新型的、难以复现的系统失效模式。
- 需要在跨部门会议中对事故进行回顾并达成一致的改进计划。
- 建立公司内部的工程可靠性知识库,防止相同问题在不同团队重复出现。
核心工作流
- 构建无责时间线:将事故发生、检测、响应、恢复的每个关键时间点(UTC 时间)详细记录,避免主观猜测。
- 执行 5 Whys 根因分析:AI 引导你连续追问五个“为什么”,从直接原因(Proximate Cause)挖掘到系统性根因(Root Cause)。
- 量化影响评估:不仅记录故障时长,还需量化受影响的用户数、预估损失及技术指标(如错误率峰值)。
- 制定可执行行动项:将教训转化为具体的 Ticket。每个行动项必须有明确的负责人(Owner)和截止日期,而非模糊的“优化代码”。
- 循环验证:回顾季度内的故障模式,判断之前的 Action Items 是否真正降低了同类事故的发生率。
下载和安装
下载 postmortem-writing 中文版 Skill ZIP
解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。
你可能还需要
暂无推荐