如何利用 AI 撰写高质量的无责故障回顾报告（Postmortem）

解决技术团队在处理事故后容易陷入“相互指责”或“分析浅表化”的痛点，通过 AI 引导将事故回顾转化为系统性的组织学习机会。

为什么需要这个技能

在处理生产环境故障后，很多团队的回顾文档往往变成了“谁操作失误”的指责书，或者仅仅记录了“重启服务后恢复”的表面现象。这种做法不仅掩盖了深层的系统漏洞，还会导致团队成员在面对事故时产生恐惧心理，倾向于隐藏关键信息。

一个高效的 Postmortem 应该聚焦于无责文化（Blameless Culture）。这意味着我们要从“谁导致了故障”转向“什么样的系统条件允许了这次故障发生”。本技能通过提供结构化的模板（如 5 Whys 分析法）和严谨的工作流，帮助 AI 辅助你将零散的日志和时间线转化为可量化的改进方案。

适用场景

发生 SEV1/SEV2 级重大事故或导致用户感知明显的长时间宕机。
出现了某种新型的、难以复现的系统失效模式。
需要在跨部门会议中对事故进行回顾并达成一致的改进计划。
建立公司内部的工程可靠性知识库，防止相同问题在不同团队重复出现。

核心工作流

构建无责时间线：将事故发生、检测、响应、恢复的每个关键时间点（UTC 时间）详细记录，避免主观猜测。
执行 5 Whys 根因分析：AI 引导你连续追问五个“为什么”，从直接原因（Proximate Cause）挖掘到系统性根因（Root Cause）。
量化影响评估：不仅记录故障时长，还需量化受影响的用户数、预估损失及技术指标（如错误率峰值）。
制定可执行行动项：将教训转化为具体的 Ticket。每个行动项必须有明确的负责人（Owner）和截止日期，而非模糊的“优化代码”。
循环验证：回顾季度内的故障模式，判断之前的 Action Items 是否真正降低了同类事故的发生率。

下载和安装

下载 postmortem-writing 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹，重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。

你可能还需要

暂无推荐

如何利用 AI 撰写高质量的无责故障回顾报告（Postmortem） #

为什么需要这个技能 #

适用场景 #

核心工作流 #