值班交接模板:确保故障响应无缝衔接
解决夜间或跨班次故障响应断档问题:通过结构化文档和沟通规范,帮助值班人员在换班时清晰传递当前故障状态、排查进度及待办事项,确保下一班能立即接手处理。
为什么需要这个技能
技术人员排班(On-Call)是保障服务稳定性的核心环节,但换班交接最容易出现信息遗漏。直接口头传递往往缺乏记录,导致下一班无法理解当前告警上下文,甚至错过潜在的故障升级时机。
本技能提供了一套标准化的交接模式,涵盖活动故障、排查进展、近期变更、已知问题及应急预案。通过明确的文档模板和简短的同步会议(Sync),确保下一班接手时能迅速掌握现状并确认告警配置。
适用场景
- 上一班工人在结束前需要撰写换班文档,但时间紧迫。
- 需要总结故障排查进度,并明确下一步行动建议。
- 新人入职或接手新业务时,梳理过往故障与操作流程。
- 发生严重故障(如 SEV1)需要即时交接班并升级通知。
- 准备值班轮值表或制定排班制度时。
核心工作流
-
准备阶段(Outgoing):
- 在交班前 15-30 分钟开始整理文档。
- 使用“活动故障”、“进行中调查”、“已知问题”等板块列出关键信息。
- 记录近期部署、配置变更及即将到来的维护窗口。
-
同步阶段(Sync):
- 与前一班工人在规定时间(如交班前 15 分钟)进行简短电话会议。
- 快速过一遍文档内容,回答新人疑问,确认告警路由(PagerDuty)已切换。
- 检查网络连接、VPN 及关键仪表盘访问权限是否正常。
-
归档与验证:
- 确认下一班工程师已加入故障讨论群组(Slack 等)。
- 更新待办事项列表,关闭已完成的任务。
- 若发生严重故障,确保升级联系人已明确知晓情况。
下载和安装
下载 on-call-handoff-patterns 中文版 Skill ZIP
解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。
你可能还需要
暂无推荐