值班交接模板:确保故障响应无缝衔接

解决夜间或跨班次故障响应断档问题:通过结构化文档和沟通规范,帮助值班人员在换班时清晰传递当前故障状态、排查进度及待办事项,确保下一班能立即接手处理。

为什么需要这个技能

技术人员排班(On-Call)是保障服务稳定性的核心环节,但换班交接最容易出现信息遗漏。直接口头传递往往缺乏记录,导致下一班无法理解当前告警上下文,甚至错过潜在的故障升级时机。

本技能提供了一套标准化的交接模式,涵盖活动故障、排查进展、近期变更、已知问题及应急预案。通过明确的文档模板和简短的同步会议(Sync),确保下一班接手时能迅速掌握现状并确认告警配置。

适用场景

  • 上一班工人在结束前需要撰写换班文档,但时间紧迫。
  • 需要总结故障排查进度,并明确下一步行动建议。
  • 新人入职或接手新业务时,梳理过往故障与操作流程。
  • 发生严重故障(如 SEV1)需要即时交接班并升级通知。
  • 准备值班轮值表或制定排班制度时。

核心工作流

  1. 准备阶段(Outgoing)

    • 在交班前 15-30 分钟开始整理文档。
    • 使用“活动故障”、“进行中调查”、“已知问题”等板块列出关键信息。
    • 记录近期部署、配置变更及即将到来的维护窗口。
  2. 同步阶段(Sync)

    • 与前一班工人在规定时间(如交班前 15 分钟)进行简短电话会议。
    • 快速过一遍文档内容,回答新人疑问,确认告警路由(PagerDuty)已切换。
    • 检查网络连接、VPN 及关键仪表盘访问权限是否正常。
  3. 归档与验证

    • 确认下一班工程师已加入故障讨论群组(Slack 等)。
    • 更新待办事项列表,关闭已完成的任务。
    • 若发生严重故障,确保升级联系人已明确知晓情况。

下载和安装

下载 on-call-handoff-patterns 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md

你可能还需要

暂无推荐