用 AI 自动化管理 PagerDuty 告警与值班
解决运维告警响应繁琐问题:通过 AI 自动调用 PagerDuty API,完成从事件处理、服务管理到值班排班的全流程操作,无需人工登录网页或手动输入复杂参数。
为什么需要这个技能
当系统出现故障时,运维人员常需手动登录 PagerDuty 查看事件、确认升级策略或修改排班。这不仅耗时,还容易出错。
本技能利用 Rube MCP 直接连接 PagerDuty,让 AI 能直接执行 PAGERDUTY_CREATE_INCIDENT_RECORD 创建事件,或调用 PAGERDUTY_SNOOZE_INCIDENT_BY_DURATION 暂停告警。它还能自动查询排班表 PAGERDUTY_GET_SCHEDULES 确认当前值班人员,极大提升故障响应速度。
适用场景
- 故障发生:自动接收告警,调用工具确认状态,并根据升级策略触发通知。
- 值班管理:临时调整排班表
PAGERDUTY_UPDATE_SCHEDULE_BY_ID,或查看当前谁在值班。 - 服务维护:创建新服务
PAGERDUTY_CREATE_NEW_SERVICE或将服务设为维护状态。 - 策略优化:修改升级策略
PAGERDUTY_UPDATE_ESCALATION_POLICY_BY_ID以适应新的团队流程。
核心工作流
1. 初始化与连接
无需 API 密钥即可开始,但需先建立连接:
- 确认 Rube MCP 可用。
- 调用
RUBE_MANAGE_CONNECTIONS连接 PagerDuty 工具集。 - 若显示非
ACTIVE,按返回的链接完成授权。
2. 处理告警事件
处理事件遵循标准生命周期,例如从 triggered 到 resolved:
- 查询列表:先调用
PAGERDUTY_FETCH_INCIDENT_LIST获取最新事件。 - 查看详情:用
PAGERDUTY_RETRIEVE_INCIDENT_BY_INCIDENT_ID获取具体信息。 - 执行操作:
- 若需暂停:调用
PAGERDUTY_SNOOZE_INCIDENT_BY_DURATION。 - 若需确认:调用
PAGERDUTY_UPDATE_INCIDENT_BY_ID设置状态为acknowledged。
- 若需暂停:调用
- 添加备注:使用
PAGERDUTY_POST_INCIDENT_NOTE_USING_ID记录排查过程。
注意:事件状态只能单向流转,不能直接从 resolved 跳回 triggered。
3. 管理服务与排班
- 服务管理:使用
PAGERDUTY_RETRIEVE_LIST_OF_SERVICES列出服务,创建时需指定escalation_policy对象。 - 排班调整:调用
PAGERDUTY_CREATE_NEW_SCHEDULE_LAYER添加新班次,或使用PAGERDUTY_RETRIEVE_ONCALL_LIST检查当前状态。
4. 常见操作模式
- 名称转 ID:工具通常返回对象列表,需先提取
id字段再进行操作。 - 分页处理:大列表查询需关注
more字段,使用offset继续翻页。 - ID 格式:所有 PagerDuty 对象 ID 均为字母数字组合(如
P1234AB)。
下载和安装
下载 pagerduty-automation 中文版 Skill ZIP
解压后将目录放入你的 AI 工具 skills 文件夹,重启工具即可使用。
你可能还需要
暂无推荐