用 AI 自动化管理 PagerDuty 告警与值班

解决运维告警响应繁琐问题:通过 AI 自动调用 PagerDuty API,完成从事件处理、服务管理到值班排班的全流程操作,无需人工登录网页或手动输入复杂参数。

为什么需要这个技能

当系统出现故障时,运维人员常需手动登录 PagerDuty 查看事件、确认升级策略或修改排班。这不仅耗时,还容易出错。

本技能利用 Rube MCP 直接连接 PagerDuty,让 AI 能直接执行 PAGERDUTY_CREATE_INCIDENT_RECORD 创建事件,或调用 PAGERDUTY_SNOOZE_INCIDENT_BY_DURATION 暂停告警。它还能自动查询排班表 PAGERDUTY_GET_SCHEDULES 确认当前值班人员,极大提升故障响应速度。

适用场景

  • 故障发生:自动接收告警,调用工具确认状态,并根据升级策略触发通知。
  • 值班管理:临时调整排班表 PAGERDUTY_UPDATE_SCHEDULE_BY_ID,或查看当前谁在值班。
  • 服务维护:创建新服务 PAGERDUTY_CREATE_NEW_SERVICE 或将服务设为维护状态。
  • 策略优化:修改升级策略 PAGERDUTY_UPDATE_ESCALATION_POLICY_BY_ID 以适应新的团队流程。

核心工作流

1. 初始化与连接

无需 API 密钥即可开始,但需先建立连接:

  1. 确认 Rube MCP 可用。
  2. 调用 RUBE_MANAGE_CONNECTIONS 连接 PagerDuty 工具集。
  3. 若显示非 ACTIVE,按返回的链接完成授权。

2. 处理告警事件

处理事件遵循标准生命周期,例如从 triggeredresolved

  1. 查询列表:先调用 PAGERDUTY_FETCH_INCIDENT_LIST 获取最新事件。
  2. 查看详情:用 PAGERDUTY_RETRIEVE_INCIDENT_BY_INCIDENT_ID 获取具体信息。
  3. 执行操作
    • 若需暂停:调用 PAGERDUTY_SNOOZE_INCIDENT_BY_DURATION
    • 若需确认:调用 PAGERDUTY_UPDATE_INCIDENT_BY_ID 设置状态为 acknowledged
  4. 添加备注:使用 PAGERDUTY_POST_INCIDENT_NOTE_USING_ID 记录排查过程。

注意:事件状态只能单向流转,不能直接从 resolved 跳回 triggered

3. 管理服务与排班

  • 服务管理:使用 PAGERDUTY_RETRIEVE_LIST_OF_SERVICES 列出服务,创建时需指定 escalation_policy 对象。
  • 排班调整:调用 PAGERDUTY_CREATE_NEW_SCHEDULE_LAYER 添加新班次,或使用 PAGERDUTY_RETRIEVE_ONCALL_LIST 检查当前状态。

4. 常见操作模式

  • 名称转 ID:工具通常返回对象列表,需先提取 id 字段再进行操作。
  • 分页处理:大列表查询需关注 more 字段,使用 offset 继续翻页。
  • ID 格式:所有 PagerDuty 对象 ID 均为字母数字组合(如 P1234AB)。

下载和安装

下载 pagerduty-automation 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具即可使用。

你可能还需要

暂无推荐