如何使用 AI 自动化操作 Datadog 监控与日志分析

通过 Rube MCP 赋予 AI 直接操作 Datadog 的能力，将繁琐的指标查询、日志检索、告警配置和仪表盘维护转化为自然语言指令。

为什么需要这个技能

在进行故障排查（Troubleshooting）时，工程师通常需要在 Datadog 的多个页面间切换：先看 Dashboard 发现指标异常，再切换到 Log Explorer 搜索错误日志，最后去 Monitor 页面调整告警阈值。

这种手动操作不仅低效，且在紧急情况下容易出错。通过本技能，你可以直接告诉 AI：“查询过去 5 分钟内 web-01 节点的 CPU 占用情况，并找出对应的 Error 日志”，AI 将自动调用一系列 API 完成链路分析，极大地缩短 MTTR（平均修复时间）。

首先确保已在客户端配置 Rube MCP 服务器（https://rube.app/mcp），并调用 RUBE_MANAGE_CONNECTIONS 完成 Datadog 账号的 OAuth 认证，确保连接状态为 ACTIVE。

指标与日志分析：
- 调用 DATADOG_LIST_METRICS 确认指标名称 $\to$ 使用 DATADOG_QUERY_METRICS 获取时序数据 $\to$ 使用 DATADOG_SEARCH_LOGS 检索具体日志。
告警与仪表盘维护：
- 使用 DATADOG_LIST_MONITORS 检索现有告警 $\to$ 通过 DATADOG_UPDATE_MONITOR 修改阈值或通知对象 $\to$ 调用 DATADOG_MUTE_MONITOR 执行静默。
事件与维护管理：
- 使用 DATADOG_CREATE_EVENT 标记发布时间点 $\to$ 使用 DATADOG_CREATE_DOWNTIME 为特定 Scope 设置维护窗。

时间戳：绝大多数接口使用 Unix Epoch 秒（Seconds），而非毫秒。
查询格式：指标查询遵循 aggregation:metric_name{tag_filters} 格式（例如 avg:system.cpu.user{env:prod}）。
标识符：Monitor ID 是数字，而 Dashboard ID 是字母数字组成的字符串。

解压后将目录放入你的 AI 工具 skills 文件夹，重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。

暂无推荐