Appearance
如何使用 AI 自动化操作 Datadog 监控与日志分析
通过 Rube MCP 赋予 AI 直接操作 Datadog 的能力,将繁琐的指标查询、日志检索、告警配置和仪表盘维护转化为自然语言指令。
为什么需要这个技能
在进行故障排查(Troubleshooting)时,工程师通常需要在 Datadog 的多个页面间切换:先看 Dashboard 发现指标异常,再切换到 Log Explorer 搜索错误日志,最后去 Monitor 页面调整告警阈值。
这种手动操作不仅低效,且在紧急情况下容易出错。通过本技能,你可以直接告诉 AI:“查询过去 5 分钟内 web-01 节点的 CPU 占用情况,并找出对应的 Error 日志”,AI 将自动调用一系列 API 完成链路分析,极大地缩短 MTTR(平均修复时间)。
适用场景
- 快速故障诊断:自动关联指标波动与错误日志,快速定位问题根因。
- 告警生命周期管理:通过对话快速创建、更新或临时静默(Mute)特定告警。
- 基础设施审计:快速列出所有汇报状态的 Host 或分析分布式链路追踪(Traces)。
- 维护期操作:在发布维护期间,一键为相关服务创建 Downtime 避免虚假告警。
核心工作流
1. 环境初始化
首先确保已在客户端配置 Rube MCP 服务器(https://rube.app/mcp),并调用 RUBE_MANAGE_CONNECTIONS 完成 Datadog 账号的 OAuth 认证,确保连接状态为 ACTIVE。
2. 关键操作路径
- 指标与日志分析:
- 调用
DATADOG_LIST_METRICS确认指标名称 使用DATADOG_QUERY_METRICS获取时序数据 使用DATADOG_SEARCH_LOGS检索具体日志。
- 调用
- 告警与仪表盘维护:
- 使用
DATADOG_LIST_MONITORS检索现有告警 通过DATADOG_UPDATE_MONITOR修改阈值或通知对象 调用DATADOG_MUTE_MONITOR执行静默。
- 使用
- 事件与维护管理:
- 使用
DATADOG_CREATE_EVENT标记发布时间点 使用DATADOG_CREATE_DOWNTIME为特定 Scope 设置维护窗。
- 使用
3. 关键语法注意事项
- 时间戳:绝大多数接口使用 Unix Epoch 秒(Seconds),而非毫秒。
- 查询格式:指标查询遵循
aggregation:metric_name{tag_filters}格式(例如avg:system.cpu.user{env:prod})。 - 标识符:Monitor ID 是数字,而 Dashboard ID 是字母数字组成的字符串。
下载和安装
下载 datadog-automation 中文版 Skill ZIP
解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。
你可能还需要
暂无推荐