利用 AI 快速定位 DevOps 生产环境故障与性能瓶颈

解决复杂分布式系统的运维痛点：通过为 AI 注入 SRE 专家知识库，使其能够分析日志、指标和链路追踪数据，快速定位从 K8s 容器到云网络、数据库的各类生产事故。

为什么需要这个技能

在现代云原生架构中，一次简单的 504 错误可能涉及负载均衡器、Service Mesh、容器资源限制、数据库死锁或网络丢包等多个环节。手动排查需要工程师在多个监控面板（Grafana, Kibana, Jaeger）之间频繁切换，且在压力巨大的事故响应期间容易遗漏关键线索。

本技能将 AI 打造为一名具备“全栈观测能力”的 DevOps 专家。它不仅知道如何使用 kubectl 命令，更重要的是它拥有一套系统化的诊断方法论：先收集事实 $\to$ 建立假设 $\to$ 验证 $\to$ 修复 $\to$ 预防，从而极大缩短平均修复时间（MTTR）。

紧急状态评估：AI 首先根据影响范围和紧急程度评估现状，明确目标与约束。
多维数据采集：指导用户收集关键证据，包括：
- 日志（ELK/Loki）：查找 Error 堆栈与异常模式。
- 指标（Prometheus）：分析 CPU/Mem 趋势与吞吐量。
- 链路（OpenTelemetry/Jaeger）：追踪跨服务调用延迟。
系统性假设验证：AI 提出可能的故障原因（如：资源限制 $\to$ 内存泄漏 $\to$ GC 频繁），并给出具体的验证命令（如 kubectl top pods 或 tcpdump）。
修复与闭环：实施临时止损方案 $\to$ 制定长期修复计划 $\to$ 配置预防性告警 $\to$ 编写无责事后总结（Blameless Postmortem）。

解压后将目录放入你的 AI 工具 skills 文件夹，重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。

暂无推荐