Appearance
利用 AI 快速定位 DevOps 生产环境故障与性能瓶颈
解决复杂分布式系统的运维痛点:通过为 AI 注入 SRE 专家知识库,使其能够分析日志、指标和链路追踪数据,快速定位从 K8s 容器到云网络、数据库的各类生产事故。
为什么需要这个技能
在现代云原生架构中,一次简单的 504 错误可能涉及负载均衡器、Service Mesh、容器资源限制、数据库死锁或网络丢包等多个环节。手动排查需要工程师在多个监控面板(Grafana, Kibana, Jaeger)之间频繁切换,且在压力巨大的事故响应期间容易遗漏关键线索。
本技能将 AI 打造为一名具备“全栈观测能力”的 DevOps 专家。它不仅知道如何使用 kubectl 命令,更重要的是它拥有一套系统化的诊断方法论:先收集事实 建立假设 验证 修复 预防,从而极大缩短平均修复时间(MTTR)。
适用场景
- 紧急事故响应:生产环境出现 OOMKilled、Pod 频繁重启或 API 响应缓慢,需要快速定位根因。
- 性能调优:分析分布式链路追踪数据,寻找微服务架构中的性能瓶颈或 CPU 热点。
- 网络疑难杂症:排查 DNS 解析失败、CNI 网络插件异常或跨 VPC 通信问题。
- CI/CD 链路崩溃:诊断 GitOps 部署失败、镜像拉取超时或 pipeline 构建崩溃。
- 数据库异常:分析慢查询、连接池耗尽或主从同步延迟问题。
核心工作流
- 紧急状态评估:AI 首先根据影响范围和紧急程度评估现状,明确目标与约束。
- 多维数据采集:指导用户收集关键证据,包括:
- 日志(ELK/Loki):查找 Error 堆栈与异常模式。
- 指标(Prometheus):分析 CPU/Mem 趋势与吞吐量。
- 链路(OpenTelemetry/Jaeger):追踪跨服务调用延迟。
- 系统性假设验证:AI 提出可能的故障原因(如:资源限制 内存泄漏 GC 频繁),并给出具体的验证命令(如
kubectl top pods或tcpdump)。 - 修复与闭环:实施临时止损方案 制定长期修复计划 配置预防性告警 编写无责事后总结(Blameless Postmortem)。
下载和安装
下载 devops-troubleshooter 中文版 Skill ZIP
解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。
你可能还需要
暂无推荐