利用 AI 快速排查与修复 Linux 系统故障

通过结构化的诊断工作流,引导 AI 协同用户完成从初步评估、资源分析到日志审查和服务修复的完整 Linux 故障排查过程。

为什么需要这个技能

面对 Linux 系统崩溃、服务不可用或性能骤降时,运维人员往往在海量的命令和日志中盲目尝试。一个非结构化的排查过程容易遗漏关键线索,甚至在尝试修复时引入新问题。

本技能将排查过程标准化为七个阶段。它不仅提供核心命令,还通过 AI 角色(如 performance-engineererror-detective)将复杂的分析逻辑模块化,确保排查路径覆盖从硬件资源到网络协议、从内核日志到应用状态的所有关键点。

适用场景

  • 性能瓶颈分析:系统 CPU 飙升、内存泄漏或磁盘 I/O 阻塞。
  • 服务异常诊断:关键进程崩溃、服务无法启动或响应缓慢。
  • 网络连通性故障:端口无法访问、DNS 解析失败或防火墙拦截。
  • 资源枯竭处理:磁盘空间满、Inode 耗尽或文件句柄数超限。

核心工作流

  1. 初步评估:使用 uptimedmesg 等命令确认系统整体状态,识别核心症状。
  2. 资源分析:通过 topfreedf 检查 CPU、内存及磁盘空间,定位资源瓶颈。
  3. 进程调查:利用 ps auxlsofstrace 分析异常进程的行为与资源占用。
  4. 日志审查:通过 journalctl/var/log/ 下的系统日志搜寻错误关键字。
  5. 网络诊断:使用 ip addrssdig 验证链路连通性与端口状态。
  6. 服务修复:检查 systemctl 状态,重启服务并验证依赖项。
  7. 方案闭环:实施修复措施,验证稳定性并记录根因分析(RCA)。
# 示例:快速检查系统资源压力
top -bn1 | head -20
free -h
df -h
# 示例:检查服务错误日志
journalctl -xe
systemctl status service_name

下载和安装

下载 linux-troubleshooting 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md

你可能还需要

暂无推荐