利用 AI 快速排查与修复 Linux 系统故障
通过结构化的诊断工作流,引导 AI 协同用户完成从初步评估、资源分析到日志审查和服务修复的完整 Linux 故障排查过程。
为什么需要这个技能
面对 Linux 系统崩溃、服务不可用或性能骤降时,运维人员往往在海量的命令和日志中盲目尝试。一个非结构化的排查过程容易遗漏关键线索,甚至在尝试修复时引入新问题。
本技能将排查过程标准化为七个阶段。它不仅提供核心命令,还通过 AI 角色(如 performance-engineer 或 error-detective)将复杂的分析逻辑模块化,确保排查路径覆盖从硬件资源到网络协议、从内核日志到应用状态的所有关键点。
适用场景
- 性能瓶颈分析:系统 CPU 飙升、内存泄漏或磁盘 I/O 阻塞。
- 服务异常诊断:关键进程崩溃、服务无法启动或响应缓慢。
- 网络连通性故障:端口无法访问、DNS 解析失败或防火墙拦截。
- 资源枯竭处理:磁盘空间满、Inode 耗尽或文件句柄数超限。
核心工作流
- 初步评估:使用
uptime、dmesg等命令确认系统整体状态,识别核心症状。 - 资源分析:通过
top、free、df检查 CPU、内存及磁盘空间,定位资源瓶颈。 - 进程调查:利用
ps aux、lsof和strace分析异常进程的行为与资源占用。 - 日志审查:通过
journalctl和/var/log/下的系统日志搜寻错误关键字。 - 网络诊断:使用
ip addr、ss、dig验证链路连通性与端口状态。 - 服务修复:检查
systemctl状态,重启服务并验证依赖项。 - 方案闭环:实施修复措施,验证稳定性并记录根因分析(RCA)。
# 示例:快速检查系统资源压力
top -bn1 | head -20
free -h
df -h
# 示例:检查服务错误日志
journalctl -xe
systemctl status service_name
下载和安装
下载 linux-troubleshooting 中文版 Skill ZIP
解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。
你可能还需要
暂无推荐