利用 AI 构建全链路错误追踪与可观测性监控

解决生产环境“定位难”的痛点：通过 AI 专家级引导，快速搭建错误追踪、实时告警和结构化日志系统，将故障发现时间从手动上报缩短至秒级自动触发。

为什么需要这个技能

在复杂的分布式系统或前端应用中，依赖用户反馈来发现 Bug 效率极低且风险巨大。开发者需要一套完整的可观测性（Observability）方案，能够实时捕获未处理的异常，并自动将相似错误分组，提供完整的堆栈追踪（Stack Trace）。

本技能让 AI 扮演可观测性专家，不仅帮你选择合适的工具（如 Sentry, ELK, Datadog），更重要的是帮你定义告警等级、设计分诊（Triage）流程，并确保日志记录既详尽又不泄露敏感隐私。

现状评估：AI 分析当前系统的错误捕获能力、告警机制及错误分组逻辑。
定义分级与流转：根据影响范围定义严重程度（Severity Levels），并规划告警路由（例如：P0 错误直接触发 PagerDuty/电话，P2 错误发送至 Slack）。
实施配置：配置日志采集、分布式追踪（Tracing）以及具体的告警触发阈值。
信号验证：通过注入模拟错误（Test Errors）验证监控链路是否畅通，确保信号质量。
安全审查：检查并剔除日志中的敏感信息（如 Token、密码、个人隐私数据），并配置合理的采样率以防止生产环境过载。

解压后将目录放入你的 AI 工具 skills 文件夹，重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。

暂无推荐