如何利用 AI 定义并实现 SLO 可 reliability 目标

本技能提供一套完整的框架，通过 AI 辅助定义 SLI、设置 SLO 目标并计算错误预算，将模糊的“服务稳定”转化为可量化的数据决策指标。

为什么需要这个技能

在复杂的分布式系统中，简单的“ CPU 占用率”或“内存使用率”无法代表用户的真实体验。团队需要一套标准来决定：什么时候应该继续快速迭代功能，什么时候应该停止开发并专注于修复稳定性问题。

通过引入 SLI（指标）、SLO（目标）和错误预算（Error Budget），可以将可靠性目标量化。例如，如果本月 0.1% 的错误预算已耗尽，团队应立即触发“功能冻结”，优先处理稳定性任务。

构建 SLI/SLO 层级：
- SLI (指标)：实际的测量值（如：成功请求数 / 总请求数）。
- SLO (目标)：内部设定的可靠性目标（如：可用性 $\geq 99.9 %$ ）。
- SLA (协议)：与客户签署的外部合同（低于此值需赔偿）。
定义关键 SLI 类型：
- 可用性：通过 PromQL 计算成功率。
- 延迟：计算在特定阈值（如 500ms）下的请求百分比。
- 持久性：计算成功写入量与总写入量的比率。
计算与执行错误预算：
- 公式： $Error Budget = 1 - SLO Target$ 。
- 根据剩余预算百分比执行策略：100% $\to$ 正常开发；10% $\to$ 冻结非关键变更；0% $\to$ 强制功能冻结。
自动化实现（以 Prometheus 为例）：
- 编写 Recording Rules 将 SLI 计算逻辑预处理。
- 配置 Alerting Rules 监控 Burn Rate（消耗率），区分快速消耗（Critical）和慢速消耗（Warning）。
- 在 Grafana 中构建包含 Compliance 状态、预算剩余进度条和趋势图的看板。

解压后将目录放入你的 AI 工具 skills 文件夹，重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。

暂无推荐