Appearance
Everything Claude Code Benchmark Skill 是一款专为 Claude Code、Codex、Cursor 等 AI 编程助手设计的性能基准测试工具。它支持页面、API、构建等多种性能维度的自动化基线测量、PR 前后对比与回归检测。通过与 CI/CD、Canary Watch、Browser QA 等组件集成,帮助开发团队系统性追踪和优化性能,预防性能退化,提升 AI 辅助编程的生产效率和代码质量。
Everything Claude Code Benchmark Skill:性能基准测试、PR 前后对比与回归检测
在 AI 辅助编程日益普及的今天,性能问题往往被忽视,直到上线后才暴露出来。Everything Claude Code Benchmark Skill(以下简称 Benchmark Skill)正是为了解决这一痛点:它让性能基准测试、PR 前后对比与回归检测变得自动化、可追溯、团队共享,极大提升了开发流程中的性能把控能力。
无论你是初次接触 AI 编程助手,还是希望系统性提升团队的性能保障能力,Benchmark Skill 都能为你的项目带来显著价值。下面将详细介绍其适用场景、触发方式、完整使用流程、输出示例,以及与其他 Agent/Skill 的协作关系。
Benchmark Skill 能解决什么问题?
在没有 Benchmark Skill 之前,性能测试通常依赖手工执行、零散脚本或仅在上线前的临时检查,容易遗漏、无法团队共享,也难以持续跟踪 PR 带来的性能变化。常见问题包括:
- PR 合并后才发现页面变慢、API 延迟上升,无法追溯责任点
- 性能基线缺失,团队成员对“性能目标”没有共识
- 性能回退难以及时发现,影响用户体验
- 性能数据分散在各自本地,无法团队协作
Benchmark Skill 通过结构化、自动化的性能基准测试,让性能数据成为团队资产,支持 PR 前后对比、回归检测和历史趋势分析。
何时激活 Benchmark Skill?
你可以在以下场景主动或自动触发 Benchmark Skill:
- PR 合并前后:在合并 Pull Request 前后,自动对比关键性能指标,发现性能回退或提升
- 性能基线建立:项目初始化或重构后,建立可追溯的性能基线
- 用户反馈变慢时:用户或测试反馈“感觉慢”时,快速定位具体指标
- 发布上线前:确保新版本满足性能目标,避免上线后“掉速”
- 对比技术选型:评估不同框架、构建工具、API 方案的性能差异
Benchmark Skill 使用流程(Step by Step)
1. 选择测试模式
Benchmark Skill 支持三大主流性能测试模式:
- 页面性能(Page Performance)
- API 性能(API Performance)
- 构建性能(Build Performance)
你可以根据需求选择一种或多种模式组合使用。
页面性能测试
适用于 Web 应用、前端 SPA、SSR 页面等场景。
自动测量指标包括:
- Core Web Vitals(LCP、CLS、INP、FCP、TTFB)
- 资源体积(总页面体积、JS/CSS/Image/第三方脚本等)
- 网络请求数
- 是否存在渲染阻塞资源
操作示例:
bash
/benchmark page https://your-app.comAPI 性能测试
适用于后端服务、RESTful API、GraphQL 等接口。
自动测量指标包括:
- 各端点的 p50/p95/p99 延迟
- 响应体积、状态码分布
- 并发请求下的表现(如 10 并发)
- 与 SLA(服务级别协议)目标对比
操作示例:
bash
/benchmark api https://your-app.com/api/v1/resource构建性能测试
适用于前后端项目的开发反馈环节,关注开发者体验。
自动测量指标包括:
- 冷启动构建时间
- 热更新(HMR)时间
- 测试套件执行时间
- TypeScript 检查、Lint、Docker 构建等用时
操作示例:
bash
/benchmark build2. 建立性能基线
首次运行 /benchmark baseline,系统会采集当前各项指标并存储为基线。
bash
/benchmark baseline基线数据会被保存到 .ecc/benchmarks/ 目录下(JSON 格式),并建议纳入 Git 管理,实现团队共享。
3. 变更后对比与回归检测
在代码或配置变更后,再次运行对比命令:
bash
/benchmark compare系统会自动将当前测量结果与基线进行对比,输出详细的“前后对比表”,并给出判定(如 BETTER、WARN、FAIL)。
输出示例:
| Metric | Before | After | Delta | Verdict |
|---------|--------|-------|--------|----------------|
| LCP | 1.2s | 1.4s | +200ms | WARNING: WARN |
| Bundle | 180KB | 175KB | -5KB | ✓ BETTER |
| Build | 12s | 14s | +2s | WARNING: WARN |4. 持续集成与团队协作
- 集成到 CI/CD:在每个 PR 的 CI 流程中自动运行
/benchmark compare,阻止性能回退的变更进入主分支。 - 团队共享基线:通过 Git 跟踪
.ecc/benchmarks/,全员可见性能趋势,便于历史追溯和责任归属。
5. 与其他 Agent/Skill 的协作
- Canary Watch 配合:上线后结合 Canary Watch Skill 持续监控性能回归。
- Browser QA 配合:与 Browser QA Skill 组合,形成“功能+性能”全流程交付检查。
- Eval Harness 配合:在多 Agent 场景下,结合 Eval Harness Skill 统一评测标准。
更多系统性配置方法可参考 Claude Code 快速上手指南。
输出与数据管理
- 所有基线和对比结果均存储于
.ecc/benchmarks/,格式为结构化 JSON,便于自动化处理和团队审计。 - 支持自定义指标扩展,满足不同技术栈和业务场景。
常见问题与注意事项
Q: 可以只测部分页面或接口吗? A: 支持自定义目标列表,只需指定需要测试的 URL 或 API 路径即可。
Q: 如何避免误报(如偶发网络抖动)? A: 默认多次采样并取 p50/p95/p99,支持自定义采样次数,建议在稳定网络环境下运行。
Q: 性能基线会不会被覆盖丢失? A: 基线文件纳入 Git 管理,团队成员可随时回溯历史,避免丢失;如需重置基线,手动运行 /benchmark baseline 即可。
通过 Everything Claude Code Benchmark Skill,你可以将性能保障纳入日常开发流程,做到“性能有数据、变更有对比、回退能预警”,为 AI 辅助编程赋能更高质量的交付。如果你希望进一步系统性提升开发效能,建议结合 Everything Claude Code 完全指南 深入探索 Skills/Agents/Hooks 的协同价值。