Skip to content

Everything Claude Code Benchmark Skill 是一款专为 Claude Code、Codex、Cursor 等 AI 编程助手设计的性能基准测试工具。它支持页面、API、构建等多种性能维度的自动化基线测量、PR 前后对比与回归检测。通过与 CI/CD、Canary Watch、Browser QA 等组件集成,帮助开发团队系统性追踪和优化性能,预防性能退化,提升 AI 辅助编程的生产效率和代码质量。

Everything Claude Code Benchmark Skill:性能基准测试、PR 前后对比与回归检测

在 AI 辅助编程日益普及的今天,性能问题往往被忽视,直到上线后才暴露出来。Everything Claude Code Benchmark Skill(以下简称 Benchmark Skill)正是为了解决这一痛点:它让性能基准测试、PR 前后对比与回归检测变得自动化、可追溯、团队共享,极大提升了开发流程中的性能把控能力。

无论你是初次接触 AI 编程助手,还是希望系统性提升团队的性能保障能力,Benchmark Skill 都能为你的项目带来显著价值。下面将详细介绍其适用场景、触发方式、完整使用流程、输出示例,以及与其他 Agent/Skill 的协作关系。

Benchmark Skill 能解决什么问题?

在没有 Benchmark Skill 之前,性能测试通常依赖手工执行、零散脚本或仅在上线前的临时检查,容易遗漏、无法团队共享,也难以持续跟踪 PR 带来的性能变化。常见问题包括:

  • PR 合并后才发现页面变慢、API 延迟上升,无法追溯责任点
  • 性能基线缺失,团队成员对“性能目标”没有共识
  • 性能回退难以及时发现,影响用户体验
  • 性能数据分散在各自本地,无法团队协作

Benchmark Skill 通过结构化、自动化的性能基准测试,让性能数据成为团队资产,支持 PR 前后对比、回归检测和历史趋势分析。

何时激活 Benchmark Skill?

你可以在以下场景主动或自动触发 Benchmark Skill:

  • PR 合并前后:在合并 Pull Request 前后,自动对比关键性能指标,发现性能回退或提升
  • 性能基线建立:项目初始化或重构后,建立可追溯的性能基线
  • 用户反馈变慢时:用户或测试反馈“感觉慢”时,快速定位具体指标
  • 发布上线前:确保新版本满足性能目标,避免上线后“掉速”
  • 对比技术选型:评估不同框架、构建工具、API 方案的性能差异

Benchmark Skill 使用流程(Step by Step)

1. 选择测试模式

Benchmark Skill 支持三大主流性能测试模式:

  • 页面性能(Page Performance)
  • API 性能(API Performance)
  • 构建性能(Build Performance)

你可以根据需求选择一种或多种模式组合使用。

页面性能测试

适用于 Web 应用、前端 SPA、SSR 页面等场景。

自动测量指标包括:

  • Core Web Vitals(LCP、CLS、INP、FCP、TTFB)
  • 资源体积(总页面体积、JS/CSS/Image/第三方脚本等)
  • 网络请求数
  • 是否存在渲染阻塞资源

操作示例:

bash
/benchmark page https://your-app.com

API 性能测试

适用于后端服务、RESTful API、GraphQL 等接口。

自动测量指标包括:

  • 各端点的 p50/p95/p99 延迟
  • 响应体积、状态码分布
  • 并发请求下的表现(如 10 并发)
  • 与 SLA(服务级别协议)目标对比

操作示例:

bash
/benchmark api https://your-app.com/api/v1/resource

构建性能测试

适用于前后端项目的开发反馈环节,关注开发者体验。

自动测量指标包括:

  • 冷启动构建时间
  • 热更新(HMR)时间
  • 测试套件执行时间
  • TypeScript 检查、Lint、Docker 构建等用时

操作示例:

bash
/benchmark build

2. 建立性能基线

首次运行 /benchmark baseline,系统会采集当前各项指标并存储为基线。

bash
/benchmark baseline

基线数据会被保存到 .ecc/benchmarks/ 目录下(JSON 格式),并建议纳入 Git 管理,实现团队共享。

3. 变更后对比与回归检测

在代码或配置变更后,再次运行对比命令:

bash
/benchmark compare

系统会自动将当前测量结果与基线进行对比,输出详细的“前后对比表”,并给出判定(如 BETTER、WARN、FAIL)。

输出示例:

| Metric  | Before | After | Delta  | Verdict         |
|---------|--------|-------|--------|----------------|
| LCP     | 1.2s   | 1.4s  | +200ms | WARNING: WARN  |
| Bundle  | 180KB  | 175KB | -5KB   | ✓ BETTER       |
| Build   | 12s    | 14s   | +2s    | WARNING: WARN  |

4. 持续集成与团队协作

  • 集成到 CI/CD:在每个 PR 的 CI 流程中自动运行 /benchmark compare,阻止性能回退的变更进入主分支。
  • 团队共享基线:通过 Git 跟踪 .ecc/benchmarks/,全员可见性能趋势,便于历史追溯和责任归属。

5. 与其他 Agent/Skill 的协作

  • Canary Watch 配合:上线后结合 Canary Watch Skill 持续监控性能回归。
  • Browser QA 配合:与 Browser QA Skill 组合,形成“功能+性能”全流程交付检查。
  • Eval Harness 配合:在多 Agent 场景下,结合 Eval Harness Skill 统一评测标准。

更多系统性配置方法可参考 Claude Code 快速上手指南

输出与数据管理

  • 所有基线和对比结果均存储于 .ecc/benchmarks/,格式为结构化 JSON,便于自动化处理和团队审计。
  • 支持自定义指标扩展,满足不同技术栈和业务场景。

常见问题与注意事项

Q: 可以只测部分页面或接口吗? A: 支持自定义目标列表,只需指定需要测试的 URL 或 API 路径即可。

Q: 如何避免误报(如偶发网络抖动)? A: 默认多次采样并取 p50/p95/p99,支持自定义采样次数,建议在稳定网络环境下运行。

Q: 性能基线会不会被覆盖丢失? A: 基线文件纳入 Git 管理,团队成员可随时回溯历史,避免丢失;如需重置基线,手动运行 /benchmark baseline 即可。


通过 Everything Claude Code Benchmark Skill,你可以将性能保障纳入日常开发流程,做到“性能有数据、变更有对比、回退能预警”,为 AI 辅助编程赋能更高质量的交付。如果你希望进一步系统性提升开发效能,建议结合 Everything Claude Code 完全指南 深入探索 Skills/Agents/Hooks 的协同价值。