Everything Claude Code Benchmark Skill 是一款专为 Claude Code、Codex、Cursor 等 AI 编程助手设计的性能基准测试工具。它支持页面、API、构建等多种性能维度的自动化基线测量、PR 前后对比与回归检测。通过与 CI/CD、Canary Watch、Browser QA 等组件集成，帮助开发团队系统性追踪和优化性能，预防性能退化，提升 AI 辅助编程的生产效率和代码质量。

Everything Claude Code Benchmark Skill：性能基准测试、PR 前后对比与回归检测

在 AI 辅助编程日益普及的今天，性能问题往往被忽视，直到上线后才暴露出来。Everything Claude Code Benchmark Skill（以下简称 Benchmark Skill）正是为了解决这一痛点：它让性能基准测试、PR 前后对比与回归检测变得自动化、可追溯、团队共享，极大提升了开发流程中的性能把控能力。

无论你是初次接触 AI 编程助手，还是希望系统性提升团队的性能保障能力，Benchmark Skill 都能为你的项目带来显著价值。下面将详细介绍其适用场景、触发方式、完整使用流程、输出示例，以及与其他 Agent/Skill 的协作关系。

Benchmark Skill 能解决什么问题？

在没有 Benchmark Skill 之前，性能测试通常依赖手工执行、零散脚本或仅在上线前的临时检查，容易遗漏、无法团队共享，也难以持续跟踪 PR 带来的性能变化。常见问题包括：

PR 合并后才发现页面变慢、API 延迟上升，无法追溯责任点
性能基线缺失，团队成员对“性能目标”没有共识
性能回退难以及时发现，影响用户体验
性能数据分散在各自本地，无法团队协作

Benchmark Skill 通过结构化、自动化的性能基准测试，让性能数据成为团队资产，支持 PR 前后对比、回归检测和历史趋势分析。

何时激活 Benchmark Skill？

你可以在以下场景主动或自动触发 Benchmark Skill：

PR 合并前后：在合并 Pull Request 前后，自动对比关键性能指标，发现性能回退或提升
性能基线建立：项目初始化或重构后，建立可追溯的性能基线
用户反馈变慢时：用户或测试反馈“感觉慢”时，快速定位具体指标
发布上线前：确保新版本满足性能目标，避免上线后“掉速”
对比技术选型：评估不同框架、构建工具、API 方案的性能差异

Benchmark Skill 使用流程（Step by Step）

1. 选择测试模式

Benchmark Skill 支持三大主流性能测试模式：

页面性能（Page Performance）
API 性能（API Performance）
构建性能（Build Performance）

你可以根据需求选择一种或多种模式组合使用。

页面性能测试

适用于 Web 应用、前端 SPA、SSR 页面等场景。

自动测量指标包括：

Core Web Vitals（LCP、CLS、INP、FCP、TTFB）
资源体积（总页面体积、JS/CSS/Image/第三方脚本等）
网络请求数
是否存在渲染阻塞资源

操作示例：

bash

/benchmark page https://your-app.com

API 性能测试

适用于后端服务、RESTful API、GraphQL 等接口。

自动测量指标包括：

各端点的 p50/p95/p99 延迟
响应体积、状态码分布
并发请求下的表现（如 10 并发）
与 SLA（服务级别协议）目标对比

操作示例：

bash

/benchmark api https://your-app.com/api/v1/resource

构建性能测试

适用于前后端项目的开发反馈环节，关注开发者体验。

自动测量指标包括：

冷启动构建时间
热更新（HMR）时间
测试套件执行时间
TypeScript 检查、Lint、Docker 构建等用时

操作示例：

bash

/benchmark build

2. 建立性能基线

首次运行 /benchmark baseline，系统会采集当前各项指标并存储为基线。

bash

/benchmark baseline

基线数据会被保存到 .ecc/benchmarks/ 目录下（JSON 格式），并建议纳入 Git 管理，实现团队共享。

3. 变更后对比与回归检测

在代码或配置变更后，再次运行对比命令：

bash

/benchmark compare

系统会自动将当前测量结果与基线进行对比，输出详细的“前后对比表”，并给出判定（如 BETTER、WARN、FAIL）。

输出示例：

| Metric  | Before | After | Delta  | Verdict         |
|---------|--------|-------|--------|----------------|
| LCP     | 1.2s   | 1.4s  | +200ms | WARNING: WARN  |
| Bundle  | 180KB  | 175KB | -5KB   | ✓ BETTER       |
| Build   | 12s    | 14s   | +2s    | WARNING: WARN  |

4. 持续集成与团队协作

集成到 CI/CD：在每个 PR 的 CI 流程中自动运行 /benchmark compare，阻止性能回退的变更进入主分支。
团队共享基线：通过 Git 跟踪 .ecc/benchmarks/，全员可见性能趋势，便于历史追溯和责任归属。

5. 与其他 Agent/Skill 的协作

Canary Watch 配合：上线后结合 Canary Watch Skill 持续监控性能回归。
Browser QA 配合：与 Browser QA Skill 组合，形成“功能+性能”全流程交付检查。
Eval Harness 配合：在多 Agent 场景下，结合 Eval Harness Skill 统一评测标准。

更多系统性配置方法可参考 Claude Code 快速上手指南。

输出与数据管理

所有基线和对比结果均存储于 .ecc/benchmarks/，格式为结构化 JSON，便于自动化处理和团队审计。
支持自定义指标扩展，满足不同技术栈和业务场景。

常见问题与注意事项

Q: 可以只测部分页面或接口吗？ A: 支持自定义目标列表，只需指定需要测试的 URL 或 API 路径即可。

Q: 如何避免误报（如偶发网络抖动）？ A: 默认多次采样并取 p50/p95/p99，支持自定义采样次数，建议在稳定网络环境下运行。

Q: 性能基线会不会被覆盖丢失？ A: 基线文件纳入 Git 管理，团队成员可随时回溯历史，避免丢失；如需重置基线，手动运行 /benchmark baseline 即可。

通过 Everything Claude Code Benchmark Skill，你可以将性能保障纳入日常开发流程，做到“性能有数据、变更有对比、回退能预警”，为 AI 辅助编程赋能更高质量的交付。如果你希望进一步系统性提升开发效能，建议结合 Everything Claude Code 完全指南深入探索 Skills/Agents/Hooks 的协同价值。

Everything Claude Code Benchmark Skill：性能基准测试、PR 前后对比与回归检测 ​

Benchmark Skill 能解决什么问题？ ​

何时激活 Benchmark Skill？ ​

Benchmark Skill 使用流程（Step by Step） ​

1. 选择测试模式 ​

页面性能测试 ​

API 性能测试 ​

构建性能测试 ​

2. 建立性能基线 ​

3. 变更后对比与回归检测 ​

4. 持续集成与团队协作 ​

5. 与其他 Agent/Skill 的协作 ​

输出与数据管理 ​

常见问题与注意事项 ​

Everything Claude Code Benchmark Skill：性能基准测试、PR 前后对比与回归检测

Benchmark Skill 能解决什么问题？

何时激活 Benchmark Skill？

Benchmark Skill 使用流程（Step by Step）

1. 选择测试模式

页面性能测试

API 性能测试

构建性能测试

2. 建立性能基线

3. 变更后对比与回归检测

4. 持续集成与团队协作

5. 与其他 Agent/Skill 的协作

输出与数据管理

常见问题与注意事项