Appearance
Everything Claude Code GAN Evaluator Agent 是一款专为 AI 编程助手(如 Claude Code)生态打造的对抗式评测代理,核心能力是自动用 Playwright 对真实运行的应用进行端到端测试,并按项目 Rubric 严格打分、输出结构化反馈。相比直接让 Claude 评测代码或截图,GAN Evaluator 能模拟真实用户操作、发现隐藏缺陷、量化产品体验,是实现高质量自动化闭环的关键组件,尤其适用于生成式开发、自动化回归和产品验收等场景。
Everything Claude Code GAN Evaluator Agent:用 Playwright 测试应用并按评分标准打分的对抗式评估
在 AI 辅助编程和自动化开发流程日益普及的今天,如何确保生成代码不仅“能跑”,更能达到专业产品级质量,成为开发者和团队的核心痛点。Everything Claude Code GAN Evaluator Agent(下文简称 GAN Evaluator)正是为此而生——它是 Everything Claude Code 完全指南:38 Agent + 156 Skill 的生产级 AI 编程插件 中专门负责“对抗式评估”的自动化代理,结合 Playwright 浏览器自动化和严苛的评分 Rubric,实现了远超传统 LLM 代码评审的质量保障。
一、GAN Evaluator Agent 是什么?解决什么问题?
GAN Evaluator Agent 作为 GAN-style 多代理 Harness 的“评审者”,其主要职责是:
- 自动化端到端测试:不是评审代码、不是看截图,而是直接操作真实运行中的应用(通常由 Generator Agent 启动 dev server),模拟用户全流程交互。
- 按评分标准打分:依据
gan-harness/eval-rubric.md设定的项目 Rubric,对设计、原创性、工艺、功能性等多维度逐项打分,量化评估结果。 - 输出结构化反馈:将每次评估的分数、发现的问题、改进建议、截图等写入规范化的 Markdown 报告,驱动下一个生成-评估循环。
核心场景:
- 生成式开发闭环(Generator ↔ Evaluator 对抗式循环)
- 自动化回归测试与产品验收
- 多 Agent 并行评测与分数对比
- 高标准交付场景下的质量门控
相比直接让 Claude 评审代码,GAN Evaluator 的优势在于:
- 真实交互:能发现只有在实际操作下才暴露的问题(如边界输入、交互卡顿、响应式缺陷等)。
- 严格一致的评分:Rubric 驱动,避免主观“AI 友好”打分,确保每一分都代表真实产品水准。
- 结构化闭环:自动输出可追溯的评估报告,便于持续改进和团队协作。
二、核心能力与工作流程
1. 能做什么?
- 启动 Playwright,自动访问本地或远程 dev server
- 按 Rubric 检查页面加载、视觉层级、功能完整性、设计一致性、交互体验
- 系统性测试所有功能点,包括“正常流程+边界情况+错误状态”
- 检查设计细节(色彩、排版、响应式、交互动效等)
- 评估可访问性(键盘导航、表单校验、加载状态等)
- 针对每一项输出 1-10 分,并按权重加权总分
- 生成结构化的 Markdown 评估报告,含分数、问题、建议、截图等
2. 不能做什么?
- 不直接评审源码(而是评测运行中的产品)
- 不对 API/库项目做 UI 交互(但可切换 code-only 模式,仅跑测试/分析代码)
- 不容忍“AI 友好”打分,必须严格执行 Rubric
- 不负责 Generator 端的代码生成或修复
3. 触发方式
- 自动激活:在 GAN Harness 对抗式开发循环中,每次 Generator Agent 完成一次实现并启动 dev server,Evaluator 会自动接管评测流程。
- 手动调用:开发者也可在任意阶段通过命令或 UI 触发 GAN Evaluator,对当前应用状态进行一次评估,适合回归测试或多版本对比。
4. 与其他 Agent 的协作模式
GAN Evaluator 通常与以下 Agent 组合使用:
- GAN Generator Agent:负责根据规格生成/迭代实现,Evaluator 评测后将反馈驱动下一轮生成(详见 GAN Generator Agent 指南)。
- GAN Planner Agent:将需求拆解为功能列表和验收标准,Evaluator 按此 Rubric 评测(详见 GAN Planner Agent)。
- E2E Runner Agent:如需更细致的 E2E 测试脚本生成与维护,可与 Evaluator 形成互补(参考 E2E Runner Agent)。
- Code Reviewer Agent:在代码层面补充静态分析与安全审查,两者可串联保障全流程质量。
三、分步操作指南(含完整示例)
步骤 1:准备 Rubric 与运行环境
- 确保项目根目录下有
gan-harness/eval-rubric.md(评分标准)、spec.md(功能需求)、generator-state.md(本轮实现状态)。 - Generator Agent 启动 dev server(如
http://localhost:3000),确保 Evaluator 可访问。
步骤 2:自动化浏览器测试
Evaluator 会自动执行如下 Playwright 操作:
bash
playwright navigate http://localhost:3000
playwright screenshot --name "initial-load"并依次遍历每个功能点,测试正常流程、边界输入(如空值、超长文本、特殊字符)、错误状态、交互体验等,记录所有关键截图。
步骤 3:设计与交互细节审查
- 检查全局色彩、排版层级、响应式布局(375px/768px/1440px)
- 查找 AI-slop(如默认渐变、模板感强的布局)、对齐/间距/圆角/悬停等细节
- 验证键盘可达性、加载/过渡动画、表单校验等
步骤 4:打分与报告输出
Evaluator 按 Rubric 对每一项打 1-10 分(如设计、原创性、工艺、功能性),并用加权公式汇总总分:
text
weighted = (design * 0.3) + (originality * 0.2) + (craft * 0.3) + (functionality * 0.2)报告结构如下:
markdown
# Evaluation — Iteration 003
## Scores
| Criterion | Score | Weight | Weighted |
|----------------|-------|--------|----------|
| Design Quality | 7/10 | 0.3 | 2.1 |
| Originality | 6/10 | 0.2 | 1.2 |
| Craft | 7/10 | 0.3 | 2.1 |
| Functionality | 8/10 | 0.2 | 1.6 |
| **TOTAL** | | | **7.0/10** |
## Verdict: PASS / FAIL (threshold: 7.0)
## Critical Issues (must fix)
1. [登录表单未处理超长输入] → [限制最大长度并给出错误提示]
2. [移动端 375px 下侧边栏溢出] → [设置 max-width: 100% 并 overflow: hidden]
## Major Issues (should fix)
1. [配色与 Rubric 不符] → [替换为 spec palette 指定色值]
## Minor Issues (nice to fix)
1. [按钮 hover 态无动画] → [添加渐变过渡]
## What Improved Since Last Iteration
- 登录流程已支持错误提示
- 首页加载速度提升
## What Regressed Since Last Iteration
- 部分组件响应式适配回退
## Specific Suggestions for Next Iteration
1. 优化移动端布局,确保所有元素可见
2. 增强表单校验,覆盖特殊字符场景
## Screenshots
- 首页初始加载
- 登录失败提示
- 移动端溢出示例步骤 5:反馈驱动下轮生成
Generator Agent 读取本次反馈,针对 Critical/Major Issues 优先修复,进入下一轮生成-评测闭环。
完整对话示例
plaintext
用户:请对当前 dev server 运行的应用进行 GAN 评测,输出详细打分与改进建议。
GAN Evaluator Agent:
1. 读取 Rubric 与 spec
2. 启动 Playwright,遍历所有功能与边界场景
3. 检查设计一致性、交互体验、响应式等
4. 打分并生成结构化反馈报告
5. 输出关键截图
6. 标注所有必须修复的问题与建议
用户:收到,已根据反馈修复 Critical Issues,请再次评测。
GAN Evaluator Agent:重复上述流程,重点关注上次问题是否已解决,更新“Improved Since Last Iteration”与“Regressed Since Last Iteration”。四、常见问题与注意事项
Q: 为什么不能直接让 Claude 评审代码或截图? A: 代码和截图只能发现表层问题,无法还原真实用户体验。GAN Evaluator 能自动化全流程交互,发现隐藏 Bug 和交互细节缺陷,且评分更客观一致。
Q: 如果项目没有 UI 或是 API/库,该如何评测? A: GAN Evaluator 支持 code-only 模式,会自动切换为跑测试、分析代码质量和接口响应,依然能输出结构化评估报告。
Q: 评分 Rubric 可以自定义吗? A: 可以。只需在 gan-harness/eval-rubric.md 中调整评分项和权重,Evaluator 会自动按新 Rubric 执行评测。
通过 GAN Evaluator Agent,开发者可以将 AI 代码生成与专业级产品验收无缝衔接,实现自动化、可量化、可追溯的高质量闭环。建议结合 GAN Generator Agent 和 GAN Style Harness Skill 进一步提升团队的生成式开发能力。