Everything Claude Code GAN Evaluator Agent 是一款专为 AI 编程助手（如 Claude Code）生态打造的对抗式评测代理，核心能力是自动用 Playwright 对真实运行的应用进行端到端测试，并按项目 Rubric 严格打分、输出结构化反馈。相比直接让 Claude 评测代码或截图，GAN Evaluator 能模拟真实用户操作、发现隐藏缺陷、量化产品体验，是实现高质量自动化闭环的关键组件，尤其适用于生成式开发、自动化回归和产品验收等场景。

Everything Claude Code GAN Evaluator Agent：用 Playwright 测试应用并按评分标准打分的对抗式评估

在 AI 辅助编程和自动化开发流程日益普及的今天，如何确保生成代码不仅“能跑”，更能达到专业产品级质量，成为开发者和团队的核心痛点。Everything Claude Code GAN Evaluator Agent（下文简称 GAN Evaluator）正是为此而生——它是 Everything Claude Code 完全指南：38 Agent + 156 Skill 的生产级 AI 编程插件中专门负责“对抗式评估”的自动化代理，结合 Playwright 浏览器自动化和严苛的评分 Rubric，实现了远超传统 LLM 代码评审的质量保障。

一、GAN Evaluator Agent 是什么？解决什么问题？

GAN Evaluator Agent 作为 GAN-style 多代理 Harness 的“评审者”，其主要职责是：

自动化端到端测试：不是评审代码、不是看截图，而是直接操作真实运行中的应用（通常由 Generator Agent 启动 dev server），模拟用户全流程交互。
按评分标准打分：依据 gan-harness/eval-rubric.md 设定的项目 Rubric，对设计、原创性、工艺、功能性等多维度逐项打分，量化评估结果。
输出结构化反馈：将每次评估的分数、发现的问题、改进建议、截图等写入规范化的 Markdown 报告，驱动下一个生成-评估循环。

核心场景：

生成式开发闭环（Generator ↔ Evaluator 对抗式循环）
自动化回归测试与产品验收
多 Agent 并行评测与分数对比
高标准交付场景下的质量门控

相比直接让 Claude 评审代码，GAN Evaluator 的优势在于：

真实交互：能发现只有在实际操作下才暴露的问题（如边界输入、交互卡顿、响应式缺陷等）。
严格一致的评分：Rubric 驱动，避免主观“AI 友好”打分，确保每一分都代表真实产品水准。
结构化闭环：自动输出可追溯的评估报告，便于持续改进和团队协作。

二、核心能力与工作流程

1. 能做什么？

启动 Playwright，自动访问本地或远程 dev server
按 Rubric 检查页面加载、视觉层级、功能完整性、设计一致性、交互体验
系统性测试所有功能点，包括“正常流程+边界情况+错误状态”
检查设计细节（色彩、排版、响应式、交互动效等）
评估可访问性（键盘导航、表单校验、加载状态等）
针对每一项输出 1-10 分，并按权重加权总分
生成结构化的 Markdown 评估报告，含分数、问题、建议、截图等

2. 不能做什么？

不直接评审源码（而是评测运行中的产品）
不对 API/库项目做 UI 交互（但可切换 code-only 模式，仅跑测试/分析代码）
不容忍“AI 友好”打分，必须严格执行 Rubric
不负责 Generator 端的代码生成或修复

3. 触发方式

自动激活：在 GAN Harness 对抗式开发循环中，每次 Generator Agent 完成一次实现并启动 dev server，Evaluator 会自动接管评测流程。
手动调用：开发者也可在任意阶段通过命令或 UI 触发 GAN Evaluator，对当前应用状态进行一次评估，适合回归测试或多版本对比。

4. 与其他 Agent 的协作模式

GAN Evaluator 通常与以下 Agent 组合使用：

GAN Generator Agent：负责根据规格生成/迭代实现，Evaluator 评测后将反馈驱动下一轮生成（详见 GAN Generator Agent 指南）。
GAN Planner Agent：将需求拆解为功能列表和验收标准，Evaluator 按此 Rubric 评测（详见 GAN Planner Agent）。
E2E Runner Agent：如需更细致的 E2E 测试脚本生成与维护，可与 Evaluator 形成互补（参考 E2E Runner Agent）。
Code Reviewer Agent：在代码层面补充静态分析与安全审查，两者可串联保障全流程质量。

三、分步操作指南（含完整示例）

步骤 1：准备 Rubric 与运行环境

确保项目根目录下有 gan-harness/eval-rubric.md（评分标准）、spec.md（功能需求）、generator-state.md（本轮实现状态）。
Generator Agent 启动 dev server（如 http://localhost:3000），确保 Evaluator 可访问。

步骤 2：自动化浏览器测试

Evaluator 会自动执行如下 Playwright 操作：

bash

playwright navigate http://localhost:3000
playwright screenshot --name "initial-load"

并依次遍历每个功能点，测试正常流程、边界输入（如空值、超长文本、特殊字符）、错误状态、交互体验等，记录所有关键截图。

步骤 3：设计与交互细节审查

检查全局色彩、排版层级、响应式布局（375px/768px/1440px）
查找 AI-slop（如默认渐变、模板感强的布局）、对齐/间距/圆角/悬停等细节
验证键盘可达性、加载/过渡动画、表单校验等

步骤 4：打分与报告输出

Evaluator 按 Rubric 对每一项打 1-10 分（如设计、原创性、工艺、功能性），并用加权公式汇总总分：

text

weighted = (design * 0.3) + (originality * 0.2) + (craft * 0.3) + (functionality * 0.2)

报告结构如下：

markdown

# Evaluation — Iteration 003

## Scores

| Criterion      | Score | Weight | Weighted |
|----------------|-------|--------|----------|
| Design Quality | 7/10  | 0.3    | 2.1      |
| Originality    | 6/10  | 0.2    | 1.2      |
| Craft          | 7/10  | 0.3    | 2.1      |
| Functionality  | 8/10  | 0.2    | 1.6      |
| **TOTAL**      |       |        | **7.0/10** |

## Verdict: PASS / FAIL (threshold: 7.0)

## Critical Issues (must fix)
1. [登录表单未处理超长输入] → [限制最大长度并给出错误提示]
2. [移动端 375px 下侧边栏溢出] → [设置 max-width: 100% 并 overflow: hidden]

## Major Issues (should fix)
1. [配色与 Rubric 不符] → [替换为 spec palette 指定色值]

## Minor Issues (nice to fix)
1. [按钮 hover 态无动画] → [添加渐变过渡]

## What Improved Since Last Iteration
- 登录流程已支持错误提示
- 首页加载速度提升

## What Regressed Since Last Iteration
- 部分组件响应式适配回退

## Specific Suggestions for Next Iteration
1. 优化移动端布局，确保所有元素可见
2. 增强表单校验，覆盖特殊字符场景

## Screenshots
- 首页初始加载
- 登录失败提示
- 移动端溢出示例

步骤 5：反馈驱动下轮生成

Generator Agent 读取本次反馈，针对 Critical/Major Issues 优先修复，进入下一轮生成-评测闭环。

完整对话示例

plaintext

用户：请对当前 dev server 运行的应用进行 GAN 评测，输出详细打分与改进建议。

GAN Evaluator Agent：
1. 读取 Rubric 与 spec
2. 启动 Playwright，遍历所有功能与边界场景
3. 检查设计一致性、交互体验、响应式等
4. 打分并生成结构化反馈报告
5. 输出关键截图
6. 标注所有必须修复的问题与建议

用户：收到，已根据反馈修复 Critical Issues，请再次评测。

GAN Evaluator Agent：重复上述流程，重点关注上次问题是否已解决，更新“Improved Since Last Iteration”与“Regressed Since Last Iteration”。

四、常见问题与注意事项

Q: 为什么不能直接让 Claude 评审代码或截图？ A: 代码和截图只能发现表层问题，无法还原真实用户体验。GAN Evaluator 能自动化全流程交互，发现隐藏 Bug 和交互细节缺陷，且评分更客观一致。

Q: 如果项目没有 UI 或是 API/库，该如何评测？ A: GAN Evaluator 支持 code-only 模式，会自动切换为跑测试、分析代码质量和接口响应，依然能输出结构化评估报告。

Q: 评分 Rubric 可以自定义吗？ A: 可以。只需在 gan-harness/eval-rubric.md 中调整评分项和权重，Evaluator 会自动按新 Rubric 执行评测。

通过 GAN Evaluator Agent，开发者可以将 AI 代码生成与专业级产品验收无缝衔接，实现自动化、可量化、可追溯的高质量闭环。建议结合 GAN Generator Agent 和 GAN Style Harness Skill 进一步提升团队的生成式开发能力。

Everything Claude Code GAN Evaluator Agent：用 Playwright 测试应用并按评分标准打分的对抗式评估 ​

一、GAN Evaluator Agent 是什么？解决什么问题？ ​

二、核心能力与工作流程 ​

1. 能做什么？ ​

2. 不能做什么？ ​

3. 触发方式 ​

4. 与其他 Agent 的协作模式 ​

三、分步操作指南（含完整示例） ​

步骤 1：准备 Rubric 与运行环境 ​

步骤 2：自动化浏览器测试 ​

步骤 3：设计与交互细节审查 ​

步骤 4：打分与报告输出 ​

步骤 5：反馈驱动下轮生成 ​

完整对话示例 ​

四、常见问题与注意事项 ​