Skip to content

Everything Claude Code GAN Style Harness Skill 是一套基于 Anthropic 2026-03 论文的多 Agent 对抗式开发流程,将生成(Generator)与评测(Evaluator)完全分离,通过多轮反馈循环极大提升应用的设计、原创性、工艺和功能质量。它适用于需要高标准输出的完整项目开发,尤其在前后端全栈、UI 设计和复杂产品落地场景下,能显著超越单 Agent 或传统 TDD 流程的质量上限。

Everything Claude Code GAN Style Harness Skill:基于 Anthropic 2026-03 论文的 Generator-Evaluator 对抗式 Harness

在 AI 辅助编程逐渐成为主流的今天,如何突破“AI 生成代码平庸化”“模板感强”“功能不完整”等瓶颈?Everything Claude Code 的 gan-style-harness Skill 提供了行业领先的解决方案:借鉴 GAN(生成对抗网络)思想,将生成与评测彻底分离,通过多 Agent 对抗反馈循环,将 AI 编程助手的输出质量提升到生产级水准。

本指南将详细介绍该 Skill 的核心原理、适用场景、激活条件、完整操作流程、输出示例,以及与常见 Agent/Skill 的协作关系,帮助你在实际项目中高效落地这一先进模式。

1. 解决了什么问题?为什么不用它会有痛点

传统 AI 编程助手(如 Claude Code、Codex、Cursor 等)在自我评测时容易“自卖自夸”,对输出的质量缺乏严格把关,导致:

  • 代码功能残缺,测试不全
  • UI 设计模板化、缺乏原创性
  • 细节打磨不足,交互体验生硬
  • 复杂需求难以拆解,规划不够大胆

gan-style-harness Skill 通过引入独立的 Evaluator Agent,专职“找茬”并严格打分,生成 Agent 必须根据评测反馈持续迭代,直到达到高标准。这一机制极大抑制了“AI 泥浆”(AI slop)现象,让最终成品在设计、原创性、工艺和功能性上均能媲美专业团队。

2. 何时会自动激活?适用与不适用场景

推荐使用场景:

  • 需要从一句需求自动生成完整应用(如 SaaS、WebApp、管理后台等)
  • 前端/全栈项目对视觉、交互、功能有高要求
  • 预算充足($50-200),追求生产级质量
  • 对“模板感”“AI 味”零容忍的产品场景

不推荐使用:

  • 单文件修复、简单重构、低预算(< $10)任务
  • 已有完善测试的精确定义任务(更适合 TDD Workflow)
  • 只需一次性输出,无需多轮迭代的场景

3. 多 Agent 架构与 Skill 触发机制

gan-style-harness Skill 典型流程包含三大 Agent:

  • Planner Agent:产品经理角色,将一句需求扩展为完整产品规格(功能列表、设计方向、验收标准)
  • Generator Agent:开发者角色,按规格实现功能,负责每轮代码产出
  • Evaluator Agent:QA 角色,基于 Playwright 等工具,实际操作并打分,输出结构化反馈

Skill 会根据命令或脚本参数,自动拉起对应 Agent 并协调多轮反馈循环。可通过命令行、Shell 脚本或手动分步触发,灵活适配不同项目流程。

4. 操作流程 Step by Step

Step 1. 通过命令或脚本一键启动

命令行用法:

bash
# 启动完整三 Agent Harness
/project:gan-build "Build a project management app with Kanban boards, team collaboration, and dark mode"

# 自定义参数
/project:gan-build "Build a recipe sharing platform" --max-iterations 10 --pass-threshold 7.5

# 仅前端设计模式(不启用 Planner)
/project:gan-design "Create a landing page for a crypto portfolio tracker"

Shell 脚本用法:

bash
# 基础用法
./scripts/gan-harness.sh "Build a music streaming dashboard"

# 高级定制
GAN_MAX_ITERATIONS=10 \
GAN_PASS_THRESHOLD=7.5 \
GAN_EVAL_CRITERIA="functionality,performance,security" \
./scripts/gan-harness.sh "Build a REST API for task management"

Step 2. (可选)手动分步执行

适合需要自定义每一步的高级用户:

bash
# 1. 规划产品规格
claude -p --model opus "你是产品规划师,阅读 PLANNER_PROMPT.md,把 'Build a Kanban board app' 扩展为完整产品规格,写入 spec.md"

# 2. 生成代码(第 1 轮)
claude -p --model opus "你是 Generator,阅读 spec.md,实现 Sprint 1,启动开发服务器在 3000 端口"

# 3. 评测反馈(第 1 轮)
claude -p --model opus --allowedTools "Read,Bash,mcp__playwright__*" "你是 Evaluator,阅读 EVALUATOR_PROMPT.md,访问 http://localhost:3000,按评分标准打分,写入 feedback-001.md"

# 4. 生成代码(第 2 轮,吸收反馈)
claude -p --model opus "你是 Generator,阅读 spec.md 和 feedback-001.md,修复所有问题,提高得分"

# 重复 3-4 步,直到通过阈值或达到最大轮数

Step 3. Skill 自动循环与终止条件

  • 每轮 Generator 必须读取上轮 Evaluator 的反馈文件(如 feedback-002.md),逐条修正
  • Evaluator 采用 Playwright MCP 实际操作应用,按四大维度(设计、原创性、工艺、功能)1-10 分严格打分
  • 达到设定的加权及格分(如 7.0/10),或达到最大迭代次数(如 15 轮)自动终止
  • 失败时输出详细问题报告,供人工复核

Step 4. 输出示例

评测反馈示例(部分):

markdown
## Evaluation Rubric

**Design Quality:** 8/10  
**Originality:** 7/10  
**Craft:** 7/10  
**Functionality:** 9/10  

### 具体问题
- 部分表单交互缺少动画反馈
- 移动端布局在 iPhone SE 下溢出
- 任务归档功能未覆盖所有边界条件

最终输出:

  • 完整的产品规格文档(spec.md)
  • 多轮迭代后的高质量代码仓库
  • 每轮详细评测报告(feedback-001.md, feedback-002.md ...)
  • 通过严格评测的生产级应用

5. 常见配套 Agent 与 Skill 协作

  • GAN Generator Agent:负责每轮代码实现,自动读取评测反馈
  • GAN Evaluator Agent:基于 Playwright,对实际应用进行端到端操作和打分,详细介绍
  • GAN Planner Agent:自动扩展需求为完整产品规格,详见
  • Agent Harness Construction Skill:为多 Agent 协作定义 action space,提升任务完成率,参考
  • Eval Harness Skill:可与 gan-style-harness 组合,实现多维度自动化评测,参考

Everything Claude Code 完全指南 中的其他 Skill/Agent 可灵活组合,适配不同项目流程。

6. 配置参数与常见模式

7. 注意事项与反模式

  • 评测 Agent 过于宽松:需严格调整评分标准,明确惩罚“AI 模板感”
  • 生成 Agent 忽略反馈:反馈必须以文件形式传递,防止遗漏
  • 无限循环:务必设置最大迭代轮数,遇到分数瓶颈及时人工介入
  • 评测只看代码不操作应用:必须用 Playwright 实际交互,避免表面化评测
  • 评测与修复混淆:Evaluator 只负责批评,Generator 才负责修复

8. 预期效果与价值

根据 Anthropic 论文实测,gan-style-harness Skill 能将单 Agent 20 分钟的“勉强可用”输出,提升为 4-6 小时、成本 $125-200 的“生产级应用”,核心功能全覆盖,设计与交互媲美专业团队。适合那些“质量即生命线”的关键项目。


FAQ

Q: gan-style-harness Skill 适合哪些项目? A: 适合需要高质量、完整功能和精致设计的全栈/前端应用开发,尤其适用于预算充足、对“AI 模板感”零容忍的场景。

Q: 如何防止评测 Agent 过于宽松或死循环? A: 可自定义评分标准和最大迭代次数,建议严格设置及格分和惩罚机制,生成 Agent 必须逐条修复反馈。

Q: 与传统 TDD 或单 Agent 流程有何本质区别? A: 该 Skill 强制生成与评测分离,多轮对抗式反馈循环,显著提升输出质量,尤其在设计和功能完整性上远超单 Agent/TDD。