Everything Claude Code GAN Style Harness Skill 是一套基于 Anthropic 2026-03 论文的多 Agent 对抗式开发流程，将生成（Generator）与评测（Evaluator）完全分离，通过多轮反馈循环极大提升应用的设计、原创性、工艺和功能质量。它适用于需要高标准输出的完整项目开发，尤其在前后端全栈、UI 设计和复杂产品落地场景下，能显著超越单 Agent 或传统 TDD 流程的质量上限。

Everything Claude Code GAN Style Harness Skill：基于 Anthropic 2026-03 论文的 Generator-Evaluator 对抗式 Harness

在 AI 辅助编程逐渐成为主流的今天，如何突破“AI 生成代码平庸化”“模板感强”“功能不完整”等瓶颈？Everything Claude Code 的 gan-style-harness Skill 提供了行业领先的解决方案：借鉴 GAN（生成对抗网络）思想，将生成与评测彻底分离，通过多 Agent 对抗反馈循环，将 AI 编程助手的输出质量提升到生产级水准。

本指南将详细介绍该 Skill 的核心原理、适用场景、激活条件、完整操作流程、输出示例，以及与常见 Agent/Skill 的协作关系，帮助你在实际项目中高效落地这一先进模式。

1. 解决了什么问题？为什么不用它会有痛点

传统 AI 编程助手（如 Claude Code、Codex、Cursor 等）在自我评测时容易“自卖自夸”，对输出的质量缺乏严格把关，导致：

代码功能残缺，测试不全
UI 设计模板化、缺乏原创性
细节打磨不足，交互体验生硬
复杂需求难以拆解，规划不够大胆

gan-style-harness Skill 通过引入独立的 Evaluator Agent，专职“找茬”并严格打分，生成 Agent 必须根据评测反馈持续迭代，直到达到高标准。这一机制极大抑制了“AI 泥浆”（AI slop）现象，让最终成品在设计、原创性、工艺和功能性上均能媲美专业团队。

2. 何时会自动激活？适用与不适用场景

推荐使用场景：

需要从一句需求自动生成完整应用（如 SaaS、WebApp、管理后台等）
前端/全栈项目对视觉、交互、功能有高要求
预算充足（$50-200），追求生产级质量
对“模板感”“AI 味”零容忍的产品场景

不推荐使用：

单文件修复、简单重构、低预算（< $10）任务
已有完善测试的精确定义任务（更适合 TDD Workflow）
只需一次性输出，无需多轮迭代的场景

3. 多 Agent 架构与 Skill 触发机制

gan-style-harness Skill 典型流程包含三大 Agent：

Planner Agent：产品经理角色，将一句需求扩展为完整产品规格（功能列表、设计方向、验收标准）
Generator Agent：开发者角色，按规格实现功能，负责每轮代码产出
Evaluator Agent：QA 角色，基于 Playwright 等工具，实际操作并打分，输出结构化反馈

Skill 会根据命令或脚本参数，自动拉起对应 Agent 并协调多轮反馈循环。可通过命令行、Shell 脚本或手动分步触发，灵活适配不同项目流程。

4. 操作流程 Step by Step

Step 1. 通过命令或脚本一键启动

命令行用法：

bash

# 启动完整三 Agent Harness
/project:gan-build "Build a project management app with Kanban boards, team collaboration, and dark mode"

# 自定义参数
/project:gan-build "Build a recipe sharing platform" --max-iterations 10 --pass-threshold 7.5

# 仅前端设计模式（不启用 Planner）
/project:gan-design "Create a landing page for a crypto portfolio tracker"

Shell 脚本用法：

bash

# 基础用法
./scripts/gan-harness.sh "Build a music streaming dashboard"

# 高级定制
GAN_MAX_ITERATIONS=10 \
GAN_PASS_THRESHOLD=7.5 \
GAN_EVAL_CRITERIA="functionality,performance,security" \
./scripts/gan-harness.sh "Build a REST API for task management"

Step 2. （可选）手动分步执行

适合需要自定义每一步的高级用户：

bash

# 1. 规划产品规格
claude -p --model opus "你是产品规划师，阅读 PLANNER_PROMPT.md，把 'Build a Kanban board app' 扩展为完整产品规格，写入 spec.md"

# 2. 生成代码（第 1 轮）
claude -p --model opus "你是 Generator，阅读 spec.md，实现 Sprint 1，启动开发服务器在 3000 端口"

# 3. 评测反馈（第 1 轮）
claude -p --model opus --allowedTools "Read,Bash,mcp__playwright__*" "你是 Evaluator，阅读 EVALUATOR_PROMPT.md，访问 http://localhost:3000，按评分标准打分，写入 feedback-001.md"

# 4. 生成代码（第 2 轮，吸收反馈）
claude -p --model opus "你是 Generator，阅读 spec.md 和 feedback-001.md，修复所有问题，提高得分"

# 重复 3-4 步，直到通过阈值或达到最大轮数

Step 3. Skill 自动循环与终止条件

每轮 Generator 必须读取上轮 Evaluator 的反馈文件（如 feedback-002.md），逐条修正
Evaluator 采用 Playwright MCP 实际操作应用，按四大维度（设计、原创性、工艺、功能）1-10 分严格打分
达到设定的加权及格分（如 7.0/10），或达到最大迭代次数（如 15 轮）自动终止
失败时输出详细问题报告，供人工复核

Step 4. 输出示例

评测反馈示例（部分）：

markdown

## Evaluation Rubric

**Design Quality:** 8/10  
**Originality:** 7/10  
**Craft:** 7/10  
**Functionality:** 9/10  

### 具体问题
- 部分表单交互缺少动画反馈
- 移动端布局在 iPhone SE 下溢出
- 任务归档功能未覆盖所有边界条件

最终输出：

完整的产品规格文档（spec.md）
多轮迭代后的高质量代码仓库
每轮详细评测报告（feedback-001.md, feedback-002.md ...）
通过严格评测的生产级应用

5. 常见配套 Agent 与 Skill 协作

GAN Generator Agent：负责每轮代码实现，自动读取评测反馈
GAN Evaluator Agent：基于 Playwright，对实际应用进行端到端操作和打分，详细介绍
GAN Planner Agent：自动扩展需求为完整产品规格，详见
Agent Harness Construction Skill：为多 Agent 协作定义 action space，提升任务完成率，参考
Eval Harness Skill：可与 gan-style-harness 组合，实现多维度自动化评测，参考

与 Everything Claude Code 完全指南中的其他 Skill/Agent 可灵活组合，适配不同项目流程。

6. 配置参数与常见模式

支持通过环境变量或命令参数自定义迭代次数、及格分、评测维度、端口等
支持多种评测模式（playwright、screenshot、code-only），可选适配 UI、API、库等不同类型项目
推荐结合高级技巧：Token 优化、记忆持久化、并行化与验证循环提升大项目稳定性

7. 注意事项与反模式

评测 Agent 过于宽松：需严格调整评分标准，明确惩罚“AI 模板感”
生成 Agent 忽略反馈：反馈必须以文件形式传递，防止遗漏
无限循环：务必设置最大迭代轮数，遇到分数瓶颈及时人工介入
评测只看代码不操作应用：必须用 Playwright 实际交互，避免表面化评测
评测与修复混淆：Evaluator 只负责批评，Generator 才负责修复

8. 预期效果与价值

根据 Anthropic 论文实测，gan-style-harness Skill 能将单 Agent 20 分钟的“勉强可用”输出，提升为 4-6 小时、成本 $125-200 的“生产级应用”，核心功能全覆盖，设计与交互媲美专业团队。适合那些“质量即生命线”的关键项目。

FAQ

Q: gan-style-harness Skill 适合哪些项目？ A: 适合需要高质量、完整功能和精致设计的全栈/前端应用开发，尤其适用于预算充足、对“AI 模板感”零容忍的场景。

Q: 如何防止评测 Agent 过于宽松或死循环？ A: 可自定义评分标准和最大迭代次数，建议严格设置及格分和惩罚机制，生成 Agent 必须逐条修复反馈。

Q: 与传统 TDD 或单 Agent 流程有何本质区别？ A: 该 Skill 强制生成与评测分离，多轮对抗式反馈循环，显著提升输出质量，尤其在设计和功能完整性上远超单 Agent/TDD。

Everything Claude Code GAN Style Harness Skill：基于 Anthropic 2026-03 论文的 Generator-Evaluator 对抗式 Harness ​

1. 解决了什么问题？为什么不用它会有痛点 ​

2. 何时会自动激活？适用与不适用场景 ​

3. 多 Agent 架构与 Skill 触发机制 ​

4. 操作流程 Step by Step ​

Step 1. 通过命令或脚本一键启动 ​

Step 2. （可选）手动分步执行 ​

Step 3. Skill 自动循环与终止条件 ​

Step 4. 输出示例 ​

5. 常见配套 Agent 与 Skill 协作 ​

6. 配置参数与常见模式 ​

7. 注意事项与反模式 ​

8. 预期效果与价值 ​

FAQ ​

Everything Claude Code GAN Style Harness Skill：基于 Anthropic 2026-03 论文的 Generator-Evaluator 对抗式 Harness

1. 解决了什么问题？为什么不用它会有痛点

2. 何时会自动激活？适用与不适用场景

3. 多 Agent 架构与 Skill 触发机制

4. 操作流程 Step by Step

Step 1. 通过命令或脚本一键启动

Step 2. （可选）手动分步执行

Step 3. Skill 自动循环与终止条件

Step 4. 输出示例

5. 常见配套 Agent 与 Skill 协作

6. 配置参数与常见模式

7. 注意事项与反模式

8. 预期效果与价值

FAQ