Appearance
Everything Claude Code GAN Style Harness Skill 是一套基于 Anthropic 2026-03 论文的多 Agent 对抗式开发流程,将生成(Generator)与评测(Evaluator)完全分离,通过多轮反馈循环极大提升应用的设计、原创性、工艺和功能质量。它适用于需要高标准输出的完整项目开发,尤其在前后端全栈、UI 设计和复杂产品落地场景下,能显著超越单 Agent 或传统 TDD 流程的质量上限。
Everything Claude Code GAN Style Harness Skill:基于 Anthropic 2026-03 论文的 Generator-Evaluator 对抗式 Harness
在 AI 辅助编程逐渐成为主流的今天,如何突破“AI 生成代码平庸化”“模板感强”“功能不完整”等瓶颈?Everything Claude Code 的 gan-style-harness Skill 提供了行业领先的解决方案:借鉴 GAN(生成对抗网络)思想,将生成与评测彻底分离,通过多 Agent 对抗反馈循环,将 AI 编程助手的输出质量提升到生产级水准。
本指南将详细介绍该 Skill 的核心原理、适用场景、激活条件、完整操作流程、输出示例,以及与常见 Agent/Skill 的协作关系,帮助你在实际项目中高效落地这一先进模式。
1. 解决了什么问题?为什么不用它会有痛点
传统 AI 编程助手(如 Claude Code、Codex、Cursor 等)在自我评测时容易“自卖自夸”,对输出的质量缺乏严格把关,导致:
- 代码功能残缺,测试不全
- UI 设计模板化、缺乏原创性
- 细节打磨不足,交互体验生硬
- 复杂需求难以拆解,规划不够大胆
gan-style-harness Skill 通过引入独立的 Evaluator Agent,专职“找茬”并严格打分,生成 Agent 必须根据评测反馈持续迭代,直到达到高标准。这一机制极大抑制了“AI 泥浆”(AI slop)现象,让最终成品在设计、原创性、工艺和功能性上均能媲美专业团队。
2. 何时会自动激活?适用与不适用场景
推荐使用场景:
- 需要从一句需求自动生成完整应用(如 SaaS、WebApp、管理后台等)
- 前端/全栈项目对视觉、交互、功能有高要求
- 预算充足($50-200),追求生产级质量
- 对“模板感”“AI 味”零容忍的产品场景
不推荐使用:
- 单文件修复、简单重构、低预算(< $10)任务
- 已有完善测试的精确定义任务(更适合 TDD Workflow)
- 只需一次性输出,无需多轮迭代的场景
3. 多 Agent 架构与 Skill 触发机制
gan-style-harness Skill 典型流程包含三大 Agent:
- Planner Agent:产品经理角色,将一句需求扩展为完整产品规格(功能列表、设计方向、验收标准)
- Generator Agent:开发者角色,按规格实现功能,负责每轮代码产出
- Evaluator Agent:QA 角色,基于 Playwright 等工具,实际操作并打分,输出结构化反馈
Skill 会根据命令或脚本参数,自动拉起对应 Agent 并协调多轮反馈循环。可通过命令行、Shell 脚本或手动分步触发,灵活适配不同项目流程。
4. 操作流程 Step by Step
Step 1. 通过命令或脚本一键启动
命令行用法:
bash
# 启动完整三 Agent Harness
/project:gan-build "Build a project management app with Kanban boards, team collaboration, and dark mode"
# 自定义参数
/project:gan-build "Build a recipe sharing platform" --max-iterations 10 --pass-threshold 7.5
# 仅前端设计模式(不启用 Planner)
/project:gan-design "Create a landing page for a crypto portfolio tracker"Shell 脚本用法:
bash
# 基础用法
./scripts/gan-harness.sh "Build a music streaming dashboard"
# 高级定制
GAN_MAX_ITERATIONS=10 \
GAN_PASS_THRESHOLD=7.5 \
GAN_EVAL_CRITERIA="functionality,performance,security" \
./scripts/gan-harness.sh "Build a REST API for task management"Step 2. (可选)手动分步执行
适合需要自定义每一步的高级用户:
bash
# 1. 规划产品规格
claude -p --model opus "你是产品规划师,阅读 PLANNER_PROMPT.md,把 'Build a Kanban board app' 扩展为完整产品规格,写入 spec.md"
# 2. 生成代码(第 1 轮)
claude -p --model opus "你是 Generator,阅读 spec.md,实现 Sprint 1,启动开发服务器在 3000 端口"
# 3. 评测反馈(第 1 轮)
claude -p --model opus --allowedTools "Read,Bash,mcp__playwright__*" "你是 Evaluator,阅读 EVALUATOR_PROMPT.md,访问 http://localhost:3000,按评分标准打分,写入 feedback-001.md"
# 4. 生成代码(第 2 轮,吸收反馈)
claude -p --model opus "你是 Generator,阅读 spec.md 和 feedback-001.md,修复所有问题,提高得分"
# 重复 3-4 步,直到通过阈值或达到最大轮数Step 3. Skill 自动循环与终止条件
- 每轮 Generator 必须读取上轮 Evaluator 的反馈文件(如 feedback-002.md),逐条修正
- Evaluator 采用 Playwright MCP 实际操作应用,按四大维度(设计、原创性、工艺、功能)1-10 分严格打分
- 达到设定的加权及格分(如 7.0/10),或达到最大迭代次数(如 15 轮)自动终止
- 失败时输出详细问题报告,供人工复核
Step 4. 输出示例
评测反馈示例(部分):
markdown
## Evaluation Rubric
**Design Quality:** 8/10
**Originality:** 7/10
**Craft:** 7/10
**Functionality:** 9/10
### 具体问题
- 部分表单交互缺少动画反馈
- 移动端布局在 iPhone SE 下溢出
- 任务归档功能未覆盖所有边界条件最终输出:
- 完整的产品规格文档(spec.md)
- 多轮迭代后的高质量代码仓库
- 每轮详细评测报告(feedback-001.md, feedback-002.md ...)
- 通过严格评测的生产级应用
5. 常见配套 Agent 与 Skill 协作
- GAN Generator Agent:负责每轮代码实现,自动读取评测反馈
- GAN Evaluator Agent:基于 Playwright,对实际应用进行端到端操作和打分,详细介绍
- GAN Planner Agent:自动扩展需求为完整产品规格,详见
- Agent Harness Construction Skill:为多 Agent 协作定义 action space,提升任务完成率,参考
- Eval Harness Skill:可与 gan-style-harness 组合,实现多维度自动化评测,参考
与 Everything Claude Code 完全指南 中的其他 Skill/Agent 可灵活组合,适配不同项目流程。
6. 配置参数与常见模式
- 支持通过环境变量或命令参数自定义迭代次数、及格分、评测维度、端口等
- 支持多种评测模式(playwright、screenshot、code-only),可选适配 UI、API、库等不同类型项目
- 推荐结合 高级技巧:Token 优化、记忆持久化、并行化与验证循环 提升大项目稳定性
7. 注意事项与反模式
- 评测 Agent 过于宽松:需严格调整评分标准,明确惩罚“AI 模板感”
- 生成 Agent 忽略反馈:反馈必须以文件形式传递,防止遗漏
- 无限循环:务必设置最大迭代轮数,遇到分数瓶颈及时人工介入
- 评测只看代码不操作应用:必须用 Playwright 实际交互,避免表面化评测
- 评测与修复混淆:Evaluator 只负责批评,Generator 才负责修复
8. 预期效果与价值
根据 Anthropic 论文实测,gan-style-harness Skill 能将单 Agent 20 分钟的“勉强可用”输出,提升为 4-6 小时、成本 $125-200 的“生产级应用”,核心功能全覆盖,设计与交互媲美专业团队。适合那些“质量即生命线”的关键项目。
FAQ
Q: gan-style-harness Skill 适合哪些项目? A: 适合需要高质量、完整功能和精致设计的全栈/前端应用开发,尤其适用于预算充足、对“AI 模板感”零容忍的场景。
Q: 如何防止评测 Agent 过于宽松或死循环? A: 可自定义评分标准和最大迭代次数,建议严格设置及格分和惩罚机制,生成 Agent 必须逐条修复反馈。
Q: 与传统 TDD 或单 Agent 流程有何本质区别? A: 该 Skill 强制生成与评测分离,多轮对抗式反馈循环,显著提升输出质量,尤其在设计和功能完整性上远超单 Agent/TDD。