Everything Claude Code Agentic Engineering Skill 是专为 AI 辅助编程场景设计的工程操作模型，核心在于“eval-first”执行、任务拆解与按需模型路由。它让 AI Agent 主导具体实现，开发者则专注于质量和风险控制。通过预先定义完成标准、细粒度任务分解和成本敏感的模型选择，该 Skill 能显著提升 Claude Code、Codex、Cursor 等 AI 编程助手在实际项目中的落地效率和可控性。

Everything Claude Code Agentic Engineering Skill：eval-first 执行、任务分解与成本路由的 AI 工程师操作模型

AI 编程助手越来越强大，但如何让它们在真实工程项目中“像工程师一样”高效、可靠地工作，而不是“AI 糊弄学”？Everything Claude Code Agentic Engineering Skill 正是为此而生。它将 AI Agent 视为工程团队的主力开发者，人类工程师则转为质量和风险把控者——这种“Agentic Engineering”范式，结合了自动化与工程纪律，极大提升了 AI 编程助手的生产级实用性。

本指南将详细介绍该 Skill 适用场景、触发条件、全流程操作步骤、输出示例，以及与其他 Agent/Skill 的协作方式，帮助你在实际项目中用好这一体系化工程模式。

1. 适用场景与激活条件

Agentic Engineering Skill 适用于以下典型场景：

需要 AI Agent 承担大部分代码实现、重构、测试、文档等具体工作
人类工程师主要负责定义目标、验收标准、风险边界和最终 review
追求高效、可控、可回溯的 AI 编程流程，避免“黑盒”自动化带来的不确定性
需要在多模型（如 Claude Haiku/Sonnet/Opus）之间按成本与复杂度智能路由
希望每一步都能量化评估（eval-first）、持续回归检测和成本追踪

触发条件：当你希望 AI 参与的工程流程不仅仅是简单的“写代码”，而是贯穿需求、实现、测试、回归、上线等全流程，并对每个环节有明确的质量和成本管理时，即可激活该 Skill。

2. 操作流程 Step by Step

步骤 1：定义完成标准与评测方法（Eval-First）

在任务开始前，先用自然语言或结构化格式明确“完成标准”（done criteria），并制定对应的“能力评测（capability eval）”和“回归评测（regression eval）”。
例如：为一个 API 设计任务，完成标准可包含接口文档、单元测试覆盖率、边界条件处理等。

示例：

json

{
  "task": "实现用户注册 API",
  "done_criteria": [
    "支持邮箱和密码注册",
    "注册失败时返回明确错误码",
    "通过所有边界条件单元测试"
  ],
  "eval_methods": [
    "接口功能自动化测试",
    "安全性回归测试"
  ]
}

步骤 2：任务分解（Decomposition）

遵循“15 分钟单元规则”：将大任务拆分为 AI Agent 能独立完成、可单独验收的小单元。
- 每个单元应能独立验证
- 每个单元聚焦一个主要风险点
- 明确“完成”条件，便于自动或人工验收

示例分解：

设计 API 路由与参数校验
实现数据库写入逻辑
编写注册失败的错误处理
补充测试用例

步骤 3：模型路由与成本控制（Cost-Aware Model Routing）

按任务复杂度自动选择模型：
- Haiku：分类、模板代码生成、小范围编辑
- Sonnet：一般功能实现、重构
- Opus：架构设计、根因分析、多文件一致性
每个任务记录模型类型、token 预算、重试次数、耗时与结果，便于后续优化。

示例路由表：

子任务	推荐模型	复杂度	预算 Token	备注
参数校验	Haiku	低	500	规则清晰
数据库写入	Sonnet	中	2000	涉及逻辑判断
错误处理	Haiku	低	400	模板化
测试用例	Sonnet	中	1500	需覆盖边界

步骤 4：执行与持续评测（Eval Loop）

先运行一次基线评测，记录当前实现的失败特征（failure signatures）。
让 AI Agent 执行具体实现。
实现后，重新运行能力评测和回归测试，对比前后差异（delta）。
若未通过，分析失败原因，必要时升级模型或细化任务单元，循环上述流程。

示例输出：

json

{
  "unit": "注册失败错误处理",
  "baseline_eval": "未覆盖邮箱已注册场景",
  "post_impl_eval": "全部边界条件通过",
  "model_used": "Haiku",
  "token_used": 380,
  "wall_time": "1m20s",
  "status": "success"
}

步骤 5：会话与上下文管理

对强相关的任务单元，建议同一会话连续处理，便于上下文延续。
阶段性里程碑后（如功能全部实现），可开启新会话，避免上下文污染。
活跃调试期间不建议中途压缩上下文，待阶段结束后再 compact。

步骤 6：人工 Review 重点

人工 review 时，优先关注：
- 代码/设计的不变量与边界条件
- 错误处理与安全假设
- 隐性耦合与上线风险
已有自动化格式化/lint 工具保障的风格问题无需浪费 review 资源。

步骤 7：成本与效果追踪

每个子任务都记录模型类型、token 消耗、重试次数、总耗时、成功/失败状态。
只有在低阶模型明确“能力不足”时，才升级到更高阶模型，避免无谓成本。

输出示例

最终你将获得结构化的工程执行日志、每个单元的评测结果、模型与成本明细，便于后续优化和审计。例如：

json

{
  "tasks": [
    {
      "name": "API 参数校验",
      "model": "Haiku",
      "tokens": 480,
      "eval": "pass",
      "time": "1m10s"
    },
    {
      "name": "数据库写入",
      "model": "Sonnet",
      "tokens": 1800,
      "eval": "pass",
      "time": "2m30s"
    }
  ],
  "total_tokens": 2280,
  "failures": [],
  "next_steps": "人工 review 重点关注安全与边界处理"
}

常见配套 Agent 与 Skill 协作

与 Eval Harness Skill 配合，实现自动化评测与回归检测
搭配 Agent Harness Construction 优化 Agent 的 action space 和工具定义
可结合 Cost-Aware LLM Pipeline 进行多模型成本优化
在大型项目中，推荐与 Blueprint Skill 联动，自动生成多 Agent 多阶段工程蓝图

3. 常见问题与注意事项

Q: 这个 Skill 和传统“AI 一键生成代码”有何本质区别？
A: Agentic Engineering Skill 强调“先定义完成标准、分解任务、持续评测和成本追踪”，让 AI 参与整个工程流程而不是一次性输出，极大提升了可控性和质量保障。

Q: 如何判断什么时候需要升级模型？
A: 只有在低阶模型（如 Haiku）明确无法满足任务需求，并能定位到具体“能力缺口”时，才建议升级到 Sonnet 或 Opus，避免不必要的成本浪费。

Q: 这种模式适合哪些团队或项目？
A: 适合追求高效、自动化但又对质量和成本有严格要求的团队，尤其是希望系统性提升 AI 编程助手生产力的中大型项目。

通过 Agentic Engineering Skill，你可以把 AI 编程助手从“工具”升级为“工程师”，让自动化与工程纪律深度融合，真正实现 AI 驱动的高效、可控软件开发。如果你想进一步了解 Everything Claude Code 的全貌，推荐阅读完全指南和高级技巧。

Everything Claude Code Agentic Engineering Skill：eval-first 执行、任务分解与成本路由的 AI 工程师操作模型 ​

1. 适用场景与激活条件 ​

2. 操作流程 Step by Step ​

步骤 1：定义完成标准与评测方法（Eval-First） ​

步骤 2：任务分解（Decomposition） ​

步骤 3：模型路由与成本控制（Cost-Aware Model Routing） ​

步骤 4：执行与持续评测（Eval Loop） ​

步骤 5：会话与上下文管理 ​

步骤 6：人工 Review 重点 ​

步骤 7：成本与效果追踪 ​

输出示例 ​

常见配套 Agent 与 Skill 协作 ​

3. 常见问题与注意事项 ​

Everything Claude Code Agentic Engineering Skill：eval-first 执行、任务分解与成本路由的 AI 工程师操作模型

1. 适用场景与激活条件

2. 操作流程 Step by Step

步骤 1：定义完成标准与评测方法（Eval-First）

步骤 2：任务分解（Decomposition）

步骤 3：模型路由与成本控制（Cost-Aware Model Routing）

步骤 4：执行与持续评测（Eval Loop）

步骤 5：会话与上下文管理

步骤 6：人工 Review 重点

步骤 7：成本与效果追踪

输出示例

常见配套 Agent 与 Skill 协作

3. 常见问题与注意事项