Token Budget Advisor Skill（TBA）是 Everything Claude Code 插件体系中的一项关键能力，允许用户在 AI 回答前主动选择响应的深度级别，从而精确控制 token 消耗和输出长度。它通过交互式分级选项，帮助开发者在成本、上下文窗口和信息详略之间灵活取舍，显著提升 AI 编程助手的实用性和可控性。本文将详细介绍 TBA Skill 的应用场景、触发机制、操作流程、输出示例及与其他 Agent/Skill 的协作方式。

Everything Claude Code Token Budget Advisor Skill：回答前让用户选择响应深度级别控制 token 消耗

在使用 Claude Code、Codex、Cursor 等 AI 编程助手时，开发者常常面临这样的问题：**如何在保证信息价值的同时，合理控制 token 消耗、避免上下文溢出或成本失控？**传统做法下，AI 生成的响应长度和详细程度往往不可控，容易出现“要么太简略、要么过于冗长”的情况，尤其在多轮对话、复杂任务或需要节省 token 预算的场景下尤为突出。

Token Budget Advisor Skill（TBA） 正是为了解决这一痛点而设计。它可以在 AI 回答前，主动拦截响应流程，向用户展示多种响应深度选项（如简要、适中、详细、极致），并给出每个选项的 token 消耗预估，让用户明确选择所需的信息量和预算消耗。这一机制极大提升了 AI 辅助编程的可控性和成本透明度，是 Everything Claude Code 完全指南推荐的核心生产级 Skill 之一。

1. 适用场景与解决的问题

TBA Skill 适用的典型场景包括：

用户明确提出“控制回答长度”、“节省 token”、“要简要版/详细版”等诉求
需要在 token 预算有限的上下文中，优先保证关键信息输出
多 Agent/多轮对话下，需动态调整响应粒度，防止上下文窗口溢出
评估不同深度输出对任务效果和成本的影响

与不用 TBA Skill 的对比：

传统方式：AI 直接输出，用户无法预知 token 消耗，信息详略不可控，容易浪费上下文窗口
启用 TBA Skill：AI 先分析输入复杂度，预估输出 token 区间，主动让用户选择所需深度，token 成本和信息量一目了然

2. 触发条件与激活逻辑

TBA Skill 的触发高度智能，只有在用户明确表达想要控制回答长度、token 消耗或深度时才会激活。常见的触发关键词包括：

“token budget”、“token count”、“token usage”、“token limit”
“response length”、“answer depth”、“short version”、“brief answer”
“detailed answer”、“exhaustive answer”、“tldr”、“简要版”、“详细版”、“给我 50% 深度”
以及用户主动表达“想控制你用多少”、“先给短的再给长的”等意图

不会触发的情况：

用户已经在当前会话指定过深度（Skill 会自动记忆并沿用，无需重复询问）
问题本身只需一句话回答（如“1+1=?”、“JWT token 是什么？”）
“token”指代的是认证、支付等非响应长度场景

3. 使用流程 Step by Step

下面以实际开发中集成 TBA Skill 的典型流程进行详细拆解：

Step 1 — 估算输入 token 数量

Skill 会根据 context-budget 的启发式方法，自动估算用户输入的 token 数：

普通文本：单词数 × 1.3
代码块/混合内容：字符数 ÷ 4
若内容混合，则以主导类型为准

示例：

用户输入：“请解释一下 TypeScript 的类型推断机制，并举例说明。”

Skill 估算输入 token 大约为 20 × 1.3 ≈ 26 tokens。

Step 2 — 按复杂度估算响应 token 区间

Skill 会根据问题复杂度，自动归类并给出响应 token 区间（Multiplier Range）：

复杂度	匹配倍数范围	典型问题举例
简单	3× – 8×	“X 是什么？”，是/否，单一事实
中等	8× – 20×	“X 如何工作？”
中高	10× – 25×	带上下文的代码请求
复杂	15× – 40×	多部分分析、架构、对比
创意/叙述类	10× – 30×	故事、长文、方案设计

继续上例：

“请解释 TypeScript 的类型推断机制，并举例说明。” 属于中高复杂度，Multiplier 取 10× – 25×，即输出区间为 260 ~ 650 tokens。

Step 3 — 展示响应深度选项

Skill 会在回答前，自动弹出如下分级选项卡，供用户选择：

Analyzing your prompt...

Input: ~26 tokens  |  Type: prose+code  |  Complexity: Medium-High  |  Language: zh

Choose your depth level:

[1] Essential   (25%)  ->  ~315 tokens   直接结论，省略背景
[2] Moderate    (50%)  ->  ~380 tokens   结论+必要上下文+1个例子
[3] Detailed    (75%)  ->  ~515 tokens   详细分析+多例子+对比
[4] Exhaustive (100%)  ->  ~650 tokens   全面展开，无信息遗漏

Which level? (1-4 或说“25%深度”、“50%深度”等)

Precision: heuristic estimate ~85-90% accuracy (±15%).

Token 计算公式：

25%：min + (max-min) × 0.25
50%：min + (max-min) × 0.5
75%：min + (max-min) × 0.75
100%：max

Step 4 — 按用户选择的深度生成响应

Skill 会根据用户选择的级别，严格控制输出内容的详略：

级别	目标长度	包含内容	省略内容
25% Essential	2-4 句	直接结论、关键点	背景、例子、对比
50% Moderate	1-3 段	结论+必要背景+1个例子	深度分析、边界情况
75% Detailed	结构化长文	多例子、优缺点、替代方案	极端边界
100% Exhaustive	不限	全面分析、所有代码、所有视角	无省略

快捷方式：
如果用户在提问时已经明确指定深度（如“50%深度”、“给我详细版”），Skill 会自动跳过选择环节，直接按指定级别输出。

Step 5 — 会话记忆与后续响应

Skill 会自动记忆用户在本会话中选择的深度，后续问题会沿用当前设定，除非用户主动更改。

4. 输出示例

用户输入：

“请简要说明什么是 JWT，并给出详细用法。”

Skill 响应：

Analyzing your prompt...

Input: ~16 tokens  |  Type: prose  |  Complexity: Medium  |  Language: zh

Choose your depth level:

[1] Essential   (25%)  ->  ~40 tokens   直接定义
[2] Moderate    (50%)  ->  ~64 tokens   定义+用途+1例子
[3] Detailed    (75%)  ->  ~88 tokens   详细用法+多场景
[4] Exhaustive (100%)  ->  ~128 tokens  全面展开

Which level? (1-4 或“25%深度”等)

Precision: heuristic estimate ~85-90% accuracy (±15%).

（用户选择“2”后，Claude Code 会按 Moderate 级别输出）

用户输入：

“我想要 100% 深度的回答。”

Skill 响应：

直接以 Exhaustive 级别输出，无需再询问。

5. 常见配套 Agent 与 Skill 协作模式

TBA Skill 常与以下 Agent/Skill 协同使用，形成完整的 token 管理与上下文优化工作流：

context-budget： 提供全局 token 占用审计和优先级建议，TBA Skill 负责单次响应的交互式预算控制
cost-aware-llm-pipeline： 按任务复杂度自动路由模型、追踪预算，TBA Skill 让用户主动决策输出粒度
verification-loop： 在多轮验证循环中，动态调整每轮输出深度，防止 token 过载
agent-harness-construction： 构建支持 token 预算感知的 Agent action space，提升任务完成率

6. 实践建议与注意事项

不要滥用：仅在用户明确表达需要控制输出长度、token 或深度时激活，避免打断流畅对话
精度声明：Skill 采用启发式估算，准确率约 85-90%，建议输出时总是附加免责声明
会话记忆：用户已选深度时自动沿用，避免重复询问
与上下文预算结合：配合 context-budget Skill，可实现全局与单次响应双重 token 控制
适合多语言场景：Skill 可自动识别输入语言，适配中英等多语种

7. 典型应用场景举例

代码审查、架构分析等长文任务，用户希望先看核心结论再决定是否展开细节
复杂需求分解，先用 25% 粗略扫一遍，再逐步加深
限定 token 预算的 API 集成，防止上下文窗口溢出
多 Agent 协作时，主 Agent 控制子 Agent 响应粒度，提升整体效率

FAQ

Q: TBA Skill 支持哪些 AI 编程助手？ A: 支持 Claude Code、Codex、Cursor 等主流 AI 编程助手，作为 Everything Claude Code Skill 体系的通用组件集成。

Q: 如果用户没有指定深度，Skill 会每次都弹出选项吗？ A: 只在首次或用户主动表达需要控制时弹出，后续会话自动记忆并沿用上次选择，除非用户更改。

Q: 这种 token 估算方法会不会影响输出准确性？ A: Skill 采用启发式估算，准确率约 85-90%，极端情况下可能有 15% 左右的误差，但足以满足生产级 token 管理需求。

Everything Claude Code Token Budget Advisor Skill：回答前让用户选择响应深度级别控制 token 消耗 ​

1. 适用场景与解决的问题 ​

2. 触发条件与激活逻辑 ​

3. 使用流程 Step by Step ​

Step 1 — 估算输入 token 数量 ​

Step 2 — 按复杂度估算响应 token 区间 ​

Step 3 — 展示响应深度选项 ​

Step 4 — 按用户选择的深度生成响应 ​

Step 5 — 会话记忆与后续响应 ​

4. 输出示例 ​

5. 常见配套 Agent 与 Skill 协作模式 ​

6. 实践建议与注意事项 ​

7. 典型应用场景举例 ​

FAQ ​