Gemini CLI 在使用 API Key 或 Vertex AI 认证时自动启用 Token 缓存，复用系统提示词和上下文，减少重复 Token 消耗降低成本。OAuth 用户（Google 账号登录）暂不支持缓存。用 /stats 命令可查看当前会话的缓存节省量。

Token 缓存与成本优化

Gemini CLI 在使用 API Key 认证时会自动通过 Token 缓存降低 API 成本——复用前序会话中的系统提示词和上下文，减少重复发送的 Token 数量。

支持与不支持的认证方式

支持 Token 缓存：

不支持 Token 缓存：

用 /stats 命令查看当前会话的 Token 使用量和缓存节省情况：

/stats

有缓存 Token 可用时，输出中会显示对应的节省数据。

使用 API Key 认证：切换到 API Key 模式是使用 Token 缓存的前提：
bash
```
export GEMINI_API_KEY=你的APIKey
gemini
```
保持系统提示词稳定：Token 缓存复用的是系统提示词和 GEMINI.md 的内容。频繁修改会导致缓存失效，减少节省效果。
在长会话中效果最佳：连续对话中，后续轮次的系统上下文通常可以命中缓存，Token 消耗会逐渐降低。

Q: OAuth 用户什么时候会支持 Token 缓存？

A: 目前 Google 的 Code Assist API 不支持缓存内容创建，官方尚未给出具体时间表。如果成本是主要考量，建议切换到 API Key 认证方式。

Q: 缓存是按会话计算还是跨会话？

A: Token 缓存由 Google API 端处理，具体实现细节由服务端决定。通过 /stats 命令可以查看当前会话中已命中的缓存 Token 数量。

Q: 我的 Vertex AI 也支持缓存吗？

A: 支持。Vertex AI 用户（已配置项目和位置）同样可以使用 Token 缓存，与 Gemini API Key 用户一样。