Appearance
Gemini CLI 在使用 API Key 或 Vertex AI 认证时自动启用 Token 缓存,复用系统提示词和上下文,减少重复 Token 消耗降低成本。OAuth 用户(Google 账号登录)暂不支持缓存。用 /stats 命令可查看当前会话的缓存节省量。
Token 缓存与成本优化
Gemini CLI 在使用 API Key 认证时会自动通过 Token 缓存降低 API 成本——复用前序会话中的系统提示词和上下文,减少重复发送的 Token 数量。
支持与不支持的认证方式
支持 Token 缓存:
- Gemini API Key(从 Google AI Studio 获取)
- Vertex AI(已配置项目和位置)
不支持 Token 缓存:
- OAuth 用户(Google 个人/企业账号登录)——Code Assist API 目前不支持缓存内容创建
查看缓存使用情况
用 /stats 命令查看当前会话的 Token 使用量和缓存节省情况:
/stats有缓存 Token 可用时,输出中会显示对应的节省数据。
如何最大化利用缓存
使用 API Key 认证:切换到 API Key 模式是使用 Token 缓存的前提:
bashexport GEMINI_API_KEY=你的APIKey gemini保持系统提示词稳定:Token 缓存复用的是系统提示词和 GEMINI.md 的内容。频繁修改会导致缓存失效,减少节省效果。
在长会话中效果最佳:连续对话中,后续轮次的系统上下文通常可以命中缓存,Token 消耗会逐渐降低。
关联文档
常见问题
Q: OAuth 用户什么时候会支持 Token 缓存?
A: 目前 Google 的 Code Assist API 不支持缓存内容创建,官方尚未给出具体时间表。如果成本是主要考量,建议切换到 API Key 认证方式。
Q: 缓存是按会话计算还是跨会话?
A: Token 缓存由 Google API 端处理,具体实现细节由服务端决定。通过 /stats 命令可以查看当前会话中已命中的缓存 Token 数量。
Q: 我的 Vertex AI 也支持缓存吗?
A: 支持。Vertex AI 用户(已配置项目和位置)同样可以使用 Token 缓存,与 Gemini API Key 用户一样。