Appearance
DeepSeek API 省钱的关键不是只选最便宜模型,而是减少无效 token、利用缓存命中、用 Flash 处理简单任务、把 Pro 留给复杂任务。长上下文和 Agent 工作流尤其要控制重复输入,否则便宜模型也会被大量上下文拖高成本。
DeepSeek API 怎么省钱
API 成本不是只看“哪个模型单价低”。真正决定账单的是:
- 输入 token 有多少
- 输出 token 有多少
- 是否命中缓存
- 简单任务是否用了过强模型
- 长上下文是否重复传了太多无用内容
DeepSeek V4 支持 1M 上下文,这是优势,但也容易让人误用。上下文能放很多,不代表每次都应该放很多。
先理解三种成本
| 成本 | 说明 | 怎么省 |
|---|---|---|
| 输入成本 | 你发给模型的内容 | 删除无关上下文,复用固定前缀 |
| 输出成本 | 模型生成的内容 | 限制输出长度,要求只输出必要字段 |
| 重试成本 | 失败后重新调用 | 提前约束格式,降低失败率 |
很多团队只盯模型价格,却忽略失败重试。一次调用便宜,但如果格式经常错、业务要反复重试,最终成本会变高。
第一招:Flash 处理简单任务
简单任务不要默认上 Pro。
适合 V4-Flash 的任务:
- 文本分类
- 标签生成
- 摘要
- 翻译初稿
- 数据清洗
- 简单问答
- 固定格式提取
适合 V4-Pro 的任务:
- 复杂代码修改
- 多步推理
- Agent 工具调用
- 长文档综合分析
- 高价值内容生成
一个常见省钱架构:
text
V4-Flash 先处理所有请求
-> 低置信度 / 失败 / 高价值请求
-> V4-Pro 复核或重跑这样比所有请求都走 Pro 更可控。
第二招:让提示词短而稳定
不要每次都塞一大段废话。提示词应该稳定、明确、可复用。
不推荐:
text
你是一个非常厉害的专家,拥有丰富经验,请认真、仔细、全面地帮我分析下面这段内容,最好能给出非常详细的答案……推荐:
text
任务:把输入文本分类为 bug / feature / question。
输出:只返回 JSON。
格式:{"type":"bug|feature|question","reason":"一句话理由"}短提示词不只是省 token,也会降低跑偏概率。
第三招:用缓存思维组织上下文
DeepSeek API 官方价格页会区分缓存命中和缓存未命中。你不需要手动开启复杂功能,但要让请求更容易复用固定前缀。
适合复用的内容:
- 固定 system prompt
- 固定输出格式说明
- 固定工具描述
- 固定业务规则
- 固定文档片段
不适合放进固定前缀的内容:
- 每个用户都不同的闲聊上下文
- 临时调试日志
- 和当前任务无关的历史消息
- 过长但不会被用到的资料
简单说:稳定内容放前面,变化内容放后面,无关内容不要放。
第四招:限制输出长度
输出 token 通常比输入更贵,也更不可控。你要明确告诉模型输出多少。
例如:
text
请用 5 条以内的项目符号回答,每条不超过 30 个字。或者:
text
只输出 JSON,不要解释。如果你需要的是标签,就不要让它写小作文。
如果你需要的是摘要,就不要让它顺手写建议、风险、扩展阅读。
第五招:长文档先切分,再汇总
1M 上下文很诱人,但长文档任务仍然要设计流程。
推荐流程:
text
文档切分
-> 每段提取要点
-> 合并要点
-> 最后生成总摘要不要每次问一个小问题都把整份文档重新发给模型。尤其是多轮问答,如果你把所有历史和全文都重复传入,成本会涨得很快。
第六招:把失败变成可检测
省钱的关键之一是减少“看起来成功,实际不能用”的回答。
比如你要 JSON,就写清楚:
text
只输出合法 JSON。
不要 Markdown。
不要代码块。
字段必须包含 title、summary、tags。
tags 必须是字符串数组。程序端再做校验。校验失败时,不要盲目重试 5 次,先记录失败样本,调整提示词。
常见问题
Q: DeepSeek API 最省钱是不是永远用 Flash?
A: 不是。如果 Flash 在复杂任务上失败率高,重试和人工修正成本可能超过 Pro。简单任务用 Flash,复杂任务用 Pro。
Q: 长上下文会不会很贵?
A: 会。1M 上下文代表能处理长输入,不代表每次都该塞满。长文档要分块、摘要、复用缓存,而不是反复整篇提交。
Q: 价格应该看哪一页?
A: 以官方 Models & Pricing 为准。价格、模型名和优惠都可能变化,正式上线前要重新确认。