Appearance
2024-08-02,DeepSeek API 上线上下文硬盘缓存(KV Cache),全球首个大范围 API 级别的硬盘缓存服务。对重复前缀的请求,命中部分按 0.1元/M tokens 计费(约为全价的 1/10),自动开启,无需修改代码。usage 字段新增 prompt_cache_hit_tokens 和 prompt_cache_miss_tokens。
DeepSeek KV Cache 上线(2024-08-02)
核心特性
- 自动开启:无需修改任何代码,所有 API 请求自动使用缓存
- 成本降低:缓存命中 token 按 0.1元/M(约全价 1/10),最高节省 90%
- 延迟降低:命中缓存时,首 token 延迟大幅减少
- 每用户隔离存储,定期自动清理
缓存命中条件
- 相同前缀(以 64 token 为最小缓存单元)完全匹配
- 对话历史、System Prompt 越长,命中率越高
- 短请求或每次前缀都变化的请求收益有限
查看缓存命中情况
响应的 usage 字段新增两个字段:
typescript
const response = await client.chat.completions.create({...});
console.log(response.usage?.prompt_cache_hit_tokens); // 命中 token 数(按折扣计费)
console.log(response.usage?.prompt_cache_miss_tokens); // 未命中 token 数(按全价计费)技术背景
DeepSeek 自研 MLA(Multi-head Latent Attention)结构大幅压缩 KV Cache 体积,使得 API 级别的大规模硬盘缓存成为可能。官方表示平台按"每天 1 万亿 token 容量"规模设计,不限流不限并发。
详细使用指南:KV Cache 文档
查看完整更新历史:DeepSeek API 更新日志