Skip to content

2024-08-02,DeepSeek API 上线上下文硬盘缓存(KV Cache),全球首个大范围 API 级别的硬盘缓存服务。对重复前缀的请求,命中部分按 0.1元/M tokens 计费(约为全价的 1/10),自动开启,无需修改代码。usage 字段新增 prompt_cache_hit_tokensprompt_cache_miss_tokens

DeepSeek KV Cache 上线(2024-08-02)

核心特性

  • 自动开启:无需修改任何代码,所有 API 请求自动使用缓存
  • 成本降低:缓存命中 token 按 0.1元/M(约全价 1/10),最高节省 90%
  • 延迟降低:命中缓存时,首 token 延迟大幅减少
  • 每用户隔离存储,定期自动清理

缓存命中条件

  • 相同前缀(以 64 token 为最小缓存单元)完全匹配
  • 对话历史、System Prompt 越长,命中率越高
  • 短请求或每次前缀都变化的请求收益有限

查看缓存命中情况

响应的 usage 字段新增两个字段:

typescript
const response = await client.chat.completions.create({...});

console.log(response.usage?.prompt_cache_hit_tokens);   // 命中 token 数(按折扣计费)
console.log(response.usage?.prompt_cache_miss_tokens);  // 未命中 token 数(按全价计费)

技术背景

DeepSeek 自研 MLA(Multi-head Latent Attention)结构大幅压缩 KV Cache 体积,使得 API 级别的大规模硬盘缓存成为可能。官方表示平台按"每天 1 万亿 token 容量"规模设计,不限流不限并发。

详细使用指南:KV Cache 文档

查看完整更新历史:DeepSeek API 更新日志