2024-08-02，DeepSeek API 上线上下文硬盘缓存（KV Cache），全球首个大范围 API 级别的硬盘缓存服务。对重复前缀的请求，命中部分按 0.1元/M tokens 计费（约为全价的 1/10），自动开启，无需修改代码。usage 字段新增 prompt_cache_hit_tokens 和 prompt_cache_miss_tokens。

DeepSeek KV Cache 上线（2024-08-02）

核心特性

自动开启：无需修改任何代码，所有 API 请求自动使用缓存
成本降低：缓存命中 token 按 0.1元/M（约全价 1/10），最高节省 90%
延迟降低：命中缓存时，首 token 延迟大幅减少
每用户隔离存储，定期自动清理

缓存命中条件

相同前缀（以 64 token 为最小缓存单元）完全匹配
对话历史、System Prompt 越长，命中率越高
短请求或每次前缀都变化的请求收益有限

查看缓存命中情况

响应的 usage 字段新增两个字段：

typescript

const response = await client.chat.completions.create({...});

console.log(response.usage?.prompt_cache_hit_tokens);   // 命中 token 数（按折扣计费）
console.log(response.usage?.prompt_cache_miss_tokens);  // 未命中 token 数（按全价计费）

技术背景

DeepSeek 自研 MLA（Multi-head Latent Attention）结构大幅压缩 KV Cache 体积，使得 API 级别的大规模硬盘缓存成为可能。官方表示平台按"每天 1 万亿 token 容量"规模设计，不限流不限并发。

详细使用指南：KV Cache 文档

查看完整更新历史：DeepSeek API 更新日志

GitHub MCP Server

设置与安装

用量与账单管理

模型切换

Cloud Agent（云端 AI 代理）

Copilot CLI

CLI 自定义总览

CLI 安装与配置

CLI 自动化

CLI Agent 使用

Copilot SDK

认证配置

故障排查

集成与可观测性

Cloud Agent 任务工作流

自定义与 Spaces

启用与配置（set-up）

启用 Copilot

Prompt 工程

代码补全

工具集成

Agent 系统

Copilot CLI 核心概念

计费说明

上下文与索引

语言与框架

Learn by Playing

Terminal UI

Privacy & Security

Custom Agents 详解

CLI 计费管理

CLI Enterprise

CLI Chat

CLI MCP

CLI Reference

Experimental

AI 工具接入

DeepSeek KV Cache 上线（2024-08-02） ​

核心特性 ​

缓存命中条件 ​

查看缓存命中情况 ​

技术背景 ​

DeepSeek KV Cache 上线（2024-08-02）

核心特性

缓存命中条件

查看缓存命中情况

技术背景