Skip to content

Kimi API 按 token 计费,输入输出分开计算。1 token 约等于 1.5~2 个汉字。文件提取 API 目前免费。本页说明计费逻辑并给出成本控制建议。

Kimi API 定价

计费方式

Kimi API 按 token 用量计费:

  • 输入 tokens:你发送的 messages(含 system、user 等所有内容)
  • 输出 tokens:模型返回的内容

两部分分开计价,通常输出 token 价格高于输入。

换算参考:1 token ≈ 1.5~2 个汉字,或约 1 个英文单词

估算 token 数量

API 响应中的 usage 字段会告诉你实际消耗:

typescript
const response = await client.chat.completions.create({ ... });

console.log(response.usage);
// {
//   prompt_tokens: 150,    // 输入
//   completion_tokens: 80, // 输出
//   total_tokens: 230
// }

也可以调用 Estimate API 在发送前预估 token 数量。

各模型定价

具体价格以 官方价格页面 为准,通常 kimi-k2.6 > moonshot-v1-128k > moonshot-v1-8k。

不同模型的价格梯度:

  • kimi-k2.6 / k2.5:旗舰模型,价格最高
  • moonshot-v1-128k:长上下文版,按 token 比 V3 贵
  • moonshot-v1-8k:短文本最经济

免费额度

新用户注册后有免费试用额度,具体金额以控制台为准。

文件提取 API(Files API)目前免费,不收取 token 费用。

降低成本的实用技巧

1. 选合适的模型

不需要 256K 上下文时,用 moonshot-v1-8k 或 32k,比旗舰模型便宜:

typescript
// 短对话场景 - 不需要旗舰模型
model: "moonshot-v1-8k"

// 长文档分析 - 用对应长度的模型
model: "moonshot-v1-128k"

// 代码/Agent/视觉 - 才需要旗舰
model: "kimi-k2.6"

2. 控制 system prompt 长度

System prompt 每次请求都会作为输入计费。精简 system prompt 可以显著降低成本:

typescript
// ❌ 冗长的 system prompt 每次都收费
const system = "你是一个专业的代码助手,擅长各种编程语言……(500字)";

// ✅ 精简版
const system = "你是代码助手,优先用 TypeScript,简洁回答。";

3. 使用 KV Cache

Kimi 支持 KV Cache(前缀缓存),相同前缀的请求会复用缓存,重复的内容只计费一次。适合 few-shot 场景。

4. 批处理 API 降价

使用 Batch API 批量提交请求,价格通常低于实时 API。适合非实时任务(数据处理、内容生成等)。

查看用量

platform.kimi.com 控制台 → 用量统计,可以按时间段查看 token 消耗和费用明细。

常见问题

Q: 估算 token 数量,有简单的方法吗?

A: 粗略计算:英文约 1 token/词,中文约 2 token/字。精确计算用 Estimate API 或直接看请求响应中的 usage 字段。

Q: 为什么我的账单比预期高?

A: 检查几个常见原因:① system prompt 是否太长;② 是否在循环中重复发送大量 context;③ OpenAI SDK 重试是否导致重复计费(设 maxRetries: 0)。

Q: 批量处理任务用哪种方式更省钱?

A: 使用 Batch API,专为非实时批量任务设计,价格通常有折扣。不适合需要实时响应的场景。