Skip to content

本页介绍 Kimi API 的核心概念:token 是计费和上下文计算的基本单位,速率限制从并发、RPM、TPM、TPD 四个维度约束,kimi-k2.6 支持最高 256K 上下文窗口。理解这些概念是稳定使用 Kimi API 的前提。

Kimi API 主要概念

文本与多模态模型

kimi-k2.6 是 Kimi 当前最智能的模型,支持文本、图片和视频输入,以及思考与非思考模式,适用于对话、代码生成、视觉理解和 Agent 任务。对模型的输入通常称为"prompt",提供清晰的指令和必要示例,是获得稳定输出的关键。平台也提供其他模型,详见模型列表

语言模型推理服务

Kimi API 是基于 Moonshot AI 开发和训练的预训练模型的推理服务。当前平台对外主要提供 Chat Completions 接口,用于对话、代码生成、视觉理解和 Agent 任务。

与 OpenAI API 兼容:Kimi API 接口格式与 OpenAI 完全一致,只需替换 baseURLhttps://api.moonshot.cn/v1 即可迁移,这一点与 DeepSeek API 相同。

模型本身默认不直接访问网络、数据库等外部资源,但你可以结合官方工具自定义工具调用扩展模型的执行范围。

Token

文本生成模型以 Token 为基本单位处理文本。Token 代表常见的字符序列。

换算参考

  • 中文:1 token ≈ 1.5~2 个汉字
  • 英文:1 token ≈ 4 个字符(约 0.75 个单词)

Input 和 Output 的总和不能超过所选模型的最大上下文长度:

模型最大上下文
kimi-k2.6256K tokens
kimi-k2.5256K tokens
moonshot-v1-128k128K tokens
moonshot-v1-32k32K tokens
moonshot-v1-8k8K tokens

速率限制

速率限制从 4 个维度衡量:

维度说明
并发同一时刻最多允许的并行请求数
RPM每分钟最大请求数
TPM每分钟最大 token 数
TPD每天最大 token 数

重要细节

  • 速率限制在用户级别执行,不区分 API Key
  • 速率计算基于请求中的 max_completion_tokens(不是实际生成量),因此设置过大的 max_completion_tokens 可能提前触发 TPM 限制
  • 触发速率限制时返回 429 错误,建议用指数退避重试

与 DeepSeek API 类比:两者速率限制策略类似,都是预估 token 消耗而非实际消耗,需要注意 max_completion_tokens 的设置。

获取 API Key

前往控制台申请 API Key,在请求头中携带:

Authorization: Bearer $MOONSHOT_API_KEY

发送请求与处理响应

超时设置:单个请求默认 2 小时超时,超时返回 504 错误。

响应模式

  • 非流式stream: false):等待全部生成完成后一次性返回
  • 流式stream: true):通过 SSE 逐步接收,用户体验更好,且可随时中断

推荐使用流式输出处理长回复,避免请求因超时或网络问题失败。


常见问题

Q: 如何知道我的请求消耗了多少 token?

A: 响应中的 usage.prompt_tokens 是实际消耗的输入 token,usage.completion_tokens 是输出 token。也可以用 token 预估接口 在请求前计算。

Q: 遇到 429 错误怎么办?

A: 触发了速率限制,建议:1)降低并发数;2)减小 max_completion_tokens;3)使用指数退避重试策略。

Q: 速率限制 RPM 和 TPM 哪个先触发?

A: 哪个先达到上限就先触发。频繁短请求容易触发 RPM,少量长请求容易触发 TPM。