Appearance
本页介绍 Kimi API 的核心概念:token 是计费和上下文计算的基本单位,速率限制从并发、RPM、TPM、TPD 四个维度约束,kimi-k2.6 支持最高 256K 上下文窗口。理解这些概念是稳定使用 Kimi API 的前提。
Kimi API 主要概念
文本与多模态模型
kimi-k2.6 是 Kimi 当前最智能的模型,支持文本、图片和视频输入,以及思考与非思考模式,适用于对话、代码生成、视觉理解和 Agent 任务。对模型的输入通常称为"prompt",提供清晰的指令和必要示例,是获得稳定输出的关键。平台也提供其他模型,详见模型列表。
语言模型推理服务
Kimi API 是基于 Moonshot AI 开发和训练的预训练模型的推理服务。当前平台对外主要提供 Chat Completions 接口,用于对话、代码生成、视觉理解和 Agent 任务。
与 OpenAI API 兼容:Kimi API 接口格式与 OpenAI 完全一致,只需替换
baseURL为https://api.moonshot.cn/v1即可迁移,这一点与 DeepSeek API 相同。
模型本身默认不直接访问网络、数据库等外部资源,但你可以结合官方工具或自定义工具调用扩展模型的执行范围。
Token
文本生成模型以 Token 为基本单位处理文本。Token 代表常见的字符序列。
换算参考:
- 中文:1 token ≈ 1.5~2 个汉字
- 英文:1 token ≈ 4 个字符(约 0.75 个单词)
Input 和 Output 的总和不能超过所选模型的最大上下文长度:
| 模型 | 最大上下文 |
|---|---|
| kimi-k2.6 | 256K tokens |
| kimi-k2.5 | 256K tokens |
| moonshot-v1-128k | 128K tokens |
| moonshot-v1-32k | 32K tokens |
| moonshot-v1-8k | 8K tokens |
速率限制
速率限制从 4 个维度衡量:
| 维度 | 说明 |
|---|---|
| 并发 | 同一时刻最多允许的并行请求数 |
| RPM | 每分钟最大请求数 |
| TPM | 每分钟最大 token 数 |
| TPD | 每天最大 token 数 |
重要细节:
- 速率限制在用户级别执行,不区分 API Key
- 速率计算基于请求中的
max_completion_tokens(不是实际生成量),因此设置过大的max_completion_tokens可能提前触发 TPM 限制 - 触发速率限制时返回 429 错误,建议用指数退避重试
与 DeepSeek API 类比:两者速率限制策略类似,都是预估 token 消耗而非实际消耗,需要注意
max_completion_tokens的设置。
获取 API Key
前往控制台申请 API Key,在请求头中携带:
Authorization: Bearer $MOONSHOT_API_KEY发送请求与处理响应
超时设置:单个请求默认 2 小时超时,超时返回 504 错误。
响应模式:
- 非流式(
stream: false):等待全部生成完成后一次性返回 - 流式(
stream: true):通过 SSE 逐步接收,用户体验更好,且可随时中断
推荐使用流式输出处理长回复,避免请求因超时或网络问题失败。
常见问题
Q: 如何知道我的请求消耗了多少 token?
A: 响应中的 usage.prompt_tokens 是实际消耗的输入 token,usage.completion_tokens 是输出 token。也可以用 token 预估接口 在请求前计算。
Q: 遇到 429 错误怎么办?
A: 触发了速率限制,建议:1)降低并发数;2)减小 max_completion_tokens;3)使用指数退避重试策略。
Q: 速率限制 RPM 和 TPM 哪个先触发?
A: 哪个先达到上限就先触发。频繁短请求容易触发 RPM,少量长请求容易触发 TPM。