本页介绍 Kimi API 的核心概念：token 是计费和上下文计算的基本单位，速率限制从并发、RPM、TPM、TPD 四个维度约束，kimi-k2.6 支持最高 256K 上下文窗口。理解这些概念是稳定使用 Kimi API 的前提。

Kimi API 主要概念

文本与多模态模型

kimi-k2.6 是 Kimi 当前最智能的模型，支持文本、图片和视频输入，以及思考与非思考模式，适用于对话、代码生成、视觉理解和 Agent 任务。对模型的输入通常称为"prompt"，提供清晰的指令和必要示例，是获得稳定输出的关键。平台也提供其他模型，详见模型列表。

语言模型推理服务

Kimi API 是基于 Moonshot AI 开发和训练的预训练模型的推理服务。当前平台对外主要提供 Chat Completions 接口，用于对话、代码生成、视觉理解和 Agent 任务。

与 OpenAI API 兼容：Kimi API 接口格式与 OpenAI 完全一致，只需替换 baseURL 为 https://api.moonshot.cn/v1 即可迁移，这一点与 DeepSeek API 相同。

模型本身默认不直接访问网络、数据库等外部资源，但你可以结合官方工具或自定义工具调用扩展模型的执行范围。

Token

文本生成模型以 Token 为基本单位处理文本。Token 代表常见的字符序列。

换算参考：

中文：1 token ≈ 1.5~2 个汉字
英文：1 token ≈ 4 个字符（约 0.75 个单词）

Input 和 Output 的总和不能超过所选模型的最大上下文长度：

模型	最大上下文
kimi-k2.6	256K tokens
kimi-k2.5	256K tokens
moonshot-v1-128k	128K tokens
moonshot-v1-32k	32K tokens
moonshot-v1-8k	8K tokens

速率限制

速率限制从 4 个维度衡量：

维度	说明
并发	同一时刻最多允许的并行请求数
RPM	每分钟最大请求数
TPM	每分钟最大 token 数
TPD	每天最大 token 数

重要细节：

速率限制在用户级别执行，不区分 API Key
速率计算基于请求中的 max_completion_tokens（不是实际生成量），因此设置过大的 max_completion_tokens 可能提前触发 TPM 限制
触发速率限制时返回 429 错误，建议用指数退避重试

与 DeepSeek API 类比：两者速率限制策略类似，都是预估 token 消耗而非实际消耗，需要注意 max_completion_tokens 的设置。

获取 API Key

前往控制台申请 API Key，在请求头中携带：

Authorization: Bearer $MOONSHOT_API_KEY

发送请求与处理响应

超时设置：单个请求默认 2 小时超时，超时返回 504 错误。

响应模式：

非流式（stream: false）：等待全部生成完成后一次性返回
流式（stream: true）：通过 SSE 逐步接收，用户体验更好，且可随时中断

推荐使用流式输出处理长回复，避免请求因超时或网络问题失败。

常见问题

Q: 如何知道我的请求消耗了多少 token？

A: 响应中的 usage.prompt_tokens 是实际消耗的输入 token，usage.completion_tokens 是输出 token。也可以用 token 预估接口在请求前计算。

Q: 遇到 429 错误怎么办？

A: 触发了速率限制，建议：1）降低并发数；2）减小 max_completion_tokens；3）使用指数退避重试策略。

Q: 速率限制 RPM 和 TPM 哪个先触发？

A: 哪个先达到上限就先触发。频繁短请求容易触发 RPM，少量长请求容易触发 TPM。

AI 工具接入

模型能力

高级功能

集成与工具

运维与稳定性

GitHub MCP Server

设置与安装

用量与账单管理

模型切换

Cloud Agent（云端 AI 代理）

Copilot CLI

CLI 自定义总览

CLI 安装与配置

CLI 自动化

CLI Agent 使用

Copilot SDK

认证配置

故障排查

集成与可观测性

Cloud Agent 任务工作流

自定义与 Spaces

启用与配置（set-up）

启用 Copilot

Prompt 工程

代码补全

工具集成

Agent 系统

Copilot CLI 核心概念

计费说明

上下文与索引

语言与框架

Learn by Playing

Terminal UI

Privacy & Security

Custom Agents 详解

CLI 计费管理

CLI Enterprise

CLI Chat

CLI MCP

CLI Reference

Experimental

Kimi API 主要概念 ​

文本与多模态模型 ​

语言模型推理服务 ​

Token ​

速率限制 ​

获取 API Key ​

发送请求与处理响应 ​

常见问题 ​