OpenRouter 通过 service_tier 参数转发各提供商原生的请求优先级控制。目前支持 OpenAI 的 auto/default/flex/priority 四个层级，可用于在成本和延迟之间取舍。响应中 service_tier 字段位置因 API 格式不同而有所区别：Chat Completions 和 Responses API 在顶层，Messages API 在 usage 对象内。

OpenRouter 服务层级（Service Tiers）

概述

service_tier 参数让你控制请求的处理优先级，实现成本与延迟的权衡。通过 OpenRouter 传递该参数，会直接转发给底层提供商的原生 API。

支持的提供商

OpenAI

可接受的请求值：auto、default、flex、priority

层级	说明
`auto`	自动选择（默认）
`default`	标准处理优先级
`flex`	低优先级，延迟更高，价格更低
`priority`	高优先级，延迟更低，价格更高

详见 OpenAI 官方 Chat Completions 和 Responses API 文档，以及定价页面。

请求示例

json

{
  "model": "openai/gpt-4o",
  "messages": [
    { "role": "user", "content": "Hello" }
  ],
  "service_tier": "flex"
}

响应中的 service_tier 字段位置

响应包含 service_tier 字段，指示实际使用的处理层级。字段位置因 API 格式不同而有所差异：

API 端点	`service_tier` 位置
`/api/v1/chat/completions`（Chat Completions API）	响应对象顶层
`/api/v1/responses`（Responses API）	响应对象顶层
`/api/v1/messages`（Messages API，Anthropic 格式）	`usage` 对象内部

这与各提供商原生 API 的响应格式保持一致。

Chat Completions API 响应示例

json

{
  "id": "gen-xxx",
  "model": "openai/gpt-4o",
  "service_tier": "flex",
  "choices": [...]
}

Messages API 响应示例（Anthropic 格式）

json

{
  "id": "msg-xxx",
  "usage": {
    "input_tokens": 10,
    "output_tokens": 20,
    "service_tier": "standard"
  }
}

常见问题

Q: 使用 flex 层级能省多少钱？

A: 具体折扣取决于 OpenAI 定价，请参考 OpenAI 定价页面。flex 适合对延迟不敏感的批量任务。

Q: service_tier 参数对非 OpenAI 模型有效吗？

A: 目前只有 OpenAI 支持此参数。传给不支持的模型时，该参数会被忽略，不影响请求正常执行。

Q: 如何验证请求实际使用了哪个层级？

A: 检查响应中的 service_tier 字段（位置见上方表格）。若传入 auto，OpenAI 会自动选择层级并在响应中告知实际使用的层级。

OpenRouter 服务层级（Service Tiers） ​

概述 ​

支持的提供商 ​

OpenAI ​

请求示例 ​

响应中的 service_tier 字段位置 ​

Chat Completions API 响应示例 ​

Messages API 响应示例（Anthropic 格式） ​

常见问题 ​

OpenRouter 服务层级（Service Tiers）

概述

支持的提供商

OpenAI

请求示例

响应中的 service_tier 字段位置

Chat Completions API 响应示例

Messages API 响应示例（Anthropic 格式）

常见问题