Skip to content

OpenRouter 通过 service_tier 参数转发各提供商原生的请求优先级控制。目前支持 OpenAI 的 auto/default/flex/priority 四个层级,可用于在成本和延迟之间取舍。响应中 service_tier 字段位置因 API 格式不同而有所区别:Chat Completions 和 Responses API 在顶层,Messages API 在 usage 对象内。

OpenRouter 服务层级(Service Tiers)

概述

service_tier 参数让你控制请求的处理优先级,实现成本与延迟的权衡。通过 OpenRouter 传递该参数,会直接转发给底层提供商的原生 API。

支持的提供商

OpenAI

可接受的请求值:autodefaultflexpriority

层级说明
auto自动选择(默认)
default标准处理优先级
flex低优先级,延迟更高,价格更低
priority高优先级,延迟更低,价格更高

详见 OpenAI 官方 Chat CompletionsResponses API 文档,以及 定价页面

请求示例

json
{
  "model": "openai/gpt-4o",
  "messages": [
    { "role": "user", "content": "Hello" }
  ],
  "service_tier": "flex"
}

响应中的 service_tier 字段位置

响应包含 service_tier 字段,指示实际使用的处理层级。字段位置因 API 格式不同而有所差异

API 端点service_tier 位置
/api/v1/chat/completions(Chat Completions API)响应对象顶层
/api/v1/responses(Responses API)响应对象顶层
/api/v1/messages(Messages API,Anthropic 格式)usage 对象内部

这与各提供商原生 API 的响应格式保持一致。

Chat Completions API 响应示例

json
{
  "id": "gen-xxx",
  "model": "openai/gpt-4o",
  "service_tier": "flex",
  "choices": [...]
}

Messages API 响应示例(Anthropic 格式)

json
{
  "id": "msg-xxx",
  "usage": {
    "input_tokens": 10,
    "output_tokens": 20,
    "service_tier": "standard"
  }
}

常见问题

Q: 使用 flex 层级能省多少钱?

A: 具体折扣取决于 OpenAI 定价,请参考 OpenAI 定价页面flex 适合对延迟不敏感的批量任务。

Q: service_tier 参数对非 OpenAI 模型有效吗?

A: 目前只有 OpenAI 支持此参数。传给不支持的模型时,该参数会被忽略,不影响请求正常执行。

Q: 如何验证请求实际使用了哪个层级?

A: 检查响应中的 service_tier 字段(位置见上方表格)。若传入 auto,OpenAI 会自动选择层级并在响应中告知实际使用的层级。