Appearance
OpenRouter 通过 service_tier 参数转发各提供商原生的请求优先级控制。目前支持 OpenAI 的 auto/default/flex/priority 四个层级,可用于在成本和延迟之间取舍。响应中 service_tier 字段位置因 API 格式不同而有所区别:Chat Completions 和 Responses API 在顶层,Messages API 在 usage 对象内。
OpenRouter 服务层级(Service Tiers)
概述
service_tier 参数让你控制请求的处理优先级,实现成本与延迟的权衡。通过 OpenRouter 传递该参数,会直接转发给底层提供商的原生 API。
支持的提供商
OpenAI
可接受的请求值:auto、default、flex、priority
| 层级 | 说明 |
|---|---|
auto | 自动选择(默认) |
default | 标准处理优先级 |
flex | 低优先级,延迟更高,价格更低 |
priority | 高优先级,延迟更低,价格更高 |
详见 OpenAI 官方 Chat Completions 和 Responses API 文档,以及 定价页面。
请求示例
json
{
"model": "openai/gpt-4o",
"messages": [
{ "role": "user", "content": "Hello" }
],
"service_tier": "flex"
}响应中的 service_tier 字段位置
响应包含 service_tier 字段,指示实际使用的处理层级。字段位置因 API 格式不同而有所差异:
| API 端点 | service_tier 位置 |
|---|---|
/api/v1/chat/completions(Chat Completions API) | 响应对象顶层 |
/api/v1/responses(Responses API) | 响应对象顶层 |
/api/v1/messages(Messages API,Anthropic 格式) | usage 对象内部 |
这与各提供商原生 API 的响应格式保持一致。
Chat Completions API 响应示例
json
{
"id": "gen-xxx",
"model": "openai/gpt-4o",
"service_tier": "flex",
"choices": [...]
}Messages API 响应示例(Anthropic 格式)
json
{
"id": "msg-xxx",
"usage": {
"input_tokens": 10,
"output_tokens": 20,
"service_tier": "standard"
}
}常见问题
Q: 使用 flex 层级能省多少钱?
A: 具体折扣取决于 OpenAI 定价,请参考 OpenAI 定价页面。flex 适合对延迟不敏感的批量任务。
Q: service_tier 参数对非 OpenAI 模型有效吗?
A: 目前只有 OpenAI 支持此参数。传给不支持的模型时,该参数会被忽略,不影响请求正常执行。
Q: 如何验证请求实际使用了哪个层级?
A: 检查响应中的 service_tier 字段(位置见上方表格)。若传入 auto,OpenAI 会自动选择层级并在响应中告知实际使用的层级。