Appearance
OpenRouter 不只支持文字,还支持图片、PDF、音频、视频等多种输入模态,以及图片生成、视频生成和文字转语音(TTS)输出。大多数输入类型通过统一的 /api/v1/chat/completions 接口发送,只有 TTS 使用独立的 /api/v1/audio/speech 端点。
支持的模态
输入模态
| 模态 | 内容类型 | 说明 |
|---|---|---|
| 图片 | image_url | 发送图片给视觉模型,支持分析、描述、OCR 等 |
file | 通过多种引擎解析 PDF,适用于任意模型 | |
| 音频 | input_audio | 发送音频文件,支持转录和分析 |
| 视频 | video_url | 发送视频文件,支持理解和描述 |
输出模态
| 模态 | 端点 | 说明 |
|---|---|---|
| 图片生成 | /api/v1/chat/completions | 用文字 prompt 生成图片 |
| 视频生成 | /api/v1/videos | 异步生成视频,需轮询状态 |
| 文字转语音 | /api/v1/audio/speech | 兼容 OpenAI TTS API,返回音频流 |
快速开始
大多数多模态输入使用同一个接口,在 messages.content 数组中指定不同的内容类型:
json
{
"model": "google/gemini-2.5-flash",
"messages": [
{
"role": "user",
"content": [
{ "type": "text", "text": "描述这张图片" },
{ "type": "image_url", "imageUrl": { "url": "https://example.com/image.jpg" } }
]
}
]
}TTS 使用独立端点,参数格式不同,详见 文字转语音文档。
传入格式
| 方式 | 图片 | 音频 | 视频 | |
|---|---|---|---|---|
| URL | ✅ 推荐 | ✅ 推荐 | ❌ 不支持 | 部分支持(依赖提供商) |
| Base64 | ✅ 支持 | ✅ 支持 | ✅ 必须 | ✅ 支持 |
URL 方式对大文件更高效,不需要本地编码也不会增大请求体积。本地文件或非公开内容只能用 base64。
视频 URL 支持情况因提供商而异。例如 Google Gemini(AI Studio)只接受 YouTube 链接,不接受直接文件 URL。
模型兼容性
不同模型支持的模态不同,使用前可在 Models 页面 按输入/输出模态过滤。
常见问题
Q: 能在一次请求里混合多种模态吗?
A: 可以,同一个请求里可以同时发文字、图片、PDF、音频和视频,模型会一起处理。
Q: 多模态内容怎么计费?
A: 图片按张数或 token 计;PDF 免费文字提取,OCR 引擎按页收费;音频按时长计 token;视频按时长和分辨率计费。
Q: 如何找到支持某种模态的模型?
A: 在 Models 页面 按 input_modalities 或 output_modalities 过滤即可。