Skip to content

OpenRouter 不只支持文字,还支持图片、PDF、音频、视频等多种输入模态,以及图片生成、视频生成和文字转语音(TTS)输出。大多数输入类型通过统一的 /api/v1/chat/completions 接口发送,只有 TTS 使用独立的 /api/v1/audio/speech 端点。

支持的模态

输入模态

模态内容类型说明
图片image_url发送图片给视觉模型,支持分析、描述、OCR 等
PDFfile通过多种引擎解析 PDF,适用于任意模型
音频input_audio发送音频文件,支持转录和分析
视频video_url发送视频文件,支持理解和描述

输出模态

模态端点说明
图片生成/api/v1/chat/completions用文字 prompt 生成图片
视频生成/api/v1/videos异步生成视频,需轮询状态
文字转语音/api/v1/audio/speech兼容 OpenAI TTS API,返回音频流

快速开始

大多数多模态输入使用同一个接口,在 messages.content 数组中指定不同的内容类型:

json
{
  "model": "google/gemini-2.5-flash",
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "描述这张图片" },
        { "type": "image_url", "imageUrl": { "url": "https://example.com/image.jpg" } }
      ]
    }
  ]
}

TTS 使用独立端点,参数格式不同,详见 文字转语音文档

传入格式

方式图片PDF音频视频
URL✅ 推荐✅ 推荐❌ 不支持部分支持(依赖提供商)
Base64✅ 支持✅ 支持✅ 必须✅ 支持

URL 方式对大文件更高效,不需要本地编码也不会增大请求体积。本地文件或非公开内容只能用 base64。

视频 URL 支持情况因提供商而异。例如 Google Gemini(AI Studio)只接受 YouTube 链接,不接受直接文件 URL。

模型兼容性

不同模型支持的模态不同,使用前可在 Models 页面 按输入/输出模态过滤。

常见问题

Q: 能在一次请求里混合多种模态吗?

A: 可以,同一个请求里可以同时发文字、图片、PDF、音频和视频,模型会一起处理。

Q: 多模态内容怎么计费?

A: 图片按张数或 token 计;PDF 免费文字提取,OCR 引擎按页收费;音频按时长计 token;视频按时长和分辨率计费。

Q: 如何找到支持某种模态的模型?

A: 在 Models 页面input_modalitiesoutput_modalities 过滤即可。