OpenRouter 多模态能力总览：图片、视频、音频、PDF 一站式支持

OpenRouter 不只支持文字，还支持图片、PDF、音频、视频等多种输入模态，以及图片生成、视频生成和文字转语音（TTS）输出。大多数输入类型通过统一的 /api/v1/chat/completions 接口发送，只有 TTS 使用独立的 /api/v1/audio/speech 端点。

支持的模态

输入模态

模态	内容类型	说明
图片	`image_url`	发送图片给视觉模型，支持分析、描述、OCR 等
PDF	`file`	通过多种引擎解析 PDF，适用于任意模型
音频	`input_audio`	发送音频文件，支持转录和分析
视频	`video_url`	发送视频文件，支持理解和描述

输出模态

模态	端点	说明
图片生成	`/api/v1/chat/completions`	用文字 prompt 生成图片
视频生成	`/api/v1/videos`	异步生成视频，需轮询状态
文字转语音	`/api/v1/audio/speech`	兼容 OpenAI TTS API，返回音频流

快速开始

大多数多模态输入使用同一个接口，在 messages.content 数组中指定不同的内容类型：

{
  "model": "google/gemini-2.5-flash",
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "描述这张图片" },
        { "type": "image_url", "imageUrl": { "url": "https://example.com/image.jpg" } }
      ]
    }
  ]
}

TTS 使用独立端点，参数格式不同，详见文字转语音文档。

传入格式

方式	图片	PDF	音频	视频
URL	✅ 推荐	✅ 推荐	❌ 不支持	部分支持（依赖提供商）
Base64	✅ 支持	✅ 支持	✅ 必须	✅ 支持

URL 方式对大文件更高效，不需要本地编码也不会增大请求体积。本地文件或非公开内容只能用 base64。

视频 URL 支持情况因提供商而异。例如 Google Gemini（AI Studio）只接受 YouTube 链接，不接受直接文件 URL。

模型兼容性

不同模型支持的模态不同，使用前可在 Models 页面按输入/输出模态过滤。

常见问题

Q: 能在一次请求里混合多种模态吗？

A: 可以，同一个请求里可以同时发文字、图片、PDF、音频和视频，模型会一起处理。

Q: 多模态内容怎么计费？

A: 图片按张数或 token 计；PDF 免费文字提取，OCR 引擎按页收费；音频按时长计 token；视频按时长和分辨率计费。

Q: 如何找到支持某种模态的模型？

A: 在 Models 页面按 input_modalities 或 output_modalities 过滤即可。

OpenRouter 多模态能力总览：图片、视频、音频、PDF 一站式支持

支持的模态 #

输入模态 #

输出模态 #

快速开始 #

传入格式 #

模型兼容性 #