OpenClaw 通过工具驱动的方式提供图像、视频、音乐生成和媒体理解（图像/音频/视频理解）以及语音合成/识别。所有媒体工具只有配置了对应提供商后才出现。异步生成（图像、视频、音乐）在后台运行并自动推送结果，同步 TTS 即时返回。关键限制：实时对话应使用 Talk 模式而非批处理路径。

OpenClaw 媒体能力总览

OpenClaw 支持生成图像、视频和音乐，理解传入的媒体（图像、音频、视频），并通过文字转语音（TTS）朗读回复。所有媒体能力都通过工具驱动：智能体根据对话决定何时使用这些工具，每个工具只有在至少配置了一个支持它的提供商后才会出现。

实时语音使用 Talk 会话合约，而非一次性媒体工具路径。Talk 有三种模式：提供商原生 realtime、本地或流式 stt-tts，以及仅用于观察的 transcription 模式。这些模式与电话、会议、浏览器实时和原生按键通话客户端共享提供商目录、事件封装和取消语义。

能力

图像生成

通过 image_generate 使用文本提示或参考图像创建和编辑图像。在聊天会话中异步执行——在后台运行，就绪后发布结果。

视频生成

文本转视频、图像转视频和视频转视频，通过 video_generate 实现。异步——在后台运行，就绪后发布结果。

音乐生成

通过 music_generate 生成音乐或音轨。在聊天会话中异步执行，使用共享的媒体生成任务生命周期。

文字转语音

通过 tts 工具和 messages.tts 配置将出站回复转换为语音音频。同步执行。

提供商能力矩阵

提供商	图像	视频	音乐	TTS	STT	实时语音	媒体理解
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
Local CLI				✓
Microsoft				✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓	✓	✓	✓		✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

::: tip 媒体理解使用提供商配置中注册的任何支持视觉或音频的模型。上表列出了具有专用媒体理解支持的提供商；大多数多模态 LLM 提供商（Anthropic、Google、OpenAI 等）在配置为活动回复模型时也能理解传入的媒体。 :::

异步 vs 同步

能力	模式	原因
图像	异步	提供商处理可能超过一个对话回合；生成的附件使用共享的完成路径。
文字转语音	同步	提供商响应在几秒内返回；附加到回复音频上。
视频	异步	提供商处理需要 30 秒到几分钟；慢队列可运行到配置的超时时间。
音乐	异步	与视频相同的提供商处理特性。

对于异步工具，OpenClaw 向提供商提交请求，立即返回任务 ID，并在任务账本中跟踪作业。智能体在作业运行时继续响应其他消息。当提供商完成后，OpenClaw 唤醒智能体，附带生成的媒体路径，使其能够告知用户并通过消息工具传递结果。如果请求者会话处于非活跃状态，并且某些生成的媒体仍未通过消息工具传递，OpenClaw 会发送一个幂等的直接回退，仅包含缺失的媒体。已经通过消息工具传递的媒体不会再次发送。

语音转文字和语音通话

Deepgram、DeepInfra、ElevenLabs、Mistral、OpenAI、OpenRouter、SenseAudio 和 xAI 在配置后都可以通过批量 tools.media.audio 路径转录传入的音频。频道插件如果在语音笔记上预先处理了提及门控或命令解析，会在传入上下文中标记转录的附件，因此共享的媒体理解步骤会重用该转录，而不为同一音频进行第二次 STT 调用。

Deepgram、ElevenLabs、Mistral、OpenAI 和 xAI 还注册了语音通话流式 STT 提供商，因此实时电话音频可以转发给选定的供应商，而无需等待完整的录音。

对于实时用户对话，推荐使用 Talk 模式。批量音频附件仍走媒体路径；浏览器实时、原生按键通话、电话和会议音频应使用 Talk 事件和 Gateway 返回的会话范围目录。

提供商映射（各供应商在不同面的分布）

:::details Google 图像、视频、音乐、批量 TTS、后端实时语音和媒体理解面。 :::

:::details OpenAI 图像、视频、批量 TTS、批量 STT、语音通话流式 STT、后端实时语音和记忆嵌入面。 :::

:::details DeepInfra 聊天/模型路由、图像生成/编辑、文本转视频、批量 TTS、批量 STT、图像媒体理解和记忆嵌入面。DeepInfra 原生的重排序/分类/目标检测模型在 OpenClaw 有专门提供商合约之前不会注册。 :::

:::details xAI 图像、视频、搜索、代码执行、批量 TTS、批量 STT 和语音通话流式 STT。xAI Realtime 语音是上游能力，但直到共享的实时语音合约能表示它之前不会在 OpenClaw 中注册。 :::

常见问题

为什么我看不到视频生成工具？

如果聊天中看不到 video_generate 工具，说明没有配置任何支持视频生成的提供商。检查提供商能力矩阵，配置一个支持视频的提供商（如 Google、OpenAI、fal 等），该工具会自动出现。

异步媒体生成完成后，智能体没有反应怎么办？

异步任务完成后，OpenClaw 会唤醒智能体并通过消息工具传递结果。如果智能体没有响应，检查任务账本（task ledger）确认任务是否完成，以及消息工具是否成功发送了生成媒体。如果会话已超时，OpenClaw 会通过幂等回退直接发送缺失的媒体，但不会再次唤醒智能体。

实时语音对话要配置哪个模式？

实时语音对话应使用 Talk 模式，而非媒体工具路径。Talk 支持三种模式：provider-native realtime、流式 stt-tts 和仅转录 transcription。根据你的提供商能力选择合适的模式，并在 Gateway 会话中启用 Talk 合约。

OpenClaw 媒体能力总览 #

能力 #

图像生成 #

视频生成 #

音乐生成 #

文字转语音 #

媒体理解 #

语音转文字 #

提供商能力矩阵 #

异步 vs 同步 #

语音转文字和语音通话 #

提供商映射（各供应商在不同面的分布） #

相关文档 #

常见问题 #

为什么我看不到视频生成工具？ #

异步媒体生成完成后，智能体没有反应怎么办？ #

实时语音对话要配置哪个模式？ #