Appearance
OpenClaw 通过工具驱动的方式提供图像、视频、音乐生成和媒体理解(图像/音频/视频理解)以及语音合成/识别。所有媒体工具只有配置了对应提供商后才出现。异步生成(图像、视频、音乐)在后台运行并自动推送结果,同步 TTS 即时返回。关键限制:实时对话应使用 Talk 模式而非批处理路径。
OpenClaw 媒体能力总览
OpenClaw 支持生成图像、视频和音乐,理解传入的媒体(图像、音频、视频),并通过文字转语音(TTS)朗读回复。所有媒体能力都通过工具驱动:智能体根据对话决定何时使用这些工具,每个工具只有在至少配置了一个支持它的提供商后才会出现。
实时语音使用 Talk 会话合约,而非一次性媒体工具路径。Talk 有三种模式:提供商原生 realtime、本地或流式 stt-tts,以及仅用于观察的 transcription 模式。这些模式与电话、会议、浏览器实时和原生按键通话客户端共享提供商目录、事件封装和取消语义。
能力
图像生成
通过 image_generate 使用文本提示或参考图像创建和编辑图像。在聊天会话中异步执行——在后台运行,就绪后发布结果。
视频生成
文本转视频、图像转视频和视频转视频,通过 video_generate 实现。异步——在后台运行,就绪后发布结果。
音乐生成
通过 music_generate 生成音乐或音轨。在聊天会话中异步执行,使用共享的媒体生成任务生命周期。
文字转语音
通过 tts 工具和 messages.tts 配置将出站回复转换为语音音频。同步执行。
媒体理解
使用支持视觉能力的模型提供商和专用媒体理解插件汇总传入的图像、音频和视频。
语音转文字
通过批量 STT 或语音通话流式 STT 提供商转录传入的语音消息。
提供商能力矩阵
| 提供商 | 图像 | 视频 | 音乐 | TTS | STT | 实时语音 | 媒体理解 |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | ✓ | ||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
TIP
媒体理解使用提供商配置中注册的任何支持视觉或音频的模型。上表列出了具有专用媒体理解支持的提供商;大多数多模态 LLM 提供商(Anthropic、Google、OpenAI 等)在配置为活动回复模型时也能理解传入的媒体。
异步 vs 同步
| 能力 | 模式 | 原因 |
|---|---|---|
| 图像 | 异步 | 提供商处理可能超过一个对话回合;生成的附件使用共享的完成路径。 |
| 文字转语音 | 同步 | 提供商响应在几秒内返回;附加到回复音频上。 |
| 视频 | 异步 | 提供商处理需要 30 秒到几分钟;慢队列可运行到配置的超时时间。 |
| 音乐 | 异步 | 与视频相同的提供商处理特性。 |
对于异步工具,OpenClaw 向提供商提交请求,立即返回任务 ID,并在任务账本中跟踪作业。智能体在作业运行时继续响应其他消息。当提供商完成后,OpenClaw 唤醒智能体,附带生成的媒体路径,使其能够告知用户并通过消息工具传递结果。如果请求者会话处于非活跃状态,并且某些生成的媒体仍未通过消息工具传递,OpenClaw 会发送一个幂等的直接回退,仅包含缺失的媒体。已经通过消息工具传递的媒体不会再次发送。
语音转文字和语音通话
Deepgram、DeepInfra、ElevenLabs、Mistral、OpenAI、OpenRouter、SenseAudio 和 xAI 在配置后都可以通过批量 tools.media.audio 路径转录传入的音频。频道插件如果在语音笔记上预先处理了提及门控或命令解析,会在传入上下文中标记转录的附件,因此共享的媒体理解步骤会重用该转录,而不为同一音频进行第二次 STT 调用。
Deepgram、ElevenLabs、Mistral、OpenAI 和 xAI 还注册了语音通话流式 STT 提供商,因此实时电话音频可以转发给选定的供应商,而无需等待完整的录音。
对于实时用户对话,推荐使用 Talk 模式。批量音频附件仍走媒体路径;浏览器实时、原生按键通话、电话和会议音频应使用 Talk 事件和 Gateway 返回的会话范围目录。
提供商映射(各供应商在不同面的分布)
图像、视频、音乐、批量 TTS、后端实时语音和媒体理解面。
OpenAI
图像、视频、批量 TTS、批量 STT、语音通话流式 STT、后端实时语音和记忆嵌入面。
DeepInfra
聊天/模型路由、图像生成/编辑、文本转视频、批量 TTS、批量 STT、图像媒体理解和记忆嵌入面。DeepInfra 原生的重排序/分类/目标检测模型在 OpenClaw 有专门提供商合约之前不会注册。
xAI
图像、视频、搜索、代码执行、批量 TTS、批量 STT 和语音通话流式 STT。xAI Realtime 语音是上游能力,但直到共享的实时语音合约能表示它之前不会在 OpenClaw 中注册。
相关文档
常见问题
为什么我看不到视频生成工具?
如果聊天中看不到 video_generate 工具,说明没有配置任何支持视频生成的提供商。检查提供商能力矩阵,配置一个支持视频的提供商(如 Google、OpenAI、fal 等),该工具会自动出现。
异步媒体生成完成后,智能体没有反应怎么办?
异步任务完成后,OpenClaw 会唤醒智能体并通过消息工具传递结果。如果智能体没有响应,检查任务账本(task ledger)确认任务是否完成,以及消息工具是否成功发送了生成媒体。如果会话已超时,OpenClaw 会通过幂等回退直接发送缺失的媒体,但不会再次唤醒智能体。
实时语音对话要配置哪个模式?
实时语音对话应使用 Talk 模式,而非媒体工具路径。Talk 支持三种模式:provider-native realtime、流式 stt-tts 和仅转录 transcription。根据你的提供商能力选择合适的模式,并在 Gateway 会话中启用 Talk 合约。