Appearance
在 OpenClaw 中集成 Inworld 流式文本转语音(TTS)服务,为多渠道回复合成音频。默认输出 MP3,语音笔记场景自动用 OGG_OPUS,电话通道输出 22050 Hz PCM。关键步骤:从 Inworld 工作台(Workspace > API Keys)复制 Base64 凭据,直接设为环境变量 INWORLD_API_KEY(不要再编码),并在 messages.tts.providers.inworld 中指定 voiceId: "Sarah"、modelId: "inworld-tts-1.5-max"。
OpenClaw Inworld TTS 语音合成配置
Inworld 是一个流式 TTS 提供商。OpenClaw 利用它将出站回复合成为音频(默认 MP3,语音笔记用 OGG_OPUS,电话通道用 PCM 22050 Hz)。OpenClaw 向 Inworld 的流式 TTS 端点发送请求,拼接返回的 base64 音频块,再交给标准回复音频流水线。
| 属性 | 值 |
|---|---|
| Provider id | inworld |
| 插件 | 内置,enabledByDefault: true |
| 合约 | speechProviders(仅 TTS) |
| 认证环境变量 | INWORLD_API_KEY(HTTP Basic,直接使用面板的 Base64 凭据) |
| Base URL | https://api.inworld.ai |
| 默认语音 | Sarah |
| 默认模型 | inworld-tts-1.5-max |
| 输出格式 | MP3(默认)、OGG_OPUS(语音笔记)、PCM 22050 Hz(电话) |
| 官网 | inworld.ai |
| 文档 | docs.inworld.ai/tts/tts |
快速开始
设置 API 密钥
从 Inworld 面板(Workspace > API Keys)复制凭据字符串,设置为环境变量。该值会原封不动地作为 HTTP Basic 凭据发送,**不要**再次 Base64 编码,也不要转换成 bearer token。
```
INWORLD_API_KEY=<面板上复制下来的Base64凭据>
```
在 messages.tts 中选择 Inworld
```json5
{
messages: {
tts: {
auto: "always",
provider: "inworld",
providers: {
inworld: {
voiceId: "Sarah",
modelId: "inworld-tts-1.5-max",
},
},
},
},
}
```
发送一条消息
通过任意已连接的渠道发送回复。OpenClaw 会用 Inworld 合成音频,并以 MP3(或渠道期望语音笔记时转为 OGG_OPUS)形式投递。
配置选项
| 选项 | 路径 | 描述 |
|---|---|---|
apiKey | messages.tts.providers.inworld.apiKey | Base64 面板凭据。不设置时回退到 INWORLD_API_KEY。 |
baseUrl | messages.tts.providers.inworld.baseUrl | 覆盖 Inworld API 基础地址(默认 https://api.inworld.ai)。 |
voiceId | messages.tts.providers.inworld.voiceId | 语音标识(默认 Sarah)。 |
modelId | messages.tts.providers.inworld.modelId | TTS 模型 ID(默认 inworld-tts-1.5-max)。 |
temperature | messages.tts.providers.inworld.temperature | 采样温度 0..2(可选)。 |
注意事项
认证方式
Inworld 使用 HTTP Basic 认证,凭据是一个 Base64 编码的字符串。从 Inworld 面板直接复制,不要自己再 Base64 编码,也不要使用 bearer 风格令牌。OpenClaw 会按 `Authorization: Basic <apiKey>` 发送。参见 <a href="/ai/ai-tools/openclaw/tools/tts#inworld-primary">TTS 认证说明</a>中的相同提醒。
支持的模型
模型 ID 取值范围:`inworld-tts-1.5-max`(默认)、`inworld-tts-1.5-mini`、`inworld-tts-1-max`、`inworld-tts-1`。
音频输出格式
默认输出 MP3。如果渠道目标为 `voice-note`,OpenClaw 会请求 Inworld 输出 `OGG_OPUS`,让音频以原生语音气泡播放。电话通道合成使用原始 22050 Hz PCM 馈给电话桥接。
自定义端点
通过 `messages.tts.providers.inworld.baseUrl` 覆盖 API 主机地址。请求发送前会去除尾部斜杠。
相关文档
文本转语音
TTS 概览、提供商列表和 `messages.tts` 配置。
配置总览
完整配置引用,包含 `messages.tts` 所有设置。
提供商列表
所有 OpenClaw 内置提供商。
故障排除
常见问题及调试步骤。
常见问题
Inworld API 密钥在哪里获取?
登录 Inworld 控制台,进入工作区(Workspace)> API Keys。复制显示的 Base64 凭证字符串,直接设为环境变量 INWORLD_API_KEY,不要二次编码。
支持哪些语音和模型?
默认语音是 Sarah。模型支持 inworld-tts-1.5-max(默认)、inworld-tts-1.5-mini、inworld-tts-1-max、inworld-tts-1。可在配置中通过 voiceId 和 modelId 指定其他值。
怎么让音频输出为 OGG_OPUS 语音笔记?
不需要额外配置。当渠道的 target 为 voice-note 时,OpenClaw 自动向 Inworld 请求 OGG_OPUS 格式。否则默认输出 MP3。电话通道自动使用 PCM 22050 Hz。