Skip to content

在 OpenClaw 中集成 Inworld 流式文本转语音(TTS)服务,为多渠道回复合成音频。默认输出 MP3,语音笔记场景自动用 OGG_OPUS,电话通道输出 22050 Hz PCM。关键步骤:从 Inworld 工作台(Workspace > API Keys)复制 Base64 凭据,直接设为环境变量 INWORLD_API_KEY(不要再编码),并在 messages.tts.providers.inworld 中指定 voiceId: "Sarah"modelId: "inworld-tts-1.5-max"

OpenClaw Inworld TTS 语音合成配置

Inworld 是一个流式 TTS 提供商。OpenClaw 利用它将出站回复合成为音频(默认 MP3,语音笔记用 OGG_OPUS,电话通道用 PCM 22050 Hz)。OpenClaw 向 Inworld 的流式 TTS 端点发送请求,拼接返回的 base64 音频块,再交给标准回复音频流水线。

属性
Provider idinworld
插件内置,enabledByDefault: true
合约speechProviders(仅 TTS)
认证环境变量INWORLD_API_KEY(HTTP Basic,直接使用面板的 Base64 凭据)
Base URLhttps://api.inworld.ai
默认语音Sarah
默认模型inworld-tts-1.5-max
输出格式MP3(默认)、OGG_OPUS(语音笔记)、PCM 22050 Hz(电话)
官网inworld.ai
文档docs.inworld.ai/tts/tts

快速开始

设置 API 密钥

从 Inworld 面板(Workspace > API Keys)复制凭据字符串,设置为环境变量。该值会原封不动地作为 HTTP Basic 凭据发送,**不要**再次 Base64 编码,也不要转换成 bearer token。

```
INWORLD_API_KEY=<面板上复制下来的Base64凭据>
```

在 messages.tts 中选择 Inworld

```json5
{
  messages: {
    tts: {
      auto: "always",
      provider: "inworld",
      providers: {
        inworld: {
          voiceId: "Sarah",
          modelId: "inworld-tts-1.5-max",
        },
      },
    },
  },
}
```

发送一条消息

通过任意已连接的渠道发送回复。OpenClaw 会用 Inworld 合成音频,并以 MP3(或渠道期望语音笔记时转为 OGG_OPUS)形式投递。

配置选项

选项路径描述
apiKeymessages.tts.providers.inworld.apiKeyBase64 面板凭据。不设置时回退到 INWORLD_API_KEY
baseUrlmessages.tts.providers.inworld.baseUrl覆盖 Inworld API 基础地址(默认 https://api.inworld.ai)。
voiceIdmessages.tts.providers.inworld.voiceId语音标识(默认 Sarah)。
modelIdmessages.tts.providers.inworld.modelIdTTS 模型 ID(默认 inworld-tts-1.5-max)。
temperaturemessages.tts.providers.inworld.temperature采样温度 0..2(可选)。

注意事项

认证方式

Inworld 使用 HTTP Basic 认证,凭据是一个 Base64 编码的字符串。从 Inworld 面板直接复制,不要自己再 Base64 编码,也不要使用 bearer 风格令牌。OpenClaw 会按 `Authorization: Basic <apiKey>` 发送。参见 <a href="/ai/ai-tools/openclaw/tools/tts#inworld-primary">TTS 认证说明</a>中的相同提醒。

支持的模型

模型 ID 取值范围:`inworld-tts-1.5-max`(默认)、`inworld-tts-1.5-mini`、`inworld-tts-1-max`、`inworld-tts-1`。

音频输出格式

默认输出 MP3。如果渠道目标为 `voice-note`,OpenClaw 会请求 Inworld 输出 `OGG_OPUS`,让音频以原生语音气泡播放。电话通道合成使用原始 22050 Hz PCM 馈给电话桥接。

自定义端点

通过 `messages.tts.providers.inworld.baseUrl` 覆盖 API 主机地址。请求发送前会去除尾部斜杠。

相关文档

文本转语音

TTS 概览、提供商列表和 `messages.tts` 配置。

配置总览

完整配置引用,包含 `messages.tts` 所有设置。

提供商列表

所有 OpenClaw 内置提供商。

故障排除

常见问题及调试步骤。

常见问题

Inworld API 密钥在哪里获取?

登录 Inworld 控制台,进入工作区(Workspace)> API Keys。复制显示的 Base64 凭证字符串,直接设为环境变量 INWORLD_API_KEY,不要二次编码。

支持哪些语音和模型?

默认语音是 Sarah。模型支持 inworld-tts-1.5-max(默认)、inworld-tts-1.5-miniinworld-tts-1-maxinworld-tts-1。可在配置中通过 voiceIdmodelId 指定其他值。

怎么让音频输出为 OGG_OPUS 语音笔记?

不需要额外配置。当渠道的 targetvoice-note 时,OpenClaw 自动向 Inworld 请求 OGG_OPUS 格式。否则默认输出 MP3。电话通道自动使用 PCM 22050 Hz。