Skip to content

Free Claude Code 的语音笔记功能让你在 Discord 或 Telegram 中发送语音消息,代理自动用 Whisper 转写为文字,再作为编程指令交给 Claude Code 执行。支持本地 CPU/GPU 和 NVIDIA NIM 云端两种转写后端。

Free Claude Code 语音笔记转写:Discord/Telegram 语音消息自动处理

工作流程

你发送语音消息 (Discord/Telegram)

Free Claude Code 接收音频文件

Whisper 转写为文字(本地或 NVIDIA NIM)

转写文字作为编程指令交给 Claude Code CLI

执行结果回传到聊天窗口

启用语音功能

安装依赖

根据你选择的转写后端安装对应依赖:

bash
# 本地 Whisper(CPU/CUDA,免费)
uv sync --extra voice_local

# NVIDIA NIM 云端转写
uv sync --extra voice

# 两者都装
uv sync --extra voice --extra voice_local

配置 .env

dotenv
VOICE_NOTE_ENABLED=true

转写后端选择

本地 Whisper(voice_local)

适合有 GPU 的机器,完全离线:

dotenv
WHISPER_DEVICE="cpu"      # 或 "cuda"(有 NVIDIA GPU 时)
WHISPER_MODEL="base"      # tiny / base / small / medium / large-v2 / large-v3
HF_TOKEN=""               # Hugging Face Token(可选,用于下载模型)
模型大小速度准确度
tiny~75MB最快
base~150MB
small~500MB较高
medium~1.5GB
large-v2/v3~3GB最慢最高

推荐:日常用 base,需要高准确度时用 medium

NVIDIA NIM 云端转写

利用 NVIDIA 的 Whisper 托管服务,不消耗本地资源:

dotenv
WHISPER_DEVICE="nvidia_nim"
WHISPER_MODEL="openai/whisper-large-v3"  # 或 nvidia/parakeet-ctc-1.1b-asr

需要同时配置 NVIDIA_NIM_API_KEY。这里的语音转写和聊天模型(MODEL)是独立的——你可以用 NVIDIA NIM 做语音转写,同时用 DeepSeek 做聊天。

混合配置

如果 WHISPER_DEVICE="cpu""cuda",使用 Hugging Face 的 transformers Whisper,不依赖 NVIDIA API。

如果 WHISPER_DEVICE="nvidia_nim",走 NVIDIA NIM 的 Riva gRPC 服务。

验证

  1. 确保代理已启动且消息平台(Discord/Telegram)已配置
  2. 在聊天窗口发送一段语音消息
  3. 观察 Bot 是否回复转写结果并开始执行任务

FAQ

Q: 语音转写的语言支持哪些? A: Whisper 支持 100+ 语言,中英文都能用。NVIDIA NIM 的 Whisper 也支持多语言。中文转写建议用 base 以上模型,tiny 中文准确度较低。

Q: 本地 Whisper 太慢怎么办? A: 用 CUDA(需要 NVIDIA GPU)或换 NVIDIA NIM 云端转写。CPU 上 base 模型通常几秒内完成,large-v3 可能需要十几秒。

Q: 可以只用语音功能不配消息平台吗? A: 不可以。语音功能依赖 Discord 或 Telegram 的消息通道来接收和回传消息。必须先配置好消息平台。