Appearance
Free Claude Code 的语音笔记功能让你在 Discord 或 Telegram 中发送语音消息,代理自动用 Whisper 转写为文字,再作为编程指令交给 Claude Code 执行。支持本地 CPU/GPU 和 NVIDIA NIM 云端两种转写后端。
Free Claude Code 语音笔记转写:Discord/Telegram 语音消息自动处理
工作流程
你发送语音消息 (Discord/Telegram)
↓
Free Claude Code 接收音频文件
↓
Whisper 转写为文字(本地或 NVIDIA NIM)
↓
转写文字作为编程指令交给 Claude Code CLI
↓
执行结果回传到聊天窗口启用语音功能
安装依赖
根据你选择的转写后端安装对应依赖:
bash
# 本地 Whisper(CPU/CUDA,免费)
uv sync --extra voice_local
# NVIDIA NIM 云端转写
uv sync --extra voice
# 两者都装
uv sync --extra voice --extra voice_local配置 .env
dotenv
VOICE_NOTE_ENABLED=true转写后端选择
本地 Whisper(voice_local)
适合有 GPU 的机器,完全离线:
dotenv
WHISPER_DEVICE="cpu" # 或 "cuda"(有 NVIDIA GPU 时)
WHISPER_MODEL="base" # tiny / base / small / medium / large-v2 / large-v3
HF_TOKEN="" # Hugging Face Token(可选,用于下载模型)| 模型 | 大小 | 速度 | 准确度 |
|---|---|---|---|
| tiny | ~75MB | 最快 | 低 |
| base | ~150MB | 快 | 中 |
| small | ~500MB | 中 | 较高 |
| medium | ~1.5GB | 慢 | 高 |
| large-v2/v3 | ~3GB | 最慢 | 最高 |
推荐:日常用 base,需要高准确度时用 medium。
NVIDIA NIM 云端转写
利用 NVIDIA 的 Whisper 托管服务,不消耗本地资源:
dotenv
WHISPER_DEVICE="nvidia_nim"
WHISPER_MODEL="openai/whisper-large-v3" # 或 nvidia/parakeet-ctc-1.1b-asr需要同时配置 NVIDIA_NIM_API_KEY。这里的语音转写和聊天模型(MODEL)是独立的——你可以用 NVIDIA NIM 做语音转写,同时用 DeepSeek 做聊天。
混合配置
如果 WHISPER_DEVICE="cpu" 或 "cuda",使用 Hugging Face 的 transformers Whisper,不依赖 NVIDIA API。
如果 WHISPER_DEVICE="nvidia_nim",走 NVIDIA NIM 的 Riva gRPC 服务。
验证
- 确保代理已启动且消息平台(Discord/Telegram)已配置
- 在聊天窗口发送一段语音消息
- 观察 Bot 是否回复转写结果并开始执行任务
FAQ
Q: 语音转写的语言支持哪些? A: Whisper 支持 100+ 语言,中英文都能用。NVIDIA NIM 的 Whisper 也支持多语言。中文转写建议用 base 以上模型,tiny 中文准确度较低。
Q: 本地 Whisper 太慢怎么办? A: 用 CUDA(需要 NVIDIA GPU)或换 NVIDIA NIM 云端转写。CPU 上 base 模型通常几秒内完成,large-v3 可能需要十几秒。
Q: 可以只用语音功能不配消息平台吗? A: 不可以。语音功能依赖 Discord 或 Telegram 的消息通道来接收和回传消息。必须先配置好消息平台。