用 AI 搭建钢铁侠风格语音助手 F.R.I.D.A.Y.

解决本地语音交互难题：基于 Pipecat 框架整合 Whisper、Gemini 2.5 Flash 和 OpenAI TTS，构建一个类似钢铁侠中 F.R.I.D.A.Y.的低延迟战术语音助手，支持本地麦克风实时对话。

为什么需要这个技能

想在自家电脑或树莓派上拥有一个专属的 AI 语音管家？现有的端到端语音模型往往难以灵活定制，且延迟较高。

F.R.I.D.A.Y. 项目提供了一种模块化架构：通过 Mic -> VAD -> STT -> LLM -> TTS -> Speaker 的线性流程，你可以精确控制每个环节。这不仅大幅降低了响应时间，还允许你无缝混合使用 OpenAI 和 Google 的不同模型，打破单一服务商的限制。

安装依赖：确保系统安装了必要的 Python 库。

pip install pipecat-ai[openai,google,silero] python-dotenv

配置环境变量：创建 .env 文件填入你的 API 密钥，确保 OpenAI 和 Google 能正常通信。
```
OPENAI_API_KEY=your_openai_key
GOOGLE_API_KEY=your_google_key
```
运行代理：执行 Python 脚本启动服务，此时系统会自动进行语音识别、逻辑处理并生成语音回复。
```
python scripts/friday_agent.py
```

管道架构：本技能采用分阶段处理而非黑盒模型。使用 Silero VAD 能精准过滤背景噪音，避免误触发 LLM，同时支持高保真音频采样率匹配（24kHz），防止声音尖细或卡顿。

谷歌兼容性层：由于 Google Gemini 的消息格式与 OpenAI 不同，代码内置了 GoogleSafeContext 和 GoogleSafeMessage 类，自动完成格式转换，让你无需手动适配 API 细节。

战术提示原则：为了保持低延迟，Agent 被设定为使用简短、高密度的指令回复。避免使用礼貌性废话（如“有什么能帮您的吗”），改用类似“系统正常，准备接收指令”的冷峻风格。

解压后将目录放入你的 AI 工具 skills 文件夹，配置好 API 密钥后即可启动。

暂无推荐