利用 fal.ai 实现高质量文本转语音与语音识别

通过集成 fal.ai 的先进音频模型，让 AI 具备将文本快速转换为自然语音（TTS）以及将音频文件精确转录为文本（STT）的能力。

为什么需要这个技能

在开发多媒体应用、自动化播客制作或构建智能客服时，高质量的音频处理至关重要。传统的语音合成往往缺乏情感，而语音识别在复杂环境下准确率较低。

fal.ai 提供了极低延迟且音质自然的音频模型。通过此技能，你可以让 AI 自动化地调用这些 API，无需手动在网页端上传文件，即可完成从“文字 $\to$ 语音”或“语音 $\to$ 文字”的快速迭代。

配置 API 权限：在 fal.ai 平台获取 API Key 并配置到 AI 环境中。
选择转换模式：
- Text-to-Speech (TTS)：输入目标文本、选择音色模型 $\to$ 调用 fal-audio 模型 $\to$ 获取音频 URL。
- Speech-to-Text (STT)：提供音频文件路径或 URL $\to$ 调用识别模型 $\to$ 输出精准转录文本。
结果验证与优化：根据输出的文本或音频质量，通过调整参数（如语速、音调或模型版本）进行二次优化。

解压后将目录放入你的 AI 工具 skills 文件夹，重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。

暂无推荐