Skip to content

Everything Claude Code 的 fal-ai-media Skill 是一款集成 fal.ai 多模态生成能力的统一接口,支持文本生成图像、视频、语音及音频等多种任务。它通过 MCP 工具链,覆盖 Nano Banana、Seedance、Kling、Veo 等主流模型,极大简化了 AI 媒体内容的生成流程。无论是开发者想快速生成产品图、演示视频、配音,还是需要多模态内容协作,fal-ai-media 都能高效满足需求。

Everything Claude Code Fal AI Media Skill:fal.ai 统一图像、视频和音频多模态 AI 生成

在 AI 辅助编程和内容生产场景下,开发者经常需要生成高质量的图像、视频、语音或音效。传统做法通常需要分别集成多个第三方 API、管理不同的模型参数、处理异步任务和文件上传,流程复杂且难以复用。而 Everything Claude Code 的 fal-ai-media Skill 则通过对接 fal.ai MCP,将图像、视频和音频的多模态生成能力统一封装,极大提升了开发者的工作效率和自动化水平。

fal-ai-media Skill 能解决什么问题?

  • 一站式多模态生成:无需分别调用不同 API,统一接口即可生成图片、视频、语音、音效等内容。
  • 模型自动发现与参数管理:内置模型搜索、参数提示与成本估算,降低试错和成本风险。
  • 异步任务与文件上传自动化:自动处理上传、进度查询、结果获取等繁琐环节。
  • 与 Agent/Skill 协同:可作为内容生成的核心模块,配合 videodbvideo-editingcontent-engine 等 Skill 实现完整内容生产流水线。

触发条件与激活场景

fal-ai-media Skill 会在以下场景自动激活:

  • 用户希望通过文本描述生成图片(如“生成一张 AI 产品海报”)
  • 需要从文本或图片生成视频(如“把这张图做成 5 秒动画”)
  • 需要将文本转为语音或生成背景音效(如“配一段解说音频”)
  • 任意涉及“AI 生成图片/视频/音频/配音/音效”等需求

使用前准备:配置 fal.ai MCP

Skill 依赖 fal.ai MCP 服务,需先配置 API Key。步骤如下:

  1. 前往 fal.ai 官网 注册并获取 API Key。

  2. ~/.claude.json 中添加配置:

    json
    "fal-ai": {
      "command": "npx",
      "args": ["-y", "fal-ai-mcp-server"],
      "env": { "FAL_KEY": "YOUR_FAL_KEY_HERE" }
    }
  3. 保存后,Everything Claude Code 会自动管理 MCP 服务的启动与通信。

Step by Step:实际项目中如何用好 fal-ai-media

1. 模型发现与成本估算

在生成前,建议先用 searchfindmodels 工具探索合适的模型,并用 estimate_cost 评估单次生成的费用。例如:

typescript
search(query: "text to video")
find(endpoint_ids: ["fal-ai/seedance-1-0-pro"])
estimate_cost(
  estimate_type: "unit_price",
  endpoints: {
    "fal-ai/seedance-1-0-pro": {
      "unit_quantity": 1
    }
  }
)

这样可以避免直接用高成本模型反复试错。

2. 文本生成图片(Text-to-Image)

快速迭代草图:Nano Banana 2

typescript
generate(
  app_id: "fal-ai/nano-banana-2",
  input_data: {
    "prompt": "a futuristic cityscape at sunset, cyberpunk style",
    "image_size": "landscape_16_9",
    "num_images": 1,
    "seed": 42
  }
)

高质量成品图:Nano Banana Pro

typescript
generate(
  app_id: "fal-ai/nano-banana-pro",
  input_data: {
    "prompt": "professional product photo of wireless headphones on marble surface, studio lighting",
    "image_size": "square",
    "num_images": 1,
    "guidance_scale": 7.5
  }
)

常用参数说明:

参数说明典型值
prompt生成内容描述必填
image_size图片比例square、landscape_16_9 等
num_images生成图片数量1~4
seed随机种子,保证复现任意整数
guidance_scale提示词遵循度,越高越贴合1~20,推荐 7.5

3. 图片编辑与风格迁移

支持上传图片后进行局部修复、风格转换等操作:

typescript
// 上传原图
upload(file_path: "/path/to/image.png")

// 生成水彩风格变体
generate(
  app_id: "fal-ai/nano-banana-2",
  input_data: {
    "prompt": "same scene but in watercolor style",
    "image_url": "<uploaded_url>",
    "image_size": "landscape_16_9"
  }
)

4. 文本/图片生成视频(Text/Image-to-Video)

高运动质量视频:Seedance 1.0 Pro

typescript
generate(
  app_id: "fal-ai/seedance-1-0-pro",
  input_data: {
    "prompt": "a drone flyover of a mountain lake at golden hour, cinematic",
    "duration": "5s",
    "aspect_ratio": "16:9",
    "seed": 42
  }
)

带原生音频的视频:Kling Video v3 Pro

typescript
generate(
  app_id: "fal-ai/kling-video/v3/pro",
  input_data: {
    "prompt": "ocean waves crashing on a rocky coast, dramatic clouds",
    "duration": "5s",
    "aspect_ratio": "16:9"
  }
)

高视觉/音效视频:Veo 3

typescript
generate(
  app_id: "fal-ai/veo-3",
  input_data: {
    "prompt": "a bustling Tokyo street market at night, neon signs, crowd noise",
    "aspect_ratio": "16:9"
  }
)

图片转视频:

typescript
generate(
  app_id: "fal-ai/seedance-1-0-pro",
  input_data: {
    "prompt": "camera slowly zooms out, gentle wind moves the trees",
    "image_url": "<uploaded_image_url>",
    "duration": "5s"
  }
)

视频参数说明:

参数说明典型值
prompt视频内容描述必填
duration时长"5s"、"10s"
aspect_ratio画幅比例"16:9" 等
seed随机种子任意整数
image_url源图片(可选)上传后获得

5. 文本生成语音/音频(Text-to-Speech/Audio)

自然语音合成:CSM-1B

typescript
generate(
  app_id: "fal-ai/csm-1b",
  input_data: {
    "text": "Hello, welcome to the demo. Let me show you how this works.",
    "speaker_id": 0
  }
)

视频生成配音/音效:ThinkSound

typescript
generate(
  app_id: "fal-ai/thinksound",
  input_data: {
    "video_url": "<video_url>",
    "prompt": "ambient forest sounds with birds chirping"
  }
)

专业语音合成(ElevenLabs,需单独 API):

python
import os
import requests

resp = requests.post(
    "https://api.elevenlabs.io/v1/text-to-speech/<voice_id>",
    headers={
        "xi-api-key": os.environ["ELEVENLABS_API_KEY"],
        "Content-Type": "application/json"
    },
    json={
        "text": "Your text here",
        "model_id": "eleven_turbo_v2_5",
        "voice_settings": {"stability": 0.5, "similarity_boost": 0.75}
    }
)
with open("output.mp3", "wb") as f:
    f.write(resp.content)

6. 进阶:与其他 Skill/Agent 协作

  • 配合 videodb Skill:实现视频的 ingest、索引、剪辑和多模态分析。
  • video-editing Skill:自动化视频剪辑、字幕、配音、合成等完整工作流。
  • 结合 content-engine Skill:批量生成社交媒体内容、短视频、配图等。

更多多模态协作和自动化配置,可参考 Claude Code 快速上手指南

7. 结果输出示例

生成任务完成后,Skill 会自动返回图片/视频/音频的 URL、元数据和相关参数。例如:

json
{
  "type": "image",
  "url": "https://fal.ai/generated/abc123.png",
  "prompt": "a futuristic cityscape at sunset, cyberpunk style",
  "model": "nano-banana-2",
  "seed": 42
}

json
{
  "type": "video",
  "url": "https://fal.ai/generated/xyz789.mp4",
  "prompt": "a drone flyover of a mountain lake at golden hour, cinematic",
  "duration": "5s"
}

常见问题与注意事项

Q: fal-ai-media Skill 支持哪些 AI 生成模型? A: 支持 fal.ai 平台主流图像(Nano Banana 2/Pro)、视频(Seedance、Kling、Veo 3)、语音(CSM-1B)、音效(ThinkSound)等模型,并可通过 search/models 动态发现新模型。

Q: 生成视频/音频时如何避免高额费用? A: 可用 estimate_cost 工具提前评估单次生成费用,建议先用低成本模型调试,再切换高保真模型出最终稿。

Q: 如何与其他内容生产 Skill 协作? A: fal-ai-media 可作为多模态生成核心,配合 videodbvideo-editingcontent-engine 等 Skill 组成完整内容流水线,支持自动化批量生成与后处理。


通过 fal-ai-media Skill,Everything Claude Code 用户可在 AI 编程助手中一站式完成图片、视频、音频的生成与管理,极大提升多模态内容生产的自动化与效率。