如何调用 Gemini API 开发多模态 AI 应用

本文旨在引导开发者快速接入 Google 的 Gemini API,利用最新的 gemini-3 系列模型实现高性能的文本、图像、音频及视频处理应用,并掌握最新的 SDK 迁移路径。

为什么需要这个技能

Gemini API 提供了目前业界领先的多模态能力,不仅支持超长上下文(高达 1M tokens),还集成了强大的函数调用(Function Calling)和沙箱代码执行能力。

对于开发者而言,正确选择模型版本和 SDK 至关重要。由于 Google 的 API 更新频繁,使用旧版的 google-generativeaigemini-1.5 系列会导致性能下降或无法使用新特性。掌握最新的 API 规范和 SDK 使用方法,能够确保 AI 应用的稳定性与高效能。

适用场景

  • 多模态分析:需要 AI 同时处理图片、音频、视频和文档的复杂场景。
  • 结构化数据提取:要求 AI 严格按照 JSON Schema 输出结果,以便程序直接解析。
  • 外部工具集成:通过函数调用让 AI 触发本地代码或调用第三方 API。
  • 长文本处理:需要分析海量文档或超长代码库的研报、审计任务。

核心工作流

1. 环境配置与 SDK 安装

请务必使用最新版 SDK,弃用旧版库。

  • Python: pip install google-genai
  • JS/TS: npm install @google/genai
  • Go: go get google.golang.org/genai

2. 模型选择

  • gemini-3-pro-preview: 适用于复杂推理、高级编程和深度研究。
  • gemini-3-flash-preview: 适用于速度要求高、平衡性能的多模态任务。
  • gemini-3-pro-image-preview: 专门用于图像生成与编辑。

3. 快速实现(以 Python 为例)

from google import genai

client = genai.Client()
response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents="Explain quantum computing"
)
print(response.text)

4. 进阶开发参考

当需要调试请求/响应的具体 Schema 时,应以 REST API Discovery Spec 为准:

  • v1beta (默认): https://generativelanguage.googleapis.com/$discovery/rest?version=v1beta

下载和安装

下载 gemini-api-dev 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md

你可能还需要

暂无推荐