Kiro 模型选择指南:从 Claude Opus 到开源模型全览

Kiro 提供 Claude Opus/Sonnet/Haiku 系列以及 DeepSeek、MiniMax、GLM、Qwen 等开源模型,覆盖从高强度推理到低成本快速迭代的各种需求。Auto 模式通过智能路由自动为每个任务选择最优模型,是大多数场景的推荐起点。理解各模型的规划深度、自我纠错能力和会话持久性差异,有助于在需要时做出精准的手动选择。

Kiro 提供前沿闭源模型和开源模型的访问能力,可以手动指定或让 Auto 模式自动决策。

模型对比速查

模型 上下文窗口 成本倍率 免费 Pro Pro+ Power
Claude Opus 4.7 1M 2.2x
Claude Opus 4.6 1M 2.2x
Claude Opus 4.5 200K 2.2x
Claude Sonnet 4.6 1M 1.3x
Claude Sonnet 4.5 200K 1.3x
Claude Sonnet 4.0 200K 1.3x
Auto 1.0x
Claude Haiku 4.5 200K 0.4x
DeepSeek 3.2 128K 0.25x
MiniMax M2.5 200K 0.25x
GLM-5 200K 0.5x
MiniMax M2.1 200K 0.15x
Qwen3 Coder Next 256K 0.05x

成本倍率以 Auto(1.0x)为基准。例如同一任务在 Auto 消耗 10 积分,在 Opus 则消耗 22 积分,在 Haiku 消耗 4 积分,在 Qwen3 Coder Next 仅消耗 0.5 积分。

如何切换模型

在聊天界面的模型下拉菜单中选择,切换后对本次对话的所有后续消息生效。

场景推荐

使用场景 推荐模型 原因
日常开发 Auto 自动路由,质量与成本兼顾
需要稳定行为 Sonnet 4.0 无路由层,每次使用同一模型,行为可预测
强力 agent 编码 Sonnet 4.5 规划能力强,支持长时间自主运行
高效高智 Sonnet 4.6 接近 Opus 智能水平,token 效率更高
大型代码库或 spec Opus 4.7 / 4.6 深度推理,能自我纠错,跨文件规划
复杂多系统问题 Opus 4.5 最大推理深度,处理跨系统权衡
快速迭代/省积分 Haiku 4.5 接近前沿智能,速度快,成本仅 0.4x
低成本 agent 工作流 DeepSeek 3.2 擅长多步推理,0.25x 成本
前沿水平低成本 MiniMax M2.5 接近 Opus 的编码效果,成本 0.25x
仓库级 agent 工作 GLM-5 200K 上下文,长链 agent 任务优化
多语言编程 MiniMax M2.1 Rust/Go/C++/Kotlin/TypeScript/UI 表现出色
长时编码会话 Qwen3 Coder Next 256K 上下文,错误恢复能力强,最省积分

各模型详情

Auto(推荐起点)

Kiro 的智能模型路由器。结合多个前沿模型和优化技术,自动为每个任务选择最合适的模型,整体质量与 Claude Sonnet 4 级别相当,成本基准为 1.0x。

Claude Opus 4.7

Anthropic 最新旗舰编码模型,是 Opus 4.6 的直接升级版。在最难的软件工程任务上表现更出色:处理复杂长时 agent 任务更严谨,指令遵循更精准,会在汇报前自行验证输出。视觉能力提升 3 倍分辨率,适合处理密集截图和复杂图表。文件式记忆在多会话工作中更可靠。当前在 us-east-1(弗吉尼亚)和 eu-central-1(法兰克福)可用,仅向部分 AWS IAM Identity Center 用户开放,逐步扩大覆盖范围。

Claude Opus 4.6

Anthropic 当前最强综合模型,agentic 编码性能处于行业顶尖。在长会话中保持专注而不产生上下文漂移,可处理百万行代码库,提前规划并动态调整。自我纠错能力强,能在代码审查和调试中主动发现自己的错误。

Claude Opus 4.5

深度推理能力最强,适合需要在多个系统间权衡复杂利弊的任务。相比前代 Opus,以更实惠的价格提供了显著提升的推理和解题能力。

Claude Sonnet 4.6

Sonnet 4.5 的完整升级版,逼近 Opus 4.6 的智能水平,同时 token 效率更高。在迭代开发中表现优异,支持 lead agent 和 subagent 双角色,适合使用 Kiro powers 或自定义子代理的团队。

Claude Sonnet 4.5

Anthropic 最擅长 agent 任务和复杂编码的模型,SWE-bench Verified 成绩达到行业最高水平。支持自主运行数小时,规划能力、系统设计和安全工程表现突出。

Claude Sonnet 4.0

直接调用 Claude Sonnet 4.0,适合需要稳定可预测行为的工作流。无路由层,每次使用完全相同的模型,完全透明可控。

Claude Haiku 4.5

Anthropic 最快模型,接近前沿性能。推理和编码方面与 Sonnet 4 持平,速度是 Sonnet 的两倍以上,成本仅 1/3。首个支持 extended thinking 的 Haiku 模型。

MiniMax M2.5

开源模型,编码性能接近前沿闭源模型,成本 0.25x。通过在数十万真实环境中的强化学习训练,覆盖从系统设计到代码审查的完整开发生命周期。

GLM-5

开源稀疏 MoE 架构,200K 上下文窗口,专为复杂系统工程和长时 agent 任务设计。适合跨文件迁移、全栈功能开发和遗留代码重构等需要持续掌握全局的场景。成本 0.5x。

DeepSeek 3.2

开源模型,适合 agent 工作流和代码生成。处理长工具调用链、有状态会话和多步推理表现良好。成本 0.25x。

MiniMax M2.1

开源模型,专长多语言编程和 UI 生成,在 Rust、Go、C++、Kotlin、TypeScript 等语言表现突出。成本 0.15x。

Qwen3 Coder Next

专为编码 agent 设计的开源模型,256K 上下文,错误恢复能力强。特别适合长时间 agent 编码会话。成本 0.05x,是目前最省积分的选项。

模型行为差异

规划深度:Opus 系列在行动前思考更深入,会规划多步骤方案、考虑边界情况、反复检验推理过程。Sonnet 和 Haiku 更为直接,更快开始执行,迭代速度更快。

自我纠错:Opus 4.7 将自我纠错能力推到新高度,在规划阶段就主动发现逻辑错误,并在汇报前验证输出。如果生成的代码频繁出现 bug,切换到 Opus 往往能改善。

会话持久性:对于长时间任务(如处理完整 spec),Opus 系列在长会话中保持专注的能力更强。Haiku 和 Sonnet 更适合短小聚焦的交互。

主动性:Opus 系列倾向于更主动,发现机会时会做出更大范围的改动;Sonnet 更保守,更贴近你的具体要求。根据你希望模型主导还是跟随来选择。

模型生命周期

状态 说明
Experimental(实验版) 供早期测试,可能根据反馈调整,区域覆盖有限
Active(正式版) 完全支持,推荐用于生产,覆盖所有支持区域

使用建议

  • 大多数工作从 Auto 开始,质量和成本自动优化
  • 遇到复杂问题或需要持续多文件工作时,切换到 Opus
  • 快速迭代、简单修复或需要节省积分时,使用 Haiku
  • 账户设置中监控使用量,了解模型选择对积分消耗的影响
  • 如果主要使用 Opus,考虑升级到 Pro+ 或 Power 套餐获取更多积分

常见问题

Q:Auto 模式会影响任务质量吗?

不会。Auto 的质量目标是达到或超过 Claude Sonnet 4 级别,内部使用最优模型路由。在大多数日常任务中,Auto 的质量与手动选择 Sonnet 相当,且成本更低。

Q:开源模型(DeepSeek、MiniMax、Qwen)和 Claude 在安全性上有区别吗?

使用习惯上没有明显区别,所有模型都通过 Kiro 的统一接口调用。但开源模型的训练数据、对齐方式和安全策略各异,对于涉及敏感代码或数据的任务,建议优先使用 Anthropic 的 Claude 系列。

Q:Opus 4.7 和 Opus 4.6 的区别在日常使用中体现在哪里?

4.7 最明显的提升是自我验证能力和视觉处理精度。如果你的工作涉及复杂图表、高分辨率截图分析,或者频繁遇到 4.6 生成代码后还需要多轮修正的情况,4.7 的表现会更稳定。