Appearance
Kiro 提供 Claude Opus/Sonnet/Haiku 系列以及 DeepSeek、MiniMax、GLM、Qwen 等开源模型,覆盖从高强度推理到低成本快速迭代的各种需求。Auto 模式通过智能路由自动为每个任务选择最优模型,是大多数场景的推荐起点。理解各模型的规划深度、自我纠错能力和会话持久性差异,有助于在需要时做出精准的手动选择。
Kiro 提供前沿闭源模型和开源模型的访问能力,可以手动指定或让 Auto 模式自动决策。
模型对比速查
| 模型 | 上下文窗口 | 成本倍率 | 免费 | Pro | Pro+ | Power |
|---|---|---|---|---|---|---|
| Claude Opus 4.7 | 1M | 2.2x | — | ✓ | ✓ | ✓ |
| Claude Opus 4.6 | 1M | 2.2x | — | ✓ | ✓ | ✓ |
| Claude Opus 4.5 | 200K | 2.2x | — | ✓ | ✓ | ✓ |
| Claude Sonnet 4.6 | 1M | 1.3x | — | ✓ | ✓ | ✓ |
| Claude Sonnet 4.5 | 200K | 1.3x | ✓ | ✓ | ✓ | ✓ |
| Claude Sonnet 4.0 | 200K | 1.3x | ✓ | ✓ | ✓ | ✓ |
| Auto | — | 1.0x | ✓ | ✓ | ✓ | ✓ |
| Claude Haiku 4.5 | 200K | 0.4x | — | ✓ | ✓ | ✓ |
| DeepSeek 3.2 | 128K | 0.25x | ✓ | ✓ | ✓ | ✓ |
| MiniMax M2.5 | 200K | 0.25x | ✓ | ✓ | ✓ | ✓ |
| GLM-5 | 200K | 0.5x | ✓ | ✓ | ✓ | ✓ |
| MiniMax M2.1 | 200K | 0.15x | ✓ | ✓ | ✓ | ✓ |
| Qwen3 Coder Next | 256K | 0.05x | ✓ | ✓ | ✓ | ✓ |
成本倍率以 Auto(1.0x)为基准。例如同一任务在 Auto 消耗 10 积分,在 Opus 则消耗 22 积分,在 Haiku 消耗 4 积分,在 Qwen3 Coder Next 仅消耗 0.5 积分。
如何切换模型
在聊天界面的模型下拉菜单中选择,切换后对本次对话的所有后续消息生效。
场景推荐
| 使用场景 | 推荐模型 | 原因 |
|---|---|---|
| 日常开发 | Auto | 自动路由,质量与成本兼顾 |
| 需要稳定行为 | Sonnet 4.0 | 无路由层,每次使用同一模型,行为可预测 |
| 强力 agent 编码 | Sonnet 4.5 | 规划能力强,支持长时间自主运行 |
| 高效高智 | Sonnet 4.6 | 接近 Opus 智能水平,token 效率更高 |
| 大型代码库或 spec | Opus 4.7 / 4.6 | 深度推理,能自我纠错,跨文件规划 |
| 复杂多系统问题 | Opus 4.5 | 最大推理深度,处理跨系统权衡 |
| 快速迭代/省积分 | Haiku 4.5 | 接近前沿智能,速度快,成本仅 0.4x |
| 低成本 agent 工作流 | DeepSeek 3.2 | 擅长多步推理,0.25x 成本 |
| 前沿水平低成本 | MiniMax M2.5 | 接近 Opus 的编码效果,成本 0.25x |
| 仓库级 agent 工作 | GLM-5 | 200K 上下文,长链 agent 任务优化 |
| 多语言编程 | MiniMax M2.1 | Rust/Go/C++/Kotlin/TypeScript/UI 表现出色 |
| 长时编码会话 | Qwen3 Coder Next | 256K 上下文,错误恢复能力强,最省积分 |
各模型详情
Auto(推荐起点)
Kiro 的智能模型路由器。结合多个前沿模型和优化技术,自动为每个任务选择最合适的模型,整体质量与 Claude Sonnet 4 级别相当,成本基准为 1.0x。
Claude Opus 4.7
Anthropic 最新旗舰编码模型,是 Opus 4.6 的直接升级版。在最难的软件工程任务上表现更出色:处理复杂长时 agent 任务更严谨,指令遵循更精准,会在汇报前自行验证输出。视觉能力提升 3 倍分辨率,适合处理密集截图和复杂图表。文件式记忆在多会话工作中更可靠。当前在 us-east-1(弗吉尼亚)和 eu-central-1(法兰克福)可用,仅向部分 AWS IAM Identity Center 用户开放,逐步扩大覆盖范围。
Claude Opus 4.6
Anthropic 当前最强综合模型,agentic 编码性能处于行业顶尖。在长会话中保持专注而不产生上下文漂移,可处理百万行代码库,提前规划并动态调整。自我纠错能力强,能在代码审查和调试中主动发现自己的错误。
Claude Opus 4.5
深度推理能力最强,适合需要在多个系统间权衡复杂利弊的任务。相比前代 Opus,以更实惠的价格提供了显著提升的推理和解题能力。
Claude Sonnet 4.6
Sonnet 4.5 的完整升级版,逼近 Opus 4.6 的智能水平,同时 token 效率更高。在迭代开发中表现优异,支持 lead agent 和 subagent 双角色,适合使用 Kiro powers 或自定义子代理的团队。
Claude Sonnet 4.5
Anthropic 最擅长 agent 任务和复杂编码的模型,SWE-bench Verified 成绩达到行业最高水平。支持自主运行数小时,规划能力、系统设计和安全工程表现突出。
Claude Sonnet 4.0
直接调用 Claude Sonnet 4.0,适合需要稳定可预测行为的工作流。无路由层,每次使用完全相同的模型,完全透明可控。
Claude Haiku 4.5
Anthropic 最快模型,接近前沿性能。推理和编码方面与 Sonnet 4 持平,速度是 Sonnet 的两倍以上,成本仅 1/3。首个支持 extended thinking 的 Haiku 模型。
MiniMax M2.5
开源模型,编码性能接近前沿闭源模型,成本 0.25x。通过在数十万真实环境中的强化学习训练,覆盖从系统设计到代码审查的完整开发生命周期。
GLM-5
开源稀疏 MoE 架构,200K 上下文窗口,专为复杂系统工程和长时 agent 任务设计。适合跨文件迁移、全栈功能开发和遗留代码重构等需要持续掌握全局的场景。成本 0.5x。
DeepSeek 3.2
开源模型,适合 agent 工作流和代码生成。处理长工具调用链、有状态会话和多步推理表现良好。成本 0.25x。
MiniMax M2.1
开源模型,专长多语言编程和 UI 生成,在 Rust、Go、C++、Kotlin、TypeScript 等语言表现突出。成本 0.15x。
Qwen3 Coder Next
专为编码 agent 设计的开源模型,256K 上下文,错误恢复能力强。特别适合长时间 agent 编码会话。成本 0.05x,是目前最省积分的选项。
模型行为差异
规划深度:Opus 系列在行动前思考更深入,会规划多步骤方案、考虑边界情况、反复检验推理过程。Sonnet 和 Haiku 更为直接,更快开始执行,迭代速度更快。
自我纠错:Opus 4.7 将自我纠错能力推到新高度,在规划阶段就主动发现逻辑错误,并在汇报前验证输出。如果生成的代码频繁出现 bug,切换到 Opus 往往能改善。
会话持久性:对于长时间任务(如处理完整 spec),Opus 系列在长会话中保持专注的能力更强。Haiku 和 Sonnet 更适合短小聚焦的交互。
主动性:Opus 系列倾向于更主动,发现机会时会做出更大范围的改动;Sonnet 更保守,更贴近你的具体要求。根据你希望模型主导还是跟随来选择。
模型生命周期
| 状态 | 说明 |
|---|---|
| Experimental(实验版) | 供早期测试,可能根据反馈调整,区域覆盖有限 |
| Active(正式版) | 完全支持,推荐用于生产,覆盖所有支持区域 |
使用建议
- 大多数工作从 Auto 开始,质量和成本自动优化
- 遇到复杂问题或需要持续多文件工作时,切换到 Opus
- 快速迭代、简单修复或需要节省积分时,使用 Haiku
- 在账户设置中监控使用量,了解模型选择对积分消耗的影响
- 如果主要使用 Opus,考虑升级到 Pro+ 或 Power 套餐获取更多积分
常见问题
Q:Auto 模式会影响任务质量吗?
不会。Auto 的质量目标是达到或超过 Claude Sonnet 4 级别,内部使用最优模型路由。在大多数日常任务中,Auto 的质量与手动选择 Sonnet 相当,且成本更低。
Q:开源模型(DeepSeek、MiniMax、Qwen)和 Claude 在安全性上有区别吗?
使用习惯上没有明显区别,所有模型都通过 Kiro 的统一接口调用。但开源模型的训练数据、对齐方式和安全策略各异,对于涉及敏感代码或数据的任务,建议优先使用 Anthropic 的 Claude 系列。
Q:Opus 4.7 和 Opus 4.6 的区别在日常使用中体现在哪里?
4.7 最明显的提升是自我验证能力和视觉处理精度。如果你的工作涉及复杂图表、高分辨率截图分析,或者频繁遇到 4.6 生成代码后还需要多轮修正的情况,4.7 的表现会更稳定。