Appearance
2025 年 8 月的 METR 研究显示,前沿模型已能以约 50% 的成功率完成超过 2 小时的连续工作,且任务时长每 7 个月翻倍。本指南基于 OpenAI 内部实践,逐一梳理编码 Agent(如 Codex)在规划到运维的七个 SDLC 阶段如何分担机械性工作,以及工程师应如何调整角色——从"写代码的人"转向"做决策的人"。
构建 AI 原生工程团队
概述
AI 模型正在迅速拓展其能力边界。截至 2025 年 8 月,METR 的研究显示,前沿模型能以约 50% 的成功率 完成超过 2 小时 17 分钟 的连续工作。这一能力大约每 7 个月翻倍——几年前模型只能管理 30 秒的推理(够用于简单代码建议),今天整个软件开发生命周期都已在 AI 辅助的范围之内。
在 OpenAI 内部,开发周期已经明显加速:过去需要数周的工作,现在数天可以完成。许多例行任务——文档撰写、相关测试发现、依赖维护、feature flag 清理——已完全委托给 Codex。
AI 编码工具的演进:从自动补全到 Agent
早期工具处理快速任务(建议下一行代码、填写函数模板)。随着模型推理能力增强,开发者开始通过 IDE 聊天界面与 agent 结对编程。今天的编码 agent 可以:
- 生成整个文件、脚手架新项目、将设计稿转换为代码
- 在多步骤问题(调试、重构)中进行推理
- 在云端多 agent 环境中并行运行
| 能力 | 赋能内容 |
|---|---|
| 跨系统统一上下文 | 单个模型可同时读取代码、配置、遥测数据 |
| 结构化工具执行 | 直接调用编译器、测试运行器、扫描工具,产出可验证结果 |
| 持久化项目记忆 | 长上下文窗口和 compaction 技术让模型跟踪从提案到部署的完整特性 |
| 评估循环 | 模型输出可自动针对 benchmark 测试(单元测试、延迟目标、风格指南) |
1. 规划
编码 Agent 如何帮助
AI 编码 agent 在规划和范围界定阶段提供即时的代码感知洞察。例如,团队可构建工作流将 agent 连接到工单系统,读取特性规格、交叉对比代码库,然后标记歧义、将工作分解为子组件或估计难度。
agent 还可以即时追踪代码路径,展示特性涉及哪些服务——这项工作以前需要人工在大型代码库中花费数小时挖掘。
三层分工
| 委托 | 审查 | 负责 |
|---|---|---|
| Agent 完成可行性分析初稿,读取规格、映射到代码库、识别依赖 | 团队验证 agent 的发现,评估完整性,确认估算反映真实约束 | 优先级排序、长期方向、权衡取舍等战略决策保留为人类职责 |
落地 checklist
- 识别需要特性与源代码对齐的常见流程(如特性范围界定、工单创建)
- 先实现基础工作流(如标记和去重 issue)
- 考虑更高级的工作流(根据初始特性描述自动添加子任务)
2. 设计
编码 Agent 如何帮助
agent 通过脚手架样板代码、构建项目结构、即时实现设计 token 或风格指南来显著加速原型制作。工程师可以用自然语言描述 UI 布局,获得匹配团队约定的原型代码。几小时内即可迭代多个高保真原型,让客户测试提前发生。
三层分工
| 委托 | 审查 | 负责 |
|---|---|---|
| Agent 完成脚手架、样板代码生成、设计稿转组件 | 团队确认组件符合设计约定、质量和无障碍标准 | 团队负责整体设计系统、UX 模式和架构决策 |
落地 checklist
- 使用支持文本和图像输入的多模态编码 agent
- 通过 MCP 将设计工具与编码 agent 集成
- 用 TypeScript 等类型语言定义有效的 props 和子组件
3. 构建
编码 Agent 如何帮助
IDE 和 CLI 中的编码 agent 加速构建阶段——不只是生成下一个函数或文件,而是端到端生成完整特性(数据模型、API、UI 组件、测试、文档)。长时间任务中,agent 可以:
- 根据书面规格起草完整特性实现
- 跨几十个文件搜索和修改代码,同时保持一致性
- 生成匹配约定的样板代码(错误处理、遥测、安全包装器)
- 在构建错误出现时立即修复,无需人工介入
- 在实现的同时编写测试
三层分工
| 委托 | 审查 | 负责 |
|---|---|---|
| Agent 完成良好规格的特性初稿:脚手架、CRUD 逻辑、连接 | 工程师评估设计选择、性能、安全性,修正 agent 可能遗漏的细微问题 | 新抽象、跨切面架构变更、模糊的产品需求、长期可维护性权衡 |
落地 checklist
- 从规格明确的任务开始
- 让 agent 通过 MCP 或写 PLAN.md 文件进行规划
- 在 AGENTS.md 中添加运行测试和 linter 的指令
4. 测试
编码 Agent 如何帮助
AI 工具可以根据需求文档和特性代码逻辑建议测试用例,包括容易被忽视的边缘情况和失败模式。模型还能随着代码演进保持测试更新,减少重构摩擦。
三层分工
| 委托 | 审查 | 负责 |
|---|---|---|
| 基于特性规格的测试用例初稿 | 确认 agent 没有走捷径,测试可运行,agent 有适当权限 | 测试覆盖与特性规格的对齐,对抗性思维和边缘情况的创造力 |
落地 checklist
- 引导模型将测试作为独立步骤实现,在进入特性实现前验证新测试确实失败
- 在 AGENTS.md 中设置测试覆盖率指南
- 给 agent 提供具体的代码覆盖率工具
5. 审查
编码 Agent 如何帮助
编码 agent 让代码审查规模化——每个 PR 都获得一致的基线关注。与只依赖模式匹配的传统静态分析工具不同,AI 审查器可以实际执行部分代码、解读运行时行为、跨文件和服务追踪逻辑。
在 OpenAI,我们发现 AI 代码审查给工程师带来了信心:他们不会把重大 bug 推到生产。审查经常能发现贡献者在拉入另一个工程师前自己就能修正的问题。
落地 checklist
- 整理金标准 PR 示例(包含代码变更和评论)作为评估集
- 选择专门针对代码审查训练过的模型,通用模型通常信噪比低
- 定义衡量审查质量的方法(建议:跟踪 PR 评论的 reaction)
6. 文档
编码 Agent 如何帮助
编码 agent 善于根据代码库生成摘要,包括用 Mermaid 语法生成系统图。随着开发者用 agent 构建特性,只需 prompt 模型即可更新文档。通过 AGENTS.md 可以将文档更新指令自动附加到每次 prompt,确保一致性。
落地 checklist
- 先实验文档生成
- 将文档指南纳入 AGENTS.md
- 识别可自动生成文档的工作流(如发版周期)
- 审查生成内容的质量和准确性
7. 部署与维护
编码 Agent 如何帮助
通过 MCP server 为 agent 提供日志工具访问,加上代码库上下文,开发者可以在单一工作流中 prompt 模型查看特定端点的错误,然后模型利用该上下文遍历代码库,找到相关 bug 或性能问题。
示例:Virgin Atlantic 用 Codex 强化了团队的部署和维护方式。Codex VS Code 扩展让工程师在单一位置通过 Azure DevOps MCP 和 Databricks Managed MCP 调查日志、追踪跨代码和数据的问题、审查变更,加快了根因发现,减少了手动分类。
落地 checklist
- 将 AI 工具与日志和部署系统集成
- 定义访问范围和权限
- 配置可复用的 prompt 模板(如"调查端点 X 的错误")
- 运行模拟故障场景验证工作流
- 根据真实故障收集反馈,迭代改进
总结
编码 agent 正在接管软件开发生命周期中那些机械性的多步骤工作。拥有持续推理能力、统一代码库上下文和执行真实工具的能力,这些 agent 现在可以处理从范围界定、原型设计到实现、测试、审查乃至运维分类的任务。工程师牢牢掌控架构、产品意图和质量,而编码 agent 日益成为每个阶段的首次实现者和持续协作者。
常见问题
Q: 哪个 SDLC 阶段最适合先引入 Codex?
A: 通常建议从"构建"阶段入手,因为规格明确的任务最容易委托,效果最直观。有 CI 的团队也可以先从"代码审查"开始,门槛低、反馈快。
Q: 如何防止 agent 生成的代码偏离架构约定?
A: 在 AGENTS.md 中明确约定(命名规范、错误处理模式、测试覆盖率要求等),让 agent 每次启动都读取这些约定。代码审查阶段重点检查架构对齐,而非逐行检查。
Q: 企业如何开始落地 AI 原生工程流程?
A: 从小的、有范围的工作流开始,投资护栏,然后随着 agent 能力和可靠性的提升逐步扩大责任范围。如需帮助,可联系 OpenAI 设计端到端工作流。