Skip to content

2025 年 8 月的 METR 研究显示,前沿模型已能以约 50% 的成功率完成超过 2 小时的连续工作,且任务时长每 7 个月翻倍。本指南基于 OpenAI 内部实践,逐一梳理编码 Agent(如 Codex)在规划到运维的七个 SDLC 阶段如何分担机械性工作,以及工程师应如何调整角色——从"写代码的人"转向"做决策的人"。

构建 AI 原生工程团队

概述

AI 模型正在迅速拓展其能力边界。截至 2025 年 8 月,METR 的研究显示,前沿模型能以约 50% 的成功率 完成超过 2 小时 17 分钟 的连续工作。这一能力大约每 7 个月翻倍——几年前模型只能管理 30 秒的推理(够用于简单代码建议),今天整个软件开发生命周期都已在 AI 辅助的范围之内。

在 OpenAI 内部,开发周期已经明显加速:过去需要数周的工作,现在数天可以完成。许多例行任务——文档撰写、相关测试发现、依赖维护、feature flag 清理——已完全委托给 Codex。


AI 编码工具的演进:从自动补全到 Agent

早期工具处理快速任务(建议下一行代码、填写函数模板)。随着模型推理能力增强,开发者开始通过 IDE 聊天界面与 agent 结对编程。今天的编码 agent 可以:

  • 生成整个文件、脚手架新项目、将设计稿转换为代码
  • 在多步骤问题(调试、重构)中进行推理
  • 在云端多 agent 环境中并行运行
能力赋能内容
跨系统统一上下文单个模型可同时读取代码、配置、遥测数据
结构化工具执行直接调用编译器、测试运行器、扫描工具,产出可验证结果
持久化项目记忆长上下文窗口和 compaction 技术让模型跟踪从提案到部署的完整特性
评估循环模型输出可自动针对 benchmark 测试(单元测试、延迟目标、风格指南)

1. 规划

编码 Agent 如何帮助

AI 编码 agent 在规划和范围界定阶段提供即时的代码感知洞察。例如,团队可构建工作流将 agent 连接到工单系统,读取特性规格、交叉对比代码库,然后标记歧义、将工作分解为子组件或估计难度。

agent 还可以即时追踪代码路径,展示特性涉及哪些服务——这项工作以前需要人工在大型代码库中花费数小时挖掘。

三层分工

委托审查负责
Agent 完成可行性分析初稿,读取规格、映射到代码库、识别依赖团队验证 agent 的发现,评估完整性,确认估算反映真实约束优先级排序、长期方向、权衡取舍等战略决策保留为人类职责

落地 checklist

  • 识别需要特性与源代码对齐的常见流程(如特性范围界定、工单创建)
  • 先实现基础工作流(如标记和去重 issue)
  • 考虑更高级的工作流(根据初始特性描述自动添加子任务)

2. 设计

编码 Agent 如何帮助

agent 通过脚手架样板代码、构建项目结构、即时实现设计 token 或风格指南来显著加速原型制作。工程师可以用自然语言描述 UI 布局,获得匹配团队约定的原型代码。几小时内即可迭代多个高保真原型,让客户测试提前发生。

三层分工

委托审查负责
Agent 完成脚手架、样板代码生成、设计稿转组件团队确认组件符合设计约定、质量和无障碍标准团队负责整体设计系统、UX 模式和架构决策

落地 checklist

  • 使用支持文本和图像输入的多模态编码 agent
  • 通过 MCP 将设计工具与编码 agent 集成
  • 用 TypeScript 等类型语言定义有效的 props 和子组件

3. 构建

编码 Agent 如何帮助

IDE 和 CLI 中的编码 agent 加速构建阶段——不只是生成下一个函数或文件,而是端到端生成完整特性(数据模型、API、UI 组件、测试、文档)。长时间任务中,agent 可以:

  • 根据书面规格起草完整特性实现
  • 跨几十个文件搜索和修改代码,同时保持一致性
  • 生成匹配约定的样板代码(错误处理、遥测、安全包装器)
  • 在构建错误出现时立即修复,无需人工介入
  • 在实现的同时编写测试

三层分工

委托审查负责
Agent 完成良好规格的特性初稿:脚手架、CRUD 逻辑、连接工程师评估设计选择、性能、安全性,修正 agent 可能遗漏的细微问题新抽象、跨切面架构变更、模糊的产品需求、长期可维护性权衡

落地 checklist

  • 从规格明确的任务开始
  • 让 agent 通过 MCP 或写 PLAN.md 文件进行规划
  • 在 AGENTS.md 中添加运行测试和 linter 的指令

4. 测试

编码 Agent 如何帮助

AI 工具可以根据需求文档和特性代码逻辑建议测试用例,包括容易被忽视的边缘情况和失败模式。模型还能随着代码演进保持测试更新,减少重构摩擦。

三层分工

委托审查负责
基于特性规格的测试用例初稿确认 agent 没有走捷径,测试可运行,agent 有适当权限测试覆盖与特性规格的对齐,对抗性思维和边缘情况的创造力

落地 checklist

  • 引导模型将测试作为独立步骤实现,在进入特性实现前验证新测试确实失败
  • 在 AGENTS.md 中设置测试覆盖率指南
  • 给 agent 提供具体的代码覆盖率工具

5. 审查

编码 Agent 如何帮助

编码 agent 让代码审查规模化——每个 PR 都获得一致的基线关注。与只依赖模式匹配的传统静态分析工具不同,AI 审查器可以实际执行部分代码、解读运行时行为、跨文件和服务追踪逻辑。

在 OpenAI,我们发现 AI 代码审查给工程师带来了信心:他们不会把重大 bug 推到生产。审查经常能发现贡献者在拉入另一个工程师前自己就能修正的问题。

落地 checklist

  • 整理金标准 PR 示例(包含代码变更和评论)作为评估集
  • 选择专门针对代码审查训练过的模型,通用模型通常信噪比低
  • 定义衡量审查质量的方法(建议:跟踪 PR 评论的 reaction)

6. 文档

编码 Agent 如何帮助

编码 agent 善于根据代码库生成摘要,包括用 Mermaid 语法生成系统图。随着开发者用 agent 构建特性,只需 prompt 模型即可更新文档。通过 AGENTS.md 可以将文档更新指令自动附加到每次 prompt,确保一致性。

落地 checklist

  • 先实验文档生成
  • 将文档指南纳入 AGENTS.md
  • 识别可自动生成文档的工作流(如发版周期)
  • 审查生成内容的质量和准确性

7. 部署与维护

编码 Agent 如何帮助

通过 MCP server 为 agent 提供日志工具访问,加上代码库上下文,开发者可以在单一工作流中 prompt 模型查看特定端点的错误,然后模型利用该上下文遍历代码库,找到相关 bug 或性能问题。

示例:Virgin Atlantic 用 Codex 强化了团队的部署和维护方式。Codex VS Code 扩展让工程师在单一位置通过 Azure DevOps MCP 和 Databricks Managed MCP 调查日志、追踪跨代码和数据的问题、审查变更,加快了根因发现,减少了手动分类。

落地 checklist

  • 将 AI 工具与日志和部署系统集成
  • 定义访问范围和权限
  • 配置可复用的 prompt 模板(如"调查端点 X 的错误")
  • 运行模拟故障场景验证工作流
  • 根据真实故障收集反馈,迭代改进

总结

编码 agent 正在接管软件开发生命周期中那些机械性的多步骤工作。拥有持续推理能力、统一代码库上下文和执行真实工具的能力,这些 agent 现在可以处理从范围界定、原型设计到实现、测试、审查乃至运维分类的任务。工程师牢牢掌控架构、产品意图和质量,而编码 agent 日益成为每个阶段的首次实现者和持续协作者。


常见问题

Q: 哪个 SDLC 阶段最适合先引入 Codex?

A: 通常建议从"构建"阶段入手,因为规格明确的任务最容易委托,效果最直观。有 CI 的团队也可以先从"代码审查"开始,门槛低、反馈快。

Q: 如何防止 agent 生成的代码偏离架构约定?

A: 在 AGENTS.md 中明确约定(命名规范、错误处理模式、测试覆盖率要求等),让 agent 每次启动都读取这些约定。代码审查阶段重点检查架构对齐,而非逐行检查。

Q: 企业如何开始落地 AI 原生工程流程?

A: 从小的、有范围的工作流开始,投资护栏,然后随着 agent 能力和可靠性的提升逐步扩大责任范围。如需帮助,可联系 OpenAI 设计端到端工作流。