Skip to content

GPT-5.5/Codex parity 审查需按 PR A-D 顺序进行,每个 PR 对应特定架构合同。关键操作:先确认证据条(可复现症状、根因、修复、测试)齐全再合并,最后通过 parity harness(PR D)运行场景包并检查 qa-agentic-parity-report.md 获得可验证的 parity 结论。

GPT-5.5 / Codex parity 维护笔记:合并单元审查指南

本文档解释如何将 GPT-5.5 / Codex parity 程序拆分为四个合并单元(PR A、B、C、D)进行审查,同时保留原始六个合同的智能体架构。

合并单元

PR A:严格智能体执行(strict-agentic execution)

拥有范围:

  • executionContract(执行合同)
  • GPT-5 优先的同轮次跟进(same-turn follow-through)
  • update_plan 作为非终端进度跟踪
  • 显式的阻塞状态(blocked states)替代仅基于计划的静默停止

不拥有范围:

  • 认证/运行时故障分类
  • 权限真实性
  • 重放/继续(replay/continuation)重设计
  • parity 基准测试

PR B:运行时真实性(runtime truthfulness)

拥有范围:

  • Codex OAuth 作用域正确性
  • 类型化的 provider/运行时故障分类
  • 真实的 /elevated full 可用性及阻塞原因说明

不拥有范围:

  • 工具 schema 标准化
  • 重放/存活性状态
  • 基准测试门禁

PR C:执行正确性(execution correctness)

拥有范围:

  • provider 拥有的 OpenAI/Codex 工具兼容性
  • 无参数工具处理严格 schema
  • 无效重放场景暴露(replay-invalid surfacing)
  • 暂停(paused)、阻塞(blocked)、放弃(abandoned)长任务状态可见性

不拥有范围:

  • 自我选举的继续执行
  • provider hooks 之外的通用 Codex 方言行为
  • 基准测试门禁

PR D:Parity 测试框架(parity harness)

拥有范围:

  • 第一波 GPT-5.5 vs Opus 4.7 场景包
  • parity 文档
  • parity 报告及发布门禁机制

不拥有范围:

  • QA 实验室之外的运行时行为变更
  • 测试框架内部的认证/代理/DNS 模拟

原始六个合同与合并单元的映射关系

原始合同合并单元
Provider 传输/认证正确性PR B
工具合同/schema 兼容性PR C
同轮次执行PR A
权限真实性PR B
重放/继续/存活性正确性PR C
基准测试/发布门禁PR D

审查顺序

  1. PR A
  2. PR B
  3. PR C
  4. PR D

PR D 是验证层。不应因为 PR D 而延迟运行时正确性 PR 的合并。

各 PR 的审查重点

PR A

  • GPT-5 应执行动作或明确失败关闭,而不是停在评论阶段
  • update_plan 不再被视为“进度”本身
  • 行为保持 GPT-5 优先且嵌入 Pi 的作用域

PR B

  • 认证/代理/运行时故障不再被折叠为通用的“模型失败”处理
  • /elevated full 仅在真正可用时才描述为可用
  • 阻塞原因对模型和用户端运行时均可见

PR C

  • 严格的 OpenAI/Codex 工具注册行为可预测
  • 无参数工具不会在严格 schema 检查中失败
  • 重放和压缩结果保留真实的存活性状态

PR D

  • 场景包可理解且可复现
  • 场景包包含一个可改变状态的 replay 安全测试路径,而非只读流程
  • 报告对人力和自动化工具可读
  • parity 声明有证据支持,而非轶事

PR D 预期产出:

  • 每个模型运行:qa-suite-report.md / qa-suite-summary.json
  • 聚合及场景级对比:qa-agentic-parity-report.md
  • 机器可读的判定结果:qa-agentic-parity-summary.json

发布门禁

在以下条件全部满足后,才能声称 GPT-5.5 达到甚至超过 Opus 4.7:

  • PR A、PR B、PR C 已合并
  • PR D 干净运行第一波 parity 场景包
  • 运行时真实性回归测试套件保持绿色
  • parity 报告显示无虚假成功案例,且停止行为无回归
mermaid
flowchart LR
    A["PR A-C 已合并"] --> B["运行 GPT-5.5 parity 包"]
    A --> C["运行 Opus 4.7 parity 包"]
    B --> D["qa-suite-summary.json"]
    C --> E["qa-suite-summary.json"]
    D --> F["qa parity-report"]
    E --> F
    F --> G["Markdown 报告 + JSON 判定"]
    G --> H{"通过?"}
    H -- "是" --> I["允许声明 Parity"]
    H -- "否" --> J["保持运行时修复 / 审查循环开启"]

Parity harness 不是唯一的证据来源。审查中请保持以下拆分:

  • PR D 拥有基于场景的 GPT-5.5 vs Opus 4.7 对比
  • PR B 中的确定性测试套件仍拥有认证/代理/DNS 及完全访问真实性的证据

维护者快速合并流程

准备合并 parity PR 时,按以下低风险步骤操作:

  1. 合并前确认证据条齐全:
    • 可复现的症状或失败的测试
    • 在所改代码中验证的根因
    • 对受影响的路径进行了修复
    • 添加了回归测试或明确的手工验证说明
  2. 合并前标记/打标签:
    • 对不应合并的 PR,应用 r:* 标签使其自动关闭
    • 确保合并候选 PR 中没有未解决的阻塞评论线程
  3. 在受影响范围内本地验证:
    • pnpm check:changed
    • pnpm test:changed(当测试有变更或其覆盖率是修复信心来源时)
  4. 按标准维护者流程合并(/landpr 流程),然后验证:
    • 关联 issue 的自动关闭行为
    • CI 及合并后 main 分支状态
  5. 合并后,搜索相关未关闭 PR/issue,只关闭那些有规范引用链接的。

如果上述证据条有任何缺项,应请求修改而非直接合并。

目标到证据的映射

完成门禁项主要负责人审查产物
无仅计划阻塞PR Astrict-agentic 运行时测试及 approval-turn-tool-followthrough
无虚假进度或虚假工具完成PR A + PR Dparity 虚假成功计数及场景级报告详情
无虚假 /elevated full 引导PR B确定性运行时真实性测试套件
重放/存活性失败保持显式PR C + PR D生命周期/重放测试套件及 compaction-retry-mutating-tool
GPT-5.5 匹配或优于 Opus 4.7PR Dqa-agentic-parity-report.mdqa-agentic-parity-summary.json

审查速查:改前 vs 改后

改前用户可见问题改后审查信号
GPT-5.5 计划后停止PR A 显示动作或阻塞行为,而非仅评论形式的完成
工具使用在严格 OpenAI/Codex schema 下不稳定PR C 保持工具注册和无参数调用的可预测性
/elevated full 提示有时误导PR B 将引导与实际运行时能力和阻塞原因绑定
长任务可能消失在重放/压缩的模糊状态中PR C 发出显式的暂停、阻塞、放弃及无效重放状态
Parity 声明仅为轶事PR D 生成含报告和 JSON 判定,对两个模型使用相同场景覆盖

相关链接

常见问题

审查一个 Parity PR 前,我需要准备什么证据证据?

合并前必须有三点:可复现症状或失败测试、验证过的根因、对应修复,以及回归测试或手动验证说明。缺任何一项,都应要求修改。

PR D 在发布门禁中的作用是什么?

PR D 提供基于场景包的 GPT-5.5 vs Opus 4.7 对比报告和 JSON 判定(qa-agentic-parity-report.mdqa-agentic-parity-summary.json)。只有当 PR A/B/C 已合并且 PR D 干净运行后,才能声称 parity 达成。

如果 PR D 报告显示未通过,下一步该怎么做?

保持运行时修复 / 审查循环开启,不能声称 parity。需要针对性修复运行时正确性(PR A/B/C)的问题,然后重新运行 PR D 场景包,直到报告显示无虚假成功且无回归。