Appearance
GPT-5.5/Codex parity 审查需按 PR A-D 顺序进行,每个 PR 对应特定架构合同。关键操作:先确认证据条(可复现症状、根因、修复、测试)齐全再合并,最后通过 parity harness(PR D)运行场景包并检查 qa-agentic-parity-report.md 获得可验证的 parity 结论。
GPT-5.5 / Codex parity 维护笔记:合并单元审查指南
本文档解释如何将 GPT-5.5 / Codex parity 程序拆分为四个合并单元(PR A、B、C、D)进行审查,同时保留原始六个合同的智能体架构。
合并单元
PR A:严格智能体执行(strict-agentic execution)
拥有范围:
executionContract(执行合同)- GPT-5 优先的同轮次跟进(same-turn follow-through)
update_plan作为非终端进度跟踪- 显式的阻塞状态(blocked states)替代仅基于计划的静默停止
不拥有范围:
- 认证/运行时故障分类
- 权限真实性
- 重放/继续(replay/continuation)重设计
- parity 基准测试
PR B:运行时真实性(runtime truthfulness)
拥有范围:
- Codex OAuth 作用域正确性
- 类型化的 provider/运行时故障分类
- 真实的
/elevated full可用性及阻塞原因说明
不拥有范围:
- 工具 schema 标准化
- 重放/存活性状态
- 基准测试门禁
PR C:执行正确性(execution correctness)
拥有范围:
- provider 拥有的 OpenAI/Codex 工具兼容性
- 无参数工具处理严格 schema
- 无效重放场景暴露(replay-invalid surfacing)
- 暂停(paused)、阻塞(blocked)、放弃(abandoned)长任务状态可见性
不拥有范围:
- 自我选举的继续执行
- provider hooks 之外的通用 Codex 方言行为
- 基准测试门禁
PR D:Parity 测试框架(parity harness)
拥有范围:
- 第一波 GPT-5.5 vs Opus 4.7 场景包
- parity 文档
- parity 报告及发布门禁机制
不拥有范围:
- QA 实验室之外的运行时行为变更
- 测试框架内部的认证/代理/DNS 模拟
原始六个合同与合并单元的映射关系
| 原始合同 | 合并单元 |
|---|---|
| Provider 传输/认证正确性 | PR B |
| 工具合同/schema 兼容性 | PR C |
| 同轮次执行 | PR A |
| 权限真实性 | PR B |
| 重放/继续/存活性正确性 | PR C |
| 基准测试/发布门禁 | PR D |
审查顺序
- PR A
- PR B
- PR C
- PR D
PR D 是验证层。不应因为 PR D 而延迟运行时正确性 PR 的合并。
各 PR 的审查重点
PR A
- GPT-5 应执行动作或明确失败关闭,而不是停在评论阶段
update_plan不再被视为“进度”本身- 行为保持 GPT-5 优先且嵌入 Pi 的作用域
PR B
- 认证/代理/运行时故障不再被折叠为通用的“模型失败”处理
/elevated full仅在真正可用时才描述为可用- 阻塞原因对模型和用户端运行时均可见
PR C
- 严格的 OpenAI/Codex 工具注册行为可预测
- 无参数工具不会在严格 schema 检查中失败
- 重放和压缩结果保留真实的存活性状态
PR D
- 场景包可理解且可复现
- 场景包包含一个可改变状态的 replay 安全测试路径,而非只读流程
- 报告对人力和自动化工具可读
- parity 声明有证据支持,而非轶事
PR D 预期产出:
- 每个模型运行:
qa-suite-report.md/qa-suite-summary.json - 聚合及场景级对比:
qa-agentic-parity-report.md - 机器可读的判定结果:
qa-agentic-parity-summary.json
发布门禁
在以下条件全部满足后,才能声称 GPT-5.5 达到甚至超过 Opus 4.7:
- PR A、PR B、PR C 已合并
- PR D 干净运行第一波 parity 场景包
- 运行时真实性回归测试套件保持绿色
- parity 报告显示无虚假成功案例,且停止行为无回归
mermaid
flowchart LR
A["PR A-C 已合并"] --> B["运行 GPT-5.5 parity 包"]
A --> C["运行 Opus 4.7 parity 包"]
B --> D["qa-suite-summary.json"]
C --> E["qa-suite-summary.json"]
D --> F["qa parity-report"]
E --> F
F --> G["Markdown 报告 + JSON 判定"]
G --> H{"通过?"}
H -- "是" --> I["允许声明 Parity"]
H -- "否" --> J["保持运行时修复 / 审查循环开启"]Parity harness 不是唯一的证据来源。审查中请保持以下拆分:
- PR D 拥有基于场景的 GPT-5.5 vs Opus 4.7 对比
- PR B 中的确定性测试套件仍拥有认证/代理/DNS 及完全访问真实性的证据
维护者快速合并流程
准备合并 parity PR 时,按以下低风险步骤操作:
- 合并前确认证据条齐全:
- 可复现的症状或失败的测试
- 在所改代码中验证的根因
- 对受影响的路径进行了修复
- 添加了回归测试或明确的手工验证说明
- 合并前标记/打标签:
- 对不应合并的 PR,应用
r:*标签使其自动关闭 - 确保合并候选 PR 中没有未解决的阻塞评论线程
- 对不应合并的 PR,应用
- 在受影响范围内本地验证:
pnpm check:changedpnpm test:changed(当测试有变更或其覆盖率是修复信心来源时)
- 按标准维护者流程合并(
/landpr流程),然后验证:- 关联 issue 的自动关闭行为
- CI 及合并后
main分支状态
- 合并后,搜索相关未关闭 PR/issue,只关闭那些有规范引用链接的。
如果上述证据条有任何缺项,应请求修改而非直接合并。
目标到证据的映射
| 完成门禁项 | 主要负责人 | 审查产物 |
|---|---|---|
| 无仅计划阻塞 | PR A | strict-agentic 运行时测试及 approval-turn-tool-followthrough |
| 无虚假进度或虚假工具完成 | PR A + PR D | parity 虚假成功计数及场景级报告详情 |
无虚假 /elevated full 引导 | PR B | 确定性运行时真实性测试套件 |
| 重放/存活性失败保持显式 | PR C + PR D | 生命周期/重放测试套件及 compaction-retry-mutating-tool |
| GPT-5.5 匹配或优于 Opus 4.7 | PR D | qa-agentic-parity-report.md 和 qa-agentic-parity-summary.json |
审查速查:改前 vs 改后
| 改前用户可见问题 | 改后审查信号 |
|---|---|
| GPT-5.5 计划后停止 | PR A 显示动作或阻塞行为,而非仅评论形式的完成 |
| 工具使用在严格 OpenAI/Codex schema 下不稳定 | PR C 保持工具注册和无参数调用的可预测性 |
/elevated full 提示有时误导 | PR B 将引导与实际运行时能力和阻塞原因绑定 |
| 长任务可能消失在重放/压缩的模糊状态中 | PR C 发出显式的暂停、阻塞、放弃及无效重放状态 |
| Parity 声明仅为轶事 | PR D 生成含报告和 JSON 判定,对两个模型使用相同场景覆盖 |
相关链接
常见问题
审查一个 Parity PR 前,我需要准备什么证据证据?
合并前必须有三点:可复现症状或失败测试、验证过的根因、对应修复,以及回归测试或手动验证说明。缺任何一项,都应要求修改。
PR D 在发布门禁中的作用是什么?
PR D 提供基于场景包的 GPT-5.5 vs Opus 4.7 对比报告和 JSON 判定(qa-agentic-parity-report.md 和 qa-agentic-parity-summary.json)。只有当 PR A/B/C 已合并且 PR D 干净运行后,才能声称 parity 达成。
如果 PR D 报告显示未通过,下一步该怎么做?
保持运行时修复 / 审查循环开启,不能声称 parity。需要针对性修复运行时正确性(PR A/B/C)的问题,然后重新运行 PR D 场景包,直到报告显示无虚假成功且无回归。