GPT-5.5/Codex parity 审查需按 PR A-D 顺序进行，每个 PR 对应特定架构合同。关键操作：先确认证据条（可复现症状、根因、修复、测试）齐全再合并，最后通过 parity harness（PR D）运行场景包并检查 qa-agentic-parity-report.md 获得可验证的 parity 结论。

GPT-5.5 / Codex parity 维护笔记：合并单元审查指南

本文档解释如何将 GPT-5.5 / Codex parity 程序拆分为四个合并单元（PR A、B、C、D）进行审查，同时保留原始六个合同的智能体架构。

合并单元

PR A：严格智能体执行（strict-agentic execution）

拥有范围：

executionContract（执行合同）
GPT-5 优先的同轮次跟进（same-turn follow-through）
update_plan 作为非终端进度跟踪
显式的阻塞状态（blocked states）替代仅基于计划的静默停止

不拥有范围：

认证/运行时故障分类
权限真实性
重放/继续（replay/continuation）重设计
parity 基准测试

PR B：运行时真实性（runtime truthfulness）

拥有范围：

Codex OAuth 作用域正确性
类型化的 provider/运行时故障分类
真实的 /elevated full 可用性及阻塞原因说明

不拥有范围：

工具 schema 标准化
重放/存活性状态
基准测试门禁

PR C：执行正确性（execution correctness）

拥有范围：

provider 拥有的 OpenAI/Codex 工具兼容性
无参数工具处理严格 schema
无效重放场景暴露（replay-invalid surfacing）
暂停（paused）、阻塞（blocked）、放弃（abandoned）长任务状态可见性

不拥有范围：

自我选举的继续执行
provider hooks 之外的通用 Codex 方言行为
基准测试门禁

PR D：Parity 测试框架（parity harness）

拥有范围：

第一波 GPT-5.5 vs Opus 4.7 场景包
parity 文档
parity 报告及发布门禁机制

不拥有范围：

QA 实验室之外的运行时行为变更
测试框架内部的认证/代理/DNS 模拟

原始六个合同与合并单元的映射关系

原始合同	合并单元
Provider 传输/认证正确性	PR B
工具合同/schema 兼容性	PR C
同轮次执行	PR A
权限真实性	PR B
重放/继续/存活性正确性	PR C
基准测试/发布门禁	PR D

审查顺序

PR A
PR B
PR C
PR D

PR D 是验证层。不应因为 PR D 而延迟运行时正确性 PR 的合并。

各 PR 的审查重点

PR A

GPT-5 应执行动作或明确失败关闭，而不是停在评论阶段
update_plan 不再被视为“进度”本身
行为保持 GPT-5 优先且嵌入 Pi 的作用域

PR B

认证/代理/运行时故障不再被折叠为通用的“模型失败”处理
/elevated full 仅在真正可用时才描述为可用
阻塞原因对模型和用户端运行时均可见

PR C

严格的 OpenAI/Codex 工具注册行为可预测
无参数工具不会在严格 schema 检查中失败
重放和压缩结果保留真实的存活性状态

PR D

场景包可理解且可复现
场景包包含一个可改变状态的 replay 安全测试路径，而非只读流程
报告对人力和自动化工具可读
parity 声明有证据支持，而非轶事

PR D 预期产出：

每个模型运行：qa-suite-report.md / qa-suite-summary.json
聚合及场景级对比：qa-agentic-parity-report.md
机器可读的判定结果：qa-agentic-parity-summary.json

发布门禁

在以下条件全部满足后，才能声称 GPT-5.5 达到甚至超过 Opus 4.7：

PR A、PR B、PR C 已合并
PR D 干净运行第一波 parity 场景包
运行时真实性回归测试套件保持绿色
parity 报告显示无虚假成功案例，且停止行为无回归

flowchart LR
    A["PR A-C 已合并"] --> B["运行 GPT-5.5 parity 包"]
    A --> C["运行 Opus 4.7 parity 包"]
    B --> D["qa-suite-summary.json"]
    C --> E["qa-suite-summary.json"]
    D --> F["qa parity-report"]
    E --> F
    F --> G["Markdown 报告 + JSON 判定"]
    G --> H{"通过？"}
    H -- "是" --> I["允许声明 Parity"]
    H -- "否" --> J["保持运行时修复 / 审查循环开启"]

Parity harness 不是唯一的证据来源。审查中请保持以下拆分：

PR D 拥有基于场景的 GPT-5.5 vs Opus 4.7 对比
PR B 中的确定性测试套件仍拥有认证/代理/DNS 及完全访问真实性的证据

维护者快速合并流程

准备合并 parity PR 时，按以下低风险步骤操作：

合并前确认证据条齐全：
- 可复现的症状或失败的测试
- 在所改代码中验证的根因
- 对受影响的路径进行了修复
- 添加了回归测试或明确的手工验证说明
合并前标记/打标签：
- 对不应合并的 PR，应用 r:* 标签使其自动关闭
- 确保合并候选 PR 中没有未解决的阻塞评论线程
在受影响范围内本地验证：
- pnpm check:changed
- pnpm test:changed（当测试有变更或其覆盖率是修复信心来源时）
按标准维护者流程合并（/landpr 流程），然后验证：
- 关联 issue 的自动关闭行为
- CI 及合并后 main 分支状态
合并后，搜索相关未关闭 PR/issue，只关闭那些有规范引用链接的。

如果上述证据条有任何缺项，应请求修改而非直接合并。

目标到证据的映射

完成门禁项	主要负责人	审查产物
无仅计划阻塞	PR A	strict-agentic 运行时测试及 `approval-turn-tool-followthrough`
无虚假进度或虚假工具完成	PR A + PR D	parity 虚假成功计数及场景级报告详情
无虚假 `/elevated full` 引导	PR B	确定性运行时真实性测试套件
重放/存活性失败保持显式	PR C + PR D	生命周期/重放测试套件及 `compaction-retry-mutating-tool`
GPT-5.5 匹配或优于 Opus 4.7	PR D	`qa-agentic-parity-report.md` 和 `qa-agentic-parity-summary.json`

审查速查：改前 vs 改后

改前用户可见问题	改后审查信号
GPT-5.5 计划后停止	PR A 显示动作或阻塞行为，而非仅评论形式的完成
工具使用在严格 OpenAI/Codex schema 下不稳定	PR C 保持工具注册和无参数调用的可预测性
`/elevated full` 提示有时误导	PR B 将引导与实际运行时能力和阻塞原因绑定
长任务可能消失在重放/压缩的模糊状态中	PR C 发出显式的暂停、阻塞、放弃及无效重放状态
Parity 声明仅为轶事	PR D 生成含报告和 JSON 判定，对两个模型使用相同场景覆盖

常见问题

审查一个 Parity PR 前，我需要准备什么证据证据？

合并前必须有三点：可复现症状或失败测试、验证过的根因、对应修复，以及回归测试或手动验证说明。缺任何一项，都应要求修改。

PR D 在发布门禁中的作用是什么？

PR D 提供基于场景包的 GPT-5.5 vs Opus 4.7 对比报告和 JSON 判定（qa-agentic-parity-report.md 和 qa-agentic-parity-summary.json）。只有当 PR A/B/C 已合并且 PR D 干净运行后，才能声称 parity 达成。

如果 PR D 报告显示未通过，下一步该怎么做？

保持运行时修复 / 审查循环开启，不能声称 parity。需要针对性修复运行时正确性（PR A/B/C）的问题，然后重新运行 PR D 场景包，直到报告显示无虚假成功且无回归。

GPT-5.5 / Codex parity 维护笔记：合并单元审查指南 #

合并单元 #

PR A：严格智能体执行（strict-agentic execution） #

PR B：运行时真实性（runtime truthfulness） #

PR C：执行正确性（execution correctness） #

PR D：Parity 测试框架（parity harness） #

原始六个合同与合并单元的映射关系 #

审查顺序 #

各 PR 的审查重点 #

PR A #

PR B #

PR C #

PR D #

发布门禁 #

维护者快速合并流程 #

目标到证据的映射 #

审查速查：改前 vs 改后 #

相关链接 #

常见问题 #

审查一个 Parity PR 前，我需要准备什么证据证据？ #

PR D 在发布门禁中的作用是什么？ #

如果 PR D 报告显示未通过，下一步该怎么做？ #

GPT-5.5 / Codex parity 维护笔记：合并单元审查指南

合并单元

PR A：严格智能体执行（strict-agentic execution）

PR B：运行时真实性（runtime truthfulness）

PR C：执行正确性（execution correctness）

PR D：Parity 测试框架（parity harness）

原始六个合同与合并单元的映射关系

审查顺序

各 PR 的审查重点

PR A

PR B

PR C

PR D

发布门禁

维护者快速合并流程

目标到证据的映射

审查速查：改前 vs 改后

相关链接

常见问题

审查一个 Parity PR 前，我需要准备什么证据证据？

PR D 在发布门禁中的作用是什么？

如果 PR D 报告显示未通过，下一步该怎么做？