OpenClaw 通过四个修复切片（strict-agentic、运行时真话、执行正确性、质量配对）补全 GPT-5.5/Codex 的智能体执行缺口。启用 strict-agentic 后模型必须立即行动而非仅计划；运行 pnpm openclaw qa parity-report 生成与 Opus 4.7 的对比报告，通过 pass/fail 门控验证修复有效性。

OpenClaw GPT-5.5 Codex 智能体行为修复与配置

GPT-5.5 和 Codex 模型在 OpenClaw 上可能表现出四个执行缺口：只计划不执行、工具 schema 冲突、/elevated full 误报、重放丢失任务状态。OpenClaw 通过四个修复切片（PR A-D）填补这些缺口。你可以启用 strict-agentic 并运行配对报告来验证修复。

变动概览

PR A: strict-agentic 执行（阻止计划拖延）

此切片为嵌入式 Pi GPT-5 运行添加了可选的 strict-agentic 执行契约。启用后，OpenClaw 不再接受仅计划回合作为“足够好”的完成。如果模型只说了意图但没有实际使用工具或推进任务，OpenClaw 会重试并给出“立即行动”的指引，然后失败关闭为明确的阻塞状态，而不是静默结束任务。

这对 GPT-5.5 体验提升最明显的场景：

简短 “ok do it” 后续
第一步显而易见的代码任务
update_plan 应作为进度追踪而非填充文本的流程

PR B: 运行时真话（消除虚假指导）

此切片让 OpenClaw 对以下两点说真话：

为什么 provider/runtime 调用失败
/elevated full 是否实际可用

这意味着 GPT-5.5 能收到更好的运行时信号：作用域缺失、auth 刷新失败、HTML 403 认证失败、代理问题、DNS 或超时失败、以及被阻塞的全访问模式。模型不太可能幻觉出错误的补救措施，或继续请求运行时无法提供的权限模式。

PR C: 执行正确性（工具 schema 与重放）

此切片改进了两类正确性：

provider 拥有的 OpenAI/Codex 工具 schema 兼容性
重放和长时间任务的可观察性

工具兼容性工作减少了严格 OpenAI/Codex 工具注册时的 schema 摩擦，尤其是无参数工具和严格对象根期望。重放/活动性工作使长时间任务更可观察，暂停、阻塞和放弃状态会明确显示，而非消失在通用失败文本中。

PR D: 配对测试框架

此切片添加了第一批 QA 实验室配对包，使 GPT-5.5 和 Opus 4.7 能在相同场景下执行并基于共享证据进行对比。

配对包是证据层，本身不改变运行时行为。

当你拥有两个 qa-suite-summary.json 文件后，使用以下命令生成发布门控报告：

pnpm openclaw qa parity-report \
  --repo-root . \
  --candidate-summary .artifacts/qa-e2e/openai-candidate/qa-suite-summary.json \
  --baseline-summary .artifacts/qa-e2e/anthropic-baseline/qa-suite-summary.json \
  --output-dir .artifacts/qa-e2e/parity

该命令输出：

一份人类可读的 Markdown 报告
一份机器可读的 JSON verdict
一个明确的 pass / fail 门控结果

为什么这对 GPT-5.5 实际有提升

在这些修复之前，GPT-5.5 在 OpenClaw 上感觉比 Opus 弱，因为运行时容忍了对 GPT-5 模型尤其有害的行为：仅注释的回合、工具 schema 摩擦、模糊的权限反馈、静默的重放或压缩断裂。目标不是让 GPT-5.5 模仿 Opus，而是提供一个奖励实际进展、提供更干净的工具和权限语义、并将失败模式转化为明确的可读状态的运行契约。

用户体验从 “模型有很好的计划但停下了” 变为 “模型要么行动了，要么 OpenClaw 显示了它为什么无法行动的确切原因”。

GPT-5.5 用户前后对比

修复前	PR A-D 之后
GPT-5.5 可能会在合理计划后停止，不执行下一步工具	PR A 将“仅计划”转为“立即行动或暴露阻塞状态”
严格工具 schema 可能以令人困惑的方式拒绝无参数或 OpenAI/Codex 形状的工具	PR C 使 provider 拥有的工具注册和调用更可预测
`/elevated full` 指导可能模糊或错误（在阻塞运行时）	PR B 给 GPT-5.5 和用户真实的运行时和权限提示
重放或压缩失败可能像任务静默消失	PR C 明确显示暂停、阻塞、放弃和重放无效结果
“GPT-5.5 感觉比 Opus 差” 多半是传闻	PR D 将其转化为同样的场景包、同样的指标和硬性 pass/fail 门控

架构

flowchart TD
    A["User request"] --> B["Embedded Pi runtime"]
    B --> C["Strict-agentic execution contract"]
    B --> D["Provider-owned tool compatibility"]
    B --> E["Runtime truthfulness"]
    B --> F["Replay and liveness state"]
    C --> G["Tool call or explicit blocked state"]
    D --> G
    E --> G
    F --> G
    G --> H["QA-lab parity pack"]
    H --> I["Scenario report and parity gate"]

发布流程

flowchart LR
    A["Merged runtime slices (PR A-C)"] --> B["Run GPT-5.5 parity pack"]
    A --> C["Run Opus 4.7 parity pack"]
    B --> D["qa-suite-summary.json"]
    C --> E["qa-suite-summary.json"]
    D --> F["openclaw qa parity-report"]
    E --> F
    F --> G["qa-agentic-parity-report.md"]
    F --> H["qa-agentic-parity-summary.json"]
    H --> I{"Gate pass?"}
    I -- "yes" --> J["Evidence-backed parity claim"]
    I -- "no" --> K["Keep runtime/review loop open"]

场景包

首批配对包目前涵盖五个场景：

`approval-turn-tool-followthrough`

检查模型在简短回复“我照做”后是否真的执行了第一个工具动作，而不是仅陈述意图。

`model-switch-tool-continuity`

检查工具使用中的工作是否在模型/运行时切换边界保持连贯，而不是重置为评论或丢失执行上下文。

`source-docs-discovery-report`

检查模型能否阅读源码和文档、综合发现并以智能体方式继续任务，而不是生成浅薄的摘要后停止。

`image-understanding-attachment`

检查涉及附件的混合模式任务是否仍然可执行，而不是退化为模糊叙述。

`compaction-retry-mutating-tool`

检查带有实际突变更新的任务是否使重放不安全性明确，而不是在压缩、重试或压力下静默丢失回复状态时暗示重放安全。

场景矩阵

场景	测试内容	好的 GPT-5.5 行为	失败信号
`approval-turn-tool-followthrough`	计划后的简短批准回合	立即执行第一个具体工具动作而非重述意图	仅计划后续、无工具活动、或阻塞回合但无真实阻塞原因
`model-switch-tool-continuity`	运行时/模型切换中的工具使用	保持任务上下文并连贯行动	切换后重置为评论、丢失工具上下文或停止
`source-docs-discovery-report`	源码阅读+综合+行动	找到来源、使用工具、生成有用报告且不停滞	浅薄摘要、缺少工具工作、或未完成回合而停止
`image-understanding-attachment`	附件驱动的智能体工作	解释附件、连接到工具、继续任务	模糊叙述、附件被忽略、或无具体下一步行动
`compaction-retry-mutating-tool`	压缩压力下的变化工作	执行真实写入并在副作用后保持重放不安全性明确	突变写入发生但隐含重放安全、缺失或矛盾

发布门控

只有当合并后的运行时同时通过配对包和运行时真话回归测试时，GPT-5.5 才能被认为处于对等或更好状态。

必需结果：

计划后无仅计划停滞
无虚假完成（无实际执行）
无错误 /elevated full 指导
无静默重放或压缩放弃
配对包指标至少与约定的 Opus 4.7 基线一样强

对于首批配对框架，门控比较：

完成率
非预期停止率
有效工具调用率
虚假成功数

对等证据有意分为两层：

PR D 通过 QA 实验室证明相同场景下 GPT-5.5 与 Opus 4.7 的行为
PR B 确定性套件证明 auth、proxy、DNS 和 /elevated full 真实性（在配对框架之外）

目标到证据矩阵

门控项目	负责 PR	证据来源	通过信号
GPT-5.5 不再在计划后停滞	PR A	`approval-turn-tool-followthrough` + PR A 运行时套件	批准回合触发真实工作或显式阻塞状态
GPT-5.5 不再伪造进度或虚假工具完成	PR A + PR D	配对报告场景结果和虚假成功计数	无可疑通过结果且无仅评论的完成
GPT-5.5 不再给出错误 `/elevated full` 指导	PR B	确定性真实性套件	阻塞原因和全访问提示保持运行时准确
重放/活动性失败保持明确	PR C + PR D	PR C 生命周期/重放套件 + `compaction-retry-mutating-tool`	突变工作保持重放不安全性明确，而非静默消失
GPT-5.5 在约定指标上匹配或超过 Opus 4.7	PR D	`qa-agentic-parity-report.md` 和 `qa-agentic-parity-summary.json`	相同场景覆盖且完成率、停止行为或有效工具使用无回归

如何阅读配对 verdict

使用 qa-agentic-parity-summary.json 中的 verdict 作为首批配对包的最终机器可读决策。

pass 表示 GPT-5.5 覆盖了与 Opus 4.7 相同的场景且未在约定聚合指标上倒退。
fail 表示至少一个硬门控被触发：较弱的完成率、更差的非预期停止、较弱的有效工具使用、任何虚假成功案例，或场景覆盖不匹配。
“shared/base CI issue” 本身不是配对结果。如果 PR D 之外的 CI 噪音阻塞了运行，verdict 应等待干净的合并运行时执行，而非从分支时代日志推断。
auth、proxy、DNS 和 /elevated full 真实性仍来自 PR B 的确定性套件，因此最终发布声明需要两者：一个通过的 PR D 配对 verdict 和绿色的 PR B 真实性覆盖。

谁应该启用 strict-agentic

使用 strict-agentic 的场景：

智能体在下一步明显时应立即行动
GPT-5.5 或 Codex 系列模型是主要运行时
你更希望看到明确的阻塞状态而非“有帮助”的摘要性回复

保持默认契约的场景：

你想要现有的较宽松行为
你没有使用 GPT-5 系列模型
你正在测试 prompt 而非运行时强制

常见问题

GPT-5.5 只计划不执行怎么解决？

启用 strict-agentic（opt-in 模式），OpenClaw 会要求模型立即使用工具或报告阻塞状态，不再接受仅计划回合作为完成。

如何生成 GPT-5.5 和 Opus 4.7 的配对报告？

首先获得两个 qa-suite-summary.json，然后运行 pnpm openclaw qa parity-report 命令（需指定 candidate 和 baseline 路径），输出包括 Markdown 报告、JSON verdict 和 pass/fail 门控结果。

启用 strict-agentic 会影响其他模型吗？

默认不启用，只影响 GPT-5 系列模型。非 GPT-5 模型继续使用默认的宽松执行契约。

OpenClaw GPT-5.5 Codex 智能体行为修复与配置 #

变动概览 #

PR A: strict-agentic 执行（阻止计划拖延） #

PR B: 运行时真话（消除虚假指导） #

PR C: 执行正确性（工具 schema 与重放） #

PR D: 配对测试框架 #

为什么这对 GPT-5.5 实际有提升 #

GPT-5.5 用户前后对比 #

架构 #

发布流程 #

场景包 #

approval-turn-tool-followthrough #

model-switch-tool-continuity #

source-docs-discovery-report #

image-understanding-attachment #

compaction-retry-mutating-tool #

场景矩阵 #

发布门控 #

目标到证据矩阵 #

如何阅读配对 verdict #

谁应该启用 strict-agentic #

相关 #

常见问题 #

GPT-5.5 只计划不执行怎么解决？ #

如何生成 GPT-5.5 和 Opus 4.7 的配对报告？ #

启用 strict-agentic 会影响其他模型吗？ #