Skip to content

OpenClaw 通过四个修复切片(strict-agentic、运行时真话、执行正确性、质量配对)补全 GPT-5.5/Codex 的智能体执行缺口。启用 strict-agentic 后模型必须立即行动而非仅计划;运行 pnpm openclaw qa parity-report 生成与 Opus 4.7 的对比报告,通过 pass/fail 门控验证修复有效性。

OpenClaw GPT-5.5 Codex 智能体行为修复与配置

GPT-5.5 和 Codex 模型在 OpenClaw 上可能表现出四个执行缺口:只计划不执行、工具 schema 冲突、/elevated full 误报、重放丢失任务状态。OpenClaw 通过四个修复切片(PR A-D)填补这些缺口。你可以启用 strict-agentic 并运行配对报告来验证修复。

变动概览

PR A: strict-agentic 执行(阻止计划拖延)

此切片为嵌入式 Pi GPT-5 运行添加了可选的 strict-agentic 执行契约。启用后,OpenClaw 不再接受仅计划回合作为“足够好”的完成。如果模型只说了意图但没有实际使用工具或推进任务,OpenClaw 会重试并给出“立即行动”的指引,然后失败关闭为明确的阻塞状态,而不是静默结束任务。

这对 GPT-5.5 体验提升最明显的场景:

  • 简短 "ok do it" 后续
  • 第一步显而易见的代码任务
  • update_plan 应作为进度追踪而非填充文本的流程

PR B: 运行时真话(消除虚假指导)

此切片让 OpenClaw 对以下两点说真话:

  • 为什么 provider/runtime 调用失败
  • /elevated full 是否实际可用

这意味着 GPT-5.5 能收到更好的运行时信号:作用域缺失、auth 刷新失败、HTML 403 认证失败、代理问题、DNS 或超时失败、以及被阻塞的全访问模式。模型不太可能幻觉出错误的补救措施,或继续请求运行时无法提供的权限模式。

PR C: 执行正确性(工具 schema 与重放)

此切片改进了两类正确性:

  • provider 拥有的 OpenAI/Codex 工具 schema 兼容性
  • 重放和长时间任务的可观察性

工具兼容性工作减少了严格 OpenAI/Codex 工具注册时的 schema 摩擦,尤其是无参数工具和严格对象根期望。重放/活动性工作使长时间任务更可观察,暂停、阻塞和放弃状态会明确显示,而非消失在通用失败文本中。

PR D: 配对测试框架

此切片添加了第一批 QA 实验室配对包,使 GPT-5.5 和 Opus 4.7 能在相同场景下执行并基于共享证据进行对比。

配对包是证据层,本身不改变运行时行为。

当你拥有两个 qa-suite-summary.json 文件后,使用以下命令生成发布门控报告:

bash
pnpm openclaw qa parity-report \
  --repo-root . \
  --candidate-summary .artifacts/qa-e2e/openai-candidate/qa-suite-summary.json \
  --baseline-summary .artifacts/qa-e2e/anthropic-baseline/qa-suite-summary.json \
  --output-dir .artifacts/qa-e2e/parity

该命令输出:

  • 一份人类可读的 Markdown 报告
  • 一份机器可读的 JSON verdict
  • 一个明确的 pass / fail 门控结果

为什么这对 GPT-5.5 实际有提升

在这些修复之前,GPT-5.5 在 OpenClaw 上感觉比 Opus 弱,因为运行时容忍了对 GPT-5 模型尤其有害的行为:仅注释的回合、工具 schema 摩擦、模糊的权限反馈、静默的重放或压缩断裂。目标不是让 GPT-5.5 模仿 Opus,而是提供一个奖励实际进展、提供更干净的工具和权限语义、并将失败模式转化为明确的可读状态的运行契约。

用户体验从 "模型有很好的计划但停下了" 变为 "模型要么行动了,要么 OpenClaw 显示了它为什么无法行动的确切原因"。

GPT-5.5 用户前后对比

修复前PR A-D 之后
GPT-5.5 可能会在合理计划后停止,不执行下一步工具PR A 将“仅计划”转为“立即行动或暴露阻塞状态”
严格工具 schema 可能以令人困惑的方式拒绝无参数或 OpenAI/Codex 形状的工具PR C 使 provider 拥有的工具注册和调用更可预测
/elevated full 指导可能模糊或错误(在阻塞运行时)PR B 给 GPT-5.5 和用户真实的运行时和权限提示
重放或压缩失败可能像任务静默消失PR C 明确显示暂停、阻塞、放弃和重放无效结果
“GPT-5.5 感觉比 Opus 差” 多半是传闻PR D 将其转化为同样的场景包、同样的指标和硬性 pass/fail 门控

架构

mermaid
flowchart TD
    A["User request"] --> B["Embedded Pi runtime"]
    B --> C["Strict-agentic execution contract"]
    B --> D["Provider-owned tool compatibility"]
    B --> E["Runtime truthfulness"]
    B --> F["Replay and liveness state"]
    C --> G["Tool call or explicit blocked state"]
    D --> G
    E --> G
    F --> G
    G --> H["QA-lab parity pack"]
    H --> I["Scenario report and parity gate"]

发布流程

mermaid
flowchart LR
    A["Merged runtime slices (PR A-C)"] --> B["Run GPT-5.5 parity pack"]
    A --> C["Run Opus 4.7 parity pack"]
    B --> D["qa-suite-summary.json"]
    C --> E["qa-suite-summary.json"]
    D --> F["openclaw qa parity-report"]
    E --> F
    F --> G["qa-agentic-parity-report.md"]
    F --> H["qa-agentic-parity-summary.json"]
    H --> I{"Gate pass?"}
    I -- "yes" --> J["Evidence-backed parity claim"]
    I -- "no" --> K["Keep runtime/review loop open"]

场景包

首批配对包目前涵盖五个场景:

approval-turn-tool-followthrough

检查模型在简短回复“我照做”后是否真的执行了第一个工具动作,而不是仅陈述意图。

model-switch-tool-continuity

检查工具使用中的工作是否在模型/运行时切换边界保持连贯,而不是重置为评论或丢失执行上下文。

source-docs-discovery-report

检查模型能否阅读源码和文档、综合发现并以智能体方式继续任务,而不是生成浅薄的摘要后停止。

image-understanding-attachment

检查涉及附件的混合模式任务是否仍然可执行,而不是退化为模糊叙述。

compaction-retry-mutating-tool

检查带有实际突变更新的任务是否使重放不安全性明确,而不是在压缩、重试或压力下静默丢失回复状态时暗示重放安全。

场景矩阵

场景测试内容好的 GPT-5.5 行为失败信号
approval-turn-tool-followthrough计划后的简短批准回合立即执行第一个具体工具动作而非重述意图仅计划后续、无工具活动、或阻塞回合但无真实阻塞原因
model-switch-tool-continuity运行时/模型切换中的工具使用保持任务上下文并连贯行动切换后重置为评论、丢失工具上下文或停止
source-docs-discovery-report源码阅读+综合+行动找到来源、使用工具、生成有用报告且不停滞浅薄摘要、缺少工具工作、或未完成回合而停止
image-understanding-attachment附件驱动的智能体工作解释附件、连接到工具、继续任务模糊叙述、附件被忽略、或无具体下一步行动
compaction-retry-mutating-tool压缩压力下的变化工作执行真实写入并在副作用后保持重放不安全性明确突变写入发生但隐含重放安全、缺失或矛盾

发布门控

只有当合并后的运行时同时通过配对包和运行时真话回归测试时,GPT-5.5 才能被认为处于对等或更好状态。

必需结果:

  • 计划后无仅计划停滞
  • 无虚假完成(无实际执行)
  • 无错误 /elevated full 指导
  • 无静默重放或压缩放弃
  • 配对包指标至少与约定的 Opus 4.7 基线一样强

对于首批配对框架,门控比较:

  • 完成率
  • 非预期停止率
  • 有效工具调用率
  • 虚假成功数

对等证据有意分为两层:

  • PR D 通过 QA 实验室证明相同场景下 GPT-5.5 与 Opus 4.7 的行为
  • PR B 确定性套件证明 auth、proxy、DNS 和 /elevated full 真实性(在配对框架之外)

目标到证据矩阵

门控项目负责 PR证据来源通过信号
GPT-5.5 不再在计划后停滞PR Aapproval-turn-tool-followthrough + PR A 运行时套件批准回合触发真实工作或显式阻塞状态
GPT-5.5 不再伪造进度或虚假工具完成PR A + PR D配对报告场景结果和虚假成功计数无可疑通过结果且无仅评论的完成
GPT-5.5 不再给出错误 /elevated full 指导PR B确定性真实性套件阻塞原因和全访问提示保持运行时准确
重放/活动性失败保持明确PR C + PR DPR C 生命周期/重放套件 + compaction-retry-mutating-tool突变工作保持重放不安全性明确,而非静默消失
GPT-5.5 在约定指标上匹配或超过 Opus 4.7PR Dqa-agentic-parity-report.mdqa-agentic-parity-summary.json相同场景覆盖且完成率、停止行为或有效工具使用无回归

如何阅读配对 verdict

使用 qa-agentic-parity-summary.json 中的 verdict 作为首批配对包的最终机器可读决策。

  • pass 表示 GPT-5.5 覆盖了与 Opus 4.7 相同的场景且未在约定聚合指标上倒退。
  • fail 表示至少一个硬门控被触发:较弱的完成率、更差的非预期停止、较弱的有效工具使用、任何虚假成功案例,或场景覆盖不匹配。
  • “shared/base CI issue” 本身不是配对结果。如果 PR D 之外的 CI 噪音阻塞了运行,verdict 应等待干净的合并运行时执行,而非从分支时代日志推断。
  • auth、proxy、DNS 和 /elevated full 真实性仍来自 PR B 的确定性套件,因此最终发布声明需要两者:一个通过的 PR D 配对 verdict 和绿色的 PR B 真实性覆盖。

谁应该启用 strict-agentic

使用 strict-agentic 的场景:

  • 智能体在下一步明显时应立即行动
  • GPT-5.5 或 Codex 系列模型是主要运行时
  • 你更希望看到明确的阻塞状态而非“有帮助”的摘要性回复

保持默认契约的场景:

  • 你想要现有的较宽松行为
  • 你没有使用 GPT-5 系列模型
  • 你正在测试 prompt 而非运行时强制

相关

常见问题

GPT-5.5 只计划不执行怎么解决?

启用 strict-agentic(opt-in 模式),OpenClaw 会要求模型立即使用工具或报告阻塞状态,不再接受仅计划回合作为完成。

如何生成 GPT-5.5 和 Opus 4.7 的配对报告?

首先获得两个 qa-suite-summary.json,然后运行 pnpm openclaw qa parity-report 命令(需指定 candidate 和 baseline 路径),输出包括 Markdown 报告、JSON verdict 和 pass/fail 门控结果。

启用 strict-agentic 会影响其他模型吗?

默认不启用,只影响 GPT-5 系列模型。非 GPT-5 模型继续使用默认的宽松执行契约。