Appearance
OpenClaw 通过四个修复切片(strict-agentic、运行时真话、执行正确性、质量配对)补全 GPT-5.5/Codex 的智能体执行缺口。启用 strict-agentic 后模型必须立即行动而非仅计划;运行 pnpm openclaw qa parity-report 生成与 Opus 4.7 的对比报告,通过 pass/fail 门控验证修复有效性。
OpenClaw GPT-5.5 Codex 智能体行为修复与配置
GPT-5.5 和 Codex 模型在 OpenClaw 上可能表现出四个执行缺口:只计划不执行、工具 schema 冲突、/elevated full 误报、重放丢失任务状态。OpenClaw 通过四个修复切片(PR A-D)填补这些缺口。你可以启用 strict-agentic 并运行配对报告来验证修复。
变动概览
PR A: strict-agentic 执行(阻止计划拖延)
此切片为嵌入式 Pi GPT-5 运行添加了可选的 strict-agentic 执行契约。启用后,OpenClaw 不再接受仅计划回合作为“足够好”的完成。如果模型只说了意图但没有实际使用工具或推进任务,OpenClaw 会重试并给出“立即行动”的指引,然后失败关闭为明确的阻塞状态,而不是静默结束任务。
这对 GPT-5.5 体验提升最明显的场景:
- 简短 "ok do it" 后续
- 第一步显而易见的代码任务
update_plan应作为进度追踪而非填充文本的流程
PR B: 运行时真话(消除虚假指导)
此切片让 OpenClaw 对以下两点说真话:
- 为什么 provider/runtime 调用失败
/elevated full是否实际可用
这意味着 GPT-5.5 能收到更好的运行时信号:作用域缺失、auth 刷新失败、HTML 403 认证失败、代理问题、DNS 或超时失败、以及被阻塞的全访问模式。模型不太可能幻觉出错误的补救措施,或继续请求运行时无法提供的权限模式。
PR C: 执行正确性(工具 schema 与重放)
此切片改进了两类正确性:
- provider 拥有的 OpenAI/Codex 工具 schema 兼容性
- 重放和长时间任务的可观察性
工具兼容性工作减少了严格 OpenAI/Codex 工具注册时的 schema 摩擦,尤其是无参数工具和严格对象根期望。重放/活动性工作使长时间任务更可观察,暂停、阻塞和放弃状态会明确显示,而非消失在通用失败文本中。
PR D: 配对测试框架
此切片添加了第一批 QA 实验室配对包,使 GPT-5.5 和 Opus 4.7 能在相同场景下执行并基于共享证据进行对比。
配对包是证据层,本身不改变运行时行为。
当你拥有两个 qa-suite-summary.json 文件后,使用以下命令生成发布门控报告:
bash
pnpm openclaw qa parity-report \
--repo-root . \
--candidate-summary .artifacts/qa-e2e/openai-candidate/qa-suite-summary.json \
--baseline-summary .artifacts/qa-e2e/anthropic-baseline/qa-suite-summary.json \
--output-dir .artifacts/qa-e2e/parity该命令输出:
- 一份人类可读的 Markdown 报告
- 一份机器可读的 JSON verdict
- 一个明确的
pass/fail门控结果
为什么这对 GPT-5.5 实际有提升
在这些修复之前,GPT-5.5 在 OpenClaw 上感觉比 Opus 弱,因为运行时容忍了对 GPT-5 模型尤其有害的行为:仅注释的回合、工具 schema 摩擦、模糊的权限反馈、静默的重放或压缩断裂。目标不是让 GPT-5.5 模仿 Opus,而是提供一个奖励实际进展、提供更干净的工具和权限语义、并将失败模式转化为明确的可读状态的运行契约。
用户体验从 "模型有很好的计划但停下了" 变为 "模型要么行动了,要么 OpenClaw 显示了它为什么无法行动的确切原因"。
GPT-5.5 用户前后对比
| 修复前 | PR A-D 之后 |
|---|---|
| GPT-5.5 可能会在合理计划后停止,不执行下一步工具 | PR A 将“仅计划”转为“立即行动或暴露阻塞状态” |
| 严格工具 schema 可能以令人困惑的方式拒绝无参数或 OpenAI/Codex 形状的工具 | PR C 使 provider 拥有的工具注册和调用更可预测 |
/elevated full 指导可能模糊或错误(在阻塞运行时) | PR B 给 GPT-5.5 和用户真实的运行时和权限提示 |
| 重放或压缩失败可能像任务静默消失 | PR C 明确显示暂停、阻塞、放弃和重放无效结果 |
| “GPT-5.5 感觉比 Opus 差” 多半是传闻 | PR D 将其转化为同样的场景包、同样的指标和硬性 pass/fail 门控 |
架构
mermaid
flowchart TD
A["User request"] --> B["Embedded Pi runtime"]
B --> C["Strict-agentic execution contract"]
B --> D["Provider-owned tool compatibility"]
B --> E["Runtime truthfulness"]
B --> F["Replay and liveness state"]
C --> G["Tool call or explicit blocked state"]
D --> G
E --> G
F --> G
G --> H["QA-lab parity pack"]
H --> I["Scenario report and parity gate"]发布流程
mermaid
flowchart LR
A["Merged runtime slices (PR A-C)"] --> B["Run GPT-5.5 parity pack"]
A --> C["Run Opus 4.7 parity pack"]
B --> D["qa-suite-summary.json"]
C --> E["qa-suite-summary.json"]
D --> F["openclaw qa parity-report"]
E --> F
F --> G["qa-agentic-parity-report.md"]
F --> H["qa-agentic-parity-summary.json"]
H --> I{"Gate pass?"}
I -- "yes" --> J["Evidence-backed parity claim"]
I -- "no" --> K["Keep runtime/review loop open"]场景包
首批配对包目前涵盖五个场景:
approval-turn-tool-followthrough
检查模型在简短回复“我照做”后是否真的执行了第一个工具动作,而不是仅陈述意图。
model-switch-tool-continuity
检查工具使用中的工作是否在模型/运行时切换边界保持连贯,而不是重置为评论或丢失执行上下文。
source-docs-discovery-report
检查模型能否阅读源码和文档、综合发现并以智能体方式继续任务,而不是生成浅薄的摘要后停止。
image-understanding-attachment
检查涉及附件的混合模式任务是否仍然可执行,而不是退化为模糊叙述。
compaction-retry-mutating-tool
检查带有实际突变更新的任务是否使重放不安全性明确,而不是在压缩、重试或压力下静默丢失回复状态时暗示重放安全。
场景矩阵
| 场景 | 测试内容 | 好的 GPT-5.5 行为 | 失败信号 |
|---|---|---|---|
approval-turn-tool-followthrough | 计划后的简短批准回合 | 立即执行第一个具体工具动作而非重述意图 | 仅计划后续、无工具活动、或阻塞回合但无真实阻塞原因 |
model-switch-tool-continuity | 运行时/模型切换中的工具使用 | 保持任务上下文并连贯行动 | 切换后重置为评论、丢失工具上下文或停止 |
source-docs-discovery-report | 源码阅读+综合+行动 | 找到来源、使用工具、生成有用报告且不停滞 | 浅薄摘要、缺少工具工作、或未完成回合而停止 |
image-understanding-attachment | 附件驱动的智能体工作 | 解释附件、连接到工具、继续任务 | 模糊叙述、附件被忽略、或无具体下一步行动 |
compaction-retry-mutating-tool | 压缩压力下的变化工作 | 执行真实写入并在副作用后保持重放不安全性明确 | 突变写入发生但隐含重放安全、缺失或矛盾 |
发布门控
只有当合并后的运行时同时通过配对包和运行时真话回归测试时,GPT-5.5 才能被认为处于对等或更好状态。
必需结果:
- 计划后无仅计划停滞
- 无虚假完成(无实际执行)
- 无错误
/elevated full指导 - 无静默重放或压缩放弃
- 配对包指标至少与约定的 Opus 4.7 基线一样强
对于首批配对框架,门控比较:
- 完成率
- 非预期停止率
- 有效工具调用率
- 虚假成功数
对等证据有意分为两层:
- PR D 通过 QA 实验室证明相同场景下 GPT-5.5 与 Opus 4.7 的行为
- PR B 确定性套件证明 auth、proxy、DNS 和
/elevated full真实性(在配对框架之外)
目标到证据矩阵
| 门控项目 | 负责 PR | 证据来源 | 通过信号 |
|---|---|---|---|
| GPT-5.5 不再在计划后停滞 | PR A | approval-turn-tool-followthrough + PR A 运行时套件 | 批准回合触发真实工作或显式阻塞状态 |
| GPT-5.5 不再伪造进度或虚假工具完成 | PR A + PR D | 配对报告场景结果和虚假成功计数 | 无可疑通过结果且无仅评论的完成 |
GPT-5.5 不再给出错误 /elevated full 指导 | PR B | 确定性真实性套件 | 阻塞原因和全访问提示保持运行时准确 |
| 重放/活动性失败保持明确 | PR C + PR D | PR C 生命周期/重放套件 + compaction-retry-mutating-tool | 突变工作保持重放不安全性明确,而非静默消失 |
| GPT-5.5 在约定指标上匹配或超过 Opus 4.7 | PR D | qa-agentic-parity-report.md 和 qa-agentic-parity-summary.json | 相同场景覆盖且完成率、停止行为或有效工具使用无回归 |
如何阅读配对 verdict
使用 qa-agentic-parity-summary.json 中的 verdict 作为首批配对包的最终机器可读决策。
pass表示 GPT-5.5 覆盖了与 Opus 4.7 相同的场景且未在约定聚合指标上倒退。fail表示至少一个硬门控被触发:较弱的完成率、更差的非预期停止、较弱的有效工具使用、任何虚假成功案例,或场景覆盖不匹配。- “shared/base CI issue” 本身不是配对结果。如果 PR D 之外的 CI 噪音阻塞了运行,verdict 应等待干净的合并运行时执行,而非从分支时代日志推断。
- auth、proxy、DNS 和
/elevated full真实性仍来自 PR B 的确定性套件,因此最终发布声明需要两者:一个通过的 PR D 配对 verdict 和绿色的 PR B 真实性覆盖。
谁应该启用 strict-agentic
使用 strict-agentic 的场景:
- 智能体在下一步明显时应立即行动
- GPT-5.5 或 Codex 系列模型是主要运行时
- 你更希望看到明确的阻塞状态而非“有帮助”的摘要性回复
保持默认契约的场景:
- 你想要现有的较宽松行为
- 你没有使用 GPT-5 系列模型
- 你正在测试 prompt 而非运行时强制
相关
常见问题
GPT-5.5 只计划不执行怎么解决?
启用 strict-agentic(opt-in 模式),OpenClaw 会要求模型立即使用工具或报告阻塞状态,不再接受仅计划回合作为完成。
如何生成 GPT-5.5 和 Opus 4.7 的配对报告?
首先获得两个 qa-suite-summary.json,然后运行 pnpm openclaw qa parity-report 命令(需指定 candidate 和 baseline 路径),输出包括 Markdown 报告、JSON verdict 和 pass/fail 门控结果。
启用 strict-agentic 会影响其他模型吗?
默认不启用,只影响 GPT-5 系列模型。非 GPT-5 模型继续使用默认的宽松执行契约。