OpenClaw 个人智能体基准测试包用于在本地验证个人助手工作流（提醒、回复、记忆、编辑、工具跟随、任务状态等）的正确性，无需真实账号或聊天服务。运行命令：OPENCLAW_ENABLE_PRIVATE_QA_CLI=1 pnpm openclaw qa suite --provider-mode mock-openai --pack personal-agent --concurrency 1。所有场景使用假数据，不会改写真实用户状态，适合集成到 CI 或本地测试流程。

OpenClaw 个人智能体基准测试包场景与运行方法

OpenClaw Personal Agent Benchmark Pack 是一套基于仓库的 QA 场景包，专门用于本地个人智能体工作流的端到端验证。它不是通用的模型基准测试，也不需要新的运行器。该包复用 QA 概览中描述的私有 QA 栈、QA 频道以及已有的 qa/scenarios Markdown 目录。

第一个基准包有意设计为窄范围，包含以下场景：

通过本地 cron 投递的假个人提醒
通过 qa-channel 的假私信和线程回复路由
从临时 QA 工作区记忆文件读取假偏好
假秘密不回显检查
带安全读取回推的工具跟随（经过简短 approval 轮次）
对敏感本地读取请求的审批拒绝停止行为
带证据的任务状态报告（pending、blocked、done 保持分离）
共享安全诊断产物（保留有用状态但去除原始个人内容）
带证据的完成声明（在本地证据存在前不伪造进度）
部分状态报告与失败恢复（保持重试边界清晰）

场景列表与运行命令

机器可读的包元数据位于 extensions/qa-lab/src/scenario-packs.ts。使用 --pack personal-agent 运行整个包：

OPENCLAW_ENABLE_PRIVATE_QA_CLI=1 pnpm openclaw qa suite \
  --provider-mode mock-openai \
  --pack personal-agent \
  --concurrency 1

--pack 与重复的 --scenario 标志可累加。显式指定的场景先运行，然后包内场景按 QA_PERSONAL_AGENT_SCENARIO_IDS 定义的顺序运行，重复项会被去除。

该包设计用于 qa-channel 配合 mock-openai 或其他本地 QA 提供商通道。不得指向实时聊天服务或真实个人账户。

隐私保护模型

所有场景仅使用假用户、假偏好、假秘密以及由套件创建的临时 QA 网关工作区。它们不得读写真实的 OpenClaw 用户记忆、会话、凭证、启动代理、全局配置或实时网关状态。

产物保留在现有 QA 套件产物目录中，应视为测试输出。编辑检查使用假标记，因此即使检查失败也可以安全地审查并将问题归档。

扩展基准包

在 qa/scenarios/personal/ 下添加新用例，然后将场景 ID 加入 QA_PERSONAL_AGENT_SCENARIO_IDS。保持每个用例小型、本地化、在 mock-openai 下确定性执行，并聚焦于一个个人智能体行为。

推荐的未来候选场景：

编辑后的轨迹导出检查
本地仅插件工作流检查

在场景目录有足够稳定用例之前，不建议添加新运行器、插件、依赖、实时传输或模型评判器。

常见问题

这个基准测试包有什么用？

用于在完全本地、隔离的环境下验证 OpenClaw 个人智能体工作流的正确性，包括提醒、回复、记忆、工具调用、审批流程、任务状态报告、诊断产物隐私等。适合 CI 集成或开发阶段快速验证。

运行基准测试包需要什么条件？

需要已安装 OpenClaw 开发环境（pnpm 和 TypeScript），并设置环境变量 OPENCLAW_ENABLE_PRIVATE_QA_CLI=1。推荐使用 mock-openai 作为 provider，运行前确保没有真实聊天服务或账户被配置到当前网关。

如何添加自己的测试场景？

在 qa/scenarios/personal/ 下创建新的 Markdown 文件，定义场景步骤；然后在源码中的 QA_PERSONAL_AGENT_SCENARIO_IDS 数组中添加该场景 ID。保持场景只使用假数据并依赖 qa-channel，确保可重复执行。

OpenClaw 个人智能体基准测试包场景与运行方法 #

场景列表与运行命令 #

隐私保护模型 #

扩展基准包 #

常见问题 #

这个基准测试包有什么用？ #

运行基准测试包需要什么条件？ #

如何添加自己的测试场景？ #