Appearance
OpenClaw 个人智能体基准测试包用于在本地验证个人助手工作流(提醒、回复、记忆、编辑、工具跟随、任务状态等)的正确性,无需真实账号或聊天服务。运行命令:OPENCLAW_ENABLE_PRIVATE_QA_CLI=1 pnpm openclaw qa suite --provider-mode mock-openai --pack personal-agent --concurrency 1。所有场景使用假数据,不会改写真实用户状态,适合集成到 CI 或本地测试流程。
OpenClaw 个人智能体基准测试包场景与运行方法
OpenClaw Personal Agent Benchmark Pack 是一套基于仓库的 QA 场景包,专门用于本地个人智能体工作流的端到端验证。它不是通用的模型基准测试,也不需要新的运行器。该包复用 QA 概览 中描述的私有 QA 栈、QA 频道 以及已有的 qa/scenarios Markdown 目录。
第一个基准包有意设计为窄范围,包含以下场景:
- 通过本地 cron 投递的假个人提醒
- 通过
qa-channel的假私信和线程回复路由 - 从临时 QA 工作区记忆文件读取假偏好
- 假秘密不回显检查
- 带安全读取回推的工具跟随(经过简短 approval 轮次)
- 对敏感本地读取请求的审批拒绝停止行为
- 带证据的任务状态报告(pending、blocked、done 保持分离)
- 共享安全诊断产物(保留有用状态但去除原始个人内容)
- 带证据的完成声明(在本地证据存在前不伪造进度)
- 部分状态报告与失败恢复(保持重试边界清晰)
场景列表与运行命令
机器可读的包元数据位于 extensions/qa-lab/src/scenario-packs.ts。使用 --pack personal-agent 运行整个包:
bash
OPENCLAW_ENABLE_PRIVATE_QA_CLI=1 pnpm openclaw qa suite \
--provider-mode mock-openai \
--pack personal-agent \
--concurrency 1--pack 与重复的 --scenario 标志可累加。显式指定的场景先运行,然后包内场景按 QA_PERSONAL_AGENT_SCENARIO_IDS 定义的顺序运行,重复项会被去除。
该包设计用于 qa-channel 配合 mock-openai 或其他本地 QA 提供商通道。不得指向实时聊天服务或真实个人账户。
隐私保护模型
所有场景仅使用假用户、假偏好、假秘密以及由套件创建的临时 QA 网关工作区。它们不得读写真实的 OpenClaw 用户记忆、会话、凭证、启动代理、全局配置或实时网关状态。
产物保留在现有 QA 套件产物目录中,应视为测试输出。编辑检查使用假标记,因此即使检查失败也可以安全地审查并将问题归档。
扩展基准包
在 qa/scenarios/personal/ 下添加新用例,然后将场景 ID 加入 QA_PERSONAL_AGENT_SCENARIO_IDS。保持每个用例小型、本地化、在 mock-openai 下确定性执行,并聚焦于一个个人智能体行为。
推荐的未来候选场景:
- 编辑后的轨迹导出检查
- 本地仅插件工作流检查
在场景目录有足够稳定用例之前,不建议添加新运行器、插件、依赖、实时传输或模型评判器。
常见问题
这个基准测试包有什么用?
用于在完全本地、隔离的环境下验证 OpenClaw 个人智能体工作流的正确性,包括提醒、回复、记忆、工具调用、审批流程、任务状态报告、诊断产物隐私等。适合 CI 集成或开发阶段快速验证。
运行基准测试包需要什么条件?
需要已安装 OpenClaw 开发环境(pnpm 和 TypeScript),并设置环境变量 OPENCLAW_ENABLE_PRIVATE_QA_CLI=1。推荐使用 mock-openai 作为 provider,运行前确保没有真实聊天服务或账户被配置到当前网关。
如何添加自己的测试场景?
在 qa/scenarios/personal/ 下创建新的 Markdown 文件,定义场景步骤;然后在源码中的 QA_PERSONAL_AGENT_SCENARIO_IDS 数组中添加该场景 ID。保持场景只使用假数据并依赖 qa-channel,确保可重复执行。