Superpowers 通过其测试脚本 test-requesting-code-review.sh 展示了一种严谨的验证方法：通过创建一个包含已知安全漏洞（如 SQL 注入和敏感信息明文日志）的代码提交，然后强制 AI 代理调用 requesting-code-review 技能来审查该变更，从而验证审查子代理是否能准确识别问题、正确评估严重性，并最终拒绝批准合并。这确保了代码审查作为质量门禁的可靠性。

Code Review 行为验证测试解读：如何用 planted bugs 验证审查子代理不会放行安全缺陷

在依赖 AI 代理进行代码审查的工作流中，一个核心的担忧是：审查代理是否会变成“橡皮图章”，对明显的缺陷视而不见或盲目放行？Superpowers 项目通过一个精心设计的集成测试 test-requesting-code-review.sh 来回答这个问题。该测试的核心思路并非测试 AI 的通用智力，而是验证当遵循 requesting-code-review 技能的模板和流程时，派生出的审查子代理是否能可靠地执行一套预设的、与安全相关的质量检查标准。

测试设计原理：从“查找缺陷”到“验证行为”

这个测试的目标不是看 AI 能不能找到 bug，而是验证当 AI 被要求扮演一个“资深代码审查员”（其行为被 code-reviewer.md 模板严格定义）时，它的输出是否符合我们预期的安全底线。测试通过两个连续的 Git commit 来构造一个真实的审查场景：

Baseline Commit: 提交一个使用了参数化查询、逻辑正确的 findUserByEmail 函数。这是一个“安全”的基线。
Planted Bug Commit: 故意引入两个真实且常见的安全漏洞：
- SQL 注入：将参数化查询改为字符串拼接。
- 敏感信息泄露：在登录成功后，使用 console.log 将用户的密码哈希（甚至密码本身）明文记录到日志中，同时哈希函数 (hash) 被替换为恒等函数，意味着密码是明文存储和比较的。

这样，测试就有了一个明确的、可被 grep 捕获的“攻击面”。

完整测试流程与五个关键检查点

测试脚本的执行流程清晰地模拟了从设置到验证的完整闭环：

环境准备：创建一个临时项目，提交安全代码作为基线。
植入漏洞：提交包含两个安全缺陷的代码。
触发技能：通过一个明确的提示词，要求正在测试的 AI 代理（Claude）使用 superpowers:requesting-code-review 技能来审查 BASE_SHA 到 HEAD_SHA 之间的变更。
执行与捕获：AI 代理按照技能指引，分派一个子代理作为“代码审查员”执行审查，并将所有输出记录到文件。
验证输出：脚本对输出文件进行五项关键验证，这些检查点直接映射了 code-reviewer.md 模板中的核心要求：

检查点 1：技能调用与子代理分派。测试会检查 Claude 的会话记录中是否明确出现了 "skill":"superpowers:requesting-code-review" 和 "name":"Agent"。这确保了 AI 没有忽略或跳过这个技能，而是真正启动了审查流程。
检查点 2：SQL 注入被标记。通过 grep 搜索输出中是否包含 sql injection、injection、string concat 等关键词。这是对“安全审查”最基本的验证。一个真正的审查员不应该漏掉这种显而易见的注入漏洞。
检查点 3：凭证处理问题被标记。搜索输出是否提及 password、credential、plaintext、log.*hash 等。这验证了审查子代理是否关注了认证和授权相关的安全实践，例如避免明文记录敏感信息。
检查点 4：严重性分类为 Critical/Important。审查输出是否使用了 Critical、Important、Severe 等高级别严重性标签。这防止审查员将严重的安全漏洞降级为“代码风格”或“小优化”问题。code-reviewer.md 模板明确要求按实际严重性分类。
检查点 5：审查员未批准合并。这是最关键的行为验证。测试会检查审查结论是否不是“Ready to merge: Yes”。相反，它应该看到“No”或“With fixes”等否定或有条件性的结论。一个面对包含安全漏洞的代码却给出“批准”结论的审查员，是一个失败的质量门禁。这个检查点直接对抗了所谓的“讨好型”或“附和型” AI 行为。

审查模板如何引导子代理行为

code-reviewer.md 文件定义了审查子代理的“人设”和检查清单，这是测试能够产生可预测输出的基础。模板指定了子代理是“资深代码审查员”，并列出了必须检查的维度：

计划对齐：实现是否符合要求？
代码质量：关注点分离、错误处理、DRY 原则。
架构：设计决策、安全、集成。
测试：是否验证真实行为、覆盖边缘情况。
生产就绪度：迁移策略、向后兼容、文档和无明显 bug。

特别值得注意的是，模板中明确将“Bugs, security issues, data loss risks”归类在 Critical (Must Fix) 下，并要求审查员“给出明确的裁决（verdict）”。测试脚本中的检查点 2、3、4 和 5 正是基于这些明确的指令来设计的。当子代理收到包含 SQL 注入和密码哈希明文日志的代码差异时，一个遵循该模板的审查员，必然会将其标记为 Critical 级别安全问题，并给出“不得合并”的结论。

这种验证方法的价值

这个测试的意义超越了单个技能的验证。它为 Superpowers 的质量门禁工作流提供了一个基准线。它证明了：

技能可被可靠触发：通过检查点 1，确保技能不是摆设。
审查标准可被固化：安全检查（SQL 注入、凭证泄露）不是依赖 AI 的“临场发挥”，而是通过模板被强制执行。
输出可被程序化验证：通过关键检查点，项目可以自动化地验证 AI 审查行为的合规性，这是持续集成（CI）中保证 AI 工作流质量的关键一步。
防止行为退化：在项目迭代中，任何对审查技能或模板的修改，都可以通过运行此测试来确保没有引入让审查员变得“宽容”的回归。

总而言之，Superpowers 的 test-requesting-code-review.sh 测试是一个优秀的范例，展示了如何通过构造可控的输入（planted bugs）和验证关键的行为输出（五个检查点），来确保 AI 编码代理的子系统——代码审查员——能够按照人类工程师设定的安全与质量标准可靠地工作。

FAQ

Q: 测试中为什么选择 SQL 注入和密码哈希明文日志作为 planted bugs？ A: 这两个是 Web 应用中最典型、危害最直接的安全漏洞。SQL 注入可导致数据泄露，而记录密码哈希（或明文）违反了基本的安全保密原则。选择它们是因为危害明确，且一个合格的代码审查员绝不应该忽视。

Q: 如何扩展这种测试来验证其他类型的缺陷检测能力？ A: 可以遵循相同的模式：在 test-requesting-code-review.sh 中，修改第二个 commit 以植入其他类型的缺陷（例如，一个可被利用的竞态条件、一个缺失的权限检查、一个严重的性能问题），然后相应地调整检查点 2-4 中的 grep 模式，以匹配审查子代理应输出的特征关键词即可。

Code Review 行为验证测试解读：如何用 planted bugs 验证审查子代理不会放行安全缺陷 #

测试设计原理：从“查找缺陷”到“验证行为” #

完整测试流程与五个关键检查点 #

审查模板如何引导子代理行为 #

这种验证方法的价值 #

FAQ #

Code Review 行为验证测试解读：如何用 planted bugs 验证审查子代理不会放行安全缺陷

测试设计原理：从“查找缺陷”到“验证行为”

完整测试流程与五个关键检查点

审查模板如何引导子代理行为

这种验证方法的价值

FAQ