Appearance
在 OpenRouter 上进行红队测试(prompt injection、越狱、任何对抗性测试)需要事先获得批准——因为大多数模型提供商服务条款不支持此类用途,未经审批可能导致账号被封、模型访问受限甚至平台级封禁。OpenRouter 支持合规的 AI 安全研究,获批后会协调 provider 侧避免账号被标记。申请发送至 safety@openrouter.ai,通常 5 个工作日内获得答复。
红队测试(Red Teaming)——测试 AI 应用和模型的 prompt injection、越狱(jailbreaking)或其他对抗性场景——是 AI 安全研究的重要组成部分,但同时也可能违反模型的服务条款。
为什么需要审批
由于大多数模型和 provider 的服务条款不支持红队测试,在 OpenRouter 上进行以下操作都需要事先审批:
- Prompt injection(提示词注入)
- Jailbreaking(越狱攻击)
- 任何试图让模型违反其服务条款行为的尝试
未经审批进行红队测试的后果:
- Provider 账号被封禁
- 模型访问权限受限
- OpenRouter 平台级账号封禁
合规红队测试
OpenRouter 鼓励并支持合法的 AI 安全研究和红队测试,但需提前获得批准。
提前审批的意义在于:OpenRouter 可以与相关 provider 进行协调,确保你的账号不会因合规研究活动而被错误标记为违规。
与零数据保留(ZDR)的兼容性
请注意:某些安全分类器在请求处理期间在线运行(prompt 在内存中处于传输状态时即被检测)。因此,即使配置了完整的零数据保留(ZDR),prompt 也可能被分类器标记。
这些分类器独立于数据保留策略运行,与 Zero Data Retention(ZDR) 完全兼容——ZDR 影响数据存储,不影响在线安全检测。
如何申请审批
发送邮件至 safety@openrouter.ai,包含以下信息:
- 你的研究目的或使用场景描述
- 计划测试的模型和 provider
- 计划使用的对抗性技术类型
- 预期时间线
审批通常需要 5 个工作日。审批结果由 OpenRouter 根据具体使用场景自行决定,不保证批准。
常见问题
Q: 学术研究项目需要申请审批吗?
A: 是的,无论出于什么目的,只要涉及对抗性测试(prompt injection、越狱等),都需要申请审批。学术研究和安全研究是最常被批准的使用场景,建议在申请中详细说明研究背景和目标。
Q: 审批申请包含哪些内容最有助于获批?
A: 越具体越好:明确说明测试的具体模型(如 anthropic/claude-sonnet-4-6)、测试技术类型(如 prompt injection 而非模糊的"对抗性测试")、研究机构信息以及成果发布计划。含糊的申请更容易被拒绝或需要补充材料。
Q: 如果我的 prompt 被安全分类器误判为对抗性测试,该怎么办?
A: 联系 support@openrouter.ai 提供具体请求信息。如果是误报,OpenRouter 可以协助排查。如果确实涉及对抗性技术,则需先通过正式渠道申请审批。