Appearance
GPT-5.3-Codex 是 OpenAI Preparedness Framework 中第一个被标记为"高网络安全能力"的模型。为防止滥用,OpenAI 部署了自动分类器监控高危网络安全活动,并在检测到时将请求降级到 GPT-5.2。合法安全研究者可通过 Trusted Access for Cyber 计划恢复完整能力。
Codex 网络安全能力与安全策略
GPT-5.3-Codex 是 OpenAI 首个在 Preparedness Framework 下被划分为"高网络安全能力"的模型,因此需要额外的安全防护措施——包括训练模型拒绝明显的恶意请求(如窃取凭据)。
在安全训练之外,OpenAI 还部署了基于自动分类器的监控机制,检测可疑的网络安全活动信号,并将高风险流量路由到能力相对较低的模型(GPT-5.2)。预计受此影响的流量比例极小,OpenAI 正在持续优化相关策略、分类器和产品内通知机制。
为什么要这样做
近几个月,模型在网络安全任务(漏洞发现等)上的性能有显著提升,对开发者和安全专业人员都有好处。随着模型在漏洞发现等任务上持续进步,OpenAI 采取预防性措施:扩大保护范围、强化执行,在支持合法研究的同时减缓滥用。
网络安全能力天然是"双刃剑"。渗透测试、漏洞研究、大规模扫描、恶意软件分析、威胁情报——这些重要的防御性工作所依赖的知识和技术,同样可以用于实际危害。
为此,OpenAI 推出了 Trusted Access for Cyber 试点计划,让个人和组织在可能触发高风险检测的场景下继续使用模型而不受影响。
工作机制
进行网络安全相关工作(或可能被自动检测系统误判的类似活动)的开发者和安全专业人员,其请求可能被路由到 GPT-5.2 作为降级处理。预计受影响流量比例极小,OpenAI 正在积极校准策略和分类器。
Codex CLI 最新 alpha 版本已加入产品内提示,当请求被路由时会显示通知;所有客户端将在未来几天内支持该提示。
受降级影响的账号可通过加入下方的 Trusted Access 计划恢复 GPT-5.3-Codex 访问权限。
由于加入 Trusted Access 并非对每个人都合适,OpenAI 计划在扩大这些措施和增强网络安全韧性的过程中,将账号级别的安全检查转为请求级别的检查。
Trusted Access for Cyber
OpenAI 正在试点"可信访问"计划,允许开发者在政策和分类器持续校准期间保留高级能力。目标是让极少数用户需要加入此计划。
使用模型进行可能触发高风险检测的网络安全工作:
- 个人用户:在 chatgpt.com/cyber 验证身份
- 企业用户:可通过 OpenAI 代表申请企业可信访问,默认为整个团队启用
需要更强网络安全能力或更宽松模型以加速合法防御工作的安全研究人员和团队,可申请加入仅限邀请的计划。获得可信访问的用户仍须遵守 OpenAI 的使用政策和服务条款。
误判处理
合法或非网络安全活动偶尔可能被误标。当路由发生时,响应模型会在 API 请求日志中显示,CLI 也会有产品内通知(很快所有客户端都将支持)。如果你认为遭遇了误判,请通过 /feedback 提交反馈。
常见问题
Q: 我做的是合法安全研究,请求被降级了怎么办?
A: 先在 chatgpt.com/cyber 验证身份,加入 Trusted Access 计划。验证后请求将不再被降级到 GPT-5.2。
Q: 降级到 GPT-5.2 会有什么影响?
A: GPT-5.2 的网络安全能力相对较低,对复杂漏洞分析、高级渗透测试场景的支持会减弱。正常编码、文档写作等非安全相关工作不受影响。
Q: OpenAI 怎么判断一个请求是"高风险"的?
A: 通过自动分类器检测请求内容中的网络安全活动信号。具体标准未公开,误判情况可通过 /feedback 报告,OpenAI 会根据反馈持续优化分类器。