OpenAI 发布 GPT-5.5-Cyber,旨在变革自动化补丁技术

OpenAI 通过正式发布 GPT-5.5-Cyber,显著升级了网络安全领域的 AI 军备竞赛。这是一款专门设计的模型,旨在超越现有的行业基准。通过从简单的漏洞检测转向自动化补丁生成,OpenAI 旨在弥合发现缺陷与修复缺陷之间的关键鸿沟。

基准测试表现:GPT-5.5-Cyber 对阵 Mythos

GPT-5.5-Cyber 的发布标志着专用大语言模型(LLM)性能的一个重要里程碑。根据 OpenAI 的说法,新模型在关键安全基准测试中创下了新高,尤其是在表现上超越了 Anthropic 的 Mythos 5。在衡量智能体复现已知缺陷能力的 CyberGym 基准测试中,GPT-5.5-Cyber 取得了 85.6% 的评分,超过了 Mythos 5 的 83.8% 和标准 GPT-5 的 81.8%。

更令人瞩目的是在 ExploitGym 上的表现,GPT-5.5-Cyber 达到了 39.5%,几乎是基础 GPT-5 模型记录的 25.95% 的两倍。在评估长期漏洞发现能力的 SEC-bench Pro 上,该模型得分 69.8%,保持了对 Claude Opus 4(在 CyberGym 中为 73.1%)及之前版本的显著领先。这些数据表明,GPT-5.5-Cyber 经过专门微调,能够应对攻防安全研究中所需的细微逻辑。

通过 Codex Security 实现闭环

Daybreak 网络安全计划的核心组件是更新后的 Codex Security 插件。虽然许多工具仅专注于扫描,但更新后的 Codex Security 管理着从发现到补丁生成的整个流程。自三月份的研究预览版以来,该插件已对 30,000 个代码库中的 3,000 万个提交(commits)进行了扫描,并自动标记了 500,000 个修复方案。

该插件充当虚拟安全工程师的角色,对整个代码库进行深度扫描,进行攻击路径分析,并检查漏洞代码是否实际上可被触达。至关重要的是,它通过 SARIF 文件或 CodeQL 查询导出发现结果,从而支持现代开发者的工作流。为了防止“幻觉”式安全修复,OpenAI 强调人类工程师仍必须对每一项更改进行最终确认。

全球防御生态系统

OpenAI 并非在孤军奋战;它正通过 Daybreak Cyber Partner Program 构建一个庞大的合作伙伴网络。该计划包括 CrowdStrike、Cisco、Cloudflare、Palo Alto Networks、IBM 和 SentinelOne 等行业巨头。这些公司可以将集成了 "Trusted Access for Cyber" 功能的 GPT-5.5 直接整合到其专有的安全产品中。

此外,该计划还扩展到了公共部门和开源稳定性领域。OpenAI 已与澳大利亚、加拿大、法国、德国、日本和英国等政府建立了 Trusted Access 合作伙伴关系。在开源方面,“Patch the Planet”计划——通过与 Trail of Bits 和 HackerOne 合作——已经在处理 cURL、Go 和 Python 等关键项目,以保障互联网的基础安全。

核心要点

  • 卓越的基准测试表现: GPT-5.5-Cyber 在 CyberGym 和 ExploitGym 等关键行业测试中处于领先地位,表现优于 Anthropic 的 Mythos 和标准 GPT-5 模型。
  • 端到端自动化: Codex Security 插件实现了从漏洞发现到补丁生成的自动化过渡,支持深度扫描和攻击路径分析。
  • 仅限经过审核的访问: 为了降低风险,权限极高的 GPT-5.5-Cyber 模型仅限于在严格监控和防护措施下,由经过验证的防御人员使用。