OpenAI 发布 GPT-5.6 Sol,旨在挑战 Claude Mythos
OpenAI 正式推出了 GPT-5.6 Sol,这是一个旨在主导智能体编程(agentic coding)和网络安全领域的先进新一代模型。虽然此次发布标志着推理能力的重大飞跃,但同时也伴随着关于美国政府限制性访问协议的争议。
兼顾性能与规模的新型分层架构
OpenAI 不再采用单一模型的发布模式,而是引入了一种分层命名方案,以满足多样化的企业需求。该架构将 "Sol"、"Terra" 和 "Luna" 作为永久性的性能层级,允许开发者根据预算和复杂度进行扩展。
在层级结构的顶端是旗舰模型 Sol。其下方是 Terra,其性能与 GPT-5.5 相当,但成本仅约为其一半;而 Luna 则是经济实惠的层级。针对高强度工作负载,OpenAI 推出了用于深度推理的 "max" 模式,以及利用并行运行的子智能体(sub-agents)来处理多维度复杂任务的 "ultra" 模式。
树立编程与生物学领域的新标杆
GPT-5.6 Sol 的主要目标是超越 Anthropic 的 Claude Mythos 系列。在智能体编程任务中,数据支持了 OpenAI 的说法:在 Terminal-Bench 2.1 基准测试中,Sol Ultra 达到了惊人的 91.9%,超过了 Claude Mythos 5 (88.0%) 和 Google 的 Gemini 3.1 Pro Preview (70.7%)。
该模型在专业科学领域也展示了重大突破。在 GeneBench v1 基因组学基准测试中,Sol 得分为 30%,较 GPT-5.5 实现的 22% 有了大幅提升,且值得注意的是,其消耗的 token 更少。这种效率表明,OpenAI 正专注于“更智能”的计算,而非仅仅是“更大规模”的计算。
网络安全:防御者 vs. 攻击者
在网络安全领域,Sol 旨在成为顶级的防御工具。在 ExploitBench(该测试用于评估发现并利用 Google V8 JavaScript 引擎漏洞的能力)中,Sol 的表现与 Anthropic 的 Mythos Preview 持平,但具有一个关键优势:它使用的输出 token 仅为后者的约三分之一。
OpenAI 将 Sol 定位为防御者,而非自主攻击者。在涉及 Chromium 和 Firefox 的测试中,该模型成功识别了漏洞和利用原语(exploitation primitives),但并未生成自主的、全链路的漏洞利用程序(full-chain exploit)。OpenAI 声称,在其实际的“准备框架”(Preparedness Framework)内,Sol 仍处于“网络关键”(Cyber Critical)阈值之下。
关于政府控制访问权限的争议
GPT-5.6 Sol 的推出并非一帆风顺。目前,受美国政府强制要求,访问权限仅限于通过 API 和 Codex 提供给少数选定的合作伙伴。此前,政府曾做出将 Anthropic 的 Fable 5 撤出市场的决定。
OpenAI 对这些限制表示强烈反对,称目前的政府访问流程是“不可持续的”。该公司认为,此类限制阻碍了开发者、企业和网络防御者获取他们保护全球数字基础设施所必需的工具。
核心要点
- 分层模型策略: OpenAI 引入了新的层级结构——Sol(旗舰级)、Terra(中端)和 Luna(经济型)——以及用于并行子智能体任务执行的 "Ultra" 模式。
- 基准测试领先地位: GPT-5.6 Sol Ultra 在智能体编程领域处于行业领先地位,在 Terminal-Bench 2.1 中达到 91.9%,显著优于 Claude Mythos 和 Gemini。
- 效率优先的方法: Sol 在实现具有竞争力的网络安全和基因组学结果的同时,消耗的 token 显著减少,这可能会降低开发者处理每个任务的实际成本。
