OpenAI Launches GPT 5.6 Sol to Challenge Claude Mythos

Translated for your language. 阅读原文.

AI-assisted draft.

GyaanSetu Editorial上周3分钟阅读

OpenAI Launches GPT 5.6 Sol to Challenge Claude Mythos

本文目录

OpenAI 发布 GPT-5.6 Sol，旨在挑战 Claude Mythos

OpenAI 正式推出了 GPT-5.6 Sol，这是一个旨在主导智能体编程（agentic coding）和网络安全领域的先进新一代模型。虽然此次发布标志着推理能力的重大飞跃，但同时也伴随着关于美国政府限制性访问协议的争议。

兼顾性能与规模的新型分层架构

OpenAI 不再采用单一模型的发布模式，而是引入了一种分层命名方案，以满足多样化的企业需求。该架构将 "Sol"、"Terra" 和 "Luna" 作为永久性的性能层级，允许开发者根据预算和复杂度进行扩展。

在层级结构的顶端是旗舰模型 Sol。其下方是 Terra，其性能与 GPT-5.5 相当，但成本仅约为其一半；而 Luna 则是经济实惠的层级。针对高强度工作负载，OpenAI 推出了用于深度推理的 "max" 模式，以及利用并行运行的子智能体（sub-agents）来处理多维度复杂任务的 "ultra" 模式。

树立编程与生物学领域的新标杆

GPT-5.6 Sol 的主要目标是超越 Anthropic 的 Claude Mythos 系列。在智能体编程任务中，数据支持了 OpenAI 的说法：在 Terminal-Bench 2.1 基准测试中，Sol Ultra 达到了惊人的 91.9%，超过了 Claude Mythos 5 (88.0%) 和 Google 的 Gemini 3.1 Pro Preview (70.7%)。

该模型在专业科学领域也展示了重大突破。在 GeneBench v1 基因组学基准测试中，Sol 得分为 30%，较 GPT-5.5 实现的 22% 有了大幅提升，且值得注意的是，其消耗的 token 更少。这种效率表明，OpenAI 正专注于“更智能”的计算，而非仅仅是“更大规模”的计算。

网络安全：防御者 vs. 攻击者

在网络安全领域，Sol 旨在成为顶级的防御工具。在 ExploitBench（该测试用于评估发现并利用 Google V8 JavaScript 引擎漏洞的能力）中，Sol 的表现与 Anthropic 的 Mythos Preview 持平，但具有一个关键优势：它使用的输出 token 仅为后者的约三分之一。

OpenAI 将 Sol 定位为防御者，而非自主攻击者。在涉及 Chromium 和 Firefox 的测试中，该模型成功识别了漏洞和利用原语（exploitation primitives），但并未生成自主的、全链路的漏洞利用程序（full-chain exploit）。OpenAI 声称，在其实际的“准备框架”（Preparedness Framework）内，Sol 仍处于“网络关键”（Cyber Critical）阈值之下。

关于政府控制访问权限的争议

GPT-5.6 Sol 的推出并非一帆风顺。目前，受美国政府强制要求，访问权限仅限于通过 API 和 Codex 提供给少数选定的合作伙伴。此前，政府曾做出将 Anthropic 的 Fable 5 撤出市场的决定。

OpenAI 对这些限制表示强烈反对，称目前的政府访问流程是“不可持续的”。该公司认为，此类限制阻碍了开发者、企业和网络防御者获取他们保护全球数字基础设施所必需的工具。

核心要点

分层模型策略： OpenAI 引入了新的层级结构——Sol（旗舰级）、Terra（中端）和 Luna（经济型）——以及用于并行子智能体任务执行的 "Ultra" 模式。
基准测试领先地位： GPT-5.6 Sol Ultra 在智能体编程领域处于行业领先地位，在 Terminal-Bench 2.1 中达到 91.9%，显著优于 Claude Mythos 和 Gemini。
效率优先的方法： Sol 在实现具有竞争力的网络安全和基因组学结果的同时，消耗的 token 显著减少，这可能会降低开发者处理每个任务的实际成本。

OpenAI Launches GPT 5.6 Sol to Challenge Claude Mythos

OpenAI 发布 GPT-5.6 Sol，旨在挑战 Claude Mythos

兼顾性能与规模的新型分层架构

树立编程与生物学领域的新标杆

网络安全：防御者 vs. 攻击者

关于政府控制访问权限的争议

核心要点

继续阅读

OpenAI 在美国监管审查之际发布 GPT 5.6 系列

应美国政府要求，OpenAI 限制 GPT 5.6 的发布

OpenAI 的 GPT 5.6 Sol 在软件基准测试中被发现作弊

GTP 5.6 Sol：OpenAI 访问壁垒详解

GPT 5.6 仅仅是一次模型发布，真正的重点在于访问名单。