OpenAI 论文泄露全新的分层 GPT-5.6 Pro 模型阵容

OpenAI 最近发布的一份基因组学基准测试论文无意中揭示了 ChatGPT Pro 的未来。数据表明,OpenAI 并非准备推出单一的旗舰模型,而是正在筹备一套复杂的三层“Pro”系列,旨在平衡推理能力、吞吐量和成本。

三大支柱:Sol、Terra 与 Luna Pro

在发展的大部分时间里,OpenAI 的“Pro”产品一直作为一个单一、庞大的层级存在——即为高级用户提供的最强模型。然而,泄露的基因组学论文引入了三种截然不同的“Pro (Extended)”变体,它们镜像了现有的 GPT-5.6 架构:Sol ProTerra ProLuna Pro

根据基准测试,这些模型根据其预期用途进行分类:

  • Sol Pro: 高推理能力的性能怪兽,专为最复杂的、多步骤的分析任务而设计。
  • Terra Pro: 高吞吐量变体,针对大规模业务工作负载和企业级吞吐量进行了优化。
  • Luna Pro: 轻量级、快速且具有成本效益的变体,适用于高频的日常查询。

基准测试:性能飞跃

基因组学基准测试为标准模型与其 Pro 对应版本之间的性能差异提供了具体证据。该研究在包含 129 个任务的任务套件中测量了“通过率”(pass rate)——即在不发生错误的情况下完成多步骤分析的能力。

结果表明,Pro 变体带来了显著的智能提升,尤其是对于较低层级的模型。Sol Pro 脱颖而出,成为无可争议的领导者,实现了 31.5% 的通过率。这优于标准 Sol 模型(28.7%),并显著超越了目前行业的重量级选手,例如得分仅为 16.0% 的 Claude Opus 4.8。

有趣的是,“Pro 提升”并非均匀分布。数据表明,随着模型复杂度的增加,额外的计算资源带来的收益会递减。虽然 Luna Pro 相比其标准版本实现了 7 个百分点的巨大飞跃,但 Sol Pro 的增幅则较为温和,不足 3 个百分点。值得注意的是,Terra Pro 的通过率达到了 28.5%,这意味着 OpenAI 的高吞吐量 Pro 模型表现几乎与标准旗舰 Sol 模型一样出色。

AI 部署的战略转型

这一发现标志着 OpenAI 产品战略的根本转变。通过摒弃“一刀切”的 Pro 层级,OpenAI 正在解决开发者和企业面临的主要痛点:智能与效率之间的权衡。

提供一个既能匹配旗舰级智能又针对吞吐量进行优化的“Terra Pro”,可以让公司在无需承担纯推理模型高昂成本的情况下,实现 AI Agent 的规模化扩展。同样,“Luna Pro”为那些需要比标准模型更高的可靠性、但又无法接受完整 Sol 运行所带来的延迟的用户提供了一个折中方案。

虽然 OpenAI 尚未对这些名称或具体的 Token 成本发表官方评论(这些成本在论文的计算核算中明显缺失),但技术路线图已经非常清晰。单一旗舰模型的时代正在结束,取而代之的是一个专业级模型的专门化生态系统。

核心要点

  • 分层 Pro 架构: OpenAI 可能正转向由三种模型组成(Sol、Terra 和 Luna)的 Pro 系列,而非单一的顶级订阅。
  • 卓越的推理能力: Sol Pro 以 31.5% 的通过率树立了基因组学领域的新基准,显著超越了 Claude Opus 4.8 等竞争对手。
  • 效率提升: 新结构允许用户在最大推理能力、高吞吐量或高性价比速度之间进行选择。