OpenAI、Claude Mythosに対抗すべくGPT-5.6 Solをリリース

OpenAIは、エージェンティック・コーディング(agentic coding)およびサイバーセキュリティ分野での覇権を目指して設計された、洗練された新世代モデル「GPT-5.6 Sol」を正式に発表しました。今回のリリースは推論能力における大きな飛躍を意味する一方で、米国政府による制限的なアクセス・プロトコルを巡る論争が渦巻く中で行われました。

パフォーマンスとスケールを実現する新しい階層型アーキテクチャ

単一のモデルリリースから脱却し、OpenAIは多様なエンタープライズのニーズに対応するために設計された階層的な命名スキームを導入しました。このアーキテクチャでは、「Sol」、「Terra」、「Luna」を恒久的なパフォーマンス・ティア(階層)として活用しており、開発者は予算や複雑さに応じてスケールさせることが可能です。

階層の最上位に位置するのは、フラッグシップ・モデルであるSolです。その下には、GPT-5.5と同等のパフォーマンスを約半分のコストで実現するTerra、そしてコスト効率に優れたLunaが続きます。高負荷なワークロード向けに、OpenAIは深い推論を行うための「max」モードと、並列実行されるサブエージェントを利用して多面的で複雑なタスクに取り組む「ultra」モードを導入しました。

コーディングと生物学における新たなベンチマークの確立

GPT-5.6 Solの主な目的は、AnthropicのClaude Mythosクラスを凌駕することにあります。エージェンティック・コーディング・タスクにおいて、その数値はOpenAIの主張を裏付けています。Terminal-Bench 2.1ベンチマークにおいて、Sol Ultraは驚異的な91.9%を達成し、Claude Mythos 5(88.0%)およびGoogleのGemini 3.1 Pro Preview(70.7%)を上回りました。

また、本モデルは専門科学分野においても大きなブレイクスルーを示しています。ゲノミクス・ベンチマークであるGeneBench v1において、Solは30%のスコアを記録しました。これはGPT-5.5が達成した22%から大幅な向上であり、特筆すべきは、より少ないトークン消費量でこれを実現した点です。この効率性は、OpenAIが単なる「大規模な」計算ではなく、「よりスマートな」計算に注力していることを示唆しています。

サイバーセキュリティ:防御者 vs 攻撃者

サイバーセキュリティの領域において、Solは最高峰の防御ツールとなることを目指しています。Google V8 JavaScriptエンジンの脆弱性を発見・悪用する能力をテストするExploitBenchにおいて、SolはAnthropicのMythos Previewと同等のパフォーマンスを示しましたが、決定的な優位性があります。それは、出力トークン量を約3分の1に抑えている点です。

OpenAIは、Solを自律的な攻撃者ではなく、防御者として位置づけています。ChromiumおよびFirefoxを用いたテストにおいて、モデルはバグやエクスプロイト・プリミティブ(exploitation primitives)の特定には成功しましたが、自律的なフルチェーン・エクスプロイト(full-chain exploit)の生成には至りませんでした。OpenAIは、Solが自社の内部Preparedness Frameworkにおける「Cyber Critical」の閾値を下回っている状態を維持していると主張しています。

政府によるアクセス制御を巡る論争

GPT-5.6 Solの展開は、摩擦なしに進んでいるわけではありません。現在、アクセスは米国政府の命令により、APIおよびCodexを通じて選ばれた少数のパートナーに限定されています。これは、政府が以前にAnthropicのFable 5を市場から排除することを決定した流れを汲むものです。

OpenAIはこれらの制限に強く反対しており、現在の政府によるアクセスプロセスを「持続不可能(unsustainable)」であると評しています。同社は、このような制限が、開発者、企業、そしてサイバー防御者が世界のデジタル・インフラを保護するために必要とするツールへのアクセスを妨げていると主張しています。

主なポイント

  • 階層型モデル戦略: OpenAIは、Sol(フラッグシップ)、Terra(ミドルティア)、Luna(バジェット)という新しい階層を導入し、並列的なサブエージェントによるタスク実行のための「Ultra」モードも提供します。
  • ベンチマークにおける圧倒的優位性: GPT-5.6 Sol Ultraは、Terminal-Bench 2.1で91.9%を記録し、エージェンティック・コーディング分野で業界をリードしており、Claude MythosやGeminiを大幅に上回っています。
  • 効率性重視のアプローチ: Solは、大幅に少ないトークン消費量で競争力のあるサイバーセキュリティおよびゲノミクスの結果を達成しており、開発者にとってのタスクあたりの実質的なコストを低下させる可能性があります。