Sakana AI、マルチLLMインテリジェンスをオーケストレートする「Fugu」を発表

東京を拠点とするSakana AIは、複雑なタスクを解決するために専門化されたモデルのプールを調整するように設計された、高度なマルチLLMオーケストレーター「Fugu」を発表しました。Fuguは単一のインテリジェントなレイヤーとして機能することで、Anthropicのような業界リーダーに匹敵するパフォーマンスを目指すと同時に、ベンダーロックインに対する戦略的なヘッジを提供します。

入れ替え可能なエージェントプールを実現する統合インターフェース

Fuguは単なるスタンドアロンの大型言語モデルではありません。「エージェントプール」を管理するために特別にトレーニングされた言語モデルです。エンドユーザーにとって、システムはOpenAI互換のAPIを通じて単一のエンティティとして機能します。しかし、内部的には、Fuguは選択、委譲、実行、検証、そして統合という複雑なサイクルを実行します。プロンプトの複雑さに応じて、Fuguは単独で問題を解決することもあれば、ワークロードに対処するために、自分自身のコピーを含む専門化されたモデルの「チーム」を動的に編成することもあります。

Sakana AIは、異なる専門的なニーズに応えるために2つの異なるバージョンを提供しています。

  • Fugu Base: 低レイテンシと、チャットボットとの対話や標準的なコードレビューなどの日常的なタスクに最適化されています。
  • Fugu Ultra: 最大限の推論品質を実現するように設計されており、科学論文の再現、サイバーセキュリティ分析、特許検索などの極めて重要なワークフローを対象としています。

ベンチマークでフロンティアモデルを凌駕

Fugu Ultraのパフォーマンス指標は驚異的であり、Anthropicの期待されるFable 5やMythos Previewと直接競合するレベルにあります。特筆すべきは、Fugu UltraがAnthropicのモデルを含まないプールを使用してこれらのスコアを達成していることであり、もしそれらのエージェントが統合されれば、さらなる可能性(天井)があることを示唆しています。

厳格なテストにおいて、Fugu Ultraはいくつかの主要な技術的ベンチマークで優れた能力を示しました。

  • SWE Bench Pro: Fugu Ultraは73.7を記録し、GPT 5.5 (58.6)やGemini 3.1 Pro (54.2)を大幅に上回りました。
  • LiveCodeBench: Fugu Ultraは93.2に達し、Opus 4.8 (87.8)やGPT 5.5 (85.3)を凌駕しました。
  • Humanity's Last Exam: このモデルは50.0を達成し、Opus 4.8 (49.8)を僅差で上回りました。
  • GPQA-D: Fugu Ultraは95.5という高い基準に並びました。

初期のベータテスターからは、専門分野における劇的な効率向上が報告されています。ある開発者は、コードレビューにおいて、GPT-5.5が約3つのバグしか指摘できなかったのに対し、Fugu Ultraは20以上のバグを特定したと述べています。

AIベンダーロックインのリスク軽減

単なるパフォーマンスを超えて、Sakana AIはFuguをデジタル主権のための重要なツールとして位置づけています。輸出規制や規制の変化によって特定のモデルへのアクセスが突然制限される可能性がある時代(Anthropicによる最近の制限など)において、単一のプロバイダーに依存することは、金融、ガバナンス、および重要インフラにとって重大な脆弱性となります。

Fuguは入れ替え可能なエージェントプールを利用しているため、あるAPIが利用できなくなった場合でも、組織はワークフローを別のプロバイダーに切り替えることができます。業界全体に及ぶ広範な制限があればプールが制限される可能性があるため、「AI主権」の完全な解決策ではありませんが、AIへの依存を分散させようとする企業にとって、不可欠なレジリエンス(回復力)の層を提供します。

主なポイント

  • 動的なオーケストレーション: Fuguは単一のAPIとして機能し、内部で専門化されたモデルのチームを管理して、多段階の複雑な問題を解決します。
  • ベンチマークにおける優位性: Fugu UltraはAnthropicのFable 5やMythosと直接競合し、コーディング(SWE Bench Pro)および推論ベンチマークにおいて大幅なリードを示しています。
  • 戦略的なレジリエンス: 入れ替え可能なモデルプールにより、ユーザーはAIプロバイダーを分散させることで、ベンダーロックインや規制による混乱のリスクを軽減できます。