Sakana AI bringt Fugu zur Orchestrierung von Multi-LLM-Intelligenz auf den Markt

Das in Tokio ansässige Unternehmen Sakana AI hat Fugu vorgestellt, einen hochentwickelten Multi-LLM-Orchestrator, der darauf ausgelegt ist, einen Pool spezialisierter Modelle zu koordinieren, um komplexe Aufgaben zu lösen. Indem Fugu als eine einzige intelligente Ebene fungiert, zielt es darauf ab, mit der Leistung von Branchenführern wie Anthropic zu konkurrieren und gleichzeitig eine strategische Absicherung gegen Vendor Lock-in zu bieten.

Eine einheitliche Schnittstelle für einen austauschbaren Agenten-Pool

Fugu ist nicht einfach nur ein weiteres eigenständiges Large Language Model; es ist ein Sprachmodell, das speziell darauf trainiert wurde, einen „Agenten-Pool“ zu verwalten. Für den Endnutzer fungiert das System über eine OpenAI-kompatible API als eine einzige Einheit. Intern führt Fugu jedoch einen komplexen Zyklus aus Auswahl, Delegation, Ausführung, Überprüfung und Synthese durch. Je nach Komplexität eines Prompts kann Fugu das Problem alleine lösen oder dynamisch ein „Team“ spezialisierter Modelle – einschließlich Kopien seiner selbst – rekrutieren, um die Arbeitslast zu bewältigen.

Sakana AI bietet zwei verschiedene Versionen an, um unterschiedlichen professionellen Anforderungen gerecht zu werden:

  • Fugu Base: Optimiert für geringe Latenz und alltägliche Aufgaben wie Chatbot-Interaktionen und Standard-Code-Reviews.
  • Fugu Ultra: Entwickelt für maximale Reasoning-Qualität, ausgerichtet auf hochkritische Workflows wie die Reproduktion wissenschaftlicher Arbeiten, Cybersicherheitsanalysen und Patentrecherchen.

Übertrifft Frontier-Modelle in Benchmarks

Die Leistungsmetriken für Fugu Ultra sind beeindruckend und stellen es in direkten Wettbewerb mit den mit Spannung erwarteten Modellen Fable 5 und Mythos Preview von Anthropic. Bemerkenswert ist, dass Fugu Ultra diese Ergebnisse mit einem Pool erzielt, der die Modelle von Anthropic nicht enthält, was auf ein noch höheres Potenzial hindeutet, falls diese Agenten integriert würden.

In strengen Tests demonstrierte Fugu Ultra überlegene Fähigkeiten in mehreren wichtigen technischen Benchmarks:

  • SWE Bench Pro: Fugu Ultra erreichte 73,7 und übertraf damit GPT 5.5 (58,6) und Gemini 3.1 Pro (54,2) deutlich.
  • LiveCodeBench: Fugu Ultra erreichte 93,2 und übertraf damit Opus 4.8 (87,8) und GPT 5.5 (85,3).
  • Humanity's Last Exam: Das Modell erreichte 50,0 und lag damit knapp vor Opus 4.8 (49,8).
  • GPQA-D: Fugu Ultra erreichte den hohen Standard von 95,5.

Erste Beta-Tester berichten von massiven Effizienzsteigerungen in spezialisierten Bereichen. Ein Entwickler merkte an, dass Fugu Ultra bei Code-Reviews über 20 Bugs identifizierte, während GPT-5.5 nur etwa drei meldete.

Risiken des AI Vendor Lock-in mindern

Über die reine Leistung hinaus positioniert Sakana AI Fugu als kritisches Werkzeug für digitale Souveränität. In einer Ära, in der Exportkontrollen und regulatorische Änderungen den Zugang zu bestimmten Modellen plötzlich einschränken können (wie etwa die jüngsten Einschränkungen von Anthropic), stellt die Abhängigkeit von einem einzigen Anbieter eine erhebliche Schwachstelle für Finanzen, Governance und kritische Infrastrukturen dar.

Da Fugu einen austauschbaren Agenten-Pool nutzt, können Unternehmen ihre Workflows auf andere Anbieter umleiten, falls eine API ausfällt. Obwohl dies keine vollständige Lösung für „KI-Souveränität“ darstellt – da eine weitreichende branchenweite Einschränkung den Pool immer noch limitieren könnte –, bietet es eine lebenswichtige Ebene der Resilienz für Unternehmen, die ihre KI-Abhängigkeiten diversifizieren möchten.

Die wichtigsten Erkenntnisse

  • Dynamische Orchestrierung: Fugu fungiert als eine einzige API, die intern ein Team spezialisierter Modelle verwaltet, um mehrstufige, komplexe Probleme zu lösen.
  • Dominanz in Benchmarks: Fugu Ultra steht in direktem Wettbewerb mit Anthropics Fable 5 und Mythos und zeigt deutliche Vorsprünge in Coding- (SWE Bench Pro) und Reasoning-Benchmarks.
  • Strategische Resilienz: Der austauschbare Modell-Pool ermöglicht es Nutzern, die Risiken von Vendor Lock-in und regulatorischen Störungen zu mindern, indem sie KI-Anbieter diversifizieren.