Sakana AI Meluncurkan Fugu untuk Mengorkestrasi Kecerdasan Multi-LLM

Sakana AI yang berbasis di Tokyo telah meluncurkan Fugu, sebuah orkestrator multi-LLM canggih yang dirancang untuk mengoordinasikan sekumpulan model khusus guna menyelesaikan tugas-tugas kompleks. Dengan bertindak sebagai satu lapisan cerdas tunggal, Fugu bertujuan untuk menyaingi performa para pemimpin industri seperti Anthropic, sekaligus menawarkan perlindungan strategis terhadap ketergantungan pada vendor tertentu (vendor lock-in).

Antarmuka Terpadu untuk Kumpulan Agen yang Dapat Ditukar

Fugu bukan sekadar model bahasa besar (large language model) mandiri lainnya; ini adalah model bahasa yang dilatih secara khusus untuk mengelola "kumpulan agen" (agent pool). Bagi pengguna akhir, sistem ini berfungsi sebagai satu entitas tunggal melalui API yang kompatibel dengan OpenAI. Namun, secara internal, Fugu menjalankan siklus kompleks yang terdiri dari seleksi, delegasi, eksekusi, pemeriksaan, dan sintesis. Tergantung pada kompleksitas perintah (prompt), Fugu dapat menyelesaikan masalah secara mandiri atau merekrut "tim" model khusus secara dinamis—termasuk salinan dari dirinya sendiri—untuk menangani beban kerja tersebut.

Sakana AI menawarkan dua versi berbeda untuk memenuhi berbagai kebutuhan profesional:

  • Fugu Base: Dioptimalkan untuk latensi rendah dan tugas sehari-hari seperti interaksi chatbot dan peninjauan kode (code review) standar.
  • Fugu Ultra: Dirancang untuk kualitas penalaran maksimal, menargetkan alur kerja berisiko tinggi seperti reproduksi makalah ilmiah, analisis keamanan siber, dan pencarian paten.

Mengungguli Model Frontier dalam Benchmark

Metrik performa untuk Fugu Ultra sangat mencolok, menempatkannya dalam persaingan langsung dengan Fable 5 dan Mythos Preview milik Anthropic yang sangat dinantikan. Menariknya, Fugu Ultra mencapai skor-skor ini menggunakan kumpulan model yang tidak menyertakan model milik Anthropic, yang menunjukkan potensi performa yang jauh lebih tinggi jika agen-agen tersebut diintegrasikan.

Dalam pengujian yang ketat, Fugu Ultra menunjukkan kemampuan unggul di beberapa benchmark teknis utama:

  • SWE Bench Pro: Fugu Ultra meraih skor 73,7, secara signifikan mengungguli GPT 5.5 (58,6) dan Gemini 3.1 Pro (54,2).
  • LiveCodeBench: Fugu Ultra mencapai 93,2, melampaui Opus 4.8 (87,8) dan GPT 5.5 (85,3).
  • Humanity's Last Exam: Model ini mencapai skor 50,0, sedikit mengungguli Opus 4.8 (49,8).
  • GPQA-D: Fugu Ultra menyamai standar tinggi sebesar 95,5.

Penguji beta awal melaporkan peningkatan efisiensi yang masif di bidang-bidang khusus. Seorang pengembang mencatat bahwa selama peninjauan kode, Fugu Ultra mengidentifikasi lebih dari 20 bug, sementara GPT-5.5 hanya menandai sekitar tiga bug.

Memitigasi Risiko Ketergantungan Vendor AI (AI Vendor Lock-in)

Di luar performa murni, Sakana AI memposisikan Fugu sebagai alat penting untuk kedaulatan digital. Di era di mana kontrol ekspor dan pergeseran regulasi dapat tiba-tiba membatasi akses ke model tertentu (seperti pembatasan terbaru dari Anthropic), mengandalkan satu penyedia saja merupakan kerentanan nyata bagi sektor keuangan, tata kelola, dan infrastruktur kritis.

Karena Fugu menggunakan kumpulan agen yang dapat ditukar, organisasi dapat mengalihkan alur kerja mereka ke penyedia yang berbeda jika salah satu API tidak dapat diakses. Meskipun bukan solusi total untuk "kedaulatan AI"—karena pembatasan industri yang meluas tetap dapat membatasi kumpulan model tersebut—Fugu memberikan lapisan ketahanan vital bagi perusahaan yang ingin mendiversifikasi ketergantungan AI mereka.

Poin-Poin Penting

  • Orkestrasi Dinamis: Fugu berfungsi sebagai satu API yang secara internal mengelola tim model khusus untuk menyelesaikan masalah kompleks yang terdiri dari banyak langkah.
  • Dominasi Benchmark: Fugu Ultra bersaing langsung dengan Fable 5 dan Mythos milik Anthropic, menunjukkan keunggulan signifikan dalam benchmark pengodean (SWE Bench Pro) dan penalaran.
  • Ketahanan Strategis: Kumpulan model yang dapat ditukar memungkinkan pengguna untuk memitigasi risiko ketergantungan vendor dan gangguan regulasi dengan mendiversifikasi penyedia AI.