Sakana AI Melancarkan Fugu untuk Mengorkestrasi Kecerdasan Multi-LLM
Sakana AI yang berpangkalan di Tokyo telah mendedahkan Fugu, sebuah pengorkestrasi multi-LLM canggih yang direka untuk menyelaraskan sekumpulan model khusus bagi menyelesaikan tugasan kompleks. Dengan bertindak sebagai satu lapisan pintar tunggal, Fugu bertujuan untuk menyaingi prestasi peneraju industri seperti Anthropic sambil menawarkan lindung nilai strategik terhadap isu vendor lock-in (pergantungan kepada pembekal tunggal).
Antara Muka Bersatu untuk Kolam Ejen yang Boleh Ditukar Ganti
Fugu bukan sekadar model bahasa besar (LLM) berdiri sendiri yang lain; ia adalah model bahasa yang dilatih khusus untuk menguruskan "kolam ejen" (agent pool). Bagi pengguna akhir, sistem ini berfungsi sebagai satu entiti tunggal melalui API yang serasi dengan OpenAI. Walau bagaimanapun, secara dalaman, Fugu menjalankan kitaran kompleks yang melibatkan pemilihan, delegasi, pelaksanaan, penyemakan, dan sintesis. Bergantung pada kerumitan arahan (prompt), Fugu mungkin menyelesaikan masalah secara bersendirian atau merekrut "pasukan" model khusus secara dinamik—termasuk salinan dirinya sendiri—untuk menangani beban kerja tersebut.
Sakana AI menawarkan dua versi berbeza untuk memenuhi keperluan profesional yang berlainan:
- Fugu Base: Dioptimumkan untuk kependaman (latency) rendah dan tugasan harian seperti interaksi bot sembang dan semakan kod standard.
- Fugu Ultra: Direka untuk kualiti penaakulan maksimum, menyasarkan aliran kerja berisiko tinggi seperti reproduksi kertas saintifik, analisis keselamatan siber, dan carian paten.
Mengatasi Model Frontier dalam Penanda Aras
Metrik prestasi bagi Fugu Ultra sangat mengagumkan, meletakkannya dalam persaingan langsung dengan Fable 5 dan Mythos Preview daripada Anthropic yang amat dinantikan. Menariknya, Fugu Ultra mencapai skor ini menggunakan kolam yang tidak menyertakan model Anthropic, yang menunjukkan potensi yang lebih tinggi jika ejen-ejen tersebut disepadukan.
Dalam ujian yang ketat, Fugu Ultra menunjukkan keupayaan unggul merentasi beberapa penanda aras teknikal utama:
- SWE Bench Pro: Fugu Ultra mencatatkan skor 73.7, mengatasi GPT 5.5 (58.6) dan Gemini 3.1 Pro (54.2) dengan ketara.
- LiveCodeBench: Fugu Ultra mencapai 93.2, mengatasi Opus 4.8 (87.8) dan GPT 5.5 (85.3).
- Humanity's Last Exam: Model ini mencapai 50.0, mengatasi Opus 4.8 (49.8) sedikit.
- GPQA-D: Fugu Ultra menyamai piawaian tinggi 95.5.
Penguji beta awal telah melaporkan peningkatan kecekapan yang besar dalam bidang khusus. Seorang pembangun menyatakan bahawa semasa semakan kod, Fugu Ultra mengenal pasti lebih daripada 20 pepijat (bugs), manakala GPT-5.5 hanya menandakan kira-kira tiga sahaja.
Mengurangkan Risiko Vendor Lock-in AI
Selain prestasi semata-mata, Sakana AI memposisikan Fugu sebagai alat kritikal untuk kedaulatan digital. Dalam era di mana kawalan eksport dan peralihan kawal selia boleh menyekat akses kepada model tertentu secara tiba-tiba (seperti sekatan terbaru Anthropic), bergantung kepada pembekal tunggal mewakili kerentanan ketara bagi sektor kewangan, tadbir urus, dan infrastruktur kritikal.
Oleh kerana Fugu menggunakan kolam ejen yang boleh ditukar ganti, organisasi boleh mengalihkan aliran kerja mereka kepada pembekal yang berbeza jika satu API terhenti. Walaupun ia bukan penyelesaian menyeluruh untuk "kedaulatan AI"—memandangkan sekatan meluas dalam industri masih boleh mengehadkan kolam tersebut—ia menyediakan lapisan daya tahan yang penting bagi perusahaan yang ingin mempelbagaikan kebergantungan AI mereka.
Ringkasan Utama
- Pengorkestrasian Dinamik: Fugu berfungsi sebagai satu API tunggal yang menguruskan pasukan model khusus secara dalaman untuk menyelesaikan masalah kompleks yang melibatkan pelbagai langkah.
- Dominasi Penanda Aras: