Sakana AI Melancarkan Fugu untuk Mengatur Gerak Kecerdasan Multi LLM

Translated for your language. Read the original.

AI-assisted draft.

In this article

Sakana AI Melancarkan Fugu untuk Mengorkestrasi Kecerdasan Multi-LLM

Sakana AI yang berpangkalan di Tokyo telah mendedahkan Fugu, sebuah pengorkestrasi multi-LLM canggih yang direka untuk menyelaraskan sekumpulan model khusus bagi menyelesaikan tugasan kompleks. Dengan bertindak sebagai satu lapisan pintar tunggal, Fugu bertujuan untuk menyaingi prestasi peneraju industri seperti Anthropic sambil menawarkan lindung nilai strategik terhadap isu vendor lock-in (pergantungan kepada pembekal tunggal).

Antara Muka Bersatu untuk Kolam Ejen yang Boleh Ditukar Ganti

Fugu bukan sekadar model bahasa besar (LLM) berdiri sendiri yang lain; ia adalah model bahasa yang dilatih khusus untuk menguruskan "kolam ejen" (agent pool). Bagi pengguna akhir, sistem ini berfungsi sebagai satu entiti tunggal melalui API yang serasi dengan OpenAI. Walau bagaimanapun, secara dalaman, Fugu menjalankan kitaran kompleks yang melibatkan pemilihan, delegasi, pelaksanaan, penyemakan, dan sintesis. Bergantung pada kerumitan arahan (prompt), Fugu mungkin menyelesaikan masalah secara bersendirian atau merekrut "pasukan" model khusus secara dinamik—termasuk salinan dirinya sendiri—untuk menangani beban kerja tersebut.

Sakana AI menawarkan dua versi berbeza untuk memenuhi keperluan profesional yang berlainan:

Fugu Base: Dioptimumkan untuk kependaman (latency) rendah dan tugasan harian seperti interaksi bot sembang dan semakan kod standard.
Fugu Ultra: Direka untuk kualiti penaakulan maksimum, menyasarkan aliran kerja berisiko tinggi seperti reproduksi kertas saintifik, analisis keselamatan siber, dan carian paten.

Mengatasi Model Frontier dalam Penanda Aras

Metrik prestasi bagi Fugu Ultra sangat mengagumkan, meletakkannya dalam persaingan langsung dengan Fable 5 dan Mythos Preview daripada Anthropic yang amat dinantikan. Menariknya, Fugu Ultra mencapai skor ini menggunakan kolam yang tidak menyertakan model Anthropic, yang menunjukkan potensi yang lebih tinggi jika ejen-ejen tersebut disepadukan.

Dalam ujian yang ketat, Fugu Ultra menunjukkan keupayaan unggul merentasi beberapa penanda aras teknikal utama:

SWE Bench Pro: Fugu Ultra mencatatkan skor 73.7, mengatasi GPT 5.5 (58.6) dan Gemini 3.1 Pro (54.2) dengan ketara.
LiveCodeBench: Fugu Ultra mencapai 93.2, mengatasi Opus 4.8 (87.8) dan GPT 5.5 (85.3).
Humanity's Last Exam: Model ini mencapai 50.0, mengatasi Opus 4.8 (49.8) sedikit.
GPQA-D: Fugu Ultra menyamai piawaian tinggi 95.5.

Penguji beta awal telah melaporkan peningkatan kecekapan yang besar dalam bidang khusus. Seorang pembangun menyatakan bahawa semasa semakan kod, Fugu Ultra mengenal pasti lebih daripada 20 pepijat (bugs), manakala GPT-5.5 hanya menandakan kira-kira tiga sahaja.

Mengurangkan Risiko Vendor Lock-in AI

Selain prestasi semata-mata, Sakana AI memposisikan Fugu sebagai alat kritikal untuk kedaulatan digital. Dalam era di mana kawalan eksport dan peralihan kawal selia boleh menyekat akses kepada model tertentu secara tiba-tiba (seperti sekatan terbaru Anthropic), bergantung kepada pembekal tunggal mewakili kerentanan ketara bagi sektor kewangan, tadbir urus, dan infrastruktur kritikal.

Oleh kerana Fugu menggunakan kolam ejen yang boleh ditukar ganti, organisasi boleh mengalihkan aliran kerja mereka kepada pembekal yang berbeza jika satu API terhenti. Walaupun ia bukan penyelesaian menyeluruh untuk "kedaulatan AI"—memandangkan sekatan meluas dalam industri masih boleh mengehadkan kolam tersebut—ia menyediakan lapisan daya tahan yang penting bagi perusahaan yang ingin mempelbagaikan kebergantungan AI mereka.

Ringkasan Utama

Pengorkestrasian Dinamik: Fugu berfungsi sebagai satu API tunggal yang menguruskan pasukan model khusus secara dalaman untuk menyelesaikan masalah kompleks yang melibatkan pelbagai langkah.
Dominasi Penanda Aras:

Sakana AI Melancarkan Fugu untuk Mengatur Gerak Kecerdasan Multi LLM

Sakana AI Melancarkan Fugu untuk Mengorkestrasi Kecerdasan Multi-LLM

Antara Muka Bersatu untuk Kolam Ejen yang Boleh Ditukar Ganti

Mengatasi Model Frontier dalam Penanda Aras

Mengurangkan Risiko Vendor Lock-in AI

Ringkasan Utama

Continue reading

GLM 5.2 oleh Zhipu AI Merapatkan Jurang dengan Gergasi Pengkodan Sumber Tertutup

Aliran Kerja AI, E-dagang, dan Orkestrasi Ejen

e2e assure Melancarkan Cumulo: SOC Berasaskan AI Berdaulat untuk IT dan OT

𝗦𝗮𝗹𝗲𝘀𝗳𝗼𝗿𝗰𝗲 𝗮𝗻𝗱 𝗦𝗲𝗿𝘃𝗶𝗰𝗲𝗡𝗼𝘄 𝗟𝗮𝘂𝗻𝗰𝗵 𝗔𝘂𝘁𝗼𝗻𝗼𝗺𝗼𝘂𝘀 𝗔𝗴𝗲𝗻𝘁𝘀

Sistem AI Multi-Ejen: Panduan Praktikal