Sakana AI Yazindua Fugu kwa ajili ya Kuratibu Akili ya Multi-LLM
Sakana AI inayotokea Tokyo imefichua Fugu, mratibu tata wa multi-LLM ulioundwa kuratibu mkusanyiko wa modeli maalum ili kutatua kazi tata. Kwa kufanya kazi kama tabaka moja la akili, Fugu inalenga kushindana na utendaji wa viongozi wa tasnia kama Anthropic huku ikitoa kinga ya kimkakati dhidi ya utegemezi wa mtoa huduma mmoja (vendor lock-in).
Kiolesura Moja kwa ajili ya Mkusanyiko wa Wakala Unaoweza Kubadilishwa
Fugu si modeli nyingine tu ya lugha kubwa (large language model) inayojitegemea; ni modeli ya lugha iliyofundishwa mahususi kusimamia "mkusanyiko wa wakala" (agent pool). Kwa mtumiaji wa mwisho, mfumo huu hufanya kazi kama kitu kimoja kupitia API inayooana na OpenAI. Hata hivyo, ndani yake, Fugu hufanya mzunguko tata wa uteuzi, udelegate, utekelezaji, ukaguzi, na muhtasari. Kulingana na ugumu wa maelekezo (prompt), Fugu inaweza kutatua tatizo peke yake au kuajiri "timu" ya modeli maalum kwa njia ya kidinamiki—ikiwa ni pamoja na nakala zake zenyewe—ili kukabiliana na mzigo wa kazi.
Sakana AI inatoa matoleo mawili tofauti ili kukidhi mahitaji mbalimbali ya kitaalamu:
- Fugu Base: Imeboreshwa kwa ajili ya kuchelewa kwa chini (low latency) na kazi za kila siku kama vile mwingiliano wa chatbot na ukaguzi wa kawaida wa kodi (code reviews).
- Fugu Ultra: Imeundwa kwa ajili ya ubora wa juu wa uwezo wa kufikiri (reasoning), ikilenga michakato muhimu kama vile urudiaji wa makala za kisayansi, uchambuzi wa usalama wa mtandao, na utafutaji wa hati miliki.
Kuzidi Mifano ya Kipekee katika Vipimo (Benchmarks)
Vipimo vya utendaji vya Fugu Ultra ni vya kushangaza, vikiifanya iwe katika ushindani wa moja kwa moja na Fable 5 na Mythos Preview za Anthropic ambazo zimevizia kwa hamu. Inashangaza kwamba, Fugu Ultra inafikia alama hizi kwa kutumia mkusanyiko ambao haujajumuisha modeli za Anthropic, jambo linaloashiria uwezo mkubwa zaidi ikiwa wakala hao wangeunganishwa.
Katika majaribio makali, Fugu Ultra ilionyesha uwezo bora katika vipimo kadhaa muhimu vya kiufundi:
- SWE Bench Pro: Fugu Ultra ilipata alama ya 73.7, ikizidi kwa kiasi kikubwa GPT 5.5 (58.6) na Gemini 3.1 Pro (54.2).
- LiveCodeBench: Fugu Ultra ilifikia 93.2, ikizidi Opus 4.8 (87.8) na GPT 5.5 (85.3).
- Humanity's Last Exam: Modeli hiyo ilipata 50.0, ikimshinda Opus 4.8 (49.8) kwa kiasi kidogo.
- GPQA-D: Fugu Ultra ililingana na kiwango cha juu cha 95.5.
Watajaribu wa awali wa beta wameripoti ongezeko kubwa la ufanisi katika nyanja maalum. Mmoja wa watengenezaji programu alibainisha kuwa wakati wa ukaguzi wa kodi, Fugu Ultra ilitambua zaidi ya hitilafu (bugs) 20, wakati GPT-5.5 ilionyesha takriban tatu tu.
Kupunguza Hatari za Utegemezi wa Mtoa Huduma wa AI (Vendor Lock-in)
Zaidi ya utendaji safi, Sakana AI inaiweka Fugu kama zana muhimu kwa uhuru wa kidijitali (digital sovereignty). Katika enzi ambapo udhibiti wa usafirishaji na mabadiliko ya kisheria yanaweza kuzuia ghafla ufikiaji wa modeli fulani (kama vile vikwazo vya hivi karibuni vya Anthropic), kutegemea mtoa huduma mmoja kunawakilisha udhaifu mkubwa kwa sekta ya fedha, utawala, na miundombinu muhimu.
Kwa sababu Fugu inatumia mkusanyiko wa wakala unaoweza kubadilishwa, mashirika yanaweza kuelekeza michakato yao kwa watoa huduma tofauti ikiwa API moja itasimama. Ingawa si suluhisho kamili la "uhuru wa AI"—kwani vikwazo vya kiviwanda vya kote vinaweza bado kupunguza mkusanyiko huo—inatoa tabaka muhimu la ustahimilivu kwa kampuni zinazotafuta kupanua watoa huduma wao wa AI.
Mambo Muhimu ya Kuzingatia
- Uratibu wa Kidinamiki: Fugu hufanya kazi kama API moja inayosimamia timu ya modeli maalum ndani yake ili kutatua matatizo tata ya hatua nyingi.
- Utawala katika Vipimo: Fugu Ultra inashindana moja kwa moja na Fable 5 na Mythos za Anthropic, ikionyesha uongozi mkubwa katika vipimo vya uandishi wa kodi (SWE Bench Pro) na uwezo wa kufikiri.
- Ustahimilivu wa Kimkakati: Mkusanyiko wa modeli unaoweza kubadilishwa unawawezesha watumiaji kupunguza hatari za utegemezi wa mtoa huduma mmoja na usumbufu wa kisheria kwa kupanua watoa huduma wa AI.