Sakana AI એ Multi-LLM બુદ્ધિને સંચાલિત કરવા માટે Fugu લોન્ચ કર્યું

ટોક્યો સ્થિત Sakana AI એ Fugu રજૂ કર્યું છે, જે એક અત્યાધુનિક multi-LLM ઓર્કેસ્ટ્રેટર છે, જે જટિલ કાર્યોને ઉકેલવા માટે વિશિષ્ટ મોડલ્સના સમૂહને સંકલિત કરવા માટે રચાયેલ છે. એક સિંગલ ઇન્ટેલિજન્ટ લેયર તરીકે કાર્ય કરીને, Fugu નો ઉદ્દેશ્ય Anthropic જેવા ઉદ્યોગના અગ્રણીઓની કામગીરીને ટક્કર આપવાનો છે અને સાથે સાથે વેન્ડર લોક-ઇન (vendor lock-in) સામે વ્યૂહાત્મક રક્ષણ પૂરું પાડવાનો છે.

સ્વેપેબલ એજન્ટ પૂલ માટે એક યુનિફાઇડ ઇન્ટરફેસ

Fugu માત્ર અન્ય એક સ્ટેન્ડઅલોન લાર્જ લેંગ્વેજ મોડલ નથી; તે ખાસ કરીને "એજન્ટ પૂલ" (agent pool) ને મેનેજ કરવા માટે તાલીમ પામેલું લેંગ્વેજ મોડલ છે. અંતિમ વપરાશકર્તા માટે, સિસ્ટમ OpenAI-સુસંગત API દ્વારા એક સિંગલ એન્ટિટી તરીકે કાર્ય કરે છે. જોકે, આંતરિક રીતે, Fugu પસંદગી, પ્રતિનિધિત્વ (delegation), અમલીકરણ, તપાસ અને સંશ્લેષણ (synthesis) નું એક જટિલ ચક્ર પૂર્ણ કરે છે. પ્રોમ્પ્ટની જટિલતાના આધારે, Fugu સમસ્યાને એકલા ઉકેલી શકે છે અથવા કાર્યભારને પહોંચી વળવા માટે વિશિષ્ટ મોડલ્સની "ટીમ" — જેમાં તેના પોતાના જ કોપીનો સમાવેશ થાય છે — ને ગતિશીલ રીતે નિયુક્ત કરી શકે છે.

Sakana AI વિવિધ વ્યાવસાયિક જરૂરિયાતોને પહોંચી વળવા માટે બે અલગ-અલગ વર્ઝન ઓફર કરી રહી છે:

  • Fugu Base: લો લેટન્સી (low latency) અને ચેટબોટ ઇન્ટરેક્શન તેમજ સ્ટાન્ડર્ડ કોડ રિવ્યુ જેવા રોજિંદા કાર્યો માટે ઓપ્ટિમાઇઝ્ડ.
  • Fugu Ultra: મહત્તમ રીઝનિંગ ક્વોલિટી માટે એન્જિનિયર્ડ, જે સાયન્ટિફિક પેપર રિપ્રોડક્શન, સાયબર સિક્યુરિટી એનાલિસિસ અને પેટન્ટ સર્ચ જેવા ઉચ્ચ-જોખમવાળા વર્કફ્લોને લક્ષ્ય બનાવે છે.

બેન્ચમાર્ક્સમાં ફ્રન્ટિયર મોડલ્સ કરતાં શ્રેષ્ઠ પ્રદર્શન

Fugu Ultra ના પરફોર્મન્સ મેટ્રિક્સ આશ્ચર્યજનક છે, જે તેને Anthropic ના અત્યંત અપેક્ષિત Fable 5 અને Mythos Preview સાથે સીધી સ્પર્ધામાં મૂકે છે. નોંધપાત્ર રીતે, Fugu Ultra આ સ્કોર્સ એવા પૂલનો ઉપયોગ કરીને પ્રાપ્ત કરે છે જેમાં Anthropic ના મોડલ્સનો સમાવેશ થતો નથી, જે સૂચવે છે કે જો તે એજન્ટ્સને સંકલિત કરવામાં આવે તો તે વધુ ઊંચા સ્તરો પ્રાપ્ત કરી શકે છે.

સખત પરીક્ષણમાં, Fugu Ultra એ કેટલાક મુખ્ય ટેકનિકલ બેન્ચમાર્ક્સમાં શ્રેષ્ઠ ક્ષમતાઓ દર્શાવી છે:

  • SWE Bench Pro: Fugu Ultra એ 73.7 સ્કોર કર્યો, જે GPT 5.5 (58.6) અને Gemini 3.1 Pro (54.2) કરતા નોંધપાત્ર રીતે વધુ છે.
  • LiveCodeBench: Fugu Ultra 93.2 સુધી પહોંચ્યું, જે Opus 4.8 (87.8) અને GPT 5.5 (85.3) ને વટાવી ગયું.
  • Humanity's Last Exam: મોડેલે 50.0 પ્રાપ્ત કર્યું, જે Opus 4.8 (49.8) કરતા થોડું આગળ છે.
  • GPQA-D: Fugu Ultra એ 95.5 ના ઉચ્ચ ધોરણને મેચ કર્યું.

પ્રારંભિક બીટા ટેસ્ટર્સે વિશિષ્ટ ક્ષેત્રોમાં કાર્યક્ષમતામાં મોટો વધારો નોંધાવ્યો છે. એક ડેવલપરે નોંધ્યું કે કોડ રિવ્યુ દરમિયાન, Fugu Ultra એ 20 થી વધુ બગ્સ (bugs) ઓળખ્યા, જ્યારે GPT-5.5 એ માત્ર આશરે ત્રણ જ બગ્સ દર્શાવ્યા હતા.

AI વેન્ડર લોક-ઇન (Vendor Lock-in) ના જોખમો ઘટાડવા

શુદ્ધ પ્રદર્શન ઉપરાંત, Sakana AI એ Fugu ને ડિજિટલ સાર્વભૌમત્વ (digital sovereignty) માટે એક મહત્વપૂર્ણ સાધન તરીકે સ્થાપિત કરી રહી છે. એવા યુગમાં જ્યાં નિકાસ નિયંત્રણો અને નિયમનકારી ફેરફારો અચાનક ચોક્કસ મોડલ્સ સુધીની પહોંચને મર્યાદિત કરી શકે છે (જેમ કે Anthropic ના તાજેતરના પ્રતિબંધો), એક જ પ્રદાતા પર નિર્ભર રહેવું એ ફાઇનાન્સ, ગવર્નન્સ અને મહત્વપૂર્ણ ઇન્ફ્રાસ્ટ્રક્ચર માટે એક મોટું જોખમ છે.

કારણ કે Fugu સ્વેપેબલ એજન્ટ પૂલનો ઉપયોગ કરે છે, જો એક API બંધ થઈ જાય તો સંસ્થાઓ તેમના વર્કફ્લોને અન્ય પ્રદાતાઓ તરફ વાળી શકે છે. જોકે તે "AI સાર્વભૌમત્વ" માટે સંપૂર્ણ ઉકેલ નથી — કારણ કે ઉદ્યોગ-વ્યાપી વ્યાપક પ્રતિબંધો હજુ પણ પૂલને મર્યાદિત કરી શકે છે — પરંતુ તે તેમની AI નિર્ભરતામાં વિવિધતા લાવવા માંગતી એન્ટરપ્રાઇઝ માટે સ્થિતિસ્થાપકતાનું એક મહત્વપૂર્ણ સ્તર પૂરું પાડે છે.

મુખ્ય મુદ્દાઓ

  • Dynamic Orchestration: Fugu એક સિંગલ API તરીકે કાર્ય કરે છે જે આંતરિક રીતે બહુ-પગલાંવાળી, જટિલ સમસ્યાઓને ઉકેલવા માટે વિશિષ્ટ મોડલ્સની ટીમનું સંચાલન કરે છે.
  • Benchmark Dominance: Fugu Ultra એ Anthropic ના Fable 5 અને Mythos સાથે સીધી સ્પર્ધા કરે છે, જે કોડિંગ (SWE Bench Pro) અને રીઝનિંગ બેન્ચમાર્ક્સમાં નોંધપાત્ર લીડ દર્શાવે છે.
  • Strategic Resilience: સ્વેપેબલ મોડલ પૂલ વપરાશકર્તાઓને AI પ્રદાતાઓમાં વિવિધતા લાવીને વેન્ડર લોક-ઇન અને નિયમનકારી વિક્ષેપોના જોખમો ઘટાડવાની મંજૂરી આપે છે.