മൾട്ടി-LLM ഇന്റലിജൻസ് ഏകോപിപ്പിക്കുന്നതിനായി Sakana AI 'Fugu' പുറത്തിറക്കി

സങ്കീർണ്ണമായ ജോലികൾ പരിഹരിക്കുന്നതിനായി വൈദഗ്ധ്യമുള്ള മോഡലുകളുടെ ഒരു കൂട്ടത്തെ ഏകോപിപ്പിക്കാൻ രൂപകൽപ്പന ചെയ്ത അത്യാധുനിക മൾട്ടി-LLM ഓർക്കസ്ട്രേറ്ററായ Fugu-വിനെ ടോക്കിയോ ആസ്ഥാനമായുള്ള Sakana AI അവതരിപ്പിച്ചു. ഒരു ഏകീകൃത ബുദ്ധിപരമായ പാളിയായി (intelligent layer) പ്രവർത്തിക്കുന്നതിലൂടെ, Anthropic പോലുള്ള വ്യവസായ മുൻനിരക്കാരുടെ പ്രകടനത്തോട് മത്സരിക്കാനും ഒപ്പം വെണ്ടർ ലോക്ക്-ഇൻ (vendor lock-in) തടയാനുള്ള ഒരു തന്ത്രപരമായ മാർഗ്ഗമായി മാറാനും Fugu ലക്ഷ്യമിടുന്നു.

മാറ്റം വരുത്താവുന്ന ഏജന്റ് പൂളിനായുള്ള (Swappable Agent Pool) ഏകീകൃത ഇന്റർഫേസ്

Fugu വെറുമൊരു സ്റ്റാൻഡ്‌ലോൺ ലാർജ് ലാംഗ്വേജ് മോഡൽ മാത്രമല്ല; ഒരു "ഏജന്റ് പൂൾ" (agent pool) നിയന്ത്രിക്കുന്നതിനായി പ്രത്യേകം പരിശീലിപ്പിച്ചെടുത്ത ഒരു ലാംഗ്വേജ് മോഡലാണിത്. അന്തിമ ഉപയോക്താവിന്, OpenAI-യുമായി പൊരുത്തപ്പെടുന്ന ഒരു API വഴി ഈ സിസ്റ്റം ഒരു ഏകീകൃത സംവിധാനമായി പ്രവർത്തിക്കുന്നു. എന്നാൽ ആന്തരികമായി, Fugu തിരഞ്ഞെടുക്കൽ (selection), ഡെലിഗേഷൻ (delegation), എക്സിക്യൂഷൻ (execution), പരിശോധന (checking), സിന്തസിസ് (synthesis) എന്നിങ്ങനെയുള്ള സങ്കീർണ്ണമായ ഘട്ടങ്ങളിലൂടെ കടന്നുപോകുന്നു. ഒരു പ്രോംപ്റ്റിന്റെ സങ്കീർണ്ണത അനുസരിച്ച്, Fugu ഒറ്റയ്ക്ക് പ്രശ്നം പരിഹരിക്കുകയോ അല്ലെങ്കിൽ ജോലി പൂർത്തിയാക്കാൻ അതിന്റെ തന്നെ കോപ്പികൾ ഉൾപ്പെടെയുള്ള വൈദഗ്ധ്യമുള്ള മോഡലുകളുടെ ഒരു "ടീമിനെ" ഡൈനാമിക് ആയി നിയമിക്കുകയോ ചെയ്തേക്കാം.

വിവിധ പ്രൊഫഷണൽ ആവശ്യങ്ങൾ നിറവേറ്റുന്നതിനായി Sakana AI രണ്ട് വ്യത്യസ്ത പതിപ്പുകൾ വാഗ്ദാനം ചെയ്യുന്നു:

  • Fugu Base: ചാറ്റ്ബോട്ട് സംഭാഷണങ്ങൾ, സ്റ്റാൻഡേർഡ് കോഡ് റിവ്യൂകൾ തുടങ്ങിയ ദൈനംദിന ജോലികൾക്കും കുറഞ്ഞ ലേറ്റൻസിനും (low latency) അനുയോജ്യമായ രീതിയിൽ ഒപ്റ്റിമൈസ് ചെയ്തത്.
  • Fugu Ultra: ശാസ്ത്രീയ പ്രബന്ധങ്ങളുടെ പുനർനിർമ്മാണം (scientific paper reproduction), സൈബർ സുരക്ഷാ വിശകലനം, പേറ്റന്റ് തിരച്ചിൽ തുടങ്ങിയ ഉയർന്ന കൃത്യത ആവശ്യമുള്ള പ്രവർത്തനങ്ങൾക്കായി മികച്ച റീസണിംഗ് ക്വാളിറ്റി നൽകുന്ന രീതിയിൽ രൂപകൽപ്പന ചെയ്തത്.

ബെഞ്ച്മാർക്കുകളിൽ ഫ്രോണ്ടിയർ മോഡലുകളെ മറികടക്കുന്നു

Fugu Ultra-യുടെ പ്രകടന സൂചികകൾ ശ്രദ്ധേയമാണ്, ഇത് Anthropic-ന്റെ ഏറെ പ്രതീക്ഷിക്കപ്പെടുന്ന Fable 5, Mythos Preview എന്നിവയുമായി നേരിട്ട് മത്സരിക്കാൻ ഇതിനെ പ്രാപ്തമാക്കുന്നു. ശ്രദ്ധേയമായ കാര്യം, Anthropic-ന്റെ മോഡലുകൾ ഉൾപ്പെടാത്ത ഒരു പൂൾ ഉപയോഗിച്ചാണ് Fugu Ultra ഈ സ്കോറുകൾ നേടുന്നത് എന്നതാണ്; ആ ഏജന്റുകളെ കൂടി ഉൾപ്പെടുത്തിയാൽ ഇതിലും ഉയർന്ന നിലവാരം കൈവരിക്കാൻ സാധിക്കുമെന്ന് ഇത് സൂചിപ്പിക്കുന്നു.

കർശനമായ പരിശോധനകളിൽ, പ്രധാനപ്പെട്ട സാങ്കേതിക ബെഞ്ച്മാർക്കുകളിൽ Fugu Ultra മികച്ച കഴിവുകൾ പ്രകടിപ്പിച്ചു:

  • SWE Bench Pro: Fugu Ultra 73.7 സ്കോർ ചെയ്തു, ഇത് GPT 5.5 (58.6), Gemini 3.1 Pro (54.2) എന്നിവയേക്കാൾ വളരെ മികച്ചതാണ്.
  • LiveCodeBench: Fugu Ultra 93.2 സ്കോറിലെത്തി, ഇത് Opus 4.8 (87.8), GPT 5.5 (85.3) എന്നിവയെ മറികടന്നു.
  • Humanity's Last Exam: ഈ മോഡൽ 50.0 സ്കോർ നേടി, Opus 4.8 (49.8)-നെ പിന്നിലാക്കി.
  • GPQA-D: Fugu Ultra 95.5 എന്ന ഉയർന്ന നിലവാരം കൈവരിച്ചു.

പ്രത്യേക മേഖലകളിൽ വലിയ കാര്യക്ഷമത വർദ്ധനവ് ഉണ്ടായതായി ആദ്യകാല ബീറ്റ ടെസ്റ്റർമാർ റിപ്പോർട്ട് ചെയ്യുന്നു. കോഡ് റിവ്യൂ സമയത്ത് GPT-5.5 ഏകദേശം മൂന്ന് ബഗുകൾ മാത്രം കണ്ടെത്തിയപ്പോൾ, Fugu Ultra 20-ലധികം ബഗുകൾ കണ്ടെത്തിയതായി ഒരു ഡെവലപ്പർ കുറിച്ചു.

AI വെണ്ടർ ലോക്ക്-ഇൻ (Vendor Lock-in) റിസ്കുകൾ കുറയ്ക്കുന്നു

കേവലം പ്രകടനത്തിനപ്പുറം, ഡിജിറ്റൽ പരമാധികാരത്തിനായുള്ള (digital sovereignty) ഒരു നിർണ്ണായക ഉപകരണമായി Sakana AI Fugu-വിനെ അവതരിപ്പിക്കുന്നു. എക്‌സ്‌പോർട്ട് നിയന്ത്രണങ്ങളും റെഗുലേറ്ററി മാറ്റങ്ങളും ചില പ്രത്യേക മോഡലുകളിലേക്കുള്ള പ്രവേശനം പെട്ടെന്ന് പരിമിതപ്പെടുത്താൻ സാധ്യതയുള്ള ഈ കാലഘട്ടത്തിൽ (ഉദാഹരണത്തിന് Anthropic-ന്റെ സമീപകാല നിയന്ത്രണങ്ങൾ), ഒരു സേവനദാതാവിനെ മാത്രം ആശ്രയിക്കുന്നത് ഫിനാൻസ്, ഗവേണൻസ്, നിർണ്ണായക ഇൻഫ്രാസ്ട്രക്ചർ മേഖലകളിൽ വലിയ അപകടസാധ്യതയുണ്ടാക്കുന്നു.

Fugu ഒരു മാറ്റം വരുത്താവുന്ന ഏജന്റ് പൂൾ ഉപയോഗിക്കുന്നതിനാൽ, ഒരു API ലഭ്യമാകാത്ത സാഹചര്യത്തിൽ സ്ഥാപനങ്ങൾക്ക് അവരുടെ വർക്ക്ഫ്ലോകൾ മറ്റ് സേവനദാതാക്കളിലേക്ക് മാറ്റാൻ കഴിയും. വ്യവസായ മേഖലയിലുടനീളമുള്ള നിയന്ത്രണങ്ങൾ പൂളിനെ പരിമിതപ്പെടുത്തിയേക്കാമെന്നതിനാൽ ഇത് "AI പരമാധികാരത്തിനുള്ള" (AI sovereignty) പൂർണ്ണമായ പരിഹാരമല്ലെങ്കിലും, തങ്ങളുടെ AI ആശ്രിതത്വങ്ങൾ വൈവിധ്യവൽക്കരിക്കാൻ ആഗ്രഹിക്കുന്ന സംരംഭങ്ങൾക്ക് ഇത് സുപ്രധാനമായ ഒരു പ്രതിരോധ പാളി (resilience layer) നൽകുന്നു.

പ്രധാന കാര്യങ്ങൾ

  • Dynamic Orchestration: സങ്കീർണ്ണമായ ബഹുതല പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നതിനായി വൈദഗ്ധ്യമുള്ള മോഡലുകളുടെ ഒരു ടീമിനെ ആന്തരികമായി നിയന്ത്രിക്കുന്ന ഒരു ഏകീകൃത API ആയി Fugu പ്രവർത്തിക്കുന്നു.
  • Benchmark Dominance: Fugu Ultra, Anthropic-ന്റെ Fable 5, Mythos എന്നിവയുമായി നേരിട്ട് മത്സരിക്കുകയും കോഡിംഗിലും (SWE Bench Pro) റീസണിംഗ് ബെഞ്ച്മാർക്കുകളിലും വലിയ മുന്നേറ്റം കാണിക്കുകയും ചെയ്യുന്നു.
  • Strategic Resilience: മാറ്റം വരുത്താവുന്ന മോഡൽ പൂൾ ഉപയോഗിക്കുന്നതിലൂടെ, AI സേവനദാതാക്കളെ വൈവിധ്യവൽക്കരിക്കാനും അതുവഴി വെണ്ടർ ലോക്ക്-ഇൻ, റെഗുലേറ്ററി തടസ്സങ്ങൾ എന്നിവ മൂലമുണ്ടാകുന്ന റിസ്കുകൾ കുറയ്ക്കാനും ഉപയോക്താക്കൾക്ക് സാധിക്കുന്നു.