பல்துறை LLM நுண்ணறிவை ஒருங்கிணைக்க Sakana AI தனது Fugu-வை அறிமுகப்படுத்துகிறது
டோக்கியோவைச் சேர்ந்த Sakana AI, சிக்கலான பணிகளைத் தீர்ப்பதற்காக நிபுணத்துவம் வாய்ந்த பல மாதிரிகளின் தொகுப்பை ஒருங்கிணைக்கும் வகையில் வடிவமைக்கப்பட்ட மேம்பட்ட பல்துறை LLM ஒருங்கிணைப்பானான (orchestrator) Fugu-வை வெளியிட்டுள்ளது. ஒரு ஒற்றை அறிவுசார் அடுக்காகச் செயல்படுவதன் மூலம், Anthropic போன்ற முன்னணி நிறுவனங்களின் செயல்திறனுக்கு இணையாகச் செயல்படுவதையும், அதே சமயம் ஒரு குறிப்பிட்ட நிறுவனத்தின் சேவைகளிலேயே தங்கியிருக்கும் (vendor lock-in) அபாயத்தைத் தவிர்க்க ஒரு மூலோபாயத் தீர்வாகவும் Fugu அமைகிறது.
மாற்றிக்கொள்ளக்கூடிய ஏஜென்ட் தொகுப்பிற்கான ஒரு ஒருங்கிணைந்த இடைமுகம்
Fugu என்பது வெறும் தனித்த ஒரு பெரிய மொழி மாதிரி (standalone large language model) மட்டுமல்ல; இது ஒரு "ஏஜென்ட் தொகுப்பை" (agent pool) நிர்வகிப்பதற்காகவே பிரத்யேகமாகப் பயிற்றுவிக்கப்பட்ட ஒரு மொழி மாதிரியாகும். இறுதிப் பயனரைப் பொறுத்தவரை, இந்த அமைப்பு OpenAI-க்கு இணக்கமான API மூலம் ஒரு ஒற்றை அமைப்பாகச் செயல்படுகிறது. இருப்பினும், உட்புறமாக, Fugu தேர்வு செய்தல், பொறுப்புகளை ஒப்படைத்தல், செயல்படுத்துதல், சரிபார்த்தல் மற்றும் தொகுத்தல் (selection, delegation, execution, checking, and synthesis) ஆகிய சிக்கலான சுழற்சிகளைச் செய்கிறது. ஒரு ப்ராம்ப்ட்டின் (prompt) சிக்கல்தன்மையைப் பொறுத்து, Fugu அந்தப் பிரச்சனையைத் தனியாகத் தீர்க்கலாம் அல்லது பணிச்சுமையைக் கையாள அதன் நகல்களையும் சேர்த்து நிபுணத்துவம் வாய்ந்த மாதிரிகளின் ஒரு "குழுவை" (team) மாறும் தன்மையுடன் திரட்டலாம்.
பல்வேறு தொழில்முறைத் தேவைகளைப் பூர்த்தி செய்ய Sakana AI இரண்டு வெவ்வேறு பதிப்புகளை வழங்குகிறது:
- Fugu Base: குறைந்த தாமதம் (low latency) மற்றும் சாட்பாட் உரையாடல்கள் மற்றும் நிலையான குறியீடு ஆய்வுகள் (code reviews) போன்ற அன்றாடப் பணிகளுக்காக மேம்படுத்தப்பட்டது.
- Fugu Ultra: அறிவியல் ஆய்வுக் கட்டுரைகளை மறுஉருவாக்கம் செய்தல், சைபர் பாதுகாப்பு பகுப்பாய்வு மற்றும் காப்புரிமைத் தேடல்கள் போன்ற முக்கியமான பணிப்பாய்வுகளை (workflows) இலக்காகக் கொண்டு, அதிகபட்சத் தர்க்கரீதியான தரத்திற்காக (reasoning quality) வடிவமைக்கப்பட்டது.
பெஞ்ச்மார்க்குகளில் முன்னணி மாதிரிகளை மிஞ்சுகிறது
Fugu Ultra-வின் செயல்திறன் அளவீடுகள் வியக்கத்தக்கவை, இது Anthropic நிறுவனத்தின் மிகுந்த எதிர்பார்ப்புக்குரிய Fable 5 மற்றும் Mythos Preview ஆகியவற்றுடன் நேரடிப் போட்டியில் அதனை நிறுத்துகிறது. குறிப்பிடத்தக்க வகையில், Fugu Ultra இந்த மதிப்பெண்களை Anthropic-ன் மாதிரிகளைத் தவிர்த்துவிட்டுப் பெறுகிறது; அந்த ஏஜென்ட்கள் ஒருங்கிணைக்கப்பட்டிருந்தால் இன்னும் உயர்ந்த நிலையை எட்ட முடியும் என்பதை இது உணர்த்துகிறது.
கடுமையான சோதனையில், Fugu Ultra பல முக்கியத் தொழில்நுட்ப பெஞ்ச்மார்க்குகளில் சிறந்த திறன்களைக் காட்டியது:
- SWE Bench Pro: Fugu Ultra 73.7 மதிப்பெண்களைப் பெற்றுள்ளது, இது GPT 5.5 (58.6) மற்றும் Gemini 3.1 Pro (54.2) ஆகியவற்றை விட கணிசமாகச் சிறந்தது.
- LiveCodeBench: Fugu Ultra 93.2 ஐ எட்டியது, இது Opus 4.8 (87.8) மற்றும் GPT 5.5 (85.3) ஆகியவற்றை விட மேலானது.
- Humanity's Last Exam: இந்த மாதிரி 50.0 மதிப்பெண்களைப் பெற்று, Opus 4.8 (49.8) ஐ விடச் சற்று முன்னிலை வகித்தது.
- GPQA-D: Fugu Ultra 95.5 என்ற உயர் தரத்தை எட்டியது.
ஆரம்பகால பீட்டா சோதனையாளர்கள் நிபுணத்துவம் வாய்ந்த துறைகளில் மிகப்பெரிய செயல்திறன் முன்னேற்றங்களைச் சுட்டிக்காட்டியுள்ளனர். குறியீடு ஆய்வுகளின் (code reviews) போது, Fugu Ultra 20-க்கும் மேற்பட்ட பிழைகளைக் கண்டறிந்தது, ஆனால் GPT-5.5 சுமார் மூன்று பிழைகளை மட்டுமே சுட்டிக்காட்டியதாக ஒரு டெவலப்பர் குறிப்பிட்டுள்ளார்.
AI நிறுவனச் சார்பு (Vendor Lock-in) அபாயங்களைக் குறைத்தல்
வெறும் செயல்திறனைத் தாண்டி, டிஜிட்டல் இறையாண்மையைக் (digital sovereignty) காப்பதற்கான ஒரு முக்கியமான கருவியாக Sakana AI Fugu-வை முன்னிறுத்துகிறது. ஏற்றுமதி கட்டுப்பாடுகள் மற்றும் ஒழுங்குமுறை மாற்றங்கள் காரணமாக குறிப்பிட்ட மாதிரிகளுக்கான அணுகல் திடீரெனக் கட்டுப்படுத்தப்படக்கூடிய (Anthropic-ன் சமீபத்திய கட்டுப்பாடுகள் போன்ற) ஒரு காலத்தில், ஒரு தனி வழங்குநரை மட்டும் நம்பியிருப்பது நிதி, நிர்வாகம் மற்றும் முக்கியமான உள்கட்டமைப்புத் துறைகளுக்கு ஒரு குறிப்பிடத்தக்க பலவீனமாக அமையும்.
Fugu மாற்றிக்கொள்ளக்கூடிய ஏஜென்ட் தொகுப்பைப் பயன்படுத்துவதால், ஒரு API செயல்படாமல் போனால், நிறுவனங்கள் தங்கள் பணிப்பாய்வுகளை (workflows) வேறு வழங்குநர்களுக்கு மாற்றி அமைக்க முடியும். இது "AI இறையாண்மைக்கு" (AI sovereignty) ஒரு முழுமையான தீர்வு இல்லையென்றாலும் (ஏனெனில் பரவலான தொழில்முறைத் தடைகள் இன்னும் தொகுப்பைக் கட்டுப்படுத்தலாம்), தங்கள் AI சார்ந்திருப்புகளைப் பன்முகப்படுத்த விரும்பும் நிறுவனங்களுக்கு இது ஒரு முக்கியமான மீள்திறனை (resilience) வழங்குகிறது.
முக்கியக் குறிப்புகள்
- மாறும் ஒருங்கிணைப்பு (Dynamic Orchestration): Fugu ஒரு ஒற்றை API ஆகச் செயல்படுகிறது, இது பல படிநிலைகளைக் கொண்ட சிக்கலான பிரச்சனைகளைத் தீர்க்க உட்புறமாக நிபுணத்துவம் வாய்ந்த மாதிரிகளின் குழுவை நிர்வகிக்கிறது.
- பெஞ்ச்மார்க் ஆதிக்கம் (Benchmark Dominance): Fugu Ultra, Anthropic-ன் Fable 5 மற்றும் Mythos ஆகியவற்றுடன் நேரடியாகப் போட்டியிடுகிறது; குறியீட்டு முறை (SWE Bench Pro) மற்றும் தர்க்கரீதியான பெஞ்ச்மார்க்குகளில் குறிப்பிடத்தக்க முன்னிலையைக் காட்டுகிறது.
- மூலோபாய மீள்திறன் (Strategic Resilience): மாற்றிக்கொள்ளக்கூடிய மாதிரித் தொகுப்பு, AI வழங்குநர்களைப் பன்முகப்படுத்துவதன் மூலம் நிறுவனச் சார்பு (vendor lock-in) மற்றும் ஒழுங்குமுறை இடையூறுகளின் அபாயங்களைக் குறைக்க பயனர்களுக்கு உதவுகிறது.