Sakana AI ने Multi-LLM इंटेलिजेंस को ऑर्केस्ट्रेट करने के लिए Fugu लॉन्च किया
टोक्यो स्थित Sakana AI ने Fugu का अनावरण किया है, जो एक परिष्कृत multi-LLM ऑर्केस्ट्रेटर है। इसे जटिल कार्यों को हल करने के लिए विशेषज्ञ मॉडलों के एक पूल को समन्वित करने के लिए डिज़ाइन किया गया है। एक एकल इंटेलिजेंट लेयर के रूप में कार्य करते हुए, Fugu का लक्ष्य Anthropic जैसे उद्योग जगत के दिग्गजों के प्रदर्शन का मुकाबला करना है, साथ ही वेंडर लॉक-इन (vendor lock-in) के खिलाफ एक रणनीतिक सुरक्षा भी प्रदान करना है।
एक स्वैपेबल एजेंट पूल के लिए एक एकीकृत इंटरफ़ेस
Fugu केवल एक अन्य स्टैंडअलोन लार्ज लैंग्वेज मॉडल नहीं है; यह विशेष रूप से एक "एजेंट पूल" को प्रबंधित करने के लिए प्रशिक्षित एक लैंग्वेज मॉडल है। एंड-यूज़र के लिए, यह सिस्टम OpenAI-संगत API के माध्यम से एक एकल इकाई के रूप में कार्य करता है। हालाँकि, आंतरिक रूप से, Fugu चयन, डेलीगेशन, निष्पादन, जाँच और संश्लेषण (synthesis) का एक जटिल चक्र पूरा करता है। प्रॉम्प्ट की जटिलता के आधार पर, Fugu समस्या को अकेले हल कर सकता है या वर्कलोड से निपटने के लिए विशेषज्ञ मॉडलों की एक "टीम"—जिसमें स्वयं की प्रतियां भी शामिल हैं—को गतिशील रूप से नियुक्त कर सकता है।
Sakana AI विभिन्न व्यावसायिक आवश्यकताओं को पूरा करने के लिए दो अलग-अलग संस्करण पेश कर रहा है:
- Fugu Base: कम लेटेंसी और चैटबॉट इंटरैक्शन और मानक कोड समीक्षा जैसे रोजमर्रा के कार्यों के लिए अनुकूलित।
- Fugu Ultra: अधिकतम रीजनिंग क्वालिटी के लिए इंजीनियर किया गया, जो वैज्ञानिक पेपर रिप्रोडक्शन, साइबर सुरक्षा विश्लेषण और पेटेंट खोज जैसे उच्च-जोखिम वाले वर्कफ़्लो को लक्षित करता है।
बेंचमार्क में फ्रंटियर मॉडलों से बेहतर प्रदर्शन
Fugu Ultra के प्रदर्शन मेट्रिक्स प्रभावशाली हैं, जो इसे Anthropic के अत्यधिक प्रतीक्षित Fable 5 और Mythos Preview के साथ सीधी प्रतिस्पर्धा में रखते हैं। विशेष रूप से, Fugu Ultra इन स्कोर को एक ऐसे पूल का उपयोग करके प्राप्त करता है जिसमें Anthropic के मॉडल शामिल नहीं हैं, जो यह संकेत देता है कि यदि उन एजेंटों को एकीकृत किया जाता तो परिणाम और भी बेहतर हो सकते थे।
कठोर परीक्षण में, Fugu Ultra ने कई प्रमुख तकनीकी बेंचमार्क में बेहतर क्षमताएं प्रदर्शित कीं:
- SWE Bench Pro: Fugu Ultra ने 73.7 स्कोर किया, जो GPT 5.5 (58.6) और Gemini 3.1 Pro (54.2) से काफी बेहतर है।
- LiveCodeBench: Fugu Ultra 93.2 तक पहुँचा, जो Opus 4.8 (87.8) और GPT 5.5 (85.3) से आगे निकल गया।
- Humanity's Last Exam: मॉडल ने 50.0 प्राप्त किया, जो Opus 4.8 (49.8) से थोड़ा बेहतर है।
- GPQA-D: Fugu Ultra ने 95.5 के उच्च मानक को मैच किया।
शुरुआती बीटा टेस्टर्स ने विशेषज्ञ क्षेत्रों में भारी दक्षता वृद्धि की सूचना दी है। एक डेवलपर ने उल्लेख किया कि कोड समीक्षा के दौरान, Fugu Ultra ने 20 से अधिक बग्स की पहचान की, जबकि GPT-5.5 ने केवल लगभग तीन ही चिह्नित किए।
AI वेंडर लॉक-इन के जोखिमों को कम करना
शुद्ध प्रदर्शन से परे, Sakana AI Fugu को डिजिटल संप्रभुता (digital sovereignty) के लिए एक महत्वपूर्ण उपकरण के रूप में पेश कर रहा है। ऐसे युग में जहाँ निर्यात नियंत्रण और नियामक बदलाव अचानक विशिष्ट मॉडलों तक पहुंच को प्रतिबंधित कर सकते हैं (जैसे Anthropic के हालिया प्रतिबंध), किसी एक प्रदाता पर निर्भर रहना वित्त, शासन और महत्वपूर्ण बुनियादी ढांचे के लिए एक बड़ी भेद्यता (vulnerability) है।
क्योंकि Fugu एक स्वैपेबल एजेंट पूल का उपयोग करता है, इसलिए संगठन अपने वर्कफ़्लो को विभिन्न प्रदाताओं की ओर मोड़ सकते हैं यदि कोई एक API काम करना बंद कर देता है। हालांकि यह "AI संप्रभुता" के लिए पूर्ण समाधान नहीं है—क्योंकि उद्योग-व्यापी व्यापक प्रतिबंध अभी भी पूल को सीमित कर सकते हैं—लेकिन यह उन उद्यमों के लिए लचीलेपन (resilience) की एक महत्वपूर्ण परत प्रदान करता है जो अपनी AI निर्भरताओं में विविधता लाना चाहते हैं।
मुख्य बातें
- Dynamic Orchestration: Fugu एक एकल API के रूप में कार्य करता है जो आंतरिक रूप से बहु-चरणीय, जटिल समस्याओं को हल करने के लिए विशेषज्ञ मॉडलों की एक टीम का प्रबंधन करता है।
- Benchmark Dominance: Fugu Ultra सीधे Anthropic के Fable 5 और Mythos के साथ प्रतिस्पर्धा करता है, जो कोडिंग (SWE Bench Pro) और रीजनिंग बेंचमार्क में महत्वपूर्ण बढ़त दिखाता है।
- Strategic Resilience: स्वैपेबल मॉडल पूल उपयोगकर्ताओं को AI प्रदाताओं में विविधता लाकर वेंडर लॉक-इन और नियामक व्यवधानों के जोखिमों को कम करने की अनुमति देता है।