Sakana AI نے Multi-LLM ذہانت کو منظم کرنے کے لیے Fugu متعارف کروا دیا

ٹوکیو میں مقیم Sakana AI نے Fugu متعارف کروا دیا ہے، جو کہ ایک جدید multi-LLM orchestrator ہے جسے پیچیدہ کاموں کو حل کرنے کے لیے مخصوص ماڈلز کے ایک مجموعے (pool) کو مربوط کرنے کے لیے ڈیزائن کیا گیا ہے۔ ایک واحد ذہین تہہ (layer) کے طور پر کام کرتے ہوئے، Fugu کا مقصد Anthropic جیسے صنعت کے رہنماؤں کی کارکردگی کا مقابلہ کرنا ہے، جبکہ ساتھ ہی vendor lock-in کے خلاف ایک تزویراتی تحفظ (strategic hedge) بھی فراہم کرنا ہے۔

تبدیل ہونے والے ایجنٹ پول کے لیے ایک متحد انٹرفیس

Fugu محض ایک اور خود مختار (standalone) لارج لینگویج ماڈل نہیں ہے؛ بلکہ یہ ایک ایسا لینگویج ماڈل ہے جسے خاص طور پر ایک "agent pool" کو مینیج کرنے کے لیے تربیت دی گئی ہے۔ صارف کے لیے، یہ سسٹم OpenAI-compatible API کے ذریعے ایک واحد اکائی کے طور پر کام کرتا ہے۔ تاہم، اندرونی طور پر، Fugu انتخاب، تفویض (delegation)، عمل درآمد، جانچ پڑتال اور ترکیب (synthesis) کا ایک پیچیدہ چکر مکمل کرتا ہے۔ پرامپٹ کی پیچیدگی کے لحاظ سے، Fugu مسئلے کو اکیلے حل کر سکتا ہے یا کام کے بوجھ کو سنبھالنے کے لیے مخصوص ماڈلز کی ایک "ٹیم"—بشمول خود اپنی کاپیز—کو متحرک طور پر بھرتی کر سکتا ہے۔

Sakana AI مختلف پیشہ ورانہ ضروریات کو پورا کرنے کے لیے دو الگ ورژن پیش کر رہا ہے:

  • Fugu Base: کم لیٹنسی (low latency) اور روزمرہ کے کاموں جیسے کہ چیٹ بوٹ بات چیت اور معیاری کوڈ ریویو کے لیے موزوں بنایا گیا ہے۔
  • Fugu Ultra: زیادہ سے زیادہ استدلال (reasoning) کے معیار کے لیے تیار کیا گیا ہے، جس کا ہدف سائنسی مقالوں کی دوبارہ تیاری، سائبر سیکیورٹی تجزیہ، اور پیٹنٹ تلاش جیسے اہم ورک فلو ہیں۔

بینچ مارکس میں فرنٹیر ماڈلز سے بہتر کارکردگی

Fugu Ultra کے کارکردگی کے پیمانے حیران کن ہیں، جو اسے Anthropic کے انتہائی منتظر Fable 5 اور Mythos Preview کے ساتھ براہ راست مقابلے میں لاتے ہیں۔ خاص طور پر، Fugu Ultra یہ اسکور ایک ایسے پول کا استعمال کرتے ہوئے حاصل کرتا ہے جس میں Anthropic کے ماڈلز شامل نہیں ہیں، جو یہ ظاہر کرتا ہے کہ اگر ان ایجنٹس کو شامل کیا جائے تو نتائج مزید بہتر ہو سکتے ہیں۔

سخت جانچ پڑتال میں، Fugu Ultra نے کئی اہم تکنیکی بینچ مارکس پر برتر صلاحیتوں کا مظاہرہ کیا:

  • SWE Bench Pro: Fugu Ultra نے 73.7 اسکور کیا، جو GPT 5.5 (58.6) اور Gemini 3.1 Pro (54.2) سے نمایاں طور پر بہتر ہے۔
  • LiveCodeBench: Fugu Ultra نے 93.2 تک رسائی حاصل کی، جو Opus 4.8 (87.8) اور GPT 5.5 (85.3) سے آگے ہے۔
  • Humanity's Last Exam: ماڈل نے 50.0 حاصل کیا، جو Opus 4.8 (49.8) سے تھوڑا بہتر ہے۔
  • GPQA-D: Fugu Ultra نے 95.5 کے اعلیٰ معیار کا مقابلہ کیا۔

ابتدائی بیٹا ٹیسٹرز نے مخصوص شعبوں میں کارکردگی میں بڑے اضافے کی اطلاع دی ہے۔ ایک ڈویلپر نے نوٹ کیا کہ کوڈ ریویو کے دوران، Fugu Ultra نے 20 سے زیادہ بگ (bugs) کی نشاندہی کی، جبکہ GPT-5.5 نے صرف تقریباً تین نشاندہی کی۔

AI Vendor Lock-in کے خطرات کو کم کرنا

محض کارکردگی سے ہٹ کر، Sakana AI Fugu کو ڈیجیٹل خودمختاری (digital sovereignty) کے لیے ایک اہم ٹول کے طور پر پیش کر رہا ہے۔ ایسے دور میں جہاں ایکسپورٹ کنٹرولز اور ریگولیٹری تبدیلیاں اچانک مخصوص ماڈلز تک رسائی کو محدود کر سکتی ہیں (جیسے کہ Anthropic کی حالیہ پابندیاں)، کسی ایک فراہم کنندہ (provider) پر انحصار کرنا فنانس، گورننس، اور اہم انفراسٹرکچر کے لیے ایک بڑا خطرہ ہے۔

چونکہ Fugu ایک تبدیل ہونے والے ایجنٹ پول کا استعمال کرتا ہے، اس لیے تنظیمیں اپنے ورک فلو کو مختلف فراہم کنندگان کی طرف موڑ سکتی ہیں اگر کوئی ایک API کام کرنا چھوڑ دے۔ اگرچہ یہ "AI خودمختاری" کا مکمل حل نہیں ہے—کیونکہ صنعت گیر وسیع پیمانے پر پابندی اب بھی پول کو محدود کر سکتی ہے—لیکن یہ ان اداروں کے لیے استحکام (resilience) کی ایک اہم تہہ فراہم کرتا ہے جو اپنی AI انحصاریت (dependencies) کو متنوع بنانا چاہتے ہیں۔

اہم نکات

  • Dynamic Orchestration: Fugu ایک واحد API کے طور پر کام کرتا ہے جو اندرونی طور پر پیچیدہ اور کثیر مراحل والے مسائل کو حل کرنے کے لیے مخصوص ماڈلز کی ایک ٹیم کو مینیج کرتا ہے۔
  • Benchmark Dominance: Fugu Ultra براہ راست Anthropic کے Fable 5 اور Mythos کا مقابلہ کرتا ہے، اور کوڈنگ (SWE Bench Pro) اور استدلال (reasoning) کے بینچ مارکس میں نمایاں برتری دکھاتا ہے۔
  • Strategic Resilience: تبدیل ہونے والا ماڈل پول صارفین کو AI فراہم کنندگان کو متنوع بنا کر vendor lock-in اور ریگولیٹری رکاوٹوں کے خطرات کو کم کرنے کی اجازت دیتا ہے۔