Anthropic نے Claude Sonnet 5 لانچ کر دیا: Agentic AI کی نئی سرحد

Anthropic نے باضابطہ طور پر Claude Sonnet 5 جاری کر دیا ہے، جو کہ ایک طاقتور ماڈل ہے جسے مڈ-ٹیر (mid-tier) اور فلیگ شپ (flagship) AI سیریز کے درمیان کارکردگی کے فرق کو ختم کرنے کے لیے ڈیزائن کیا گیا ہے۔ ایجنٹک صلاحیتوں (agentic capabilities)—یعنی ٹولز استعمال کرنے، براؤز کرنے اور پیچیدہ منصوبوں پر عمل درآمد کرنے کی صلاحیت—کو ترجیح دے کر، یہ ریلیز خود مختار AI ورک فلو کی طرف ایک تبدیلی کا اشارہ دیتی ہے۔

Opus سیریز کے ساتھ فرق کو ختم کرنا

Sonnet 5 کا سب سے حیران کن پہلو یہ ہے کہ یہ کس طرح بہت بڑے اور مہنگے Opus 4.8 کی کارکردگی کے قریب پہنچ جاتا ہے۔ انقلابی بینچ مارکس میں، Sonnet 5 نے ثابت کیا ہے کہ "درمیانے سائز" کے ماڈلز اب ان کاموں کو انجام دے سکتے ہیں جو پہلے صرف فرنٹیر کلاس (frontier-class) ذہانت کے لیے مخصوص تھے۔

کثیر الجہتی استدلال (multidisciplinary reasoning) کے بینچ مارک، Humanity's Last Exam پر، Sonnet 5 نے ٹولز کا استعمال کرتے ہوئے 57.4% اسکور حاصل کیا، جو کہ تقریباً Opus 4.8 کے 57.9% اسکور کے برابر ہے۔ سب سے زیادہ متاثر کن بات یہ ہے کہ حقیقی دنیا کے علمی کام کے بینچ مارک GDPval-AA v2 پر، Sonnet 5 نے درحقیقت Opus 4.8 کو پیچھے چھوڑ دیا، اور فلیگ شپ کے 1,615 پوائنٹس کے مقابلے میں 1,618 پوائنٹس حاصل کیے۔ اس سے پتہ چلتا ہے کہ مخصوص علم پر مبنی ورک فلو کے لیے، Sonnet 5 کی کارکردگی Opus سیریز کے وسیع پیمانے پر حاوی ہو سکتی ہے۔

Agentic کارکردگی میں ایک بڑی چھلانگ

Anthropic نے خاص طور پر Sonnet 5 کو اب تک کا اپنا سب سے زیادہ "agentic" ماڈل بنانے کے لیے تیار کیا ہے۔ اس کا مطلب ہے کہ یہ ماڈل کثیر مرحلہ وار مقاصد کو مکمل کرنے کے لیے ویب براؤزرز اور ٹرمینلز جیسے ماحول کے ساتھ بات چیت کرنے کے لیے موزوں بنایا گیا ہے۔ ڈیٹا اس کے پچھلے ورژن، Sonnet 4.6 کے مقابلے میں ایک نمایاں اضافہ دکھاتا ہے:

  • SWE-bench Pro (Agentic Coding): Sonnet 5 نے 63.2% اسکور حاصل کیا، جو Sonnet 4.6 کے 58.1% سے زیادہ ہے (Opus 4.8 کے 69.2% سے پیچھے ہے)۔
  • Terminal-Bench 2.1: Sonnet 4.6 کے 67.0% کے مقابلے میں 80.4% تک ایک بڑی چھلانگ۔
  • OSWorld-Verified (Computer Use): ماڈل نے 81.2% اسکور کیا، جو پچھلے ورژن کے 78.5% سے زیادہ ہے۔

سائبر سیکیورٹی اور حفاظتی حدود کی رہنمائی

یہ لانچ Anthropic کے لیے ایک حساس وقت میں ہو رہا ہے، کیونکہ سائبر سیکیورٹی کے خدشات کی وجہ سے امریکی حکومت نے ان کے Mythos 5 اور Fable 5 ماڈلز پر پابندیاں عائد کر دی ہیں۔ اسی طرح کی رکاوٹوں سے بچنے کے لیے، Anthropic نے اس بات کو یقینی بنایا ہے کہ Sonnet 5 کو مخصوص سائبر سیکیورٹی کے کاموں پر تربیت نہیں دی گئی۔

اگرچہ Sonnet 5، Sonnet 4.6 کے مقابلے میں ایکسپلائٹ ایویلیوایشنز (exploit evaluations) میں تھوڑا زیادہ جزوی کنٹرول ریٹ (13.2%) دکھاتا ہے، لیکن سافٹ ویئر ایکسپلائٹس لکھنے میں یہ Opus 4.8 یا Mythos 5 کے مقابلے میں اب بھی کافی کم قابل ہے۔ خطرے کو کم کرنے کے لیے، Anthropic نے ڈیفالٹ کے طور پر ریئل ٹائم سائبر حفاظتی اقدامات نافذ کیے ہیں، ساتھ ہی پرامپٹ انجیکشن (prompt injection) کے خلاف بہتر دفاع اور "sycophantic" رویے (صارف کی غلطیوں سے محض اتفاق کرنے کا رجحان) میں کمی لائی ہے۔

دستیابی اور "Token Paradox"

Claude Sonnet 5 اب Claude Platform اور API (بطور claude-sonnet-5) کے ذریعے دستیاب ہے، جس میں دس لاکھ ٹوکنز کا کانٹیکسٹ ونڈو (context window) اور جنوری 2026 تک کی ٹریننگ کٹ آف شامل ہے۔

اگرچہ Anthropic تعارفی قیمتیں پیش کر رہا ہے—31 اگست 2026 تک فی ملین ان پٹ ٹوکنز کے لیے $2 اور فی ملین آؤٹ پٹ ٹوکنز کے لیے $10—تاہم ڈویلپرز کو "token paradox" سے ہوشیار رہنا چاہیے۔ چونکہ یہ ماڈل زیادہ agentic ہے اور زیادہ تکراری استدلال (iterative reasoning) میں مصروف ہوتا ہے، اس لیے یہ پچھلے ورژنز کے مقابلے میں ایک کام مکمل کرنے کے لیے نمایاں طور پر زیادہ ٹوکنز استعمال کر سکتا ہے، جو ممکنہ طور پر فی ٹوکن کم لاگت کے فائدے کو ختم کر سکتا ہے۔

اہم نکات

  • کارکردگی کی برابری: Sonnet 5 مخصوص استدلال اور علمی کام کے بینچ مارکس میں فلیگ شپ Opus 4.8 کے برابر ہے یا اسے پیچھے چھوڑ دیتا ہے۔
  • Agentic توجہ: ماڈل کوڈنگ (SWE-bench) اور ٹرمینل کے ساتھ بات چیت میں بڑی بہتری دکھاتا ہے، جو اسے خود مختار ٹول کے استعمال کے لیے مثالی بناتا ہے۔
  • تزویراتی حفاظت: Anthropic نے اس ماڈل کو زیادہ متنازعہ اور زیادہ خطرے والے فرنٹیر ماڈلز سے ممتاز کرنے کے لیے اندرونی سائبر حفاظتی اقدامات کو ترجیح دی ہے۔