Claude Sonnet 5: اعلیٰ کارکردگی کے پیچھے قیمتوں میں نمایاں اضافہ چھپا ہوا ہے

Anthropic کا تازہ ترین ورژن، Claude Sonnet 5، بینچ مارک میں متاثر کن نتائج فراہم کرتا ہے لیکن ڈویلپرز کے لیے ایک پوشیدہ مالی بوجھ بھی ساتھ لاتا ہے۔ اگرچہ آفیشل ٹوکن ریٹس تبدیل نہیں ہوئے، لیکن نئے ڈیٹا سے پتہ چلتا ہے کہ ماڈل کی بڑھتی ہوئی تفصیل (verbosity) اور ایجنٹک رویہ (agentic behavior) فی ٹاسک حقیقی دنیا کے اخراجات میں نمایاں اضافہ کر دیتے ہیں۔

ذہانت میں اضافہ بمقابلہ ٹوکن کا استعمال

Artificial Analysis Intelligence Index v4.1 کے مطابق، Claude Sonnet 5 نے ایک اہم تکنیکی سنگ میل عبور کر لیا ہے۔ 53 پوائنٹس حاصل کرنے کے ساتھ، یہ عالمی سطح پر پانچویں نمبر پر ہے، جو GPT-5.5 (high) کے برابر ہے اور اپنے پچھلے ورژن، Sonnet 4.6 سے بہتر کارکردگی دکھاتا ہے، جس نے 47 پوائنٹس حاصل کیے تھے۔ کارکردگی میں یہ چھلانگ کئی مخصوص بینچ مارکس میں واضح ہے، بشمول Terminal-Bench v2.1 پر 9 پوائنٹس کا اضافہ اور Humanity's Last Exam پر 10 پوائنٹس کا اضافہ۔

تاہم، ذہانت میں یہ اضافہ ٹوکن کے شدید استعمال کی قیمت پر حاصل ہوا ہے۔ AA-Briefcase اور GDPval-AA جیسے ایجنٹ پر مبنی نالج ورک بینچ مارکس میں، Sonnet 5 تقریباً Sonnet 4.6 کے مقابلے میں تین گنا زیادہ ایجنٹ لوپس (agent loops) چلا رہا ہے۔ زیادہ سے زیادہ کارکردگی کی سیٹنگز پر، یہ ماڈل پچھلی نسل کے مقابلے میں فی ٹاسک تقریباً 40 فیصد زیادہ آؤٹ پٹ ٹوکنز استعمال کرتا ہے۔

ساکن ٹوکن قیمتوں کا دھوکہ

بظاہر، Anthropic نے اپنے قیمتوں کے ڈھانچے کو برقرار رکھا ہے: $3 فی ملین ان پٹ ٹوکنز اور $15 فی ملین آؤٹ پٹ ٹوکنز۔ یہ Opus 4.8 ٹیر سے نمایاں طور پر سستا ہے، جس کی قیمت بالترتیب $5 اور $25 ہے۔ تاہم، "فی ٹاسک لاگت" ایک مختلف کہانی بیان کرتی ہے۔

Artificial Analysis کی رپورٹ کے مطابق، Intelligence Index میں ایک اوسط ٹاسک کی قیمت Sonnet 5 کے ساتھ $2.29 ہے، جبکہ زیادہ مہنگا Opus 4.8 صرف $1.97 میں پڑتا ہے۔ Sonnet 4.6 سے منتقل ہونے والے ڈویلپرز کے لیے—جس کی قیمت فی ٹاسک تقریباً $1.20 تھی—Sonnet 5 پر منتقلی آپریشنل اخراجات میں تقریباً دوگنا اضافے کی نشاندہی کرتی ہے۔ یہ نمونہ پچھلے ورژن، جیسے Opus 4.7 کی یاد دلاتا ہے، جہاں "غیر تبدیل شدہ" ریٹس کے باوجود ٹوکنائزر میں تبدیلیوں نے مؤثر طور پر اخراجات میں 37.4% تک اضافہ کر دیا تھا۔

مسابقتی دباؤ اور شفافیت کی ضرورت

اگرچہ Sonnet 5 مخصوص ایجنٹک ٹاسکس میں بہترین کارکردگی دکھاتا ہے، لیکن یہ اب بھی اعلیٰ درجے کی فزکس کی منطق (physics reasoning) میں مشکلات کا شکار ہے۔ Argonne National Labs کے CritPt بینچ مارک پر، اس نے 17% اسکور کیا، جو GLM-5.2، Claude Fable 5 اور GPT-5.5 جیسے بڑے ناموں سے پیچھے ہے۔

کارکردگی کا یہ فرق اور بڑھتا ہوا اخراجات کا ڈھانچہ Anthropic کو ایک نازک صورتحال میں ڈال دیتا ہے۔ چونکہ Deepseek V4 Pro اور GLM-5.2 جیسے چینی حریف بہت کم قیمت پر اسی طرح کی درمیانی درجے کی کارکردگی پیش کر رہے ہیں، اس لیے Claude فیملی کی "پوشیدہ" قیمتوں میں اضافہ کاروباری اداروں (enterprises) کے لیے اسے اپنانے میں ایک اہم عنصر بن سکتا ہے۔ صنعت اب خام ٹوکن گنتی پر انحصار کرنے کے بجائے زیادہ شفاف پیمانوں کی طرف بڑھ رہی ہے—جیسے کہ ایک معیاری ٹاسک کی لاگت—کیونکہ ٹوکنز کی تعداد اب ایجنٹک ورک فلو کے اصل کمپیوٹیشنل بوجھ کی عکاسی نہیں کرتی۔

اہم نکات

  • پوشیدہ اخراجات میں اضافہ: ٹوکن ریٹس ایک جیسے ہونے کے باوجود، ٹوکن کے بڑھتے ہوئے استعمال کی وجہ سے Sonnet 5 فی ٹاسک Sonnet 4.6 کے مقابلے میں تقریباً 90% زیادہ مہنگا ہے۔
  • بینچ مارک کارکردگی: Sonnet 5 53 پوائنٹس کے ساتھ عالمی سطح پر 5ویں نمبر پر ہے، جو ایجنٹک لوپس اور SciCode اور Terminal-Bench جیسے مخصوص بینچ مارکس میں بڑی پیش رفت دکھاتا ہے۔
  • قیمتوں کا فرق: حقیقی دنیا کے انٹیلی جنس بینچ مارکس کے مطابق، "سستا" Sonnet 5 اصل میں فی ٹاسک پریمیم Opus 4.8 ($1.97) سے زیادہ ($2.29) خرچ کرتا ہے۔