Claude Sonnet 5: عملکرد بالا، پوششی بر افزایش چشمگیر قیمت
جدیدترین نسخه منتشر شده توسط Anthropic، یعنی Claude Sonnet 5، دستاوردهای چشمگیری در بنچمارکها ارائه میدهد، اما بار مالی پنهانی را برای توسعهدهندگان به همراه دارد. در حالی که نرخ رسمی توکنها بدون تغییر باقی مانده است، دادههای جدید نشان میدهند که پرگویی (verbosity) بیشتر و رفتار عاملگونه (agentic behavior) این مدل، هزینه واقعی هر تسک را به طور قابل توجهی افزایش میدهد.
دستاوردهای هوشمندی در مقابل مصرف توکن
بر اساس Artificial Analysis Intelligence Index v4.1، مدل Claude Sonnet 5 به یک نقطه عطف فنی مهم دست یافته است. این مدل با کسب ۵۳ امتیاز، در جایگاه پنجم جهانی قرار گرفته و با GPT-5.5 (high) برابر شده است؛ همچنین از نسخه قبلی خود، Sonnet 4.6 که ۴۷ امتیاز کسب کرده بود، پیشی گرفته است. این جهش عملکردی در چندین بنچمارک تخصصی مشهود است، از جمله افزایش ۹ امتیازی در Terminal-Bench v2.1 و ۱۰ امتیاز افزایش در Humanity's Last Exam.
با این حال، این دستاوردهای هوشمندی به قیمت مصرف بسیار بالای توکن تمام میشود. در بنچمارکهای کار دانشمحور مبتنی بر عامل (agent-based) مانند AA-Briefcase و GDPval-AA، مدل Sonnet 5 تقریباً سه برابر بیشتر از Sonnet 4.6 حلقههای عامل (agent loops) را اجرا میکند. در تنظیمات حداکثر عملکرد، این مدل در مقایسه با نسل قبلی، تقریباً ۴۰% توکن خروجی بیشتری را برای هر تسک مصرف میکند.
توهم قیمتگذاری ثابت توکن
در ظاهر، Anthropic ساختار قیمتگذاری خود را حفظ کرده است: ۳ دلار برای هر میلیون توکن ورودی و ۱۵ دلار برای هر میلیون توکن خروجی. این قیمتها به وضوح ارزانتر از سطح Opus 4.8 است که به ترتیب ۵ دلار و ۲۵ دلار هزینه دارد. با این حال، «هزینه هر تسک» داستان متفاوتی را روایت میکند.
گزارش Artificial Analysis نشان میدهد که میانگین هزینه هر تسک در Intelligence Index با Sonnet 5 برابر با ۲.۲۹ دلار است، در حالی که مدل گرانتر Opus 4.8 تنها ۱.۹۷ دلار هزینه دارد. برای توسعهدهندگانی که از Sonnet 4.6 (با هزینه تقریبی ۱.۲۰ دلار برای هر تسک) به Sonnet 5 مهاجرت میکنند، این تغییر به معنای تقریباً دو برابر شدن هزینههای عملیاتی است. این الگو یادآور نسخههای قبلی مانند Opus 4.7 است که در آن تغییرات در توکنایزر (tokenizer)، علیرغم «بدون تغییر» ماندن نرخها، هزینهها را به طور موثر تا ۳۷.۴% افزایش داد.
فشارهای رقابتی و نیاز به شفافیت
اگرچه Sonnet 5 در برخی تسکهای عاملگونه عملکرد عالی دارد، اما همچنان در استدلالهای فیزیک در سطح بالا با مشکل مواجه است. این مدل در بنچمارک CritPt از Argonne National Labs، امتیاز ۱۷% را کسب کرد و از رقبای قدرتمندی مانند GLM-5.2، Claude Fable 5 و GPT-5.5 عقب ماند.
این شکاف عملکردی و ساختار هزینهای رو به رشد، Anthropic را در موقعیت متزلزلی قرار میدهد. از آنجایی که رقبای چینی مانند Deepseek V4 Pro و GLM-5.2 عملکرد میانردهای مشابه را با کسری از این هزینهها ارائه میدهند، افزایش قیمت «پنهان» خانواده Claude به عاملی حیاتی برای پذیرش در سازمانها تبدیل شده است. صنعت به سمت نیاز به معیارهای شفافتر — مانند هزینه برای هر تسک استاندارد — حرکت میکند، به جای اینکه بر تعداد خام توکنها تکیه کند که دیگر نشاندهنده بار محاسباتی واقعی جریانهای کاری عاملگونه نیست.
نکات کلیدی
- افزایش هزینه پنهان: علیرغم نرخهای توکن یکسان، Sonnet 5 به دلیل افزایش مصرف توکن، در هر تسک تقریباً ۹۰% گرانتر از Sonnet 4.6 است.
- عملکرد در بنچمارک: Sonnet 5 با کسب ۵۳ امتیاز در رتبه پنجم جهانی قرار دارد و بهبودهای عظیمی در حلقههای عامل و بنچمارکهای خاصی مانند SciCode و Terminal-Bench نشان میدهد.
- ناهمخوانی قیمتگذاری: مدل «ارزانتر» Sonnet 5 در واقع در بنچمارکهای هوشمندی دنیای واقعی، هزینه هر تسک بیشتری ($2.29) نسبت به مدل پرمیوم Opus 4.8 ($1.97) دارد.
