Claude Sonnet 5: عملکرد بالا، پوششی بر افزایش چشمگیر قیمت

جدیدترین نسخه منتشر شده توسط Anthropic، یعنی Claude Sonnet 5، دستاوردهای چشمگیری در بنچمارک‌ها ارائه می‌دهد، اما بار مالی پنهانی را برای توسعه‌دهندگان به همراه دارد. در حالی که نرخ رسمی توکن‌ها بدون تغییر باقی مانده است، داده‌های جدید نشان می‌دهند که پرگویی (verbosity) بیشتر و رفتار عامل‌گونه (agentic behavior) این مدل، هزینه واقعی هر تسک را به طور قابل توجهی افزایش می‌دهد.

دستاوردهای هوشمندی در مقابل مصرف توکن

بر اساس Artificial Analysis Intelligence Index v4.1، مدل Claude Sonnet 5 به یک نقطه عطف فنی مهم دست یافته است. این مدل با کسب ۵۳ امتیاز، در جایگاه پنجم جهانی قرار گرفته و با GPT-5.5 (high) برابر شده است؛ همچنین از نسخه قبلی خود، Sonnet 4.6 که ۴۷ امتیاز کسب کرده بود، پیشی گرفته است. این جهش عملکردی در چندین بنچمارک تخصصی مشهود است، از جمله افزایش ۹ امتیازی در Terminal-Bench v2.1 و ۱۰ امتیاز افزایش در Humanity's Last Exam.

با این حال، این دستاوردهای هوشمندی به قیمت مصرف بسیار بالای توکن تمام می‌شود. در بنچمارک‌های کار دانش‌محور مبتنی بر عامل (agent-based) مانند AA-Briefcase و GDPval-AA، مدل Sonnet 5 تقریباً سه برابر بیشتر از Sonnet 4.6 حلقه‌های عامل (agent loops) را اجرا می‌کند. در تنظیمات حداکثر عملکرد، این مدل در مقایسه با نسل قبلی، تقریباً ۴۰% توکن خروجی بیشتری را برای هر تسک مصرف می‌کند.

توهم قیمت‌گذاری ثابت توکن

در ظاهر، Anthropic ساختار قیمت‌گذاری خود را حفظ کرده است: ۳ دلار برای هر میلیون توکن ورودی و ۱۵ دلار برای هر میلیون توکن خروجی. این قیمت‌ها به وضوح ارزان‌تر از سطح Opus 4.8 است که به ترتیب ۵ دلار و ۲۵ دلار هزینه دارد. با این حال، «هزینه هر تسک» داستان متفاوتی را روایت می‌کند.

گزارش Artificial Analysis نشان می‌دهد که میانگین هزینه هر تسک در Intelligence Index با Sonnet 5 برابر با ۲.۲۹ دلار است، در حالی که مدل گران‌تر Opus 4.8 تنها ۱.۹۷ دلار هزینه دارد. برای توسعه‌دهندگانی که از Sonnet 4.6 (با هزینه تقریبی ۱.۲۰ دلار برای هر تسک) به Sonnet 5 مهاجرت می‌کنند، این تغییر به معنای تقریباً دو برابر شدن هزینه‌های عملیاتی است. این الگو یادآور نسخه‌های قبلی مانند Opus 4.7 است که در آن تغییرات در توکنایزر (tokenizer)، علیرغم «بدون تغییر» ماندن نرخ‌ها، هزینه‌ها را به طور موثر تا ۳۷.۴% افزایش داد.

فشارهای رقابتی و نیاز به شفافیت

اگرچه Sonnet 5 در برخی تسک‌های عامل‌گونه عملکرد عالی دارد، اما همچنان در استدلال‌های فیزیک در سطح بالا با مشکل مواجه است. این مدل در بنچمارک CritPt از Argonne National Labs، امتیاز ۱۷% را کسب کرد و از رقبای قدرتمندی مانند GLM-5.2، Claude Fable 5 و GPT-5.5 عقب ماند.

این شکاف عملکردی و ساختار هزینه‌ای رو به رشد، Anthropic را در موقعیت متزلزلی قرار می‌دهد. از آنجایی که رقبای چینی مانند Deepseek V4 Pro و GLM-5.2 عملکرد میان‌رده‌ای مشابه را با کسری از این هزینه‌ها ارائه می‌دهند، افزایش قیمت «پنهان» خانواده Claude به عاملی حیاتی برای پذیرش در سازمان‌ها تبدیل شده است. صنعت به سمت نیاز به معیارهای شفاف‌تر — مانند هزینه برای هر تسک استاندارد — حرکت می‌کند، به جای اینکه بر تعداد خام توکن‌ها تکیه کند که دیگر نشان‌دهنده بار محاسباتی واقعی جریان‌های کاری عامل‌گونه نیست.

نکات کلیدی

  • افزایش هزینه پنهان: علیرغم نرخ‌های توکن یکسان، Sonnet 5 به دلیل افزایش مصرف توکن، در هر تسک تقریباً ۹۰% گران‌تر از Sonnet 4.6 است.
  • عملکرد در بنچمارک: Sonnet 5 با کسب ۵۳ امتیاز در رتبه پنجم جهانی قرار دارد و بهبودهای عظیمی در حلقه‌های عامل و بنچمارک‌های خاصی مانند SciCode و Terminal-Bench نشان می‌دهد.
  • ناهمخوانی قیمت‌گذاری: مدل «ارزان‌تر» Sonnet 5 در واقع در بنچمارک‌های هوشمندی دنیای واقعی، هزینه هر تسک بیشتری ($2.29) نسبت به مدل پرمیوم Opus 4.8 ($1.97) دارد.