Claude Sonnet 5: Висока продуктивність маскує значне зростання ціни

Останній реліз Anthropic, Claude Sonnet 5, демонструє вражаючі результати в бенчмарках, але несе приховану фінансову вагу для розробників. Хоча офіційні тарифи на токени залишаються незмінними, нові дані свідчать про те, що підвищена багатослівність та агентна поведінка моделі суттєво збільшують реальну вартість виконання одного завдання.

Приріст інтелекту проти споживання токенів

Згідно з Artificial Analysis Intelligence Index v4.1, Claude Sonnet 5 досяг значного технічного прориву. Набравши 53 бали, модель посіла п'яте місце у світі, зрівнявшись із GPT-5.5 (high) та перевершивши свого попередника, Sonnet 4.6, який набрав 47 балів. Цей стрибок продуктивності помітний у кількох спеціалізованих бенчмарках, зокрема зростання на 9 балів у Terminal-Bench v2.1 та на 10 балів у Humanity's Last Exam.

Однак цей приріст інтелекту супроводжується надмірним споживанням токенів. У бенчмарках для агентської інтелектуальної роботи, таких як AA-Briefcase та GDPval-AA, Sonnet 5 виконує приблизно втричі більше агентських циклів (agent loops), ніж Sonnet 4.6. При максимальних налаштуваннях продуктивності модель споживає приблизно на 40% більше вихідних токенів на завдання порівняно з попереднім поколінням.

Ілюзія статичного ціноутворення на токени

На перший погляд, Anthropic зберегла свою структуру ціноутворення: $3 за мільйон вхідних токенів і $15 за мільйон вихідних токенів. Це помітно дешевше за рівень Opus 4.8, вартість якого становить $5 та $25 відповідно. Проте «вартість одного завдання» свідчить про інше.

Artificial Analysis повідомляє, що середнє завдання в Intelligence Index коштує $2.29 з Sonnet 5, тоді як дорожча модель Opus 4.8 коштує лише $1.97. Для розробників, які переходять із Sonnet 4.6 (вартість якого становила приблизно $1.20 за завдання), перехід на Sonnet 5 означає майже подвоєння операційних витрат. Ця тенденція повторює попередні релізи, такі як Opus 4.7, де зміни в токенізаторі фактично призвели до зростання витрат на 37,4%, попри «незмінні» тарифи.

Конкурентний тиск та потреба в прозорості

Хоча Sonnet 5 демонструє чудові результати в певних агентських завданнях, вона все ще має труднощі з фізичними міркуваннями високого рівня. У бенчмарку CritPt від Argonne National Labs модель набрала 17%, відстаючи від таких важковаговиків, як GLM-5.2, Claude Fable 5 та GPT-5.5.

Цей розрив у продуктивності та зростаюча структура витрат ставлять Anthropic у небезпечне становище. Оскільки китайські конкуренти, такі як Deepseek V4 Pro та GLM-5.2, пропонують порівнянну продуктивність середнього рівня за частку вартості, «приховане» зростання цін у родині Claude стає критичним фактором для корпоративного впровадження. Індустрія рухається до потреби в більш прозорих метриках — таких як вартість стандартизованого завдання — замість того, щоб покладатися на необроблену кількість токенів, яка більше не відображає реальне обчислювальне навантаження агентських робочих процесів.

Основні висновки

  • Приховане зростання витрат: Попри ідентичні тарифи на токени, Sonnet 5 приблизно на 90% дорожча за завдання, ніж Sonnet 4.6, через підвищене споживання токенів.
  • Продуктивність у бенчмарках: Sonnet 5 посідає 5-те місце у світі з 53 балами, демонструючи величезний прогрес в агентських циклах та конкретних бенчмарках, таких як SciCode та Terminal-Bench.
  • Невідповідність ціноутворення: «Дешевша» модель Sonnet 5 насправді коштує дорожче за завдання ($2.29), ніж преміальна Opus 4.8 ($1.97), якщо вимірювати за реальними інтелектуальними бенчмарками.