Claude Sonnet 5: Высокая производительность скрывает значительный скачок цен
Последний релиз Anthropic, Claude Sonnet 5, демонстрирует впечатляющий рост показателей в бенчмарках, но несет в себе скрытое финансовое бремя для разработчиков. Хотя официальные тарифы за токены остались прежними, новые данные указывают на то, что повышенная многословность и агентское поведение модели значительно увеличивают реальную стоимость выполнения одной задачи.
Прирост интеллекта против потребления токенов
Согласно индексу Artificial Analysis Intelligence Index v4.1, Claude Sonnet 5 достиг значительного технического рубежа. Набрав 53 балла, модель заняла пятое место в мире, сравнявшись с GPT-5.5 (high) и превзойдя своего предшественника, Sonnet 4.6, который набрал 47 баллов. Этот скачок производительности заметен в нескольких специализированных бенчмарках, включая рост на 9 баллов в Terminal-Bench v2.1 и на 10 баллов в Humanity's Last Exam.
Однако этот прирост интеллекта достигается ценой экстремального потребления токенов. В бенчмарках для агентской интеллектуальной работы, таких как AA-Briefcase и GDPval-AA, Sonnet 5 выполняет примерно в три раза больше агентских циклов (agent loops), чем Sonnet 4.6. При настройках максимальной производительности модель потребляет примерно на 40% больше выходных токенов на задачу по сравнению с предыдущим поколением.
Иллюзия статичного ценообразования за токены
На первый взгляд, Anthropic сохранила свою структуру ценообразования: 3 доллара за миллион входных токенов и 15 долларов за миллион выходных токенов. Это заметно дешевле уровня Opus 4.8, который стоит 5 и 25 долларов соответственно. Тем не менее, «стоимость одной задачи» говорит о другом.
Artificial Analysis сообщает, что средняя задача в Intelligence Index обходится в 2,29 доллара при использовании Sonnet 5, в то время как более дорогая Opus 4.8 стоит всего 1,97 доллара. Для разработчиков, переходящих с Sonnet 4.6 (стоимость которой составляла примерно 1,20 доллара за задачу), переход на Sonnet 5 означает почти двукратное увеличение операционных расходов. Эта тенденция повторяется и в предыдущих релизах, таких как Opus 4.7, где изменения в токенизаторе фактически увеличили затраты почти на 37,4%, несмотря на «неизменные» тарифы.
Конкурентное давление и необходимость прозрачности
Хотя Sonnet 5 преуспевает в определенных агентских задачах, она все еще испытывает трудности с высокоуровневыми рассуждениями в области физики. В бенчмарке CritPt от Argonne National Labs модель набрала 17%, отставая от таких тяжеловесов, как GLM-5.2, Claude Fable 5 и GPT-5.5.
Этот разрыв в производительности и растущая структура затрат ставят Anthropic в шаткое положение. Поскольку китайские конкуренты, такие как Deepseek V4 Pro и GLM-5.2, предлагают сопоставимую производительность среднего уровня за малую часть стоимости, «скрытый» рост цен в семействе Claude становится критическим фактором для внедрения в корпоративном секторе. Индустрия движется к необходимости более прозрачных метрик — таких как стоимость стандартизированной задачи — вместо того чтобы полагаться на простое количество токенов, которое больше не отражает реальную вычислительную нагрузку агентских рабочих процессов.
Основные выводы
- Скрытое увеличение стоимости: Несмотря на идентичные тарифы за токены, Sonnet 5 обходится примерно на 90% дороже за задачу, чем Sonnet 4.6, из-за повышенного потребления токенов.
- Производительность в бенчмарках: Sonnet 5 занимает 5-е место в мире с 53 баллами, демонстрируя огромный прогресс в агентских циклах и в таких специфических бенчмарках, как SciCode и Terminal-Bench.
- Ценовой дисбаланс: «Более дешевая» модель Sonnet 5 на самом деле обходится дороже за задачу (2,29 доллара), чем премиальная Opus 4.8 (1,97 доллара), если измерять их по реальным бенчмаркам интеллекта.
