Anthropic запускає Claude Sonnet 5: нові горизонти агентного ШІ

Anthropic офіційно випустила Claude Sonnet 5 — потужну модель, розроблену для подолання розриву у продуктивності між моделями середнього рівня та флагманськими серіями ШІ. Надаючи пріоритет агентним можливостям — здатності використовувати інструменти, переглядати вебсторінки та виконувати складні плани — цей реліз сигналізує про перехід до автономних робочих процесів ШІ.

Скорочення розриву з серією Opus

Найбільш вражаючим аспектом Sonnet 5 є те, наскільки близько вона підходить до продуктивності набагато більшої та дорожчої моделі Opus 4.8. У революційних бенчмарках Sonnet 5 продемонструвала, що моделі «середнього розміру» тепер можуть справлятися із завданнями, які раніше були доступні лише для інтелекту передового класу (frontier-class).

У бенчмарку мультидисциплінарного міркування Humanity's Last Exam Sonnet 5 досягла результату 57,4% при використанні інструментів, майже зрівнявшись із показником Opus 4.8, що становить 57,9%. Найбільше вражає те, що у бенчмарку завдань на знання з реального світу GDPval-AA v2 Sonnet 5 фактично перевершила Opus 4.8, набравши 1618 балів проти 1615 у флагмана. Це свідчить про те, що для специфічних робочих процесів, орієнтованих на великі обсяги знань, ефективність Sonnet 5 може переважувати чисту масштабованість серії Opus.

Величезний стрибок у агентній продуктивності

Anthropic спеціально розробила Sonnet 5 як свою найбільш «агентну» модель на сьогодні. Це означає, що модель оптимізована для взаємодії з таким середовищем, як веббраузери та термінали, для виконання багатоетапних завдань. Дані демонструють значний стрибок порівняно з її попередницею, Sonnet 4.6:

  • SWE-bench Pro (Agentic Coding): Sonnet 5 досягла 63,2%, порівняно з 58,1% у Sonnet 4.6 (відстаючи від Opus 4.8, яка має 69,2%).
  • Terminal-Bench 2.1: Величезний стрибок до 80,4% порівняно з 67,0% у Sonnet 4.6.
  • OSWorld-Verified (Computer Use): Модель набрала 81,2%, перевершивши 78,5%, зафіксовані в попередній версії.

Подолання обмежень кібербезпеки та безпеки

Запуск відбувається у чутливий для Anthropic час, після введення урядом США обмежень на моделі Mythos 5 та Fable 5 через занепокоєння щодо кібербезпеки. Щоб уникнути подібних перешкод, Anthropic подбала про те, щоб Sonnet 5 не навчалася на спеціалізованих завданнях із кібербезпеки.

Хоча Sonnet 5 демонструє трохи вищий рівень часткового контролю під час оцінки експлойтів (13,2%), ніж Sonnet 4.6, вона залишається значно менш здатною, ніж Opus 4.8 або Mythos 5, у написанні програмних експлойтів. Для мінімізації ризиків Anthropic за замовчуванням впровадила засоби кіберзахисту в реальному часі, а також покращені механізми захисту від ін'єкцій промптів (prompt injection) та зменшила прояви «сикофантської» поведінки (схильності просто погоджуватися з помилками користувача).

Доступність та «парадокс токенів»

Claude Sonnet 5 вже доступна через Claude Platform та API (як claude-sonnet-5), має контекстне вікно в один мільйон токенів і дату завершення навчання — січень 2026 року.

Хоча Anthropic пропонує вступні ціни — 2 долари за мільйон вхідних токенів і 10 доларів за мільйон вихідних токенів до 31 серпня 2026 року — розробникам слід остерігатися «парадоксу токенів». Оскільки модель є більш агентною та залучає більше ітеративного міркування, вона може споживати значно більше токенів для виконання одного завдання порівняно з попередніми версіями, що потенційно нівелює низьку вартість одного токена.

Основні висновки

  • Паритет продуктивності: Sonnet 5 зрівнюється або навіть перевершує флагманську Opus 4.8 у специфічних бенчмарках міркування та роботи зі знаннями.
  • Агентний фокус: Модель демонструє величезні покращення в програмуванні (SWE-bench) та взаємодії з терміналом, що робить її ідеальною для автономного використання інструментів.
  • Стратегічна безпека: Anthropic надала пріоритет вбудованим засобам кіберзахисту, щоб відрізнити цю модель від більш суперечливих передових моделей з високим рівнем ризику.