Claude Sonnet 5: Wysoka wydajność maskująca znaczący wzrost cen

Najnowsze wydanie od Anthropic, Claude Sonnet 5, oferuje imponujące wzrosty w benchmarkach, ale niesie ze sobą ukryte obciążenie finansowe dla programistów. Choć oficjalne stawki za tokeny pozostają bez zmian, nowe dane sugerują, że zwiększona gadatliwość (verbosity) i agentyczne zachowanie modelu znacząco podnoszą rzeczywisty koszt pojedynczego zadania.

Zyski w inteligencji a zużycie tokenów

Według Artificial Analysis Intelligence Index v4.1, Claude Sonnet 5 osiągnął znaczący kamień milowy pod względem technicznym. Uzyskując 53 punkty, zajmuje piąte miejsce na świecie, wyrównując wynik z GPT-5.5 (high) i przewyższając swojego poprzednika, Sonnet 4.6, który zdobył 47 punktów. Ten skok wydajności jest widoczny w kilku specjalistycznych benchmarkach, w tym 9-punktowy wzrost w Terminal-Bench v2.1 oraz 10-punktowy wzrost w Humanity's Last Exam.

Jednak te zyski w inteligencji odbywają się kosztem ekstremalnego zużycia tokenów. W benchmarkach opartych na pracy agentowej (agent-based knowledge work), takich jak AA-Briefcase i GDPval-AA, Sonnet 5 wykonuje około trzy razy więcej pętli agentowych niż Sonnet 4.6. Przy maksymalnych ustawieniach wydajności model zużywa o około 40% więcej tokenów wyjściowych na zadanie w porównaniu z poprzednią generacją.

Iluzja statycznych cen tokenów

Na pierwszy rzut oka Anthropic utrzymało swoją strukturę cenową: $3 za milion tokenów wejściowych i $15 za milion tokenów wyjściowych. Jest to wyraźnie taniej niż w przypadku poziomu Opus 4.8, który kosztuje odpowiednio $5 i $25. Jednak „koszt na zadanie” mówi co innego.

Artificial Analysis raportuje, że średnie zadanie w Intelligence Index kosztuje $2.29 przy użyciu Sonnet 5, podczas gdy droższy Opus 4.8 kosztuje tylko $1.97. Dla programistów przechodzących z Sonnet 4.6 — który kosztował około $1.20 za zadanie — przejście na Sonnet 5 oznacza niemal dwukrotny wzrost kosztów operacyjnych. Ten wzorzec przypomina poprzednie wydania, takie jak Opus 4.7, gdzie zmiany w tokenizerze skutecznie zwiększyły koszty o nawet 37,4%, mimo „niezmienionych” stawek.

Presja konkurencyjna i potrzeba przejrzystości

Choć Sonnet 5 doskonale radzi sobie w pewnych zadaniach agentowych, wciąż ma trudności z zaawansowanym rozumowaniem fizycznym. W benchmarku CritPt z Argonne National Labs uzyskał wynik 17%, zostając w tyle za takimi gigantami jak GLM-5.2, Claude Fable 5 i GPT-5.5.

Ta luka w wydajności oraz rosnąca struktura kosztów stawiają Anthropic w niepewnej sytuacji. Ponieważ chińscy konkurenci, tacy jak Deepseek V4 Pro i GLM-5.2, oferują porównywalną wydajność ze średniej półki za ułamek ceny, „ukryty” wzrost cen w rodzinie Claude staje się krytycznym czynnikiem dla adopcji w przedsiębiorstwach. Branża zmierza w stronę zapotrzebowania na bardziej przejrzyste metryki — takie jak koszt ustandaryzowanego zadania — zamiast polegać na surowej liczbie tokenów, która nie odzwierciedla już rzeczywistego obciążenia obliczeniowego przepływów pracy agentowej (agentic workflows).

Kluczowe wnioski

  • Ukryty wzrost kosztów: Mimo identycznych stawek za tokeny, Sonnet 5 jest o około 90% droższy w przeliczeniu na zadanie niż Sonnet 4.6 ze względu na zwiększone zużycie tokenów.
  • Wydajność w benchmarkach: Sonnet 5 zajmuje 5. miejsce na świecie z wynikiem 53 punktów, wykazując ogromne postępy w pętlach agentowych oraz w konkretnych benchmarkach, takich jak SciCode i Terminal-Bench.
  • Rozbieżność cenowa: „Tańszy” Sonnet 5 w rzeczywistości kosztuje więcej za zadanie ($2.29) niż model premium Opus 4.8 ($1.97), gdy mierzy się to za pomocą rzeczywistych benchmarków inteligencji.