Claude Sonnet 5: Hoge prestaties maskeren een aanzienlijke prijsstijging

De nieuwste release van Anthropic, Claude Sonnet 5, levert indrukwekkende verbeteringen in benchmarks, maar brengt een verborgen financiële last met zich mee voor ontwikkelaars. Hoewel de officiële token-tarieven ongewijzigd blijven, suggereren nieuwe gegevens dat de verhoogde verbositeit en het agentic gedrag van het model de werkelijke kosten per taak aanzienlijk opdrijven.

Intelligentiewinst versus tokenverbruik

Volgens de Artificial Analysis Intelligence Index v4.1 heeft Claude Sonnet 5 een belangrijke technische mijlpaal bereikt. Met een score van 53 punten staat het model wereldwijd op de vijfde plaats, gelijk aan GPT-5.5 (high), en presteert het beter dan zijn voorganger, Sonnet 4.6, die 47 punten scoorde. Deze sprong in prestaties is duidelijk zichtbaar in verschillende gespecialiseerde benchmarks, waaronder een stijging van 9 punten op Terminal-Bench v2.1 en een toename van 10 punten op Humanity's Last Exam.

Deze intelligentiewinst gaat echter gepaard met extreem tokenverbruik. In benchmarks voor agent-gebaseerd kenniswerk, zoals AA-Briefcase en GDPval-AA, voert Sonnet 5 ongeveer drie keer zoveel agent-loops uit als Sonnet 4.6. Bij maximale prestatie-instellingen verbruikt het model ongeveer 40% meer output-tokens per taak vergeleken met de vorige generatie.

De illusie van statische tokenprijzen

Op het eerste gezicht heeft Anthropic de prijsstructuur ongewijzigd gelaten: $3 per miljoen input-tokens en $15 per miljoen output-tokens. Dit is aanzienlijk goedkoper dan het Opus 4.8-niveau, dat respectievelijk $5 en $25 kost. Toch vertelt de "kosten per taak" een ander verhaal.

Artificial Analysis meldt dat een gemiddelde taak in de Intelligence Index $2,29 kost met Sonnet 5, terwijl de duurdere Opus 4.8 slechts $1,97 kost. Voor ontwikkelaars die overstappen van Sonnet 4.6 — die ongeveer $1,20 per taak kostte — betekent de overstap naar Sonnet 5 een bijna verdubbeling van de operationele kosten. Dit patroon weerspiegelt eerdere releases, zoals Opus 4.7, waarbij wijzigingen in de tokenizer de kosten effectief met wel 37,4% verhoogden, ondanks de "ongewijzigde" tarieven.

Concurrentiedruk en de behoefte aan transparantie

Hoewel Sonnet 5 uitblinkt in bepaalde agentic taken, heeft het nog steeds moeite met hoogwaardig natuurkundig redeneren. Op de CritPt-benchmark van Argonne National Labs scoorde het 17%, waarmee het achterblijft bij zwaargewichten als GLM-5.2, Claude Fable 5 en GPT-5.5.

Deze prestatiekloof en de stijgende kostenstructuur brengen Anthropic in een precaire positie. Nu Chinese concurrenten zoals Deepseek V4 Pro en GLM-5.2 vergelijkbare prestaties in het middensegment bieden tegen een fractie van de kosten, wordt de "verborgen" prijsstijging van de Claude-familie een kritieke factor voor adoptie door bedrijven. De sector beweegt zich naar een behoefte aan meer transparante metrieken — zoals kosten per gestandaardiseerde taak — in plaats van te vertrouwen op ruwe token-aantallen die niet langer de werkelijke rekenlast van agentic workflows weerspiegelen.

Belangrijkste conclusies

  • Verborgen kostenstijging: Ondanks identieke token-tarieven is Sonnet 5 ongeveer 90% duurder per taak dan Sonnet 4.6 vanwege het verhoogde tokenverbruik.
  • Benchmark-prestaties: Sonnet 5 staat wereldwijd op de 5e plaats met 53 punten en laat enorme winst zien in agent-loops en specifieke benchmarks zoals SciCode en Terminal-Bench.
  • Prijsverschil: De "goedkopere" Sonnet 5 kost in werkelijkheid meer per taak ($2,29) dan de premium Opus 4.8 ($1,97) wanneer gemeten aan de hand van real-world intelligentie-benchmarks.