Claude Sonnet 5: Hohe Leistung verschleiert einen erheblichen Preissprung

Anthropics neueste Veröffentlichung, Claude Sonnet 5, liefert beeindruckende Benchmark-Gewinne, bringt jedoch eine versteckte finanzielle Belastung für Entwickler mit sich. Während die offiziellen Token-Preise unverändert bleiben, deuten neue Daten darauf hin, dass die erhöhte Verbosität und das agentische Verhalten des Modells die realen Kosten pro Aufgabe erheblich in die Höhe treiben.

Intelligenzgewinne vs. Token-Verbrauch

Laut dem Artificial Analysis Intelligence Index v4.1 hat Claude Sonnet 5 einen bedeutenden technischen Meilenstein erreicht. Mit 53 Punkten belegt es weltweit den fünften Platz, gleichauf mit GPT-5.5 (high), und übertrifft seinen Vorgänger Sonnet 4.6, der 47 Punkte erreichte. Dieser Leistungssprung zeigt sich in mehreren spezialisierten Benchmarks, darunter ein Anstieg um 9 Punkte beim Terminal-Bench v2.1 und eine Steigerung um 10 Punkte bei Humanity's Last Exam.

Diese Intelligenzgewinne gehen jedoch mit einem extrem hohen Token-Verbrauch einher. In Benchmarks für agentenbasierte Wissensarbeit wie AA-Briefcase und GDPval-AA führt Sonnet 5 etwa dreimal so viele Agenten-Loops aus wie Sonnet 4.6. Bei maximalen Leistungseinstellungen verbraucht das Modell pro Aufgabe etwa 40 % mehr Output-Token als die Vorgängergeneration.

Die Illusion statischer Token-Preise

Oberflächlich betrachtet hat Anthropic seine Preisstruktur beibehalten: 3 $ pro Million Input-Token und 15 $ pro Million Output-Token. Dies ist deutlich günstiger als die Opus 4.8-Stufe, die jeweils 5 $ und 25 $ kostet. Doch die „Kosten pro Aufgabe“ erzählen eine andere Geschichte.

Artificial Analysis berichtet, dass eine durchschnittliche Aufgabe im Intelligence Index mit Sonnet 5 2,29 $ kostet, während das teurere Opus 4.8 nur 1,97 $ kostet. Für Entwickler, die von Sonnet 4.6 wechseln – was etwa 1,20 $ pro Aufgabe kostete –, bedeutet der Umstieg auf Sonnet 5 eine nahezu Verdoppelung der Betriebskosten. Dieses Muster spiegelt frühere Veröffentlichungen wider, wie etwa Opus 4.7, bei dem Änderungen am Tokenizer die Kosten trotz „unveränderter“ Raten effektiv um bis zu 37,4 % erhöhten.

Wettbewerbsdruck und die Notwendigkeit von Transparenz

Obwohl Sonnet 5 in bestimmten agentischen Aufgaben glänzt, hat es noch immer Schwierigkeiten mit komplexem physikalischem Denken. Im CritPt-Benchmark der Argonne National Labs erreichte es 17 % und liegt damit hinter Schwergewichten wie GLM-5.2, Claude Fable 5 und GPT-5.5 zurück.

Diese Leistungslücke und die steigende Kostenstruktur bringen Anthropic in eine prekäre Lage. Da chinesische Wettbewerber wie Deepseek V4 Pro und GLM-5.2 eine vergleichbare Mittelklasse-Leistung zu einem Bruchteil der Kosten bieten, wird die „schleichende“ Preissteigerung der Claude-Familie zu einem kritischen Faktor für die Einführung in Unternehmen. Die Branche bewegt sich hin zu einem Bedarf an transparenteren Metriken – wie den Kosten pro standardisierter Aufgabe – anstatt sich auf reine Token-Zahlen zu verlassen, die die tatsächliche Rechenlast agentischer Workflows nicht mehr widerspiegeln.

Wichtigste Erkenntnisse

  • Versteckte Kostensteigerung: Trotz identischer Token-Raten ist Sonnet 5 aufgrund des erhöhten Token-Verbrauchs pro Aufgabe etwa 90 % teurer als Sonnet 4.6.
  • Benchmark-Leistung: Sonnet 5 belegt weltweit den 5. Platz mit 53 Punkten und zeigt massive Fortschritte bei agentischen Loops sowie in spezifischen Benchmarks wie SciCode und Terminal-Bench.
  • Preisdisparität: Das „günstigere“ Sonnet 5 kostet gemessen an realen Intelligenz-Benchmarks tatsächlich mehr pro Aufgabe (2,29 $) als das Premium-Modell Opus 4.8 (1,97 $).