Claude Sonnet 5: Alte prestazioni che mascherano un significativo aumento dei prezzi
L'ultima release di Anthropic, Claude Sonnet 5, offre impressionanti miglioramenti nei benchmark, ma comporta un onere finanziario nascosto per gli sviluppatori. Sebbene le tariffe ufficiali dei token rimangano invariate, nuovi dati suggeriscono che la maggiore verbosità e il comportamento agentico del modello aumentino significativamente il costo reale per task.
Incrementi di intelligenza vs. consumo di token
Secondo l'Artificial Analysis Intelligence Index v4.1, Claude Sonnet 5 ha raggiunto un traguardo tecnico significativo. Con un punteggio di 53 punti, si posiziona al quinto posto a livello globale, pareggiando con GPT-5.5 (high) e superando il suo predecessore, Sonnet 4.6, che aveva ottenuto 47 punti. Questo salto di prestazioni è evidente in diversi benchmark specializzati, tra cui un balzo di 9 punti su Terminal-Bench v2.1 e un incremento di 10 punti su Humanity's Last Exam.
Tuttavia, questi incrementi di intelligenza avvengono al costo di un consumo estremo di token. Nei benchmark di lavoro cognitivo basati su agenti come AA-Briefcase e GDPval-AA, Sonnet 5 esegue circa tre volte il numero di loop agentici rispetto a Sonnet 4.6. Con le impostazioni di prestazioni massime, il modello consuma circa il 40% in più di token in output per task rispetto alla generazione precedente.
L'illusione di un prezzo dei token statico
In superficie, Anthropic ha mantenuto la sua struttura di prezzi: 3 $ per milione di token in input e 15 $ per milione di token in output. Questo è notevolmente più economico del livello Opus 4.8, che costa rispettivamente 5 $ e 25 $. Tuttavia, il "costo per task" racconta una storia diversa.
Artificial Analysis riferisce che un task medio nell'Intelligence Index costa 2,29 $ con Sonnet 5, mentre l'Opus 4.8, più costoso, costa solo 1,97 $. Per gli sviluppatori che passano da Sonnet 4.6 — che costava circa 1,20 $ per task — il passaggio a Sonnet 5 rappresenta quasi un raddoppio delle spese operative. Questo schema richiama release precedenti, come Opus 4.7, dove le modifiche al tokenizer hanno effettivamente aumentato i costi fino al 37,4%, nonostante le tariffe siano rimaste "invariate".
Pressioni competitive e necessità di trasparenza
Sebbene Sonnet 5 eccella in certi compiti agentici, fatica ancora con il ragionamento fisico di alto livello. Nel benchmark CritPt dell'Argonne National Labs, ha ottenuto il 17%, restando indietro rispetto a pesi massimi come GLM-5.2, Claude Fable 5 e GPT-5.5.
Questo divario di prestazioni e la crescente struttura dei costi pongono Anthropic in una posizione precaria. Poiché i concorrenti cinesi come Deepseek V4 Pro e GLM-5.2 offrono prestazioni di fascia media comparabili a una frazione del costo, l'aumento "nascosto" dei prezzi della famiglia Claude diventa un fattore critico per l'adozione aziendale. Il settore si sta muovendo verso la necessità di metriche più trasparenti — come il costo per task standardizzato — piuttosto che affidarsi al conteggio grezzo dei token, che non riflette più il carico computazionale effettivo dei workflow agentici.
Punti chiave
- Aumento dei costi nascosti: Nonostante le tariffe dei token identiche, Sonnet 5 è circa il 90% più costoso per task rispetto a Sonnet 4.6 a causa del maggiore consumo di token.
- Prestazioni nei benchmark: Sonnet 5 si classifica al 5° posto a livello globale con 53 punti, mostrando enormi progressi nei loop agentici e in benchmark specifici come SciCode e Terminal-Bench.
- Disparità di prezzo: Il "più economico" Sonnet 5 costa in realtà di più per task (2,29 $) rispetto al premium Opus 4.8 (1,97 $) quando misurato tramite benchmark di intelligenza del mondo reale.
