Anthropic lancia Claude Sonnet 5 per alimentare agenti IA convenienti

Anthropic ha rilasciato ufficialmente Claude Sonnet 5, un modello di medie dimensioni progettato specificamente per colmare il divario tra il ragionamento di alto livello e l'esecuzione autonoma a costi contenuti. Privilegiando le capacità "agentiche" — ovvero la capacità di utilizzare strumenti, pianificare e iterare — Anthropic posiziona Sonnet 5 come il motore di riferimento per gli sviluppatori che costruiscono workflow automatizzati.

La svolta verso l'intelligenza agentica

Nell'attuale corsa agli armamenti dell'IA, il settore si sta spostando dai semplici chatbot verso gli agenti autonomi. Il rilascio di Anthropic segue mosse simili di OpenAI con GPT-5.6 Sol e di Google con Gemini 3.5 Flash, segnalando che le prestazioni agentiche rappresentano il nuovo standard di riferimento.

Claude Sonnet 5 è progettato per agire come un operatore autonomo, capace di utilizzare browser e terminali per eseguire task multi-step. A differenza delle iterazioni precedenti che potevano bloccarsi durante sequenze complesse, Sonnet 5 dimostra una capacità unica di "controllare il proprio output" e completare workflow end-to-end. Ad esempio, gli ingegneri di Zapier hanno notato che il modello ha completato con successo un compito in due fasi — l'aggiornamento dei livelli degli account Salesforce e l'invio di annunci di lancio aziendali — un processo che in precedenza causava il fallimento dei modelli precedenti a metà dell'operazione.

Benchmark delle prestazioni: all'altezza dei pesi massimi

Sebbene Sonnet 5 sia un modello di medie dimensioni, le sue metriche di prestazione si avvicinano a quelle del modello di punta di Anthropic, Opus 4.8. Nei benchmark di coding agentico, Sonnet 5 ha ottenuto un punteggio del 63,2%, significativamente più alto del suo predecessore Sonnet 4.6 (58,1%) e solo leggermente inferiore a Opus 4.8 (69,2%).

Sorprendentemente, in specifici benchmark di lavoro basati sulla conoscenza, Sonnet 5 ha addirittura superato Opus 4.8. Ciò lo rende una scelta altamente efficiente per gli sviluppatori che necessitano di un ragionamento profondo senza il prezzo elevato di un modello di fascia alta. Anthropic suggerisce che, mentre Opus 4.8 rimane lo standard per l'accuratezza estrema e il giudizio sottile, Sonnet 5 offre l'equilibrio ideale tra qualità e costi per l'automazione quotidiana.

Prezzi aggressivi e standard di sicurezza

Per favorire l'adozione, Anthropic ha introdotto una struttura di prezzi competitiva. Fino al 31 agosto, Sonnet 5 ha un prezzo di $2 per milione di token in input e $10 per milione di token in output. Al termine di questo periodo, i prezzi si adegueranno a $3 per milione di token in input e $15 per milione di token in output. Questo posizionamento rende Sonnet 5 più conveniente rispetto a GPT-5.5 di OpenAI e Gemini 3.1 Pro di Google, sebbene rimanga più costoso di Gemini 3.5 Flash.

La sicurezza è altrettanto critica nelle implementazioni agentiche, dove la capacità di un modello di rifiutare comandi malevoli è fondamentale. Sonnet 5 mostra un tasso ridotto di "comportamenti indesiderati", come l'inganno o la cooperazione con usi impropri, rispetto a Sonnet 4.6. Ha inoltre dimostrato una maggiore resilienza contro gli attacchi di prompt injection e un tasso inferiore di comportamento compiacente, rendendolo un partner più affidabile per chi sviluppa strumenti destinati a milioni di utenti.

Punti chiave

  • Focus agentico: Sonnet 5 è ottimizzato per task autonomi, inclusi l'uso di strumenti (browser/terminali) e l'auto-correzione, rendendolo ideale per l'automazione complessa.
  • Efficienza dei costi: Il modello offre un'alternativa ad alte prestazioni e a costi inferiori rispetto ai modelli di punta come Opus 4.8, GPT-5.5 e Gemini 3.1 Pro.
  • Sicurezza migliorata: Significativi miglioramenti nel rifiuto di richieste malevole e nella resistenza alle prompt injection lo rendono più sicuro per i workflow agentici.