Anthropic lance Claude Sonnet 5 : la nouvelle frontière de l'IA agentique
Anthropic a officiellement lancé Claude Sonnet 5, un modèle puissant conçu pour combler l'écart de performance entre les séries d'IA de milieu de gamme et les modèles phares. En privilégiant les capacités agentiques — la capacité d'utiliser des outils, de naviguer sur le web et d'exécuter des plans complexes — cette version marque un tournant vers des flux de travail d'IA autonomes.
Combler l'écart avec la série Opus
L'aspect le plus frappant de Sonnet 5 est la proximité de ses performances avec celles de l'Opus 4.8, beaucoup plus grand et coûteux. Lors de benchmarks révolutionnaires, Sonnet 5 a démontré que les modèles de « taille intermédiaire » peuvent désormais s'attaquer à des tâches auparavant réservées à l'intelligence de classe frontier.
Sur le benchmark de raisonnement multidisciplinaire, Humanity's Last Exam, Sonnet 5 a obtenu un score de 57,4 % en utilisant des outils, égalant presque le score de 57,9 % d'Opus 4.8. Plus impressionnant encore, sur le benchmark de tâches de connaissances en conditions réelles GDPval-AA v2, Sonnet 5 a en réalité surpassé Opus 4.8, avec un score de 1 618 points contre 1 615 pour le modèle phare. Cela suggère que pour des flux de travail spécifiques à forte intensité de connaissances, l'efficacité de Sonnet 5 peut l'emporter sur la puissance brute de la série Opus.
Un bond massif dans les performances agentiques
Anthropic a spécifiquement conçu Sonnet 5 pour en faire son modèle le plus « agentique » à ce jour. Cela signifie que le modèle est optimisé pour interagir avec des environnements tels que les navigateurs web et les terminaux afin de réaliser des objectifs en plusieurs étapes. Les données montrent un bond significatif par rapport à son prédécesseur, Sonnet 4.6 :
- SWE-bench Pro (Agentic Coding) : Sonnet 5 a atteint 63,2 %, contre 58,1 % pour Sonnet 4.6 (dépassé par Opus 4.8 à 69,2 %).
- Terminal-Bench 2.1 : Un bond massif à 80,4 %, contre 67,0 % pour Sonnet 4.6.
- OSWorld-Verified (Computer Use) : Le modèle a obtenu un score de 81,2 %, surpassant les 78,5 % enregistrés par la version précédente.
Naviguer entre cybersécurité et contraintes de sécurité
Ce lancement intervient à un moment délicat pour Anthropic, suite aux restrictions du gouvernement américain sur ses modèles Mythos 5 et Fable 5 en raison de préoccupations de cybersécurité. Pour éviter des obstacles similaires, Anthropic s'est assuré que Sonnet 5 n'ait pas été entraîné sur des tâches de cybersécurité spécialisées.
Bien que Sonnet 5 affiche un taux de contrôle partiel légèrement plus élevé (13,2 %) dans les évaluations d'exploits que Sonnet 4.6, il reste nettement moins capable qu'Opus 4.8 ou Mythos 5 pour la rédaction d'exploits logiciels. Pour atténuer les risques, Anthropic a mis en place par défaut des mesures de protection cyber en temps réel, ainsi que des défenses améliorées contre l'injection de requêtes (prompt injection) et une réduction du comportement « sycophantique » (la tendance à simplement acquiescer aux erreurs de l'utilisateur).
Disponibilité et le « paradoxe des tokens »
Claude Sonnet 5 est disponible dès maintenant via la plateforme Claude et l'API (sous le nom claude-sonnet-5), avec une fenêtre de contexte d'un million de tokens et une date de coupure d'entraînement en janvier 2026.
Bien qu'Anthropic propose des tarifs de lancement — 2 $ par million de tokens d'entrée et 10 $ par million de tokens de sortie jusqu'au 31 août 2026 — les développeurs doivent se méfier du « paradoxe des tokens ». Comme le modèle est plus agentique et s'engage dans un raisonnement plus itératif, il peut consommer nettement plus de tokens pour accomplir une seule tâche par rapport aux versions précédentes, ce qui pourrait compenser le coût inférieur par token.
Points clés à retenir
- Parité de performance : Sonnet 5 égale ou surpasse même le modèle phare Opus 4.8 dans certains benchmarks de raisonnement et de connaissances.
- Orientation agentique : Le modèle montre des améliorations massives en codage (SWE-bench) et en interaction avec le terminal, ce qui le rend idéal pour l'utilisation autonome d'outils.
- Sécurité stratégique : Anthropic a donné la priorité aux mesures de protection cyber intégrées pour distinguer ce modèle des modèles frontier plus controversés et à haut risque.
