Pourquoi les benchmarks d'IA standard sous-estiment systématiquement les capacités des agents

Les méthodes actuelles d'évaluation de l'IA ne parviennent pas à capturer le véritable potentiel des modèles de pointe, confondant souvent un manque de budget de calcul avec un manque d'intelligence. L'AI Security Institute (AISI) du Royaume-Uni a révélé que la performance d'un agent d'IA n'est pas un score fixe, mais une courbe de mise à l'échelle qui augmente brusquement avec l'augmentation du calcul au moment du test (test-time compute).

La courbe calcul-capacité

La conclusion principale de la recherche de l'AISI est que le taux de réussite d'un agent d'IA est inextricablement lié à son « test-time compute » — la quantité de puissance de calcul et de tokens qu'un agent est autorisé à utiliser lors de l'exécution d'une tâche. Lorsque les chercheurs appliquent des plafonds de budget fixes aux évaluations, ils mesurent la capacité minimale d'un modèle plutôt que son potentiel maximal.

Ce phénomène est visible dans plusieurs domaines à enjeux élevés. Dans les tâches d'ingénierie logicielle utilisant des benchmarks tels que TerminalBench 2.0 et SWE-Bench Pro, les taux de réussite ont bondi d'environ 25 % lorsque le budget de tokens est passé de un million à dix millions. De même, les tâches mathématiques et académiques dans « Humanity's Last Exam » ont enregistré un gain de 22 % lorsque le budget a atteint cinq millions de tokens.

La loi de puissance entre le temps de tâche humain et l'IA

L'étude a établi une corrélation directe entre le temps qu'un expert humain nécessite pour une tâche et la consommation de tokens requise par un agent d'IA. Cette relation suit une loi de puissance : une tâche qui prend une minute à un humain coûte des milliers de tokens à un agent, tandis qu'une tâche d'une heure en coûte des millions.

Cela crée un angle mort massif dans les tests actuels. Par exemple, la tâche de cybersécurité de l'AISI « The Last Ones » nécessite environ 20 heures d'expertise humaine. Aucun modèle testé par l'institut n'a pu résoudre cette tâche avec moins de 30 millions de tokens. En utilisant des évaluations standard à budget inférieur, les chercheurs excluent de fait les tâches les plus complexes et critiques du processus de mesure.

Accélération du progrès et les trois axes d'amélioration

L'AISI note que l'« horizon temporel » des modèles de pointe — la complexité des tâches qu'ils peuvent gérer — s'élargit beaucoup plus rapidement que prévu. Alors que les estimations précédentes suggéraient que l'horizon temporel pour les tâches cyber doublait tous les 4,7 mois avec un budget fixe de 2,5 millions de tokens, ce taux s'accélère considérablement avec des budgets plus élevés. À 50 millions de tokens, le taux de doublement s'accélère pour atteindre une fréquence de tous les 40 à 50 jours.

Les modèles plus récents (tels que les séries GPT et Claude testées) montrent une amélioration selon trois dimensions spécifiques :

  • Portée (Reach) : La capacité à s'attaquer à des tâches de plus en plus difficiles.
  • Fiabilité (Reliability) : La capacité à résoudre la même tâche de manière plus cohérente.
  • Efficacité (Efficiency) : La capacité à résoudre des tâches en utilisant moins de tokens.

Implications pour la sécurité et le déploiement de l'IA

Cette recherche déplace le paradigme de l'évaluation de l'IA des « scores fixes » vers des « courbes tenant compte du calcul » (compute-aware curves). Pour les développeurs et les fondateurs, cela signifie que l'utilité d'un modèle n'est pas seulement une fonction de son entraînement, mais de la quantité de calcul d'inférence allouée lors du déploiement.

À mesure que le coût par token continue de baisser, les capacités qui semblaient auparavant économiquement irréalisables deviendront la norme. Pour la sécurité de l'IA, cela signifie que les risques liés aux agents autonomes — tels que les cyberattaques complexes — pourraient être considérablement sous-estimés si les régulateurs et les entreprises s'appuient sur des benchmarks traditionnels à faible budget.

Points clés à retenir

  • Les benchmarks sont trompeurs : Les budgets de tokens fixes capturent la performance minimale d'un modèle, sous-estimant systématiquement le plafond de ce que les agents d'IA peuvent accomplir.
  • Le calcul augmente la capacité : Les taux de réussite en ingénierie logicielle et en mathématiques bondissent de manière significative à mesure que le budget de calcul au moment du test augmente.
  • Le taux de « doublement » s'accélère : Avec des budgets de calcul plus élevés, la vitesse à laquelle les modèles de pointe maîtrisent des tâches complexes est bien plus rapide que ce qui avait été estimé précédemment.