Les classements d'agents induisent en erreur lors d'un changement de distribution

Les classements actuels d'agents IA sont défaillants.

La plupart des classements prennent un agent et le transforment en un score unique. Ils trient ensuite les agents du plus élevé au plus bas. Cela rend bien dans un rapport, mais cela échoue dans le monde réel.

Un nouvel article d'IBM intitulé Beyond Static Leaderboards explique pourquoi.

Le problème : les scores agrégés

Un score moyen unique est un signal faible pour le déploiement. Une évaluation devrait vous indiquer quel agent déployer. Si l'agent en tête d'un benchmark n'est pas l'agent le plus performant dans votre environnement de production, le classement vous a menti.

IBM a constaté que les classements basés sur des scores agrégés ne sont pas transposables lorsque les conditions changent. C'est ce qu'on appelle un changement de distribution (distribution shift).

L'analogie : des sprinteurs face au vent

  • Imaginez que vous classiez des sprinteurs en intérieur sur une piste sans vent.
  • Le sprinteur A gagne. Le sprinteur B est deuxième.
  • Maintenant, déplacez la course en extérieur, face à un vent violent.
  • Le classement change. Le sprinteur B gagne. Le sprinteur A tombe à la troisième place.

Le chronomètre en intérieur n'était pas faux. Il a mesuré la vitesse dans un cadre spécifique. Il ne pouvait tout simplement pas prédire la performance des coureurs face au vent.

La solution : la validité prédictive

IBM propose d'utiliser la validité prédictive plutôt que de simples scores bruts.

La validité prédictive mesure la corrélation de rang entre un benchmark et les résultats en conditions réelles. Elle pose une question simple : l'ordre des agents reste-t-il le même lorsque l'environnement change ?

  • Validité prédictive élevée : le classement prédit le gagnant du monde réel.
  • Validité prédictive faible : le classement désigne le mauvais agent.

Concepts clés :

  • In-sample (échantillon interne) : les tâches spécifiques utilisées par le benchmark.
  • Out-of-distribution (hors distribution) : nouvelles tâches, nouveaux outils ou données différentes rencontrées lors du déploiement.
  • Instabilité de rang : lorsqu'un léger changement de tâches bouleverse l'intégralité du classement.

Cessez de traiter les benchmarks comme de simples tableaux de scores. Traitez-les comme des outils de mesure. Si un outil ne peut pas prédire le résultat qui vous importe, il est inutile pour la production.

Source : https://dev.to/pueding/agent-leaderboards-mislead-under-distribution-shift-ibm-predictive-validity-4d0c

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi