Des chercheurs de Nvidia permettent aux robots de s'auto-entraîner grâce à des agents de codage IA

Le goulot d'étranglement que représentent la collecte manuelle de données et l'intervention humaine constante en robotique est enfin en passe d'être résolu. En exploitant des agents de codage IA, des chercheurs ont mis au point un système où les robots peuvent écrire de manière autonome leur propre code d'entraînement et affiner leur dextérité dans des environnements réels.

Briser le goulot d'étranglement manuel avec ENPIRE

Traditionnellement, l'apprentissage de tâches complexes comme la saisie dextre nécessite que des ingénieurs humains réinitialisent les scènes, collectent des ensembles de données et ajustent manuellement les algorithmes. Ce processus exigeant en main-d'œuvre crée un point de friction majeur dans le passage à l'échelle de l'intelligence robotique. Pour y remédier, des chercheurs de Nvidia, de l'Université Carnegie Mellon et de l'UC Berkeley ont introduit ENPIRE, un framework qui transforme le processus d'entraînement en une boucle de rétroaction auto-entretenue.

Au lieu d'attendre des instructions humaines, le système ENPIRE utilise des agents de codage IA pour gérer l'ensemble du cycle de vie : réinitialisation de l'espace de travail, exécution d'une stratégie de mouvement, évaluation du résultat et itération immédiate sur le code pour améliorer les performances. Cela fait passer la robotique du modèle « human-in-the-loop » (l'humain dans la boucle) au modèle « agent-in-the-loop » (l'agent dans la boucle).

Comment les agents de codage autonomes stimulent la dextérité

Le framework ENPIRE fonctionne en deux phases distinctes. Dans la première phase, l'agent établit un espace de travail avec un minimum de guidage humain — souvent seulement quelques minutes de vidéo montrant des tentatives réussies et échouées. Point crucial : l'agent écrit ses propres fonctions de récompense. Par exemple, lors de tâches d'insertion de broches, l'agent a développé un contrôle personnalisé combinant l'alignement visuel, la hauteur de la pince et la force estimée pour déterminer le succès.

Dans la seconde phase, les agents opèrent en totale autonomie. Ils lisent des articles de recherche, formulent des hypothèses et modifient directement le code d'entraînement. Ils peuvent choisir entre des méthodes telles que le clonage de comportement (imitation du mouvement humain) ou l'apprentissage par renforcement (essais et erreurs) en fonction de l'approche qui produit les meilleurs signaux en conditions réelles. Lors des tests, les chercheurs ont utilisé des modèles de haute performance, notamment Codex (avec GPT-5.5), Claude Code (avec Opus 4.7) et Kimi Code (avec Kimi K2.6), Codex s'étant révélé être le plus performant.

Passer à l'échelle via une flotte de robots compatible Git

L'un des aspects les plus innovants de cette recherche est la coordination d'une flotte de huit stations robotiques YAM à deux bras. Plutôt que de travailler de manière isolée, ces stations agissent comme une équipe de recherche distribuée. Elles partagent leurs découvertes, leurs « recettes » réussies et leurs hypothèses infructueuses en utilisant Git, l'outil de gestion de versions standard utilisé en génie logiciel.

Cette approche basée sur une flotte permet des gains de temps massifs :

L'écart avec la réalité : Simulation vs Matériel

Malgré ces avancées, la recherche met en évidence l'écart « sim-to-real ». Bien que les trois agents testés aient résolu le test Push-T en simulation, deux d'entre eux ont échoué lors du passage au matériel physique en raison de variables imprévisibles telles que la friction et la dynamique du robot. Cependant, ENPIRE a démontré des performances supérieures dans la simulation RoboCasa par rapport à des modèles établis comme GR00T.

À mesure que l'industrie s'oriente vers la robotique à usage général, la capacité des machines à « s'auto-rechercher » par le code sera la clé pour dépasser les mouvements limités et préprogrammés au profit d'une intelligence véritable et adaptable.

Points clés à retenir