Des chercheurs de Nvidia permettent aux robots de s'auto-entraîner grâce à des agents de codage IA
Le goulot d'étranglement que représentent la collecte manuelle de données et l'intervention humaine constante en robotique est enfin en passe d'être résolu. En exploitant des agents de codage IA, des chercheurs ont mis au point un système où les robots peuvent écrire de manière autonome leur propre code d'entraînement et affiner leur dextérité dans des environnements réels.
Briser le goulot d'étranglement manuel avec ENPIRE
Traditionnellement, l'apprentissage de tâches complexes comme la saisie dextre nécessite que des ingénieurs humains réinitialisent les scènes, collectent des ensembles de données et ajustent manuellement les algorithmes. Ce processus exigeant en main-d'œuvre crée un point de friction majeur dans le passage à l'échelle de l'intelligence robotique. Pour y remédier, des chercheurs de Nvidia, de l'Université Carnegie Mellon et de l'UC Berkeley ont introduit ENPIRE, un framework qui transforme le processus d'entraînement en une boucle de rétroaction auto-entretenue.
Au lieu d'attendre des instructions humaines, le système ENPIRE utilise des agents de codage IA pour gérer l'ensemble du cycle de vie : réinitialisation de l'espace de travail, exécution d'une stratégie de mouvement, évaluation du résultat et itération immédiate sur le code pour améliorer les performances. Cela fait passer la robotique du modèle « human-in-the-loop » (l'humain dans la boucle) au modèle « agent-in-the-loop » (l'agent dans la boucle).
Comment les agents de codage autonomes stimulent la dextérité
Le framework ENPIRE fonctionne en deux phases distinctes. Dans la première phase, l'agent établit un espace de travail avec un minimum de guidage humain — souvent seulement quelques minutes de vidéo montrant des tentatives réussies et échouées. Point crucial : l'agent écrit ses propres fonctions de récompense. Par exemple, lors de tâches d'insertion de broches, l'agent a développé un contrôle personnalisé combinant l'alignement visuel, la hauteur de la pince et la force estimée pour déterminer le succès.
Dans la seconde phase, les agents opèrent en totale autonomie. Ils lisent des articles de recherche, formulent des hypothèses et modifient directement le code d'entraînement. Ils peuvent choisir entre des méthodes telles que le clonage de comportement (imitation du mouvement humain) ou l'apprentissage par renforcement (essais et erreurs) en fonction de l'approche qui produit les meilleurs signaux en conditions réelles. Lors des tests, les chercheurs ont utilisé des modèles de haute performance, notamment Codex (avec GPT-5.5), Claude Code (avec Opus 4.7) et Kimi Code (avec Kimi K2.6), Codex s'étant révélé être le plus performant.
Passer à l'échelle via une flotte de robots compatible Git
L'un des aspects les plus innovants de cette recherche est la coordination d'une flotte de huit stations robotiques YAM à deux bras. Plutôt que de travailler de manière isolée, ces stations agissent comme une équipe de recherche distribuée. Elles partagent leurs découvertes, leurs « recettes » réussies et leurs hypothèses infructueuses en utilisant Git, l'outil de gestion de versions standard utilisé en génie logiciel.
Cette approche basée sur une flotte permet des gains de temps massifs :
- Test Push-T : Le passage d'un à huit agents a réduit le temps d'exécution de cinq heures à seulement deux.
- Insertion d'épingles : Le temps d'exécution de la tâche est passé de plus de 90 minutes à environ 40 minutes.
- Taux de réussite : La flotte a atteint jusqu'à 99 % de réussite sur des tâches exigeantes, notamment le tri d'épingles et la découpe de serre-câbles.
L'écart avec la réalité : Simulation vs Matériel
Malgré ces avancées, la recherche met en évidence l'écart « sim-to-real ». Bien que les trois agents testés aient résolu le test Push-T en simulation, deux d'entre eux ont échoué lors du passage au matériel physique en raison de variables imprévisibles telles que la friction et la dynamique du robot. Cependant, ENPIRE a démontré des performances supérieures dans la simulation RoboCasa par rapport à des modèles établis comme GR00T.
À mesure que l'industrie s'oriente vers la robotique à usage général, la capacité des machines à « s'auto-rechercher » par le code sera la clé pour dépasser les mouvements limités et préprogrammés au profit d'une intelligence véritable et adaptable.
Points clés à retenir
- Itération autonome : ENPIRE permet aux robots d'écrire leurs propres fonctions de récompense et leur code d'entraînement, réduisant considérablement le besoin pour les ingénieurs humains de réinitialiser les scènes ou d'ajuster les algorithmes.
- Apprentissage collaboratif : En utilisant Git pour partager des données, une flotte de huit robots peut apprendre collectivement des succès et des échecs des autres, accélérant ainsi considérablement le calendrier d'entraînement.
- Complexité du monde réel : Bien que le système atteigne jusqu'à 99 % de réussite sur des tâches spécifiques, la nature imprévisible des environnements physiques reste un défi majeur par rapport à l'entraînement simulé.