I ricercatori di Nvidia permettono ai robot di auto-addestrarsi utilizzando agenti di programmazione AI
Il collo di bottiglia rappresentato dalla raccolta manuale dei dati e dal costante intervento umano nella robotica viene finalmente affrontato. Sfruttando agenti di programmazione AI, i ricercatori hanno sviluppato un sistema in cui i robot possono scrivere autonomamente il proprio codice di addestramento e affinare la propria destrezza in ambienti reali.
Superare il collo di bottiglia manuale con ENPIRE
Tradizionalmente, insegnare a un robot compiti complessi come la presa destra richiede che gli ingegneri umani resettino le scene, raccolgano dataset e perfezionino manualmente gli algoritmi. Questo processo laborioso crea un enorme punto di attrito nella scalabilità dell'intelligenza robotica. Per risolvere il problema, i ricercatori di Nvidia, della Carnegie Mellon University e della UC Berkeley hanno introdotto ENPIRE, un framework che trasforma il processo di addestramento in un ciclo di feedback autosufficiente.
Invece di attendere istruzioni umane, il sistema ENPIRE utilizza agenti di programmazione AI per gestire l'intero ciclo di vita: resettare l'area di lavoro, eseguire una strategia di movimento, valutare il risultato e iterare immediatamente sul codice per migliorarne le prestazioni. Ciò sposta la robotica dal modello "human-in-the-loop" a quello "agent-in-the-loop".
Come gli agenti di programmazione autonomi guidano la destrezza
Il framework ENPIRE opera in due fasi distinte. Nella prima fase, l'agente stabilisce un'area di lavoro utilizzando una guida umana minima — spesso solo pochi minuti di video che mostrano tentativi riusciti e falliti. Fondamentalmente, l'agente scrive le proprie funzioni di ricompensa. Ad esempio, durante i compiti di inserimento di perni, l'agente ha sviluppato un controllo personalizzato combinando l'allineamento visivo, l'altezza della pinza e la forza stimata per determinare il successo.
Nella seconda fase, gli agenti operano con totale autonomia. Leggono articoli di ricerca, formulano ipotesi e modificano direttamente il codice di addestramento. Possono scegliere tra metodi come il behavior cloning (imitazione del movimento umano) o il reinforcement learning (tentativi ed errori) in base a quale approccio fornisca segnali migliori nel mondo reale. Durante i test, i ricercatori hanno utilizzato modelli ad alte prestazioni tra cui Codex (con GPT-5.5), Claude Code (con Opus 4.7) e Kimi Code (con Kimi K2.6), con Codex che si è rivelato il miglior performer.
Scalabilità tramite una flotta di robot abilitata a Git
One of the most innovative aspects of this research is the coordination of a fleet of eight dual-arm YAM robot stations. Rather than working in isolation, these stations act as a distributed research team. They share their findings, successful "recipes," and failed hypotheses using Git, the standard version control tool used in software engineering.
This fleet-based approach yields massive temporal gains:
- Push-T Test: Scaling from one to eight agents reduced completion time from five hours to just two.
- Pin Insertion: Task completion time dropped from over 90 minutes to approximately 40 minutes.
- Success Rates: The fleet achieved up to 99% success on demanding tasks, including sorting pins and cutting cable ties.
The Reality Gap: Simulation vs. Hardware
Despite these breakthroughs, the research highlights the "sim-to-real" gap. While all three tested agents solved the Push-T test in simulation, two out of three failed when transitioned to physical hardware due to unpredictable variables like friction and robot dynamics. However, ENPIRE demonstrated superior performance in the RoboCasa simulation compared to established models like GR00T.
As the industry moves toward general-purpose robotics, the ability for machines to "self-research" through code will be the key to moving beyond narrow, pre-programmed motions toward true, adaptable intelligence.
Key Takeaways
- Autonomous Iteration: ENPIRE allows robots to write their own reward functions and training code, significantly reducing the need for human engineers to reset scenes or tweak algorithms.
- Collaborative Learning: By using Git to share data, a fleet of eight robots can collectively learn from each other's successes and failures, drastically accelerating the training timeline.
- Real-World Complexity: While the system achieves up to 99% success on specific tasks, the unpredictable nature of physical environments remains a significant challenge compared to simulated training.