I ricercatori di Nvidia permettono ai robot di auto-addestrarsi utilizzando agenti di programmazione AI

Il collo di bottiglia rappresentato dalla raccolta manuale dei dati e dal costante intervento umano nella robotica viene finalmente affrontato. Sfruttando agenti di programmazione AI, i ricercatori hanno sviluppato un sistema in cui i robot possono scrivere autonomamente il proprio codice di addestramento e affinare la propria destrezza in ambienti reali.

Superare il collo di bottiglia manuale con ENPIRE

Tradizionalmente, insegnare a un robot compiti complessi come la presa destra richiede che gli ingegneri umani resettino le scene, raccolgano dataset e perfezionino manualmente gli algoritmi. Questo processo laborioso crea un enorme punto di attrito nella scalabilità dell'intelligenza robotica. Per risolvere il problema, i ricercatori di Nvidia, della Carnegie Mellon University e della UC Berkeley hanno introdotto ENPIRE, un framework che trasforma il processo di addestramento in un ciclo di feedback autosufficiente.

Invece di attendere istruzioni umane, il sistema ENPIRE utilizza agenti di programmazione AI per gestire l'intero ciclo di vita: resettare l'area di lavoro, eseguire una strategia di movimento, valutare il risultato e iterare immediatamente sul codice per migliorarne le prestazioni. Ciò sposta la robotica dal modello "human-in-the-loop" a quello "agent-in-the-loop".

Come gli agenti di programmazione autonomi guidano la destrezza

Il framework ENPIRE opera in due fasi distinte. Nella prima fase, l'agente stabilisce un'area di lavoro utilizzando una guida umana minima — spesso solo pochi minuti di video che mostrano tentativi riusciti e falliti. Fondamentalmente, l'agente scrive le proprie funzioni di ricompensa. Ad esempio, durante i compiti di inserimento di perni, l'agente ha sviluppato un controllo personalizzato combinando l'allineamento visivo, l'altezza della pinza e la forza stimata per determinare il successo.

Nella seconda fase, gli agenti operano con totale autonomia. Leggono articoli di ricerca, formulano ipotesi e modificano direttamente il codice di addestramento. Possono scegliere tra metodi come il behavior cloning (imitazione del movimento umano) o il reinforcement learning (tentativi ed errori) in base a quale approccio fornisca segnali migliori nel mondo reale. Durante i test, i ricercatori hanno utilizzato modelli ad alte prestazioni tra cui Codex (con GPT-5.5), Claude Code (con Opus 4.7) e Kimi Code (con Kimi K2.6), con Codex che si è rivelato il miglior performer.

Scalabilità tramite una flotta di robot abilitata a Git

One of the most innovative aspects of this research is the coordination of a fleet of eight dual-arm YAM robot stations. Rather than working in isolation, these stations act as a distributed research team. They share their findings, successful "recipes," and failed hypotheses using Git, the standard version control tool used in software engineering.

This fleet-based approach yields massive temporal gains:

The Reality Gap: Simulation vs. Hardware

Despite these breakthroughs, the research highlights the "sim-to-real" gap. While all three tested agents solved the Push-T test in simulation, two out of three failed when transitioned to physical hardware due to unpredictable variables like friction and robot dynamics. However, ENPIRE demonstrated superior performance in the RoboCasa simulation compared to established models like GR00T.

As the industry moves toward general-purpose robotics, the ability for machines to "self-research" through code will be the key to moving beyond narrow, pre-programmed motions toward true, adaptable intelligence.

Key Takeaways