I ricercatori di Nvidia permettono ai robot di auto-addestrarsi tramite agenti di codifica AI

📅4 hours ago⏱3 min read

In this article

I ricercatori di Nvidia permettono ai robot di auto-addestrarsi utilizzando agenti di programmazione AI

Il collo di bottiglia rappresentato dalla raccolta manuale dei dati e dal costante intervento umano nella robotica viene finalmente affrontato. Sfruttando agenti di programmazione AI, i ricercatori hanno sviluppato un sistema in cui i robot possono scrivere autonomamente il proprio codice di addestramento e affinare la propria destrezza in ambienti reali.

Superare il collo di bottiglia manuale con ENPIRE

Tradizionalmente, insegnare a un robot compiti complessi come la presa destra richiede che gli ingegneri umani resettino le scene, raccolgano dataset e perfezionino manualmente gli algoritmi. Questo processo laborioso crea un enorme punto di attrito nella scalabilità dell'intelligenza robotica. Per risolvere il problema, i ricercatori di Nvidia, della Carnegie Mellon University e della UC Berkeley hanno introdotto ENPIRE, un framework che trasforma il processo di addestramento in un ciclo di feedback autosufficiente.

Invece di attendere istruzioni umane, il sistema ENPIRE utilizza agenti di programmazione AI per gestire l'intero ciclo di vita: resettare l'area di lavoro, eseguire una strategia di movimento, valutare il risultato e iterare immediatamente sul codice per migliorarne le prestazioni. Ciò sposta la robotica dal modello "human-in-the-loop" a quello "agent-in-the-loop".

Come gli agenti di programmazione autonomi guidano la destrezza

Il framework ENPIRE opera in due fasi distinte. Nella prima fase, l'agente stabilisce un'area di lavoro utilizzando una guida umana minima — spesso solo pochi minuti di video che mostrano tentativi riusciti e falliti. Fondamentalmente, l'agente scrive le proprie funzioni di ricompensa. Ad esempio, durante i compiti di inserimento di perni, l'agente ha sviluppato un controllo personalizzato combinando l'allineamento visivo, l'altezza della pinza e la forza stimata per determinare il successo.

Nella seconda fase, gli agenti operano con totale autonomia. Leggono articoli di ricerca, formulano ipotesi e modificano direttamente il codice di addestramento. Possono scegliere tra metodi come il behavior cloning (imitazione del movimento umano) o il reinforcement learning (tentativi ed errori) in base a quale approccio fornisca segnali migliori nel mondo reale. Durante i test, i ricercatori hanno utilizzato modelli ad alte prestazioni tra cui Codex (con GPT-5.5), Claude Code (con Opus 4.7) e Kimi Code (con Kimi K2.6), con Codex che si è rivelato il miglior performer.

Scalabilità tramite una flotta di robot abilitata a Git

One of the most innovative aspects of this research is the coordination of a fleet of eight dual-arm YAM robot stations. Rather than working in isolation, these stations act as a distributed research team. They share their findings, successful "recipes," and failed hypotheses using Git, the standard version control tool used in software engineering.

This fleet-based approach yields massive temporal gains:

Push-T Test: Scaling from one to eight agents reduced completion time from five hours to just two.
Pin Insertion: Task completion time dropped from over 90 minutes to approximately 40 minutes.
Success Rates: The fleet achieved up to 99% success on demanding tasks, including sorting pins and cutting cable ties.

The Reality Gap: Simulation vs. Hardware

Despite these breakthroughs, the research highlights the "sim-to-real" gap. While all three tested agents solved the Push-T test in simulation, two out of three failed when transitioned to physical hardware due to unpredictable variables like friction and robot dynamics. However, ENPIRE demonstrated superior performance in the RoboCasa simulation compared to established models like GR00T.

As the industry moves toward general-purpose robotics, the ability for machines to "self-research" through code will be the key to moving beyond narrow, pre-programmed motions toward true, adaptable intelligence.

Key Takeaways

Autonomous Iteration: ENPIRE allows robots to write their own reward functions and training code, significantly reducing the need for human engineers to reset scenes or tweak algorithms.
Collaborative Learning: By using Git to share data, a fleet of eight robots can collectively learn from each other's successes and failures, drastically accelerating the training timeline.
Real-World Complexity: While the system achieves up to 99% success on specific tasks, the unpredictable nature of physical environments remains a significant challenge compared to simulated training.

I ricercatori di Nvidia permettono ai robot di auto-addestrarsi tramite agenti di codifica AI

I ricercatori di Nvidia permettono ai robot di auto-addestrarsi utilizzando agenti di programmazione AI

Superare il collo di bottiglia manuale con ENPIRE

Come gli agenti di programmazione autonomi guidano la destrezza

Scalabilità tramite una flotta di robot abilitata a Git

The Reality Gap: Simulation vs. Hardware

Key Takeaways

Continue reading

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

𝗧𝗵𝗲 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜 𝗚𝗼𝘃𝗲𝗿𝗻𝗮𝗻𝗰𝗲 𝗙𝗿𝗮𝗺𝗲𝘄𝗼𝗿𝗸

𝗔𝗜 𝗦𝗲𝗹𝗳 𝗥𝗲𝗳𝗹𝗲𝗰𝘁𝗶𝗼𝗻

Come la flessibilità dell'IA potrebbe risolvere la crisi energetica globale dei data center

𝗧𝗵𝗲 𝗦𝗹𝗼𝘁 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗪𝗮𝘀 𝘁𝗵𝗲 𝗣𝗼𝗶𝗻𝘁