Badacze Nvidia umożliwiają robotom samodzielne trenowanie przy użyciu agentów programistycznych AI

Wąskie gardło, jakim jest ręczne zbieranie danych i ciągła interwencja człowieka w robotyce, zostaje w końcu rozwiązane. Wykorzystując agentów programistycznych AI, badacze opracowali system, w którym roboty mogą autonomicznie pisać własny kod treningowy i doskonalić swoją zręczność w rzeczywistych środowiskach.

Przełamanie manualnego wąskiego gardła dzięki ENPIRE

Tradycyjnie nauka robota złożonych zadań, takich jak zręczne chwytanie, wymaga od inżynierów resetowania scen, zbierania zbiorów danych i ręcznego dostrajania algorytmów. Ten pracochłonny proces tworzy ogromne trudności w skalowaniu inteligencji robotycznej. Aby temu zaradzić, badacze z Nvidia, Carnegie Mellon University oraz UC Berkeley wprowadzili ENPIRE – framework, który przekształca proces trenowania w samopodtrzymującą się pętlę sprzężenia zwrotnego.

Zamiast czekać na instrukcje od człowieka, system ENPIRE wykorzystuje agentów programistycznych AI do zarządzania całym cyklem życia: resetowania przestrzeni roboczej, wykonywania strategii ruchu, oceniania wyników i natychmiastowej iteracji kodu w celu poprawy wydajności. Przesuwa to robotykę z modelu „human-in-the-loop” do „agent-in-the-loop”.

Jak autonomiczni agenci programistyczni napędzają zręczność

Framework ENPIRE działa w dwóch odrębnych fazach. W pierwszej fazie agent ustanawia przestrzeń roboczą przy minimalnym wsparciu człowieka – często wystarczy zaledwie kilka minut nagrania wideo pokazującego udane i nieudane próby. Co kluczowe, agent sam pisze własne funkcje nagrody. Na przykład podczas zadań osadzania pinów, agent opracował własną metodę sprawdzania, łączącą wizualne wyrównanie, wysokość chwytaka i szacowaną siłę, aby określić sukces operacji.

W drugiej fazie agenci działają z pełną autonomią. Czytają prace badawcze, formułują hipotezy i bezpośrednio edytują kod treningowy. Mogą wybierać między metodami takimi jak klonowanie zachowań (behavior cloning) lub uczenie ze wzmocnieniem (reinforcement learning), w zależności od tego, która metoda dostarcza lepszych sygnałów z rzeczywistego świata. Podczas testów badacze wykorzystali wysokowydajne modele, w tym Codex (z GPT-5.5), Claude Code (z Opus 4.7) oraz Kimi Code (z Kimi K2.6), przy czym Codex okazał się najskuteczniejszy.

Skalowanie poprzez flotę robotów obsługującą Git

Jednym z najbardziej innowacyjnych aspektów tego badania jest koordynacja floty ośmiu dwuręcznych stacji robotycznych YAM. Zamiast pracować w izolacji, stacje te działają jak rozproszony zespół badawczy. Dzielą się swoimi odkryciami, udanymi „przepisami” oraz nieudanymi hipotezami za pomocą Git, standardowego narzędzia do kontroli wersji stosowanego w inżynierii oprogramowania.

To podejście oparte na flocie przynosi ogromne zyski czasowe:

Luka rzeczywistości: Symulacja vs. Sprzęt

Mimo tych przełomów, badania uwypuklają lukę „sim-to-real”. Choć wszyscy trzej testowani agenci rozwiązali test Push-T w symulacji, dwóch z trzech nie poradziło sobie po przejściu na fizyczny sprzęt ze względu na nieprzewidywalne zmienne, takie jak tarcie i dynamika robota. Jednak ENPIRE wykazało wyższą wydajność w symulacji RoboCasa w porównaniu do uznanych modeli, takich jak GR00T.

W miarę jak branża zmierza w stronę robotyki ogólnego przeznaczenia, zdolność maszyn do „samodzielnych badań” poprzez kod będzie kluczem do wyjścia poza wąskie, zaprogramowane ruchy w stronę prawdziwej, adaptacyjnej inteligencji.

Kluczowe wnioski