Badacze Nvidia umożliwiają robotom samodzielne trenowanie przy użyciu agentów programistycznych AI
Wąskie gardło, jakim jest ręczne zbieranie danych i ciągła interwencja człowieka w robotyce, zostaje w końcu rozwiązane. Wykorzystując agentów programistycznych AI, badacze opracowali system, w którym roboty mogą autonomicznie pisać własny kod treningowy i doskonalić swoją zręczność w rzeczywistych środowiskach.
Przełamanie manualnego wąskiego gardła dzięki ENPIRE
Tradycyjnie nauka robota złożonych zadań, takich jak zręczne chwytanie, wymaga od inżynierów resetowania scen, zbierania zbiorów danych i ręcznego dostrajania algorytmów. Ten pracochłonny proces tworzy ogromne trudności w skalowaniu inteligencji robotycznej. Aby temu zaradzić, badacze z Nvidia, Carnegie Mellon University oraz UC Berkeley wprowadzili ENPIRE – framework, który przekształca proces trenowania w samopodtrzymującą się pętlę sprzężenia zwrotnego.
Zamiast czekać na instrukcje od człowieka, system ENPIRE wykorzystuje agentów programistycznych AI do zarządzania całym cyklem życia: resetowania przestrzeni roboczej, wykonywania strategii ruchu, oceniania wyników i natychmiastowej iteracji kodu w celu poprawy wydajności. Przesuwa to robotykę z modelu „human-in-the-loop” do „agent-in-the-loop”.
Jak autonomiczni agenci programistyczni napędzają zręczność
Framework ENPIRE działa w dwóch odrębnych fazach. W pierwszej fazie agent ustanawia przestrzeń roboczą przy minimalnym wsparciu człowieka – często wystarczy zaledwie kilka minut nagrania wideo pokazującego udane i nieudane próby. Co kluczowe, agent sam pisze własne funkcje nagrody. Na przykład podczas zadań osadzania pinów, agent opracował własną metodę sprawdzania, łączącą wizualne wyrównanie, wysokość chwytaka i szacowaną siłę, aby określić sukces operacji.
W drugiej fazie agenci działają z pełną autonomią. Czytają prace badawcze, formułują hipotezy i bezpośrednio edytują kod treningowy. Mogą wybierać między metodami takimi jak klonowanie zachowań (behavior cloning) lub uczenie ze wzmocnieniem (reinforcement learning), w zależności od tego, która metoda dostarcza lepszych sygnałów z rzeczywistego świata. Podczas testów badacze wykorzystali wysokowydajne modele, w tym Codex (z GPT-5.5), Claude Code (z Opus 4.7) oraz Kimi Code (z Kimi K2.6), przy czym Codex okazał się najskuteczniejszy.
Skalowanie poprzez flotę robotów obsługującą Git
Jednym z najbardziej innowacyjnych aspektów tego badania jest koordynacja floty ośmiu dwuręcznych stacji robotycznych YAM. Zamiast pracować w izolacji, stacje te działają jak rozproszony zespół badawczy. Dzielą się swoimi odkryciami, udanymi „przepisami” oraz nieudanymi hipotezami za pomocą Git, standardowego narzędzia do kontroli wersji stosowanego w inżynierii oprogramowania.
To podejście oparte na flocie przynosi ogromne zyski czasowe:
- Test Push-T: Skalowanie z jednego do ośmiu agentów skróciło czas realizacji z pięciu godzin do zaledwie dwóch.
- Wkładanie pinów: Czas wykonania zadania spadł z ponad 90 minut do około 40 minut.
- Wskaźniki sukcesu: Flota osiągnęła do 99% skuteczności w wymagających zadaniach, w tym sortowaniu pinów i przecinaniu opasek zaciskowych.
Luka rzeczywistości: Symulacja vs. Sprzęt
Mimo tych przełomów, badania uwypuklają lukę „sim-to-real”. Choć wszyscy trzej testowani agenci rozwiązali test Push-T w symulacji, dwóch z trzech nie poradziło sobie po przejściu na fizyczny sprzęt ze względu na nieprzewidywalne zmienne, takie jak tarcie i dynamika robota. Jednak ENPIRE wykazało wyższą wydajność w symulacji RoboCasa w porównaniu do uznanych modeli, takich jak GR00T.
W miarę jak branża zmierza w stronę robotyki ogólnego przeznaczenia, zdolność maszyn do „samodzielnych badań” poprzez kod będzie kluczem do wyjścia poza wąskie, zaprogramowane ruchy w stronę prawdziwej, adaptacyjnej inteligencji.
Kluczowe wnioski
- Autonomiczna iteracja: ENPIRE pozwala robotom na pisanie własnych funkcji nagrody i kodu treningowego, co znacząco zmniejsza potrzebę angażowania inżynierów do resetowania scen lub dostrajania algorytmów.
- Uczenie kolaboratywne: Dzięki wykorzystaniu Git do współdzielenia danych, flota ośmiu robotów może zbiorowo uczyć się na sukcesach i porażkach innych, drastycznie przyspieszając proces szkolenia.
- Złożoność świata rzeczywistego: Choć system osiąga do 99% skuteczności w konkretnych zadaniach, nieprzewidywalna natura środowisk fizycznych pozostaje znaczącym wyzwaniem w porównaniu do treningu symulowanego.