Badacze Nvidii umożliwiają robotom samodzielne trenowanie za pomocą agentów kodujących AI

📅2 hours ago⏱3 min read

In this article

Badacze Nvidia umożliwiają robotom samodzielne trenowanie przy użyciu agentów programistycznych AI

Wąskie gardło, jakim jest ręczne zbieranie danych i ciągła interwencja człowieka w robotyce, zostaje w końcu rozwiązane. Wykorzystując agentów programistycznych AI, badacze opracowali system, w którym roboty mogą autonomicznie pisać własny kod treningowy i doskonalić swoją zręczność w rzeczywistych środowiskach.

Przełamanie manualnego wąskiego gardła dzięki ENPIRE

Tradycyjnie nauka robota złożonych zadań, takich jak zręczne chwytanie, wymaga od inżynierów resetowania scen, zbierania zbiorów danych i ręcznego dostrajania algorytmów. Ten pracochłonny proces tworzy ogromne trudności w skalowaniu inteligencji robotycznej. Aby temu zaradzić, badacze z Nvidia, Carnegie Mellon University oraz UC Berkeley wprowadzili ENPIRE – framework, który przekształca proces trenowania w samopodtrzymującą się pętlę sprzężenia zwrotnego.

Zamiast czekać na instrukcje od człowieka, system ENPIRE wykorzystuje agentów programistycznych AI do zarządzania całym cyklem życia: resetowania przestrzeni roboczej, wykonywania strategii ruchu, oceniania wyników i natychmiastowej iteracji kodu w celu poprawy wydajności. Przesuwa to robotykę z modelu „human-in-the-loop” do „agent-in-the-loop”.

Jak autonomiczni agenci programistyczni napędzają zręczność

Framework ENPIRE działa w dwóch odrębnych fazach. W pierwszej fazie agent ustanawia przestrzeń roboczą przy minimalnym wsparciu człowieka – często wystarczy zaledwie kilka minut nagrania wideo pokazującego udane i nieudane próby. Co kluczowe, agent sam pisze własne funkcje nagrody. Na przykład podczas zadań osadzania pinów, agent opracował własną metodę sprawdzania, łączącą wizualne wyrównanie, wysokość chwytaka i szacowaną siłę, aby określić sukces operacji.

W drugiej fazie agenci działają z pełną autonomią. Czytają prace badawcze, formułują hipotezy i bezpośrednio edytują kod treningowy. Mogą wybierać między metodami takimi jak klonowanie zachowań (behavior cloning) lub uczenie ze wzmocnieniem (reinforcement learning), w zależności od tego, która metoda dostarcza lepszych sygnałów z rzeczywistego świata. Podczas testów badacze wykorzystali wysokowydajne modele, w tym Codex (z GPT-5.5), Claude Code (z Opus 4.7) oraz Kimi Code (z Kimi K2.6), przy czym Codex okazał się najskuteczniejszy.

Skalowanie poprzez flotę robotów obsługującą Git

Jednym z najbardziej innowacyjnych aspektów tego badania jest koordynacja floty ośmiu dwuręcznych stacji robotycznych YAM. Zamiast pracować w izolacji, stacje te działają jak rozproszony zespół badawczy. Dzielą się swoimi odkryciami, udanymi „przepisami” oraz nieudanymi hipotezami za pomocą Git, standardowego narzędzia do kontroli wersji stosowanego w inżynierii oprogramowania.

To podejście oparte na flocie przynosi ogromne zyski czasowe:

Test Push-T: Skalowanie z jednego do ośmiu agentów skróciło czas realizacji z pięciu godzin do zaledwie dwóch.
Wkładanie pinów: Czas wykonania zadania spadł z ponad 90 minut do około 40 minut.
Wskaźniki sukcesu: Flota osiągnęła do 99% skuteczności w wymagających zadaniach, w tym sortowaniu pinów i przecinaniu opasek zaciskowych.

Luka rzeczywistości: Symulacja vs. Sprzęt

Mimo tych przełomów, badania uwypuklają lukę „sim-to-real”. Choć wszyscy trzej testowani agenci rozwiązali test Push-T w symulacji, dwóch z trzech nie poradziło sobie po przejściu na fizyczny sprzęt ze względu na nieprzewidywalne zmienne, takie jak tarcie i dynamika robota. Jednak ENPIRE wykazało wyższą wydajność w symulacji RoboCasa w porównaniu do uznanych modeli, takich jak GR00T.

W miarę jak branża zmierza w stronę robotyki ogólnego przeznaczenia, zdolność maszyn do „samodzielnych badań” poprzez kod będzie kluczem do wyjścia poza wąskie, zaprogramowane ruchy w stronę prawdziwej, adaptacyjnej inteligencji.

Kluczowe wnioski

Autonomiczna iteracja: ENPIRE pozwala robotom na pisanie własnych funkcji nagrody i kodu treningowego, co znacząco zmniejsza potrzebę angażowania inżynierów do resetowania scen lub dostrajania algorytmów.
Uczenie kolaboratywne: Dzięki wykorzystaniu Git do współdzielenia danych, flota ośmiu robotów może zbiorowo uczyć się na sukcesach i porażkach innych, drastycznie przyspieszając proces szkolenia.
Złożoność świata rzeczywistego: Choć system osiąga do 99% skuteczności w konkretnych zadaniach, nieprzewidywalna natura środowisk fizycznych pozostaje znaczącym wyzwaniem w porównaniu do treningu symulowanego.

Badacze Nvidii umożliwiają robotom samodzielne trenowanie za pomocą agentów kodujących AI

Badacze Nvidia umożliwiają robotom samodzielne trenowanie przy użyciu agentów programistycznych AI

Przełamanie manualnego wąskiego gardła dzięki ENPIRE

Jak autonomiczni agenci programistyczni napędzają zręczność

Skalowanie poprzez flotę robotów obsługującą Git

Luka rzeczywistości: Symulacja vs. Sprzęt

Kluczowe wnioski

Continue reading

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

𝗧𝗵𝗲 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜 𝗚𝗼𝘃𝗲𝗿𝗻𝗮𝗻𝗰𝗲 𝗙𝗿𝗮𝗺𝗲𝘄𝗼𝗿𝗸

Autorefleksja AI

Jak elastyczność AI mogłaby rozwiązać globalny kryzys energetyczny centrów danych

Automat do gier był sednem sprawy