Дослідники Nvidia дозволяють роботам самостійно навчатися за допомогою ШІ-агентів програмування

Проблема вузького місця, спричинена ручним збором даних і постійним втручанням людини в робототехніку, нарешті вирішується. Використовуючи ШІ-агентів програмування, дослідники розробили систему, за допомогою якої роботи можуть автономно писати власний код для навчання та вдосконалювати свою спритність у реальних умовах.

Подолання обмежень ручної праці за допомогою ENPIRE

Традиційно навчання робота складним завданням, таким як вправне захоплення предметів, вимагає від інженерів скидання сцен, збору наборів даних і ручного коригування алгоритмів. Цей трудомісткий процес створює величезні перешкоди для масштабування інтелекту роботів. Щоб вирішити цю проблему, дослідники з Nvidia, Університету Карнегі-Меллона та Каліфорнійського університету в Берклі представили ENPIRE — фреймворк, який перетворює процес навчання на самопідтримуваний цикл зворотного зв'язку.

Замість того, щоб чекати на вказівки людини, система ENPIRE використовує ШІ-агентів програмування для управління повним життєвим циклом: скидання робочого простору, виконання стратегії руху, оцінка результату та негайна ітерація коду для покращення продуктивності. Це переводить робототехніку з моделі «людина в контурі» (human-in-the-loop) у модель «агент у контурі» (agent-in-the-loop).

Як автономні агенти програмування підвищують спритність

Фреймворк ENPIRE працює у дві окремі фази. На першій фазі агент створює робочий простір за мінімального керівництва людини — часто лише за допомогою кількох хвилин відео, що демонструють успішні та невдалі спроби. Що важливо, агент сам пише свої функції винагороди. Наприклад, під час виконання завдань із вставлення штифта агент розробив спеціальну перевірку, що поєднує візуальне вирівнювання, висоту захвату та оцінену силу для визначення успіху.

На другій фазі агенти працюють з повною автономією. Вони читають наукові статті, формулюють гіпотези та безпосередньо редагують код навчання. Вони можуть обирати між такими методами, як клонування поведінки (імітація рухів людини) або навчання з підкріпленням (метод спроб і помилок), залежно від того, який підхід дає кращі сигнали в реальному світі. Під час тестування дослідники використовували високопродуктивні моделі, зокрема Codex (з GPT-5.5), Claude Code (з Opus 4.7) та Kimi Code (з Kimi K2.6), причому Codex продемонстрував найкращі результати.

Масштабування через флот роботів із підтримкою Git

Одним із найбільш інноваційних аспектів цього дослідження є координація флотилії з восьми дворуких робостанцій YAM. Замість того, щоб працювати ізольовано, ці станції діють як розподілена дослідницька група. Вони діляться своїми результатами, успішними «рецептами» та невдалими гіпотезами за допомогою Git — стандартного інструменту контролю версій, що використовується в програмній інженерії.

Такий підхід на основі флотилії забезпечує значну економію часу:

Розрив із реальністю: симуляція проти обладнання

Попри ці прориви, дослідження підкреслює розрив «sim-to-real». Хоча всі три протестовані агенти успішно пройшли тест Push-T у симуляції, два з трьох зазнали невдачі під час переходу на фізичне обладнання через непередбачувані змінні, такі як тертя та динаміка робота. Проте ENPIRE продемонстрував вищу продуктивність у симуляції RoboCasa порівняно з усталеними моделями, такими як GR00T.

Оскільки галузь рухається в напрямку робототехніки загального призначення, здатність машин до «самодослідження» за допомогою коду стане ключем до переходу від вузьких, попередньо запрограмованих рухів до справжнього,