Исследователи Nvidia позволяют роботам обучаться самостоятельно с помощью ИИ-агентов программирования

Проблема узкого места, связанная с ручным сбором данных и постоянным вмешательством человека в робототехнику, наконец-то находит решение. Используя ИИ-агентов программирования, исследователи разработали систему, в которой роботы могут автономно писать собственный код для обучения и совершенствовать свою ловкость в реальных условиях.

Преодоление ограничений ручного труда с помощью ENPIRE

Традиционно обучение робота сложным задачам, таким как ловкий захват предметов, требует от инженеров сброса сцен, сбора наборов данных и ручной настройки алгоритмов. Этот трудоемкий процесс создает серьезные препятствия для масштабирования роботизированного интеллекта. Чтобы решить эту проблему, исследователи из Nvidia, Университета Карнеги-Меллона и Калифорнийского университета в Беркли представили ENPIRE — фреймворк, который превращает процесс обучения в самоподдерживающуюся петлю обратной связи.

Вместо того чтобы ждать инструкций от человека, система ENPIRE использует ИИ-агентов программирования для управления всем жизненным циклом: сброса рабочего пространства, выполнения стратегии движения, оценки результата и немедленного внесения итераций в код для повышения производительности. Это переводит робототехнику из парадигмы «человек в контуре» (human-in-the-loop) в парадигму «агент в контуре» (agent-in-the-loop).

Как автономные агенты программирования развивают ловкость

Фреймворк ENPIRE работает в две отдельные фазы. На первой фазе агент настраивает рабочее пространство с минимальным руководством человека — зачастую достаточно всего нескольких минут видео, демонстрирующих успешные и неудачные попытки. Что крайне важно, агент сам пишет свои функции вознаграждения (reward functions). Например, при выполнении задач по вставке штифта агент разработал пользовательскую проверку, сочетающую визуальное выравнивание, высоту захвата и расчетную силу для определения успеха.

На второй фазе агенты работают с полной автономией. Они читают научные статьи, формулируют гипотезы и напрямую редактируют код обучения. Они могут выбирать между такими методами, как клонирование поведения (имитация движений человека) или обучение с подкреплением (метод проб и ошибок), в зависимости от того, какой подход дает лучшие сигналы в реальном мире. В ходе тестирования исследователи использовали высокопроизводительные модели, включая Codex (с GPT-5.5), Claude Code (с Opus 4.7) и Kimi Code (с Kimi K2.6), при этом Codex показал лучшие результаты.

Масштабирование через парк роботов с поддержкой Git

Одним из самых инновационных аспектов этого исследования является координация флота из восьми двухруких робостанций YAM. Вместо того чтобы работать изолированно, эти станции действуют как распределенная исследовательская группа. Они делятся своими результатами, успешными «рецептами» и неудачными гипотезами с помощью Git — стандартного инструмента контроля версий, используемого в программной инженерии.

Такой подход на основе флота обеспечивает колоссальную экономию времени:

Разрыв с реальностью: симуляция против оборудования

Несмотря на эти прорывы, исследование подчеркивает разрыв «sim-to-real». Хотя все три протестированных агента успешно прошли тест Push-T в симуляции, два из трех потерпели неудачу при переходе к физическому оборудованию из-за непредсказуемых переменных, таких как трение и динамика робота. Тем не менее, ENPIRE продемонстрировал превосходную производительность в симуляции RoboCasa по сравнению с такими признанными моделями, как GR00T.

По мере того как индустрия движется в сторону робототехники общего назначения, способность машин к «самостоятельным исследованиям» через код станет ключом к переходу от узких, заранее запрограммированных движений к истинному, адаптивному интеллекту.

Основные выводы