Исследователи Nvidia позволяют роботам обучаться самостоятельно с помощью ИИ-агентов программирования
Проблема узкого места, связанная с ручным сбором данных и постоянным вмешательством человека в робототехнику, наконец-то находит решение. Используя ИИ-агентов программирования, исследователи разработали систему, в которой роботы могут автономно писать собственный код для обучения и совершенствовать свою ловкость в реальных условиях.
Преодоление ограничений ручного труда с помощью ENPIRE
Традиционно обучение робота сложным задачам, таким как ловкий захват предметов, требует от инженеров сброса сцен, сбора наборов данных и ручной настройки алгоритмов. Этот трудоемкий процесс создает серьезные препятствия для масштабирования роботизированного интеллекта. Чтобы решить эту проблему, исследователи из Nvidia, Университета Карнеги-Меллона и Калифорнийского университета в Беркли представили ENPIRE — фреймворк, который превращает процесс обучения в самоподдерживающуюся петлю обратной связи.
Вместо того чтобы ждать инструкций от человека, система ENPIRE использует ИИ-агентов программирования для управления всем жизненным циклом: сброса рабочего пространства, выполнения стратегии движения, оценки результата и немедленного внесения итераций в код для повышения производительности. Это переводит робототехнику из парадигмы «человек в контуре» (human-in-the-loop) в парадигму «агент в контуре» (agent-in-the-loop).
Как автономные агенты программирования развивают ловкость
Фреймворк ENPIRE работает в две отдельные фазы. На первой фазе агент настраивает рабочее пространство с минимальным руководством человека — зачастую достаточно всего нескольких минут видео, демонстрирующих успешные и неудачные попытки. Что крайне важно, агент сам пишет свои функции вознаграждения (reward functions). Например, при выполнении задач по вставке штифта агент разработал пользовательскую проверку, сочетающую визуальное выравнивание, высоту захвата и расчетную силу для определения успеха.
На второй фазе агенты работают с полной автономией. Они читают научные статьи, формулируют гипотезы и напрямую редактируют код обучения. Они могут выбирать между такими методами, как клонирование поведения (имитация движений человека) или обучение с подкреплением (метод проб и ошибок), в зависимости от того, какой подход дает лучшие сигналы в реальном мире. В ходе тестирования исследователи использовали высокопроизводительные модели, включая Codex (с GPT-5.5), Claude Code (с Opus 4.7) и Kimi Code (с Kimi K2.6), при этом Codex показал лучшие результаты.
Масштабирование через парк роботов с поддержкой Git
Одним из самых инновационных аспектов этого исследования является координация флота из восьми двухруких робостанций YAM. Вместо того чтобы работать изолированно, эти станции действуют как распределенная исследовательская группа. Они делятся своими результатами, успешными «рецептами» и неудачными гипотезами с помощью Git — стандартного инструмента контроля версий, используемого в программной инженерии.
Такой подход на основе флота обеспечивает колоссальную экономию времени:
- Тест Push-T: масштабирование с одного до восьми агентов сократило время выполнения с пяти часов до всего лишь двух.
- Вставка штифта: время выполнения задачи сократилось с более чем 90 минут до примерно 40 минут.
- Показатели успеха: флот достиг до 99% успеха в выполнении сложных задач, включая сортировку штифтов и разрезание кабельных стяжек.
Разрыв с реальностью: симуляция против оборудования
Несмотря на эти прорывы, исследование подчеркивает разрыв «sim-to-real». Хотя все три протестированных агента успешно прошли тест Push-T в симуляции, два из трех потерпели неудачу при переходе к физическому оборудованию из-за непредсказуемых переменных, таких как трение и динамика робота. Тем не менее, ENPIRE продемонстрировал превосходную производительность в симуляции RoboCasa по сравнению с такими признанными моделями, как GR00T.
По мере того как индустрия движется в сторону робототехники общего назначения, способность машин к «самостоятельным исследованиям» через код станет ключом к переходу от узких, заранее запрограммированных движений к истинному, адаптивному интеллекту.
Основные выводы
- Автономная итерация: ENPIRE позволяет роботам самостоятельно писать собственные функции вознаграждения и код обучения, что значительно снижает потребность инженеров в ручном сбросе сцен или настройке алгоритмов.
- Коллективное обучение: Используя Git для обмена данными, флот из восьми роботов может коллективно учиться на успехах и ошибках друг друга, что радикально ускоряет процесс обучения.
- Сложность реального мира: Хотя система достигает 99% успеха в выполнении конкретных задач, непредсказуемая природа физической среды остается серьезным вызовом по сравнению с обучением в симуляции.