Дослідники Nvidia дозволяють роботам самостійно навчатися за допомогою ШІ-агентів програмування

📅2 hours ago⏱3 min read

In this article

Дослідники Nvidia дозволяють роботам самостійно навчатися за допомогою ШІ-агентів програмування

Проблема вузького місця, спричинена ручним збором даних і постійним втручанням людини в робототехніку, нарешті вирішується. Використовуючи ШІ-агентів програмування, дослідники розробили систему, за допомогою якої роботи можуть автономно писати власний код для навчання та вдосконалювати свою спритність у реальних умовах.

Подолання обмежень ручної праці за допомогою ENPIRE

Традиційно навчання робота складним завданням, таким як вправне захоплення предметів, вимагає від інженерів скидання сцен, збору наборів даних і ручного коригування алгоритмів. Цей трудомісткий процес створює величезні перешкоди для масштабування інтелекту роботів. Щоб вирішити цю проблему, дослідники з Nvidia, Університету Карнегі-Меллона та Каліфорнійського університету в Берклі представили ENPIRE — фреймворк, який перетворює процес навчання на самопідтримуваний цикл зворотного зв'язку.

Замість того, щоб чекати на вказівки людини, система ENPIRE використовує ШІ-агентів програмування для управління повним життєвим циклом: скидання робочого простору, виконання стратегії руху, оцінка результату та негайна ітерація коду для покращення продуктивності. Це переводить робототехніку з моделі «людина в контурі» (human-in-the-loop) у модель «агент у контурі» (agent-in-the-loop).

Як автономні агенти програмування підвищують спритність

Фреймворк ENPIRE працює у дві окремі фази. На першій фазі агент створює робочий простір за мінімального керівництва людини — часто лише за допомогою кількох хвилин відео, що демонструють успішні та невдалі спроби. Що важливо, агент сам пише свої функції винагороди. Наприклад, під час виконання завдань із вставлення штифта агент розробив спеціальну перевірку, що поєднує візуальне вирівнювання, висоту захвату та оцінену силу для визначення успіху.

На другій фазі агенти працюють з повною автономією. Вони читають наукові статті, формулюють гіпотези та безпосередньо редагують код навчання. Вони можуть обирати між такими методами, як клонування поведінки (імітація рухів людини) або навчання з підкріпленням (метод спроб і помилок), залежно від того, який підхід дає кращі сигнали в реальному світі. Під час тестування дослідники використовували високопродуктивні моделі, зокрема Codex (з GPT-5.5), Claude Code (з Opus 4.7) та Kimi Code (з Kimi K2.6), причому Codex продемонстрував найкращі результати.

Масштабування через флот роботів із підтримкою Git

Одним із найбільш інноваційних аспектів цього дослідження є координація флотилії з восьми дворуких робостанцій YAM. Замість того, щоб працювати ізольовано, ці станції діють як розподілена дослідницька група. Вони діляться своїми результатами, успішними «рецептами» та невдалими гіпотезами за допомогою Git — стандартного інструменту контролю версій, що використовується в програмній інженерії.

Такий підхід на основі флотилії забезпечує значну економію часу:

Тест Push-T: Масштабування з одного до восьми агентів скоротило час виконання з п'яти годин до всього двох.
Вставлення шпильок: Час виконання завдання скоротився з понад 90 хвилин до приблизно 40 хвилин.
Показники успішності: Флотилія досягла до 99% успішності у складних завданнях, зокрема сортуванні шпильок та перерізанні пластикових стяжок.

Розрив із реальністю: симуляція проти обладнання

Попри ці прориви, дослідження підкреслює розрив «sim-to-real». Хоча всі три протестовані агенти успішно пройшли тест Push-T у симуляції, два з трьох зазнали невдачі під час переходу на фізичне обладнання через непередбачувані змінні, такі як тертя та динаміка робота. Проте ENPIRE продемонстрував вищу продуктивність у симуляції RoboCasa порівняно з усталеними моделями, такими як GR00T.

Оскільки галузь рухається в напрямку робототехніки загального призначення, здатність машин до «самодослідження» за допомогою коду стане ключем до переходу від вузьких, попередньо запрограмованих рухів до справжнього,

Дослідники Nvidia дозволяють роботам самостійно навчатися за допомогою ШІ-агентів програмування

Дослідники Nvidia дозволяють роботам самостійно навчатися за допомогою ШІ-агентів програмування

Подолання обмежень ручної праці за допомогою ENPIRE

Як автономні агенти програмування підвищують спритність

Масштабування через флот роботів із підтримкою Git

Розрив із реальністю: симуляція проти обладнання

Continue reading

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

Фреймворк управління агентним ШІ

𝗔𝗜 𝗦𝗲𝗹𝗳 𝗥𝗲𝗳𝗹𝗲𝗰𝘁𝗶𝗼𝗻

Як гнучкість ШІ може вирішити проблему глобального дефіциту електроенергії для дата-центрів

𝗧𝗵𝗲 𝗦𝗹𝗼𝘁 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗪𝗮𝘀 𝘁𝗵𝗲 𝗣𝗼𝗶𝗻𝘁