General Intuition залучає 320 млн доларів, щоб перетворити дані відеоігор на ШІ для реального світу

General Intuition робить ставку на те, що секрети фізичного інтелекту приховані в мільйонах годин відеоігрових записів, зроблених гравцями. Використовуючи високоточні дані про дії з ігор, стартап прагне створити агентні моделі, які зможуть плавно переходити від віртуальних середовищ, таких як Fortnite, до фізичних чотириногих роботів.

Перевага міток дій над чистим відео

На відміну від багатьох конкурентів, які намагаються навчати ШІ-агентів шляхом простого спостереження за відео, General Intuition використовує власну перевагу, успадковану від свого попередника, Medal. У той час як більшість моделей намагаються вивести рухи лише з пікселів, General Intuition використовує «мітки дій» — точні натискання кнопок і часові мітки, записані разом із кліпами ігрового процесу.

Ця відмінність є критично важливою для розвитку просторово-часового мислення. Знаючи точно, як введення даних людиною призводить до певного руху в 3D-просторі, модель вивчає причинно-наслідкові зв'язки: як дія впливає на середовище. Генеральний директор Пім де Вітте стверджує, що це дозволяє моделі відрізняти «себе» від «середовища», що є фундаментальною вимогою для будь-якого агента, призначеного для роботи у фізичному світі.

Від симуляції Fortnite до втілення в роботах

Технічна архітектура компанії базується на «моделі світу», яка функціонує як внутрішній тренувальний зал. Замість того, щоб покладатися на традиційні ігрові рушії, модель генерує середовища кадр за кадром, дозволяючи агентам вивчати фізичну реальність — наприклад, твердість стін або рух тіней — шляхом простого повторення.

Практичне застосування цього навчання вже помітне в їхніх демонстраціях обладнання. Компанія успішно впровадила той самий «мозок», який використовувався для навігації у віртуальних ландшафтах, у великого чотириногого робота. Примітно, що, за повідомленням команди, знадобилося лише вісім хвилин даних з реального світу робототехніки, зібраних на громадських вулицях, щоб доналаштувати модель для фізичної навігації робота. Це свідчить про те, що основна робота над інтелектом виконується в симуляції, що робить розгортання в реальному світі значно швидшим і дешевшим.

Величезна оцінка у 2,3 мільярда доларів

Масштаб цих амбіцій відображається в нещодавньому фінансуванні компанії. General Intuition залучила 320 мільйонів доларів у раунді під керівництвом Khosla Ventures, що підняло її загальну оцінку до 2,3 мільярда доларів. Група інвесторів — це справжня еліта технологічного світу, до якої входять Джефф Безос, Ерік Шмідт та дослідники з Google DeepMind і MIT.

Капітал призначений для двох основних цілей:

  • Масштабування обчислювальних потужностей: Завдяки партнерству з CoreWeave компанія зосередиться на попередньому навчанні наступного покоління своєї моделі.
  • Доступність API: Частина коштів буде використана для запуску ширшого API, що потенційно дозволить розробникам отримати доступ до їхніх агентних моделей до кінця літа.

Оскільки індустрія виходить за межі епохи великих мовних моделей (LLM), орієнтованих на текст, General Intuition позиціонує себе на передовій «моделей світу» — ШІ, який не просто говорить про світ, а розуміє, як у ньому пересуватися.

Основні висновки

  • Навчання на основі дій: Використовуючи «мітки дій» з ігрового процесу людей, а не лише відео, модель набагато ефективніше вивчає причинно-наслідкові зв'язки та просторове мислення, ніж підходи, що базуються лише на відео.
  • Масштабована симуляція: Стартап використовує відеоігри як «тренувальний зал» для навчання агентів, що радикально зменшує кількість дороговартісних даних із реального світу, необхідних для керування фізичними роботами.
  • Стратегічна підтримка: З оцінкою у 2,3 млрд доларів та підтримкою таких важковаговиків, як Khosla Ventures і Джефф Безос, компанія має всі шанси стати фундаментальним рівнем для універсальних ШІ-агентів.