Як General Intuition використовує відеоігри для створення ШІ реального світу

General Intuition намагається здійснити масштабну зміну парадигми в робототехніці, використовуючи величезні набори даних із відеоігор для навчання агентних моделей для фізичного світу. Завдяки новому раунду фінансування на суму 320 мільйонів доларів стартап робить ставку на те, що «дані про дії» (action data), які можна знайти в іграх, є тією самою відсутньою ланкою для штучного інтелекту.

Сила міток дій та просторово-часового мислення

У той час як багато дослідників ШІ намагаються навчати моделі, просто спостерігаючи за відеоматеріалами, генеральний директор General Intuition Пім де Вітте стверджує, що одного відео недостатньо. Конкурентна перевага компанії полягає в доступі до власних даних платформи Medal, де користувачі діляться кліпами з відеоігор.

На відміну від стандартного відео, ці кліпи містять вбудовані «мітки дій» (action labels) — точні записи того, які кнопки натискав гравець і саме в який момент. Це дозволяє моделі вийти за межі простого розпізнавання патернів; вона опановує просторово-часове мислення. Розуміючи прямий зв'язок між конкретним входом (дією) та відповідною зміною в середовищі (реакцією), ШІ починає осягати причинно-наслідкові зв'язки. Це дозволяє моделі відрізняти «себе» від «середовища», що є фундаментальною вимогою для будь-якого автономного агента.

Від Fortnite до чотирьохногих роботів

Технічна амбіція компанії полягає у створенні єдиної моделі, яка узагальнює знання в різних доменах: ігровому процесі, симуляції та фізичному втіленні. У нещодавніх демонстраціях агент ШІ, навчений на ігровому процесі, зміг орієнтуватися у складних віртуальних середовищах, розуміючи, що стіни є твердими об'єктами, а тіні змінюються разом із рухом сонця.

Що важливо, цей «мозок» переноситься безпосередньо на апаратне забезпечення. Компанія продемонструвала чотиристого робота, який використовував ту саму модель, що керує її ігровими агентами. Зокрема, команда повідомила, що знадобилося лише вісім хвилин даних із реальної робототехніки — зібраних на справжніх вулицях — щоб донавчити (fine-tune) модель для навігації робота. Це свідчить про те, що основна робота з вивчення фізики та просторового сприйняття виконується в «тренажерному залі» відеоігор, що робить розгортання в реальному світі значно ефективнішим.

Ставка на 2,3 мільярда доларів на загальних агентів

Масштаб цих амбіцій відображений у вартості компанії. General Intuition нещодавно залучила 320 мільйонів доларів при оцінці в 2,3 мільярда доларів, що довело її загальний розкритий обсяг фінансування до 454 мільйонів доларів. Раунд очолила Khosla Ventures за значної участі General Catalyst, Джеффа Безоса, Еріка Шмідта та дослідників із Google DeepMind і MIT.

Капітал призначений для двох основних цілей: масштабування обчислювальних потужностей через партнерство з CoreWeave та забезпечення ширшої доступності свого API до кінця літа. Для таких інвесторів, як Вінод Хосла, мета полягає не лише в кращій автоматизації, а й у появі «інтуїції ШІ» — людської здатності орієнтуватися у світі через розуміння, а не просто слідуючи запрограмованим інструкціям.

Основні висновки

  • Навчання на основі дій: General Intuition використовує «мітки дій» (натискання кнопок) із ігрових кліпів, щоб навчити ШІ причинно-наслідковим зв'язкам, виходячи за межі обмежень навчання лише на відео.
  • Масштабована симуляція: Використовуючи відеоігри як «тренажерний зал», компанія може навчати складного просторово-часового мислення без величезних витрат на збір даних із реальної робототехніки.
  • Масштабна інституційна підтримка: З оцінкою в 2,3 мільярда доларів та підтримкою таких постатей, як Джефф Безос та Ерік Шмідт, компанія позиціонує себе як ключового гравця в епоху моделей світу.