Как General Intuition использует видеоигры для создания ИИ реального мира

General Intuition стремится совершить масштабный сдвиг парадигмы в робототехнике, используя огромные наборы данных из видеоигр для обучения агентных моделей для физического мира. Благодаря новому раунду финансирования в размере 320 миллионов долларов стартап делает ставку на то, что «данные о действиях» (action data), содержащиеся в играх, являются недостающим звеном для искусственного интеллекта.

Сила меток действий и пространственно-временного мышления

В то время как многие исследователи ИИ пытаются обучать модели, просто наблюдая за видеорядом, генеральный директор General Intuition Пим де Витте утверждает, что одного видео недостаточно. Конкурентное преимущество компании заключается в доступе к проприетарным данным платформы Medal, где пользователи делятся клипами из видеоигр.

В отличие от стандартного видео, эти клипы содержат встроенные «метки действий» (action labels) — точные записи того, какие кнопки нажимал игрок и в какой именно момент. Это позволяет модели выйти за рамки простого распознавания образов; она обучается пространственно-временному мышлению. Понимая прямую связь между конкретным вводом (действием) и последующим изменением в окружающей среде (реакцией), ИИ начинает постигать причинно-следственные связи. Это позволяет модели отличать «себя» от «окружающей среды», что является фундаментальным требованием для любого автономного агента.

От Fortnite до четырехногих роботов

Техническая амбиция компании заключается в создании единой модели, которая обобщает знания в различных областях: геймплее, симуляции и физическом воплощении. В недавних демонстрациях ИИ-агент, обученный на игровом процессе, смог перемещаться по сложным виртуальным средам, понимая, что стены — это твердые объекты, а тени меняются при движении солнца.

Что крайне важно, этот «мозг» переносится непосредственно на аппаратное обеспечение. Компания продемонстрировала четырехногого робота, который использовал ту же модель, что управляет ее игровыми агентами. Примечательно, что, по сообщениям команды, потребовалось всего восемь минут данных из реального мира (собранных на настоящих улицах), чтобы дообучить модель навигации робота. Это говорит о том, что основная работа по изучению физики и пространственного восприятия выполняется в «тренажерном зале» видеоигр, что делает развертывание в реальном мире значительно более эффективным.

Ставка в 2,3 миллиарда долларов на универсальных агентов

Масштаб этих амбиций отражается в оценке компании. General Intuition недавно привлекла 320 миллионов долларов при оценке в 2,3 миллиарда долларов, что довело ее общий объем раскрытого финансирования до 454 миллионов долларов. Раунд возглавил фонд Khosla Ventures при значительном участии General Catalyst, Джеффа Безоса, Эрика Шмидта, а также исследователей из Google DeepMind и MIT.

Капитал предназначен для двух основных целей: масштабирования вычислительных мощностей через партнерство с CoreWeave и обеспечения более широкой доступности своего API к концу лета. Для таких инвесторов, как Винод Хосла, цель заключается не просто в улучшении автоматизации, а в появлении «интуиции ИИ» — человекоподобной способности ориентироваться в мире через понимание, а не просто следовать запрограммированным инструкциям.

Основные выводы

  • Обучение на основе действий: General Intuition использует «метки действий» (нажатия кнопок) из игровых клипов, чтобы обучить ИИ причинно-следственным связям, выходя за рамки ограничений обучения только на видео.
  • Масштабируемая симуляция: Используя видеоигры в качестве «тренажерного зала», компания может обучать сложному пространственно-временному мышлению без огромных затрат на сбор данных робототехники в реальном мире.
  • Масштабная институциональная поддержка: С оценкой в 2,3 миллиарда долларов и поддержкой таких фигур, как Джефф Безос и Эрик Шмидт, компания позиционирует себя как ключевого игрока в эпоху моделей мира (world models).