General Intuition привлекает 320 млн долларов для превращения данных видеоигр в ИИ реального мира
General Intuition делает ставку на то, что секреты физического интеллекта кроются в миллионах часов игровых видеоматериалов, записанных игроками. Используя высокоточные данные о действиях из видеоигр, стартап стремится создать агентные модели, способные беспрепятственно переходить из виртуальных сред, таких как Fortnite, к физическим четырехногим роботам.
Преимущество меток действий перед обычным видео
В отличие от многих конкурентов, которые пытаются обучать ИИ-агентов, просто наблюдая за видео, General Intuition использует проприетарное преимущество, унаследованное от своего предшественника, Medal. В то время как большинство моделей пытаются делать выводы о движениях только на основе пикселей, General Intuition задействует «метки действий» (action labels) — точные нажатия кнопок и временные метки, записанные вместе с игровыми клипами.
Это различие имеет решающее значение для развития пространственно-временного мышления. Зная точно, как ввод данных человеком приводит к конкретному движению в 3D-пространстве, модель обучается причинно-следственной связи: тому, как действие влияет на окружающую среду. Генеральный директор Пим де Витте (Pim de Witte) утверждает, что это позволяет модели отличать «себя» от «окружающей среды», что является фундаментальным требованием для любого агента, предназначенного для работы в физическом мире.
От симуляции в Fortnite к воплощению в роботах
Техническая архитектура компании опирается на «модель мира» (world model), которая функционирует как внутренний тренировочный зал. Вместо того чтобы полагаться на традиционные игровые движки, модель генерирует окружение кадр за кадром, позволяя агентам изучать физические реалии — такие как твердость стен или движение теней — путем простого повторения.
Практическое применение этого обучения уже заметно в демонстрациях оборудования. Компания успешно перенесла тот же «мозг», который использовался для навигации в виртуальных ландшафтах, в крупного четырехногого робота. Примечательно, что, по сообщениям команды, потребовалось всего восемь минут данных из реального мира, собранных на общественных улицах, чтобы дообучить модель для физической навигации робота. Это говорит о том, что основная работа по формированию интеллекта выполняется в симуляции, что делает развертывание в реальном мире значительно быстрее и дешевле.
Огромная оценка в 2,3 миллиарда долларов
Масштаб этих амбиций отражается в недавнем финансировании компании. General Intuition привлекла 320 миллионов долларов в раунде под руководством Khosla Ventures, что довело общую оценку компании до 2,3 миллиарда долларов. Группа инвесторов представляет собой концентрат технологической элиты, включая Джеффа Безоса, Эрика Шмидта, а также исследователей из Google DeepMind и MIT.
Капитал предназначен для двух основных целей:
- Масштабирование вычислений: Благодаря партнерству с CoreWeave компания сосредоточится на предварительном обучении следующего поколения своей модели.
- Доступность API: Часть средств будет использована для запуска более широкого API, что потенциально позволит разработчикам получить доступ к их агентным моделям к концу лета.
Поскольку индустрия выходит за рамки эпохи текстоцентричных больших языковых моделей (LLM), General Intuition позиционирует себя в авангарде «моделей мира» — ИИ, который не просто говорит о мире, но понимает, как в нем перемещаться.
Основные выводы
- Обучение на основе действий: Используя «метки действий» из игрового процесса человека, а не только видео, модель обучается причинно-следственным связям и пространственному мышлению гораздо эффективнее, чем при подходах, основанных исключительно на видео.
- Масштабируемая симуляция: Стартап использует видеоигры в качестве «тренировочного зала» для обучения агентов, что радикально снижает объем дорогостоящих данных из реального мира, необходимых для управления физическими роботами.
- Стратегическая поддержка: С оценкой в 2,3 млрд долларов и поддержкой таких гигантов, как Khosla Ventures и Джефф Безос, компания имеет все шансы стать фундаментальным уровнем для универсальных ИИ-агентов.
