General Intuition, 비디오 게임 데이터를 현실 세계 AI로 전환하기 위해 3억 2천만 달러 투자 유치

General Intuition은 물리적 지능의 비밀이 플레이어들이 캡처한 수백만 시간의 비디오 게임 영상 속에 있다고 믿고 있습니다. 이 스타트업은 게임에서 얻은 고정밀 액션 데이터를 활용하여, Fortnite와 같은 가상 환경에서 물리적 4족 보행 로봇으로 원활하게 전환할 수 있는 에이전트 모델(agentic models)을 구축하는 것을 목표로 합니다.

단순 영상보다 강력한 '액션 레이블(Action Labels)'의 힘

단순히 영상을 관찰하여 AI 에이전트를 학습시키려는 많은 경쟁업체와 달리, General Intuition은 전신(predecessor)인 Medal로부터 물려받은 독점적인 이점을 활용합니다. 대부분의 모델이 픽셀만으로 움직임을 추론하려 하는 반면, General Intuition은 게임 플레이 클립과 함께 기록된 정확한 버튼 입력과 타임스탬프인 '액션 레이블(action labels)'을 활용합니다.

이러한 차이점은 시공간적 추론(spatial-temporal reasoning)을 개발하는 데 매우 중요합니다. 인간의 입력이 3D 공간에서 어떻게 특정 움직임으로 이어지는지 정확히 파악함으로써, 모델은 인과관계, 즉 행동이 환경에 어떤 영향을 미치는지 학습합니다. CEO Pim de Witte는 이를 통해 모델이 '자아'와 '환경'을 구분할 수 있게 되며, 이는 물리적 세계에서 작동하려는 모든 에이전트에게 필수적인 요구 사항이라고 주장합니다.

Fortnite 시뮬레이션에서 로봇 구현(Embodiment)까지

이 회사의 기술 아키텍처는 내부 학습 체육관(gym) 역할을 하는 '월드 모델(world model)'에 기반합니다. 전통적인 게임 엔진에 의존하는 대신, 모델은 프레임 단위로 환경을 생성하여 에이전트가 반복 학습을 통해 벽의 견고함이나 그림자의 움직임과 같은 물리 기반의 현실을 학습할 수 있도록 합니다.

이러한 학습의 실질적인 적용은 이미 하드웨어 데모에서 확인되고 있습니다. 이 회사는 가상 환경을 탐색하는 데 사용된 것과 동일한 '두뇌'를 대형 4족 보행 로봇에 성공적으로 탑재했습니다. 놀랍게도, 팀의 보고에 따르면 공공 도로에서 수집한 단 8분 분량의 실제 로봇 데이터만으로도 로봇의 물리적 주행을 위한 모델 미세 조정(fine-tuning)이 가능했습니다. 이는 지능 구현의 핵심적인 작업이 시뮬레이션에서 이루어지고 있음을 시사하며, 결과적으로 실제 환경 배포를 훨씬 더 빠르고 저렴하게 만듭니다.

23억 달러에 달하는 거대한 기업 가치

이러한 야심찬 계획의 규모는 최근 투자 유치 결과에 잘 나타나 있습니다. General Intuition은 Khosla Ventures가 주도한 라운드에서 3억 2천만 달러를 유치하며 총 기업 가치가 23억 달러에 달하게 되었습니다. 투자자 그룹은 Jeff Bezos, Eric Schmidt를 비롯하여 Google DeepMind 및 MIT 연구원들이 포함된 기술계의 거물급 인사들로 구성되어 있습니다.

자금은 크게 두 가지 목표를 위해 사용될 예정입니다:

  • 컴퓨팅 규모 확장(Scaling Compute): CoreWeave와의 파트너십을 통해 차세대 모델의 사전 학습(pre-training)에 집중할 계획입니다.
  • API 접근성 확보: 자금의 일부는 더 광범위한 API를 출시하는 데 사용될 예정이며, 이를 통해 개발자들이 올여름 말까지 이들의 에이전트 모델을 활용할 수 있게 될 가능성이 있습니다.

업계가 텍스트 중심의 대규모 언어 모델(LLM) 시대를 넘어 나아가면서, General Intuition은 단순히 세상에 대해 말하는 것이 아니라 세상 속에서 어떻게 움직여야 하는지를 이해하는 '월드 모델(world models)'의 최전선에 자리매김하고 있습니다.

핵심 요약

  • 액션 기반 학습: 단순 영상이 아닌 인간의 게임 플레이 '액션 레이블'을 사용함으로써, 모델은 영상만 사용하는 방식보다 훨씬 더 효과적으로 인과관계와 공간 추론을 학습합니다.
  • 확장 가능한 시뮬레이션: 이 스타트업은 비디오 게임을 에이전트 학습을 위한 '체육관(gym)'으로 활용하여, 물리적 로봇을 제어하는 데 필요한 값비싼 실제 데이터를 획기적으로 줄입니다.
  • 전략적 지원: 23억 달러의 기업 가치와 Khosla Ventures, Jeff Bezos와 같은 거물들의 지원을 바탕으로, 이 회사는 범용 AI 에이전트를 위한 기초 계층(foundational layer)이 될 수 있는 위치를 확보했습니다.