General Intuition مبلغ ۳۲۰ میلیون دلار برای تبدیل داده‌های بازی‌های ویدئویی به هوش مصنوعی دنیای واقعی جذب کرد

General Intuition بر این باور است که رازهای هوش فیزیکی در میلیون‌ها ساعت ویدئو از بازی‌های ویدئویی نهفته است که توسط بازیکنان ضبط شده‌اند. این استارتاپ با بهره‌گیری از داده‌های حرکتی با دقت بالا (high-fidelity) از بازی‌ها، قصد دارد مدل‌های عامل‌محور (agentic models) بسازد که بتوانند به‌طور یکپارچه از محیط‌های مجازی مانند Fortnite به ربات‌های چهارپای فیزیکی انتقال یابند.

قدرت برچسب‌های عملیاتی در مقایسه با ویدئوهای خالص

برخلاف بسیاری از رقبایی که تلاش می‌کنند عامل‌های هوش مصنوعی را صرفاً با مشاهده ویدئو آموزش دهند، General Intuition از یک مزیت اختصاصی که از پیشینه‌ی خود، Medal، به ارث برده، استفاده می‌کند. در حالی که اکثر مدل‌ها سعی می‌کنند حرکات را تنها از روی پیکسل‌ها استنباط کنند، General Intuition از «برچسب‌های عملیاتی» (action labels) استفاده می‌کند؛ یعنی دقیقاً همان فشردن دکمه‌ها و برچسب‌های زمانی که در کنار ویدئوهای گیم‌پلی ضبط شده‌اند.

این تمایز برای توسعه استدلال مکانی-زمانی (spatial-temporal reasoning) حیاتی است. با دانستن دقیق اینکه چگونه یک ورودی انسانی منجر به یک حرکت خاص در فضای سه‌بعدی می‌شود، مدل مفهوم علیت (causality) را می‌آموزد: اینکه چگونه یک عمل بر محیط تأثیر می‌گذارد. پیم د وِت (Pim de Witte)، مدیرعامل شرکت، معتقد است که این امر به مدل اجازه می‌دهد تا «خود» را از «محیط» تشخیص دهد؛ که این یک نیاز اساسی برای هر عاملی است که قرار است در دنیای فیزیکی فعالیت کند.

از شبیه‌سازی Fortnite تا تجسم در ربات‌ها

معماری فنی این شرکت بر پایه یک «مدل جهانی» (world model) استوار است که به عنوان یک باشگاه تمرینی داخلی عمل می‌کند. این مدل به جای تکیه بر موتورهای بازی سنتی، محیط‌ها را فریم‌به‌فریم تولید می‌کند و به عامل‌ها اجازه می‌دهد تا واقعیت‌های مبتنی بر فیزیک — مانند سختی دیوارها یا حرکت سایه‌ها — را از طریق تکرار محض بیاموزند.

کاربرد عملی این آموزش در حال حاضر در نمایش‌های سخت‌افزاری آن‌ها قابل مشاهده است. شرکت با موفقیت همان «مغزی» را که برای پیمایش در مناظر مجازی استفاده می‌شد، در یک ربات چهارپای بزرگ پیاده‌سازی کرده است. نکته قابل توجه این است که تیم گزارش داد تنها هشت دقیقه داده‌های رباتیک در دنیای واقعی (که در خیابان‌های عمومی جمع‌آوری شده بود) برای تنظیم دقیق (fine-tune) مدل جهت ناوبری فیزیکی ربات کافی بوده است. این نشان می‌دهد که بخش اصلی پردازش‌های هوشمند در محیط شبیه‌سازی انجام می‌شود، که باعث می‌شود استقرار در دنیای واقعی به‌مراتب سریع‌تر و ارزان‌تر باشد.

ارزش‌گذاری عظیم ۲.۳ میلیارد دلاری

ابعاد این جاه‌طلبی در جذب سرمایه اخیر شرکت منعکس شده است. General Intuition مبلغ ۳۲۰ میلیون دلار در دور سرمایه‌گذاری‌ای به رهبری Khosla Ventures جذب کرد که ارزش کل شرکت را به ۲.۳ میلیارد دلار رساند. گروه سرمایه‌گذاران، مجموعه‌ای از بزرگان دنیای فناوری است، از جمله جف بزوس، اریک اشمیت و پژوهشگرانی از Google DeepMind و MIT.

این سرمایه برای دو هدف اصلی اختصاص یافته است:

  • مقیاس‌پذیری محاسباتی: از طریق مشارکت با CoreWeave، شرکت بر پیش‌آموزش (pre-training) نسل بعدی مدل خود تمرکز خواهد کرد.
  • دسترسی به API: بخشی از این بودجه برای راه‌اندازی یک API گسترده‌تر استفاده خواهد شد که احتمالاً به توسعه‌دهندگان اجازه می‌دهد تا پایان تابستان از مدل‌های عامل‌محور آن‌ها استفاده کنند.

در حالی که صنعت از عصر متنیِ مدل‌های زبانی بزرگ (LLMs) فراتر می‌رود، General Intuition خود را در خط مقدم «مدل‌های جهانی» قرار می‌دهد؛ هوش مصنوعی‌ای که فقط درباره جهان صحبت نمی‌کند، بلکه می‌داند چگونه در آن حرکت کند.

نکات کلیدی

  • آموزش مبتنی بر عمل: با استفاده از «برچسب‌های عملیاتی» گیم‌پلی انسانی به جای صرفاً ویدئو، مدل مفهوم علیت و استدلال مکانی را بسیار مؤثرتر از روش‌های مبتنی بر ویدئو می‌آموزد.
  • شبیه‌سازی مقیاس‌پذیر: این استارتاپ از بازی‌های ویدئویی به عنوان یک «باشگاه تمرینی» برای آموزش عامل‌ها استفاده می‌کند که به شدت نیاز به داده‌های گران‌قیمت دنیای واقعی برای کنترل ربات‌های فیزیکی را کاهش می‌دهد.
  • حمایت استراتژیک: با ارزش‌گذاری ۲.۳ میلیارد دلاری و حمایت بزرگان فناوری مانند Khosla Ventures و جف بزوس، این شرکت در موقعیتی قرار دارد که به یک لایه زیربنایی برای عامل‌های هوش مصنوعی عمومی تبدیل شود.