General Intuition مبلغ ۳۲۰ میلیون دلار برای تبدیل دادههای بازیهای ویدئویی به هوش مصنوعی دنیای واقعی جذب کرد
General Intuition بر این باور است که رازهای هوش فیزیکی در میلیونها ساعت ویدئو از بازیهای ویدئویی نهفته است که توسط بازیکنان ضبط شدهاند. این استارتاپ با بهرهگیری از دادههای حرکتی با دقت بالا (high-fidelity) از بازیها، قصد دارد مدلهای عاملمحور (agentic models) بسازد که بتوانند بهطور یکپارچه از محیطهای مجازی مانند Fortnite به رباتهای چهارپای فیزیکی انتقال یابند.
قدرت برچسبهای عملیاتی در مقایسه با ویدئوهای خالص
برخلاف بسیاری از رقبایی که تلاش میکنند عاملهای هوش مصنوعی را صرفاً با مشاهده ویدئو آموزش دهند، General Intuition از یک مزیت اختصاصی که از پیشینهی خود، Medal، به ارث برده، استفاده میکند. در حالی که اکثر مدلها سعی میکنند حرکات را تنها از روی پیکسلها استنباط کنند، General Intuition از «برچسبهای عملیاتی» (action labels) استفاده میکند؛ یعنی دقیقاً همان فشردن دکمهها و برچسبهای زمانی که در کنار ویدئوهای گیمپلی ضبط شدهاند.
این تمایز برای توسعه استدلال مکانی-زمانی (spatial-temporal reasoning) حیاتی است. با دانستن دقیق اینکه چگونه یک ورودی انسانی منجر به یک حرکت خاص در فضای سهبعدی میشود، مدل مفهوم علیت (causality) را میآموزد: اینکه چگونه یک عمل بر محیط تأثیر میگذارد. پیم د وِت (Pim de Witte)، مدیرعامل شرکت، معتقد است که این امر به مدل اجازه میدهد تا «خود» را از «محیط» تشخیص دهد؛ که این یک نیاز اساسی برای هر عاملی است که قرار است در دنیای فیزیکی فعالیت کند.
از شبیهسازی Fortnite تا تجسم در رباتها
معماری فنی این شرکت بر پایه یک «مدل جهانی» (world model) استوار است که به عنوان یک باشگاه تمرینی داخلی عمل میکند. این مدل به جای تکیه بر موتورهای بازی سنتی، محیطها را فریمبهفریم تولید میکند و به عاملها اجازه میدهد تا واقعیتهای مبتنی بر فیزیک — مانند سختی دیوارها یا حرکت سایهها — را از طریق تکرار محض بیاموزند.
کاربرد عملی این آموزش در حال حاضر در نمایشهای سختافزاری آنها قابل مشاهده است. شرکت با موفقیت همان «مغزی» را که برای پیمایش در مناظر مجازی استفاده میشد، در یک ربات چهارپای بزرگ پیادهسازی کرده است. نکته قابل توجه این است که تیم گزارش داد تنها هشت دقیقه دادههای رباتیک در دنیای واقعی (که در خیابانهای عمومی جمعآوری شده بود) برای تنظیم دقیق (fine-tune) مدل جهت ناوبری فیزیکی ربات کافی بوده است. این نشان میدهد که بخش اصلی پردازشهای هوشمند در محیط شبیهسازی انجام میشود، که باعث میشود استقرار در دنیای واقعی بهمراتب سریعتر و ارزانتر باشد.
ارزشگذاری عظیم ۲.۳ میلیارد دلاری
ابعاد این جاهطلبی در جذب سرمایه اخیر شرکت منعکس شده است. General Intuition مبلغ ۳۲۰ میلیون دلار در دور سرمایهگذاریای به رهبری Khosla Ventures جذب کرد که ارزش کل شرکت را به ۲.۳ میلیارد دلار رساند. گروه سرمایهگذاران، مجموعهای از بزرگان دنیای فناوری است، از جمله جف بزوس، اریک اشمیت و پژوهشگرانی از Google DeepMind و MIT.
این سرمایه برای دو هدف اصلی اختصاص یافته است:
- مقیاسپذیری محاسباتی: از طریق مشارکت با CoreWeave، شرکت بر پیشآموزش (pre-training) نسل بعدی مدل خود تمرکز خواهد کرد.
- دسترسی به API: بخشی از این بودجه برای راهاندازی یک API گستردهتر استفاده خواهد شد که احتمالاً به توسعهدهندگان اجازه میدهد تا پایان تابستان از مدلهای عاملمحور آنها استفاده کنند.
در حالی که صنعت از عصر متنیِ مدلهای زبانی بزرگ (LLMs) فراتر میرود، General Intuition خود را در خط مقدم «مدلهای جهانی» قرار میدهد؛ هوش مصنوعیای که فقط درباره جهان صحبت نمیکند، بلکه میداند چگونه در آن حرکت کند.
نکات کلیدی
- آموزش مبتنی بر عمل: با استفاده از «برچسبهای عملیاتی» گیمپلی انسانی به جای صرفاً ویدئو، مدل مفهوم علیت و استدلال مکانی را بسیار مؤثرتر از روشهای مبتنی بر ویدئو میآموزد.
- شبیهسازی مقیاسپذیر: این استارتاپ از بازیهای ویدئویی به عنوان یک «باشگاه تمرینی» برای آموزش عاملها استفاده میکند که به شدت نیاز به دادههای گرانقیمت دنیای واقعی برای کنترل رباتهای فیزیکی را کاهش میدهد.
- حمایت استراتژیک: با ارزشگذاری ۲.۳ میلیارد دلاری و حمایت بزرگان فناوری مانند Khosla Ventures و جف بزوس، این شرکت در موقعیتی قرار دارد که به یک لایه زیربنایی برای عاملهای هوش مصنوعی عمومی تبدیل شود.
