कैसे General Intuition वास्तविक दुनिया के AI को बनाने के लिए वीडियो गेम का उपयोग कर रहा है
General Intuition भौतिक दुनिया के लिए एजेंटिक मॉडल (agentic models) को प्रशिक्षित करने के लिए विशाल वीडियो गेम डेटासेट का उपयोग करके रोबोटिक्स में एक बड़े प्रतिमान परिवर्तन (paradigm shift) का प्रयास कर रहा है। $320 मिलियन के नए फंडिंग राउंड के साथ, यह स्टार्टअप इस बात पर दांव लगा रहा है कि गेमिंग में पाया जाने वाला "एक्शन डेटा" (action data) आर्टिफिशियल इंटेलिजेंस के लिए वह लापता कड़ी है।
एक्शन लेबल और स्थानिक-कालिक तर्क (Spatial-Temporal Reasoning) की शक्ति
जबकि कई AI शोधकर्ता केवल वीडियो फुटेज को देखकर मॉडल को प्रशिक्षित करने का प्रयास करते हैं, General Intuition के CEO Pim de Witte का तर्क है कि केवल वीडियो पर्याप्त नहीं है। कंपनी की प्रतिस्पर्धात्मक बढ़त Medal से प्राप्त प्रोप्रायटरी डेटा (proprietary data) तक उसकी पहुंच में निहित है, जो एक ऐसा प्लेटफॉर्म है जहाँ उपयोगकर्ता वीडियो गेम क्लिप साझा करते हैं।
मानक वीडियो के विपरीत, इन क्लिप्स में एम्बेडेड "एक्शन लेबल" (action labels) होते हैं—यानी खिलाड़ी ने कौन से बटन दबाए और ठीक कब दबाए, इसका सटीक रिकॉर्ड। यह मॉडल को केवल पैटर्न पहचान से आगे बढ़ने की अनुमति देता है; यह स्थानिक-कालिक तर्क (spatial-temporal reasoning) सीखता है। एक विशिष्ट इनपुट (एक क्रिया) और पर्यावरण में होने वाले परिणामी परिवर्तन (प्रतिक्रिया) के बीच सीधा संबंध समझकर, AI कार्य-कारण संबंध (causality) को समझना शुरू कर देता है। यह मॉडल को "स्वयं" (self) को "पर्यावरण" (environment) से अलग करने में सक्षम बनाता है, जो किसी भी स्वायत्त एजेंट (autonomous agent) के लिए एक मौलिक आवश्यकता है।
Fortnite से लेकर क्वाड्रुपेड रोबोट्स तक
कंपनी की तकनीकी महत्वाकांक्षा एक ऐसा एकल मॉडल बनाना है जो विभिन्न डोमेन: गेमप्ले, सिमुलेशन और भौतिक स्वरूप (physical embodiment) में सामान्यीकरण (generalize) कर सके। हाल के प्रदर्शनों में, गेमप्ले पर प्रशिक्षित एक AI एजेंट जटिल वर्चुअल वातावरण में नेविगेट करने में सक्षम था, यह समझते हुए कि दीवारें ठोस वस्तुएं हैं और परछाइयां सूरज की गति के साथ बदलती हैं।
महत्वपूर्ण बात यह है कि इस "मस्तिष्क" को सीधे हार्डवेयर में पोर्ट किया जा रहा है। कंपनी ने एक क्वाड्रुपेडल (चार पैरों वाला) रोबोट प्रदर्शित किया जो उसी मॉडल का उपयोग कर रहा था जो उसके गेमिंग एजेंटों को शक्ति प्रदान करता है। विशेष रूप से, टीम ने बताया कि रोबोट के नेविगेशन के लिए मॉडल को फाइन-ट्यून करने के लिए वास्तविक सड़कों पर एकत्र किए गए केवल आठ मिनट के वास्तविक दुनिया के रोबोटिक्स डेटा की आवश्यकता पड़ी। यह सुझाव देता है कि भौतिकी और स्थानिक जागरूकता सीखने का भारी काम वीडियो गेम के "जिम" में किया जा रहा है, जिससे वास्तविक दुनिया में तैनाती काफी अधिक कुशल हो जाती है।
जनरल एजेंटों पर $2.3 बिलियन का दांव
इस महत्वाकांक्षा का पैमाना कंपनी के मूल्यांकन (valuation) में झलकता है। General Intuition ने हाल ही में $2.3 बिलियन के मूल्यांकन पर $320 मिलियन जुटाए हैं, जिससे इसकी कुल घोषित फंडिंग $454 मिलियन हो गई है। इस राउंड का नेतृत्व Khosla Ventures ने किया, जिसमें General Catalyst, Jeff Bezos, Eric Schmidt और Google DeepMind एवं MIT के शोधकर्ताओं की महत्वपूर्ण भागीदारी रही।
इस पूंजी को दो प्राथमिक लक्ष्यों के लिए निर्धारित किया गया है: CoreWeave के साथ साझेदारी के माध्यम से कंप्यूट क्षमता को बढ़ाना और गर्मियों के अंत तक अपने API को अधिक व्यापक रूप से उपलब्ध कराना। विनोद खोसला जैसे निवेशकों के लिए, लक्ष्य केवल बेहतर ऑटोमेशन नहीं है, बल्कि "AI अंतर्ज्ञान" (AI intuition) का उदय है—केवल प्रोग्राम किए गए निर्देशों का पालन करने के बजाय समझ के माध्यम से दुनिया में नेविगेट करने की मानवीय क्षमता।
मुख्य बातें
- एक्शन-संचालित प्रशिक्षण: General Intuition वीडियो-मात्र प्रशिक्षण की सीमाओं से आगे बढ़ते हुए, AI को कार्य-कारण संबंध (causality) सिखाने के लिए गेमिंग क्लिप्स से बटन-प्रेस "एक्शन लेबल" का उपयोग करता है।
- स्केलेबल सिमुलेशन: वीडियो गेम को एक "जिम" के रूप में उपयोग करके, कंपनी वास्तविक दुनिया के रोबोटिक डेटा को इकट्ठा करने के भारी खर्च के बिना जटिल स्थानिक-कालिक तर्क (spatial-temporal reasoning) को प्रशिक्षित कर सकती है।
- भारी संस्थागत समर्थन: $2.3 बिलियन के मूल्यांकन और Jeff Bezos एवं Eric Schmidt जैसे दिग्गजों के समर्थन के साथ, कंपनी खुद को 'वर्ल्ड मॉडल' (world model) युग में एक आधारभूत खिलाड़ी के रूप में स्थापित कर रही है।
