रिअल-वर्ल्ड AI तयार करण्यासाठी General Intuition व्हिडिओ गेम्सचा वापर कसा करत आहे
General Intuition भौतिक जगासाठी (physical world) 'एजेंटिक मॉडेल्स' (agentic models) प्रशिक्षित करण्यासाठी मोठ्या प्रमाणावरील व्हिडिओ गेम डेटासेटचा वापर करून रोबोटिक्समध्ये एक मोठा पॅराडाइम शिफ्ट (paradigm shift) घडवून आणण्याचा प्रयत्न करत आहे. ३२० दशलक्ष डॉलर्सच्या नवीन फंडिंग राऊंडसह, ही स्टार्टअप कंपनी असा दावा करत आहे की गेमिंगमध्ये आढळणारा "ॲक्शन डेटा" (action data) हा कृत्रिम बुद्धिमत्तेसाठी (AI) गहाळ असलेला दुवा आहे.
ॲक्शन लेबल्स आणि स्पॅशिअल-टेम्पोरल रिझनिंगची (Spatial-Temporal Reasoning) शक्ती
अनेक AI संशोधक केवळ व्हिडिओ फुटेज पाहून मॉडेल्स प्रशिक्षित करण्याचा प्रयत्न करतात, परंतु General Intuition चे CEO Pim de Witte यांचा असा युक्तिवाद आहे की केवळ व्हिडिओ पुरेसा नाही. कंपनीचा स्पर्धात्मक फायदा Medal कडून मिळणाऱ्या प्रोप्रायटरी डेटावर (proprietary data) अवलंबून आहे, जे एक असे प्लॅटफॉर्म आहे जिथे वापरकर्ते व्हिडिओ गेम क्लिप्स शेअर करतात.
सामान्य व्हिडिओच्या उलट, या क्लिप्समध्ये एम्बेडेड "ॲक्शन लेबल्स" (action labels) असतात—म्हणजेच खेळाडूने कोणते बटण दाबले आणि नेमके कधी दाबले याचे अचूक रेकॉर्ड्स. यामुळे मॉडेल केवळ पॅटर्न ओळखण्यापलीकडे जाऊ शकते; ते स्पॅशिअल-टेम्पोरल रिझनिंग (spatial-temporal reasoning) शिकते. विशिष्ट इनपुट (एक कृती/action) आणि पर्यावरणातील resulting बदल (प्रतिक्रिया/reaction) यांच्यातील थेट संबंध समजून घेतल्यामुळे, AI ला कार्यकारणभाव (causality) समजण्यास सुरुवात होते. यामुळे मॉडेलला "स्वतःमध्ये" आणि "पर्यावरणात" फरक करणे शक्य होते, जे कोणत्याही स्वायत्त एजंटसाठी (autonomous agent) एक मूलभूत आवश्यकता आहे.
Fortnite पासून Quadruped Robots पर्यंत
कंपनीचे तांत्रिक उद्दिष्ट एक असे सिंगल मॉडेल तयार करणे आहे जे गेमप्ले, सिम्युलेशन आणि फिजिकल एम्बॉडिममेंट (physical embodiment) यांसारख्या विविध क्षेत्रांमध्ये काम करू शकेल. अलीकडील प्रात्यक्षिकांमध्ये, गेमप्लेवर प्रशिक्षित केलेल्या एका AI एजंटने जटिल व्हर्च्युअल वातावरणात प्रवास करण्यास यश मिळवले, ज्यामध्ये भिंती हे घन वस्तू आहेत आणि सूर्याच्या हालचालीनुसार सावल्या बदलतात हे मॉडेलने समजून घेतले.
महत्त्वाचे म्हणजे, हे "मेंदू" थेट हार्डवेअरमध्ये पोर्ट केले जात आहे. कंपनीने एका 'क्वाडरुपेडल रोबोट'चे (quadrupedal robot) प्रात्यक्षिक दाखवले, ज्यामध्ये गेमिंग एजंट्सना चालवणारे तेच मॉडेल वापरले गेले होते. विशेष म्हणजे, टीमने असे सांगितले की रोबोटच्या नेव्हिगेशनसाठी मॉडेलला फाईन-ट्यून करण्यासाठी प्रत्यक्ष रस्त्यावरून गोळा केलेल्या केवळ आठ मिनिटांच्या रिअल-वर्ल्ड रोबोटिक्स डेटाची आवश्यकता भासली. यावरून असे सूचित होते की, भौतिकशास्त्र (physics) आणि स्पॅशिअल अवेअरनेस शिकण्याचे कठीण काम व्हिडिओ गेम्सच्या "जिम" मध्ये केले जात आहे, ज्यामुळे रिअल-वर्ल्ड डिप्लॉयमेंट अधिक कार्यक्षम होत आहे.
जनरल एजंट्सवर २.३ अब्ज डॉलर्सची पैज
या महत्त्वाकांक्षेचे प्रमाण कंपनीच्या व्हॅल्युएशनमध्ये दिसून येते. General Intuition ने अलीकडेच २.३ अब्ज डॉलर्सच्या व्हॅल्युएशनवर ३२० दशलक्ष डॉलर्स उभारले आहेत, ज्यामुळे त्यांचे एकूण जाहीर केलेले फंडिंग ४५४ दशलक्ष डॉलर्स झाले आहे. या राऊंडचे नेतृत्व Khosla Ventures ने केले असून, यामध्ये General Catalyst, Jeff Bezos, Eric Schmidt आणि Google DeepMind आणि MIT मधील संशोधकांचा महत्त्वपूर्ण सहभाग होता.
हे भांडवल दोन मुख्य उद्दिष्टांसाठी राखून ठेवण्यात आले आहे: CoreWeave सोबतच्या भागीदारीद्वारे कॉम्प्युट क्षमता वाढवणे आणि उन्हाळ्याच्या अखेरीस त्यांचे API अधिक व्यापकपणे उपलब्ध करून देणे. विनोद खोसला यांच्यासारख्या गुंतवणूकदारांसाठी, ध्येय केवळ उत्तम ऑटोमेशन मिळवणे हे नसून "AI intuition" (AI अंतर्ज्ञान) विकसित करणे हे आहे—म्हणजेच केवळ प्रोग्राम केलेल्या सूचनांचे पालन करण्याऐवजी, समजून घेऊन जगामध्ये वावरण्याची मानवासारखी क्षमता.
मुख्य निष्कर्ष
- ॲक्शन-ड्रिव्हन ट्रेनिंग: General Intuition व्हिडिओ-केवळ ट्रेनिंगच्या मर्यादा ओलांडून, AI ला कार्यकारणभाव शिकवण्यासाठी गेमिंग क्लिप्समधील बटण-प्रेस "ॲक्शन लेबल्स"चा वापर करते.
- स्केलेबल सिम्युलेशन: व्हिडिओ गेम्सचा "जिम" म्हणून वापर करून, कंपनी रिअल-वर्ल्ड रोबोटिक डेटा गोळा करण्याचा प्रचंड खर्च न करता जटिल स्पॅशिअल-टेम्पोरल रिझनिंग प्रशिक्षित करू शकते.
- मोठी संस्थात्मक पाठबळ: २.३ अब्ज डॉलर्सचे व्हॅल्युएशन आणि Jeff Bezos व Eric Schmidt सारख्या दिग्गजांचे पाठबळ मिळवून, ही कंपनी 'वर्ल्ड मॉडेल' (world model) युगातील एक पायाभूत खेळाडू म्हणून स्वतःला सिद्ध करत आहे.
