General Intuition વિડિયો ગેમ ડેટાને વાસ્તવિક દુનિયાના AI માં બદલવા માટે $320M એકત્રિત કરે છે
General Intuition એવી શરત લગાવી રહ્યું છે કે ભૌતિક બુદ્ધિના રહસ્યો ખેલાડીઓ દ્વારા કેદ કરવામાં આવેલા વિડિયો ગેમ ફૂટેજના લાખો કલાકોમાં છુપાયેલા છે. ગેમિંગમાંથી ઉચ્ચ-ચોકસાઈ ધરાવતા એક્શન ડેટાનો ઉપયોગ કરીને, સ્ટાર્ટઅપ એવા એજન્ટિક મોડલ્સ (agentic models) બનાવવા માંગે છે જે Fortnite જેવા વર્ચ્યુઅલ વાતાવરણમાંથી ભૌતિક ચારપાયાવાળા રોબોટ્સ (quadrupedal robots) માં સીમલેસ રીતે પરિવર્તિત થઈ શકે.
શુદ્ધ વિડિયો કરતા એક્શન લેબલ્સની શક્તિ
ઘણા સ્પર્ધકો જે માત્ર વિડિયો જોઈને AI એજન્ટ્સને તાલીમ આપવાનો પ્રયાસ કરે છે, તેનાથી વિપરીત, General Intuition તેના પૂર્વવર્તી, Medal પાસેથી વારસામાં મળેલા પ્રોપ્રાઇટરી ફાયદાનો ઉપયોગ કરે છે. જ્યારે મોટાભાગના મોડલ્સ માત્ર પિક્સેલ્સ પરથી હલનચલનનો અંદાજ લગાવવાનો પ્રયાસ કરે છે, ત્યારે General Intuition "એક્શન લેબલ્સ" (action labels) નો ઉપયોગ કરે છે—જે ગેમપ્લે ક્લિપ્સની સાથે રેકોર્ડ કરવામાં આવેલા ચોક્કસ બટન પ્રેસ અને ટાઈમસ્ટેમ્પ છે.
સ્પેસિયલ-ટેમ્પોરલ રીઝનિંગ (spatial-temporal reasoning) વિકસાવવા માટે આ તફાવત નિર્ણાયક છે. માનવ ઇનપુટ કેવી રીતે 3D સ્પેસમાં ચોક્કસ હલનચલન તરફ દોરી જાય છે તે ચોક્કસ રીતે જાણીને, મોડલ કાર્ય-કારણ સંબંધ (causality) શીખે છે: એટલે કે એક ક્રિયા પર્યાવરણને કેવી રીતે અસર કરે છે. CEO Pim de Witte દલીલ કરે છે કે આ મોડલને "પોતાની જાત" (self) અને "પર્યાવરણ" (environment) વચ્ચે તફાવત કરવામાં મદદ કરે છે, જે ભૌતિક વિશ્વમાં કાર્ય કરવા માટે નિર્ધારિત કોઈપણ એજન્ટ માટે મૂળભૂત જરૂરિયાત છે.
Fortnite સિમ્યુલેશનથી રોબોટ એમ્બોડીમેન્ટ સુધી
કંપનીનું ટેકનિકલ આર્કિટેક્ચર "વર્લ્ડ મોડલ" (world model) પર આધારિત છે જે આંતરિક તાલીમ જીમ તરીકે કાર્ય કરે છે. પરંપરાગત ગેમ એન્જિન પર આધાર રાખવાને બદલે, મોડલ ફ્રેમ-બાય-ફ્રેમ વાતાવરણ બનાવે છે, જે એજન્ટોને માત્ર પુનરાવર્તન દ્વારા ભૌતિકતા આધારિત વાસ્તવિકતાઓ—જેમ કે દિવાલોની મજબૂતી અથવા પડછાયાઓની હલનચલન—શીખવાની મંજૂરી આપે છે.
આ તાલીમનો વ્યવહારુ ઉપયોગ તેમના હાર્ડવેર ડેમોમાં પહેલેથી જ દેખાઈ રહ્યો છે. કંપનીએ વર્ચ્યુઅલ લેન્ડસ્કેપ્સમાં નેવિગેટ કરવા માટે વપરાતા એ જ "મગજ" ને સફળતાપૂર્વક એક મોટા ચારપાયાવાળા રોબોટમાં તૈનાત કર્યું છે. નોંધપાત્ર રીતે, ટીમે જણાવ્યું કે રોબોટના ભૌતિક નેવિગેશન માટે મોડલને ફાઇન-ટ્યુન કરવા માટે જાહેર રસ્તાઓ પરથી એકત્રિત કરવામાં આવેલા માત્ર આઠ મિનિટના વાસ્તવિક રોબોટિક્સ ડેટાની જરૂર પડી હતી. આ સૂચવે છે કે બુદ્ધિનું મુખ્ય કામ સિમ્યુલેશનમાં થઈ રહ્યું છે, જે વાસ્તવિક વિશ્વમાં તૈનાતીને નોંધપાત્ર રીતે ઝડપી અને સસ્તી બનાવે છે.
$2.3 બિલિયનનું વિશાળ મૂલ્યાંકન
આ મહત્વાકાંક્ષાનું પ્રમાણ કંપનીના તાજેતરના ફંડિંગમાં પ્રતિબિંબિત થાય છે. General Intuition એ Khosla Ventures ના નેતૃત્વ હેઠળના રાઉન્ડમાં $320 મિલિયન એકત્રિત કર્યા છે, જેનાથી તેનું કુલ મૂલ્યાંકન $2.3 બિલિયન થયું છે. રોકાણકાર જૂથ ટેક જગતના દિગ્ગજોનું બનેલું છે, જેમાં Jeff Bezos, Eric Schmidt અને Google DeepMind તથા MIT ના સંશોધકોનો સમાવેશ થાય છે.
મૂડી બે પ્રાથમિક ઉદ્દેશ્યો માટે ફાળવવામાં આવી છે:
- કમ્પ્યુટ સ્કેલિંગ (Scaling Compute): CoreWeave સાથેની ભાગીદારી દ્વારા, કંપની તેના મોડલની આગામી પેઢીના પ્રી-ટ્રેનિંગ પર ધ્યાન કેન્દ્રિત કરશે.
- API સુલભતા (API Accessibility): ભંડોળનો એક ભાગ વ્યાપક API લોન્ચ કરવા માટે વપરાશે, જે સંભવતઃ ઉનાળાના અંત સુધીમાં ડેવલપર્સને તેમના એજન્ટિક મોડલ્સનો ઉપયોગ કરવાની મંજૂરી આપશે.
જેમ જેમ ઉદ્યોગ Large Language Models (LLMs) ના ટેક્સ્ટ-ભારે યુગથી આગળ વધી રહ્યો છે, તેમ General Intuition પોતાને "વર્લ્ડ મોડલ્સ" (world models) ના અગ્રણી તરીકે સ્થાપિત કરી રહ્યું છે—એવું AI જે માત્ર વિશ્વ વિશે વાત નથી કરતું, પરંતુ તેમાં કેવી રીતે હલનચલન કરવી તે સમજે છે.
મુખ્ય મુદ્દાઓ
- એક્શન-ડ્રિવન તાલીમ: માત્ર વિડિયોને બદલે માનવ ગેમપ્લેના "એક્શન લેબલ્સ" નો ઉપયોગ કરીને, મોડલ વિડિયો-માત્ર અભિગમો કરતા કાર્ય-કારણ સંબંધ અને સ્પેસિયલ રીઝનિંગ વધુ અસરકારક રીતે શીખે છે.
- સ્કેલેબલ સિમ્યુલેશન: સ્ટાર્ટઅપ એજન્ટોને તાલીમ આપવા માટે વિડિયો ગેમ્સનો "જીમ" તરીકે ઉપયોગ કરે છે, જે ભૌતિક રોબોટ્સને નિયંત્રિત કરવા માટે જરૂરી મોંઘા, વાસ્તવિક વિશ્વના ડેટાના પ્રમાણને નોંધપાત્ર રીતે ઘટાડે છે.
- વ્યૂહાત્મક ટેકો: $2.3B ના મૂલ્યાંકન અને Khosla Ventures તથા Jeff Bezos જેવા દિગ્ગજોના ટેકા સાથે, કંપની જનરલાઈઝ્ડ AI એજન્ટ્સ માટે પાયાના સ્તર તરીકે ઉભરી આવવા માટે સજ્જ છે.
