કેવી રીતે General Intuition વાસ્તવિક દુનિયાના AI બનાવવા માટે વિડિયો ગેમ્સનો ઉપયોગ કરી રહ્યું છે
General Intuition ભૌતિક વિશ્વ માટે એજન્ટિક મોડલ્સને તાલીમ આપવા માટે વિશાળ વિડિયો ગેમ ડેટાસેટ્સનો ઉપયોગ કરીને રોબોટિક્સમાં એક મોટું પેરાડાઈમ શિફ્ટ (paradigm shift) લાવવાનો પ્રયાસ કરી રહ્યું છે. $320 મિલિયનના નવા ફંડિંગ રાઉન્ડ સાથે, આ સ્ટાર્ટઅપ એવી શરત લગાવી રહ્યું છે કે ગેમિંગમાં જોવા મળતો "એક્શન ડેટા" (action data) આર્ટિફિશિયલ ઇન્ટેલિજન્સ માટે ખૂટતી કડી છે.
એક્શન લેબલ્સ અને સ્પેસિયલ-ટેમ્પોરલ રીઝનિંગની શક્તિ
જ્યારે ઘણા AI સંશોધકો માત્ર વિડિયો ફૂટેજ જોઈને મોડલ્સને તાલીમ આપવાનો પ્રયાસ કરે છે, ત્યારે General Intuition ના CEO Pim de Witte એવી દલીલ કરે છે કે માત્ર વિડિયો પૂરતો નથી. કંપનીની સ્પર્ધાત્મક ક્ષમતા Medal ના પ્રોપ્રાઇટરી ડેટા (proprietary data) સુધી તેની પહોંચમાં રહેલી છે, જે એક એવું પ્લેટફોર્મ છે જ્યાં વપરાશકર્તાઓ વિડિયો ગેમ ક્લિપ્સ શેર કરે છે.
સામાન્ય વિડિયોથી વિપરીત, આ ક્લિપ્સમાં એમ્બેડેડ "એક્શન લેબલ્સ" (action labels) હોય છે—એટલે કે ખેલાડીએ કયા બટનો દબાવ્યા અને બરાબર ક્યારે દબાવ્યા તેનો ચોક્કસ રેકોર્ડ. આ મોડલને માત્ર પેટર્ન ઓળખવા પૂરતું મર્યાદિત રાખવાને બદલે, તેને સ્પેસિયલ-ટેમ્પોરલ રીઝનિંગ (spatial-temporal reasoning) શીખવવામાં મદદ કરે છે. ચોક્કસ ઇનપુટ (એક એક્શન) અને તેના પરિણામે પર્યાવરણમાં થતા ફેરફાર (પ્રતિક્રિયા) વચ્ચેના સીધા સંબંધને સમજીને, AI કારણ-અસર (causality) ને સમજવાનું શરૂ કરે છે. આ મોડલને "પોતાની જાત" (self) અને "પર્યાવરણ" (environment) વચ્ચે તફાવત કરવામાં સક્ષમ બનાવે છે, જે કોઈપણ સ્વાયત્ત એજન્ટ (autonomous agent) માટે મૂળભૂત જરૂરિયાત છે.
Fortnite થી લઈને ક્વાડ્રુપેડલ રોબોટ્સ સુધી
કંપનીનો ટેકનિકલ લક્ષ્ય એક એવું સિંગલ મોડલ બનાવવાનું છે જે વિવિધ ક્ષેત્રોમાં સામાન્યીકરણ (generalize) કરી શકે: ગેમપ્લે, સિમ્યુલેશન અને ભૌતિક સ્વરૂપ (physical embodiment). તાજેતરના પ્રદર્શનોમાં, ગેમપ્લે પર તાલીમ પામેલા એક AI એજન્ટ જટિલ વર્ચ્યુઅલ વાતાવરણમાં નેવિગેટ કરી શક્યો હતો, તે સમજી શક્યો હતો કે દીવાલો નક્કર વસ્તુઓ છે અને સૂર્યની ગતિ સાથે પડછાયાઓ બદલાય છે.
મહત્વપૂર્ણ રીતે, આ "મગજ" ને સીધું હાર્ડવેરમાં પોર્ટ કરવામાં આવી રહ્યું છે. કંપનીએ એક ક્વાડ્રુપેડલ રોબોટનું પ્રદર્શન કર્યું જે તેના ગેમિંગ એજન્ટોને પાવર આપતા સમાન મોડલનો ઉપયોગ કરતો હતો. નોંધપાત્ર રીતે, ટીમે જણાવ્યું કે રોબોટના નેવિગેશન માટે મોડલને ફાઇન-ટ્યુન કરવા માટે વાસ્તવિક રસ્તાઓ પરથી એકત્રિત કરાયેલ માત્ર આઠ મિનિટના વાસ્તવિક રોબોટિક્સ ડેટાની જરૂર પડી હતી. આ સૂચવે છે કે ફિઝિક્સ અને સ્પેસિયલ અવેરનેસ શીખવાનું મુખ્ય કામ વિડિયો ગેમ્સના "જિમ" માં થઈ રહ્યું છે, જે વાસ્તવિક દુનિયામાં તેનો ઉપયોગ (deployment) નોંધપાત્ર રીતે વધુ કાર્યક્ષમ બનાવે છે.
જનરલ એજન્ટ્સ પર $2.3 બિલિયનનો દાવ
આ મહત્વાકાંક્ષાનું પ્રમાણ કંપનીના મૂલ્યાંકનમાં પ્રતિબિંબિત થાય છે. General Intuition એ તાજેતરમાં $2.3 બિલિયનના મૂલ્યાંકન પર $320 મિલિયન મેળવ્યા છે, જેનાથી તેનું કુલ જાહેર કરાયેલ ફંડિંગ $454 મિલિયન થયું છે. આ રાઉડનું નેતૃત્વ Khosla Ventures દ્વારા કરવામાં આવ્યું હતું, જેમાં General Catalyst, Jeff Bezos, Eric Schmidt અને Google DeepMind તથા MIT ના સંશોધકોનું નોંધપાત્ર યોગદાન હતું.
આ મૂડી બે પ્રાથમિક લક્ષ્યો માટે ફાળવવામાં આવી છે: CoreWeave સાથેની ભાગીદારી દ્વારા કમ્પ્યુટ ક્ષમતા વધારવી અને ઉનાળાના અંત સુધીમાં તેમનું API વધુ વ્યાપકપણે ઉપલબ્ધ કરાવવું. વિનોદ કોસલા જેવા રોકાણકારો માટે, લક્ષ્ય માત્ર વધુ સારી ઓટોમેશન નથી, પરંતુ "AI intuition" નો ઉદભવ છે—એટલે કે માત્ર પ્રોગ્રામ કરેલા નિર્દેશોનું પાલન કરવાને બદલે સમજણ દ્વારા વિશ્વમાં આગળ વધવાની માનવ જેવી ક્ષમતા.
મુખ્ય મુદ્દાઓ
- એક્શન-ડ્રિવન ટ્રેનિંગ: General Intuition વિડિયો-માત્ર તાલીમની મર્યાદાઓથી આગળ વધીને, AI ને કારણ-અસર (causality) શીખવવા માટે ગેમિંગ ક્લિપ્સમાંથી બટન-પ્રેસ "એક્શન લેબલ્સ" નો ઉપયોગ કરે છે.
- સ્કેલેબલ સિમ્યુલેશન: વિડિયો ગેમ્સનો "જિમ" તરીકે ઉપયોગ કરીને, કંપની વાસ્તવિક દુનિયાના રોબોટિક ડેટા એકત્રિત કરવાના મોટા ખર્ચ વગર જટિલ સ્પેસિયલ-ટેમ્પોરલ રીઝનિંગને તાલીમ આપી શકે છે.
- વિશાળ સંસ્થાકીય સમર્થન: $2.3 બિલિયનનું મૂલ્યાંકન અને Jeff Bezos તથા Eric Schmidt જેવા મહાનુભાવોના સમર્થન સાથે, કંપની પોતાને વર્લ્ડ મોડલ યુગમાં એક પાયાના ખેલાડી તરીકે સ્થાપિત કરી રહી છે.
