വീഡിയോ ഗെയിം ഡാറ്റയെ യഥാർത്ഥ ലോക AI ആക്കി മാറ്റുന്നതിനായി General Intuition 320 മില്യൺ ഡോളർ സമാഹരിച്ചു
ഫിസിക്കൽ ഇന്റലിജൻസിന്റെ (physical intelligence) രഹസ്യങ്ങൾ കളിക്കാർ പകർത്തിയ ദശലക്ഷക്കണക്കിന് മണിക്കൂർ വീഡിയോ ഗെയിം ദൃശ്യങ്ങൾക്കുള്ളിലാണെന്ന് General Intuition വിശ്വസിക്കുന്നു. ഗെയിമിംഗിൽ നിന്നുള്ള ഉയർന്ന നിലവാരമുള്ള ആക്ഷൻ ഡാറ്റ ഉപയോഗപ്പെടുത്തിക്കൊണ്ട്, Fortnite പോലുള്ള വിർച്വൽ പരിതസ്ഥിതികളിൽ നിന്ന് ഫിസിക്കൽ ക്വാഡ്രുപെഡൽ റോബോട്ടുകളിലേക്ക് (quadrupedal robots) തടസ്സമില്ലാതെ മാറാൻ കഴിയുന്ന ഏജന്റിക് മോഡലുകൾ (agentic models) നിർമ്മിക്കുക എന്നതാണ് ഈ സ്റ്റാർട്ടപ്പിന്റെ ലക്ഷ്യം.
വെറും വീഡിയോയേക്കാൾ ആക്ഷൻ ലേബലുകളുടെ കരുത്ത്
വീഡിയോകൾ നിരീക്ഷിച്ചുകൊണ്ട് മാത്രം AI ഏജന്റുകളെ പരിശീലിപ്പിക്കാൻ ശ്രമിക്കുന്ന മറ്റ് എതിരാളികളിൽ നിന്ന് വ്യത്യസ്തമായി, General Intuition അതിന്റെ മുൻഗാമിയായ Medal-ൽ നിന്ന് ലഭിച്ച സവിശേഷമായ ഒരു നേട്ടം ഉപയോഗപ്പെടുത്തുന്നു. മിക്ക മോഡലുകളും പിക്സലുകളിൽ നിന്ന് മാത്രം ചലനങ്ങൾ മനസ്സിലാക്കാൻ ശ്രമിക്കുമ്പോൾ, General Intuition "ആക്ഷൻ ലേബലുകൾ" (action labels) ഉപയോഗിക്കുന്നു—അതായത് ഗെയിംപ്ലേ ക്ലിപ്പുകൾക്കൊപ്പം രേഖപ്പെടുത്തിയ കൃത്യമായ ബട്ടൺ പ്രസ്സ് ചെയ്യലുകളും ടൈംസ്റ്റാമ്പുകളും.
സ്പേഷ്യൽ-ടെമ്പറൽ റീസണിംഗ് (spatial-temporal reasoning) വികസിപ്പിക്കുന്നതിന് ഈ വ്യത്യാസം വളരെ പ്രധാനമാണ്. ഒരു മനുഷ്യന്റെ ഇൻപുട്ട് എങ്ങനെ ഒരു 3D സ്പേസിലെ പ്രത്യേക ചലനത്തിന് കാരണമാകുന്നു എന്ന് കൃത്യമായി മനസ്സിലാക്കുന്നതിലൂടെ, ഒരു പ്രവൃത്തി പരിസ്ഥിതിയെ എങ്ങനെ ബാധിക്കുന്നു എന്ന കാര്യത്തിൽ (causality) മോഡൽ പഠിക്കുന്നു. ഭൗതിക ലോകത്ത് പ്രവർത്തിക്കാൻ ഉദ്ദേശിക്കുന്ന ഏതൊരു ഏജന്റിനും ആവശ്യമായ അടിസ്ഥാനപരമായ കാര്യമായ, "സ്വയം" (self) എന്നതിനെ "പരിസ്ഥിതിയിൽ" (environment) നിന്ന് വേർതിരിച്ചറിയാൻ ഇത് മോഡലിനെ സഹായിക്കുമെന്ന് സിഇഒ പിം ഡി വിറ്റെ (Pim de Witte) വാദിക്കുന്നു.
Fortnite സിമുലേഷനിൽ നിന്ന് റോബോട്ട് എംബോഡിമെന്റിലേക്ക്
കമ്പനിയുടെ സാങ്കേതിക ഘടന ഒരു "വേൾഡ് മോഡലിനെ" (world model) അടിസ്ഥാനമാക്കിയുള്ളതാണ്, ഇത് ഒരു ആന്തരിക പരിശീലന കേന്ദ്രമായി (training gym) പ്രവർത്തിക്കുന്നു. പരമ്പരാഗത ഗെയിം എഞ്ചിനുകളെ ആശ്രയിക്കുന്നതിന് പകരം, ഈ മോഡൽ ഓരോ ഫ്രെയിമുകളായി പരിതസ്ഥിതികൾ നിർമ്മിക്കുന്നു. ഇത് ഭിത്തികളുടെ ഉറപ്പ് അല്ലെങ്കിൽ നിഴലുകളുടെ ചലനം പോലുള്ള ഭൗതിക യാഥാർത്ഥ്യങ്ങൾ ആവർത്തനത്തിലൂടെ പഠിക്കാൻ ഏജന്റുകളെ അനുവദിക്കുന്നു.
ഈ പരിശീലനത്തിന്റെ പ്രായോഗിക പ്രയോഗം അവരുടെ ഹാർഡ്വെയർ ഡെമോകളിൽ ഇതിനകം തന്നെ കാണാൻ സാധിക്കുന്നുണ്ട്. വിർച്വൽ ലാൻഡ്സ്കേപ്പുകൾ നാവിഗേറ്റ് ചെയ്യാൻ ഉപയോഗിച്ച അതേ "തലച്ചോറ്" ഒരു വലിയ ക്വാഡ്രുപെഡൽ റോബോട്ടിൽ കമ്പനി വിജയകരമായി വിന്യസിച്ചിട്ടുണ്ട്. റോബോട്ടിന്റെ ഭൗതിക നാവിഗേഷനായി മോഡലിനെ ഫൈൻ ട്യൂൺ ചെയ്യാൻ പൊതുനിരത്തുകളിൽ നിന്ന് ശേഖരിച്ച വെറും എട്ട് മിനിറ്റ് റിയൽ വേൾഡ് റോബോട്ടിക്സ് ഡാറ്റ മാത്രം മതിയായിരുന്നു എന്നത് ശ്രദ്ധേയമാണ്. ബുദ്ധിപരമായ കാര്യങ്ങളുടെ ഭൂരിഭാഗവും സിമുലേഷനിലൂടെയാണ് നടക്കുന്നത് എന്ന് ഇത് സൂചിപ്പിക്കുന്നു, ഇത് യഥാർത്ഥ ലോകത്തെ വിന്യാസം വളരെ വേഗത്തിലും ചിലവ് കുറഞ്ഞതായും മാറ്റുന്നു.
2.3 ബില്യൺ ഡോളറിന്റെ വൻ മൂല്യം
കമ്പനിയുടെ ഈ വലിയ ലക്ഷ്യങ്ങൾ അവരുടെ സമീപകാല ഫണ്ടിംഗിൽ പ്രതിഫലിക്കുന്നു. Khosla Ventures നേതൃത്വം നൽകിയ ഫണ്ടിംഗ് റൗണ്ടിലൂടെ General Intuition 320 മില്യൺ ഡോളർ സമാഹരിച്ചു, ഇത് കമ്പനിയുടെ ആകെ മൂല്യം 2.3 ബില്യൺ ഡോളറിലെത്തിച്ചു. ജെഫ് ബെസോസ് (Jeff Bezos), എറിക് സ്മിറ്റ് (Eric Schmidt), ഗൂഗിൾ ഡീപ് മൈൻഡിലെയും (Google DeepMind) എംഐടിയിലെയും (MIT) ഗവേഷകർ എന്നിവരുൾപ്പെടെയുള്ള പ്രമുഖ സാങ്കേതിക വിദഗ്ധരാണ് ഈ നിക്ഷേപക സംഘത്തിൽ ഉള്ളത്.
ഈ മൂലധനം രണ്ട് പ്രധാന ലക്ഷ്യങ്ങൾക്കായി നീക്കിവച്ചിരിക്കുന്നു:
- Scaling Compute: CoreWeave-മായുള്ള പങ്കാളിത്തത്തിലൂടെ, കമ്പനി അതിന്റെ അടുത്ത തലമുറ മോഡലിന്റെ പ്രീ-ട്രെയിനിംഗിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കും.
- API Accessibility: ഫണ്ടിന്റെ ഒരു ഭാഗം വിപുലമായ ഒരു API പുറത്തിറക്കാൻ ഉപയോഗിക്കും, ഇത് വേനൽക്കാലാവസാനത്തോടെ ഡെവലപ്പർമാർക്ക് അവരുടെ ഏജന്റിക് മോഡലുകൾ ഉപയോഗിക്കാൻ സാധിച്ചേക്കും.
ഇൻഡസ്ട്രി ലാർജ് ലാംഗ്വേജ് മോഡലുകളുടെ (LLMs) ടെക്സ്റ്റ് അധിഷ്ഠിത യുഗത്തിൽ നിന്ന് മുന്നോട്ട് പോകുമ്പോൾ, ലോകത്തെക്കുറിച്ച് സംസാരിക്കുക മാത്രമല്ല, അതിലൂടെ എങ്ങനെ സഞ്ചരിക്കണമെന്ന് മനസ്സിലാക്കുകയും ചെയ്യുന്ന "വേൾഡ് മോഡലുകളുടെ" (world models) മുൻനിരയിൽ General Intuition സ്വയം പ്രതിഷ്ഠിക്കുന്നു.
പ്രധാന കാര്യങ്ങൾ
- ആക്ഷൻ അധിഷ്ഠിത പരിശീലനം: വെറും വീഡിയോയ്ക്ക് പകരം മനുഷ്യരുടെ ഗെയിംപ്ലേ "ആക്ഷൻ ലേബലുകൾ" ഉപയോഗിക്കുന്നതിലൂടെ, വീഡിയോ മാത്രം ഉപയോഗിക്കുന്ന രീതികളേക്കാൾ ഫലപ്രദമായി മോഡൽ കാസാലിറ്റിയും സ്പേഷ്യൽ റീസണിംഗും പഠിക്കുന്നു.
- സ്കെയിലബിൾ സിമുലേഷൻ: ഏജന്റുകളെ പരിശീലിപ്പിക്കാൻ സ്റ്റാർട്ടപ്പ് വീഡിയോ ഗെയിമുകളെ ഒരു "ജിം" ആയി ഉപയോഗിക്കുന്നു, ഇത് ഫിസിക്കൽ റോബോട്ടുകളെ നിയന്ത്രിക്കാൻ ആവശ്യമായ വിലകൂടിയ റിയൽ വേൾഡ് ഡാറ്റയുടെ അളവ് ഗണ്യമായി കുറയ്ക്കുന്നു.
- തന്ത്രപരമായ പിന്തുണ: 2.3 ബില്യൺ ഡോളറിന്റെ മൂല്യവും Khosla Ventures, Jeff Bezos തുടങ്ങിയ പ്രമുഖരുടെ പിന്തുണയും ഉള്ളതിനാൽ, ജനറലൈസ്ഡ് AI ഏജന്റുകൾക്കായുള്ള ഒരു അടിസ്ഥാന പാളിയായി മാറാൻ കമ്പനിക്ക് സാധിക്കും.
