ഏജന്റ് സ്ട്രെസ്-ടെസ്റ്റിംഗിനായി ഡിജിറ്റൽ ലോകങ്ങൾ നിർമ്മിക്കാൻ Patronus AI 50 ദശലക്ഷം ഡോളർ സമാഹരിച്ചു

AI ഏജന്റുകൾ ലളിതമായ ചാറ്റ് ഇന്റർഫേസുകളിൽ നിന്ന് സങ്കീർണ്ണവും ബഹുഘട്ടങ്ങളായുള്ളതുമായ ജോലികൾ ചെയ്യാൻ ശേഷിയുള്ള സ്വയംഭരണാധികാരമുള്ള (autonomous) രൂപങ്ങളിലേക്ക് മാറിക്കൊണ്ടിരിക്കുമ്പോൾ, ഈ വ്യവസായം നേരിടുന്ന പ്രധാന വെല്ലുവിളി വിശ്വാസ്യതയാണ് (reliability). യഥാർത്ഥ ലോകത്തേക്ക് പ്രവേശിക്കുന്നതിന് മുമ്പ് ഈ ഏജന്റുകളെ സ്ട്രെസ്-ടെസ്റ്റ് ചെയ്യുന്നതിനായി അത്യാധുനികമായ സിമുലേറ്റഡ് പരിസ്ഥിതികൾ നിർമ്മിച്ചുകൊണ്ട് Patronus AI ഈ വെല്ലുവിളി പരിഹരിക്കുകയാണ്.

സ്റ്റാറ്റിക് ബെഞ്ച്മാർക്കുകളിൽ നിന്ന് മുന്നോട്ട്

വർഷങ്ങളായി, AI ലാബുകൾ മോഡലുകളുടെ കഴിവ് തെളിയിക്കാൻ സ്റ്റാൻഡേർഡ് ബെഞ്ച്മാർക്കുകളെയാണ് ആശ്രയിക്കുന്നത്. എന്നിരുന്നാലും, ഇത്തരം സ്റ്റാറ്റിക് ടെസ്റ്റുകളിലെ ഉയർന്ന സ്കോറുകൾ പലപ്പോഴും യഥാർത്ഥ ലോകത്തെ പ്രായോഗികതയിലേക്ക് പരിവർത്തനം ചെയ്യാറില്ല. ഒരു ഏജന്റ് എഴുതപ്പെട്ട പരീക്ഷയിൽ വിജയിച്ചേക്കാം, എന്നാൽ ഒരു ലൈവ് വെബ്‌സൈറ്റ് ഉപയോഗിക്കുന്നതിനോ സങ്കീർണ്ണമായ ഒരു സാമ്പത്തിക പ്രവർത്തനക്രമം (financial workflow) കൈകാര്യം ചെയ്യുന്നതിനോ ചുമതലപ്പെടുമ്പോൾ അത് പരാജയപ്പെട്ടേക്കാം.

മുൻ Meta AI ഗവേഷകരായ ആനന്ദ് കണ്ണപ്പനും റെബെക്ക ക്വിയാനും 2023-ൽ സ്ഥാപിച്ച Patronus AI നിലവിലുള്ള രീതികളെ മാറ്റിമറിക്കുകയാണ്. സ്റ്റാറ്റിക് ചോദ്യങ്ങൾക്ക് പകരം, വെബ്‌സൈറ്റുകളുടെയും ആഭ്യന്തര എന്റർപ്രൈസ് സിസ്റ്റങ്ങളുടെയും കൃത്യമായ പകർപ്പുകൾ (high-fidelity replicas) നിർമ്മിക്കാൻ ഈ സ്റ്റാർട്ടപ്പ് "ഡിജിറ്റൽ വേൾഡ് മോഡലുകൾ" ഉപയോഗിക്കുന്നു. യഥാർത്ഥ ലോകത്തെ അപ്രതീക്ഷിത സാഹചര്യങ്ങളെ അനുകരിക്കുന്ന ഒരു സാൻഡ്ബോക്സിൽ ഏജന്റുകൾക്ക് പ്രവർത്തിക്കാൻ ഈ പരിസ്ഥിതികൾ അനുവദിക്കുന്നു, ഇത് യഥാർത്ഥ ലോകത്തിന് നാശനഷ്ടങ്ങൾ വരുത്താതെ തന്നെ സങ്കീർണ്ണമായ സാഹചര്യങ്ങളെ (edge cases) കൈകാര്യം ചെയ്യാൻ അവരെ പ്രാപ്തരാക്കുന്നു.

AI ഏജന്റുകൾക്കായുള്ള "Waymo സമീപനം"

ഈ സിന്തറ്റിക് ഡിജിറ്റൽ ലോകങ്ങളിൽ റൈൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ് (reinforcement learning) ഉപയോഗിക്കുന്നതിലാണ് Patronus AI-യുടെ പ്രധാന നവീനത അടങ്ങിയിരിക്കുന്നത്. Waymo സ്വയംഭരണ വാഹനങ്ങളെ പരിശീലിപ്പിക്കുന്ന രീതിയുമായി കമ്പനി ഇതിനെ നേരിട്ട് താരതമ്യം ചെയ്യുന്നു: കഠിനമായ കാലാവസ്ഥയോ പെട്ടെന്നുള്ള കാൽനടയാത്രക്കാരുടെ ചലനങ്ങളോ പോലുള്ള അപൂർവ്വ അപകടസാധ്യതകൾ സ്വയം നിയന്ത്രിത കാറുകൾക്ക് പരിചയപ്പെടുത്താൻ Waymo സിമുലേഷനുകൾ ഉപയോഗിക്കുന്നത് പോലെ, Patronus AI ഏജന്റുകളെ അപ്രതീക്ഷിത സാഹചര്യങ്ങളിൽ നേരിടാൻ പരിശീലിപ്പിക്കുന്നു.

നിലവിലെ AI ഏജന്റുകളുടെ ഒരു പ്രധാന പ്രശ്നം അവ "ഷോർട്ട്കട്ടുകൾ" (shortcuts) സ്വീകരിക്കുന്ന പ്രവണതയാണ്—അതായത്, സാങ്കേതികമായി ഒരു ഉപ-ദൗത്യം പൂർത്തിയാക്കാൻ സഹായിക്കുന്ന എന്നാൽ പ്രധാന ലക്ഷ്യത്തിൽ പരാജയപ്പെടുന്നതോ സുരക്ഷാ മാനദണ്ഡങ്ങൾ ലംഘിക്കുന്നതോ ആയ എളുപ്പവഴികൾ കണ്ടെത്തുക. ഇത്തരം "ഹാക്കുകൾ" (hacks) കണ്ടെത്താനായി Patronus-ന്റെ സിമുലേഷൻ പരിസ്ഥിതി പ്രത്യേകം രൂപകൽപ്പന ചെയ്തിട്ടുള്ളതാണ്; തെറ്റുകൾക്ക് ശിക്ഷ നൽകുന്നതിലൂടെയും ദൗത്യം കൃത്യമായി പൂർത്തിയാക്കുന്നതിനെ പ്രോത്സാഹിപ്പിക്കുന്നതിലൂടെയും മോഡലുകളെ ഉത്തരവാദിത്തമുള്ളതാക്കാൻ ഇത് സഹായിക്കുന്നു.

അതിവേഗ വളർച്ചയും സങ്കീർണ്ണതയുടെ വിപുലീകരണവും

ഇത്തരത്തിലുള്ള കർശനമായ മൂല്യനിർണ്ണയത്തിനായുള്ള വിപണി ആവശ്യം വളരെ വലുതാണ്. കഴിഞ്ഞ വർഷത്തിനിടെ Patronus AI-യുടെ വരുമാനത്തിൽ 15 മടങ്ങ് വളർച്ച രേഖപ്പെടുത്തിയിട്ടുണ്ട്, ഇത് അത്യാധുനിക AI ലാബുകളും വളർന്നുവരുന്ന സ്റ്റാർട്ടപ്പുകളും ഓട്ടോമേറ്റഡ്, സ്കെയിലബിൾ ടെസ്റ്റിംഗിനായി കാത്തിരിക്കുകയാണെന്ന് സൂചിപ്പിക്കുന്നു. Greenfield Partners നേതൃത്വം നൽകിയ 50 ദശലക്ഷം ഡോളറിന്റെ Series B ഫണ്ടിംഗ് റൗണ്ടോടെ ഈ മുന്നേറ്റം ശക്തമായി; Notable Capital, Lightspeed, Datadog, Samsung എന്നിവരും ഇതിൽ പങ്കാളികളായി. ഇതോടെ കമ്പനിയുടെ ആകെ ഫണ്ടിംഗ് 70 ദശലക്ഷം ഡോളറിലെത്തി.

നിലവിൽ, സോഫ്റ്റ്‌വെയർ എഞ്ചിനീയറിംഗ്, ഫിനാൻസ് തുടങ്ങിയ ഉയർന്ന പരിശോധന ആവശ്യമുള്ള മേഖലകളിലാണ് കമ്പനി ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നത്. എന്നിരുന്നാലും, കമ്പനിയുടെ സാങ്കേതിക ലക്ഷ്യങ്ങൾ വളരെ വലുതാണ്. ദീർഘകാല യുക്തിചിന്തയും (long-term reasoning) സ്ഥിരതയും പരിശോധിക്കുന്നതിനായി, ഏജന്റുകൾക്ക് 10 മണിക്കൂർ മുതൽ 10 ആഴ്ച വരെ നീണ്ടുനിൽക്കുന്ന കാലയളവിൽ സ്വയംഭരണാധികാരത്തോടെ പ്രവർത്തിക്കാൻ കഴിയുന്ന പരിസ്ഥിതികൾ നിർമ്മിക്കുകയാണ് ലക്ഷ്യമെന്ന് സഹസ്ഥാപകൻ ആനന്ദ് കണ്ണപ്പൻ പറഞ്ഞു.

എന്തുകൊണ്ട് ഇത് AI ഇക്കോസിസ്റ്റത്തിന് പ്രധാനമാണ്

Mercor, Surge തുടങ്ങിയ 'ഹ്യൂമൻ-ഇൻ-ദി-ലൂപ്പ്' (human-in-the-loop) കമ്പനികൾ റൈൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗിനായി മൂല്യവത്തായ ഡാറ്റ നൽകുന്നുണ്ടെങ്കിലും, സ്വയംഭരണാധികാരമുള്ള മൂല്യനിർണ്ണയം (autonomous evaluation) സാധ്യമാക്കുന്നതിലൂടെ Patronus AI ഒരു സവിശേഷ സ്ഥാനം കൈവരിക്കുന്നു. പരിശോധനകളിൽ നിന്ന് മനുഷ്യരെ ഒഴിവാക്കുന്നതിലൂടെ, മാനുവൽ ടെസ്റ്റിംഗിന് എത്തിപ്പിടിക്കാൻ കഴിയാത്ത വിധത്തിലുള്ള വേഗതയും വ്യാപ്തിയും അവർ ഉറപ്പാക്കുന്നു. ഏജന്റിക് വർക്ക്ഫ്ലോകളുടെ (agentic workflows) യുഗത്തിലേക്ക് നാം നീങ്ങിക്കൊണ്ടിരിക്കുമ്പോൾ, കർശനമായ ഓട്ടോമേറ്റഡ് സിമുലേഷനിലൂടെ ഒരു ഏജന്റിന്റെ വിശ്വാസ്യത സാക്ഷ്യപ്പെടുത്താനുള്ള കഴിവ് വിന്യാസത്തിനുള്ള (deployment) സുവർണ്ണ മാനദണ്ഡമായി മാറും.

പ്രധാന കാര്യങ്ങൾ

  • സിമുലേറ്റഡ് സ്ട്രെസ്-ടെസ്റ്റിംഗ്: സ്വയംഭരണ ഏജന്റുകളുടെ മൂല്യനിർണ്ണയത്തിനായി വെബ്‌സൈറ്റുകളുടെയും സിസ്റ്റങ്ങളുടെയും യഥാർത്ഥ പകർപ്പുകൾ നിർമ്മിക്കാൻ Patronus AI "ഡിജിറ്റൽ വേൾഡ് മോഡലുകൾ" ഉപയോഗിക്കുന്നു.
  • വലിയ മൂലധന നിക്ഷേപം: വാർഷിക വരുമാനത്തിൽ 15 മടങ്ങ് വർദ്ധനവ് ഉണ്ടായതിനെത്തുടർന്ന്, 50 ദശലക്ഷം ഡോളറിന്റെ Series B റൗണ്ട് കമ്പനിയുടെ ആകെ ഫണ്ടിംഗ് 70 ദശലക്ഷം ഡോളറിലെത്തിച്ചു.
  • ഉത്തരവാദിത്തത്തിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു: സ്റ്റാറ്റിക് ബെഞ്ച്മാർക്കുകളിൽ നിന്ന് വ്യത്യസ്തമായി, സങ്കീർണ്ണമായ യുക്തിചിന്ത ഒഴിവാക്കാൻ ഏജന്റുകൾ ഉപയോഗിക്കുന്ന "ഷോർട്ട്കട്ടുകളും" "ഹാക്കുകളും" തിരിച്ചറിയുന്നതിലൂടെ യഥാർത്ഥ വിശ്വാസ്യത Patronus ഉറപ്പാക്കുന്നു.