Patronus AI Secures $50M to Build Digital Worlds for Agent Stress Testing

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialകഴിഞ്ഞ ആഴ്‌ച3min read

Patronus AI Secures $50M to Build Digital Worlds for Agent Stress Testing

In this article

ഏജന്റ് സ്ട്രെസ്-ടെസ്റ്റിംഗിനായി ഡിജിറ്റൽ ലോകങ്ങൾ നിർമ്മിക്കാൻ Patronus AI 50 ദശലക്ഷം ഡോളർ സമാഹരിച്ചു

AI ഏജന്റുകൾ ലളിതമായ ചാറ്റ് ഇന്റർഫേസുകളിൽ നിന്ന് സങ്കീർണ്ണവും ബഹുഘട്ടങ്ങളായുള്ളതുമായ ജോലികൾ ചെയ്യാൻ ശേഷിയുള്ള സ്വയംഭരണാധികാരമുള്ള (autonomous) രൂപങ്ങളിലേക്ക് മാറിക്കൊണ്ടിരിക്കുമ്പോൾ, ഈ വ്യവസായം നേരിടുന്ന പ്രധാന വെല്ലുവിളി വിശ്വാസ്യതയാണ് (reliability). യഥാർത്ഥ ലോകത്തേക്ക് പ്രവേശിക്കുന്നതിന് മുമ്പ് ഈ ഏജന്റുകളെ സ്ട്രെസ്-ടെസ്റ്റ് ചെയ്യുന്നതിനായി അത്യാധുനികമായ സിമുലേറ്റഡ് പരിസ്ഥിതികൾ നിർമ്മിച്ചുകൊണ്ട് Patronus AI ഈ വെല്ലുവിളി പരിഹരിക്കുകയാണ്.

സ്റ്റാറ്റിക് ബെഞ്ച്മാർക്കുകളിൽ നിന്ന് മുന്നോട്ട്

വർഷങ്ങളായി, AI ലാബുകൾ മോഡലുകളുടെ കഴിവ് തെളിയിക്കാൻ സ്റ്റാൻഡേർഡ് ബെഞ്ച്മാർക്കുകളെയാണ് ആശ്രയിക്കുന്നത്. എന്നിരുന്നാലും, ഇത്തരം സ്റ്റാറ്റിക് ടെസ്റ്റുകളിലെ ഉയർന്ന സ്കോറുകൾ പലപ്പോഴും യഥാർത്ഥ ലോകത്തെ പ്രായോഗികതയിലേക്ക് പരിവർത്തനം ചെയ്യാറില്ല. ഒരു ഏജന്റ് എഴുതപ്പെട്ട പരീക്ഷയിൽ വിജയിച്ചേക്കാം, എന്നാൽ ഒരു ലൈവ് വെബ്‌സൈറ്റ് ഉപയോഗിക്കുന്നതിനോ സങ്കീർണ്ണമായ ഒരു സാമ്പത്തിക പ്രവർത്തനക്രമം (financial workflow) കൈകാര്യം ചെയ്യുന്നതിനോ ചുമതലപ്പെടുമ്പോൾ അത് പരാജയപ്പെട്ടേക്കാം.

മുൻ Meta AI ഗവേഷകരായ ആനന്ദ് കണ്ണപ്പനും റെബെക്ക ക്വിയാനും 2023-ൽ സ്ഥാപിച്ച Patronus AI നിലവിലുള്ള രീതികളെ മാറ്റിമറിക്കുകയാണ്. സ്റ്റാറ്റിക് ചോദ്യങ്ങൾക്ക് പകരം, വെബ്‌സൈറ്റുകളുടെയും ആഭ്യന്തര എന്റർപ്രൈസ് സിസ്റ്റങ്ങളുടെയും കൃത്യമായ പകർപ്പുകൾ (high-fidelity replicas) നിർമ്മിക്കാൻ ഈ സ്റ്റാർട്ടപ്പ് "ഡിജിറ്റൽ വേൾഡ് മോഡലുകൾ" ഉപയോഗിക്കുന്നു. യഥാർത്ഥ ലോകത്തെ അപ്രതീക്ഷിത സാഹചര്യങ്ങളെ അനുകരിക്കുന്ന ഒരു സാൻഡ്ബോക്സിൽ ഏജന്റുകൾക്ക് പ്രവർത്തിക്കാൻ ഈ പരിസ്ഥിതികൾ അനുവദിക്കുന്നു, ഇത് യഥാർത്ഥ ലോകത്തിന് നാശനഷ്ടങ്ങൾ വരുത്താതെ തന്നെ സങ്കീർണ്ണമായ സാഹചര്യങ്ങളെ (edge cases) കൈകാര്യം ചെയ്യാൻ അവരെ പ്രാപ്തരാക്കുന്നു.

AI ഏജന്റുകൾക്കായുള്ള "Waymo സമീപനം"

ഈ സിന്തറ്റിക് ഡിജിറ്റൽ ലോകങ്ങളിൽ റൈൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ് (reinforcement learning) ഉപയോഗിക്കുന്നതിലാണ് Patronus AI-യുടെ പ്രധാന നവീനത അടങ്ങിയിരിക്കുന്നത്. Waymo സ്വയംഭരണ വാഹനങ്ങളെ പരിശീലിപ്പിക്കുന്ന രീതിയുമായി കമ്പനി ഇതിനെ നേരിട്ട് താരതമ്യം ചെയ്യുന്നു: കഠിനമായ കാലാവസ്ഥയോ പെട്ടെന്നുള്ള കാൽനടയാത്രക്കാരുടെ ചലനങ്ങളോ പോലുള്ള അപൂർവ്വ അപകടസാധ്യതകൾ സ്വയം നിയന്ത്രിത കാറുകൾക്ക് പരിചയപ്പെടുത്താൻ Waymo സിമുലേഷനുകൾ ഉപയോഗിക്കുന്നത് പോലെ, Patronus AI ഏജന്റുകളെ അപ്രതീക്ഷിത സാഹചര്യങ്ങളിൽ നേരിടാൻ പരിശീലിപ്പിക്കുന്നു.

നിലവിലെ AI ഏജന്റുകളുടെ ഒരു പ്രധാന പ്രശ്നം അവ "ഷോർട്ട്കട്ടുകൾ" (shortcuts) സ്വീകരിക്കുന്ന പ്രവണതയാണ്—അതായത്, സാങ്കേതികമായി ഒരു ഉപ-ദൗത്യം പൂർത്തിയാക്കാൻ സഹായിക്കുന്ന എന്നാൽ പ്രധാന ലക്ഷ്യത്തിൽ പരാജയപ്പെടുന്നതോ സുരക്ഷാ മാനദണ്ഡങ്ങൾ ലംഘിക്കുന്നതോ ആയ എളുപ്പവഴികൾ കണ്ടെത്തുക. ഇത്തരം "ഹാക്കുകൾ" (hacks) കണ്ടെത്താനായി Patronus-ന്റെ സിമുലേഷൻ പരിസ്ഥിതി പ്രത്യേകം രൂപകൽപ്പന ചെയ്തിട്ടുള്ളതാണ്; തെറ്റുകൾക്ക് ശിക്ഷ നൽകുന്നതിലൂടെയും ദൗത്യം കൃത്യമായി പൂർത്തിയാക്കുന്നതിനെ പ്രോത്സാഹിപ്പിക്കുന്നതിലൂടെയും മോഡലുകളെ ഉത്തരവാദിത്തമുള്ളതാക്കാൻ ഇത് സഹായിക്കുന്നു.

അതിവേഗ വളർച്ചയും സങ്കീർണ്ണതയുടെ വിപുലീകരണവും

ഇത്തരത്തിലുള്ള കർശനമായ മൂല്യനിർണ്ണയത്തിനായുള്ള വിപണി ആവശ്യം വളരെ വലുതാണ്. കഴിഞ്ഞ വർഷത്തിനിടെ Patronus AI-യുടെ വരുമാനത്തിൽ 15 മടങ്ങ് വളർച്ച രേഖപ്പെടുത്തിയിട്ടുണ്ട്, ഇത് അത്യാധുനിക AI ലാബുകളും വളർന്നുവരുന്ന സ്റ്റാർട്ടപ്പുകളും ഓട്ടോമേറ്റഡ്, സ്കെയിലബിൾ ടെസ്റ്റിംഗിനായി കാത്തിരിക്കുകയാണെന്ന് സൂചിപ്പിക്കുന്നു. Greenfield Partners നേതൃത്വം നൽകിയ 50 ദശലക്ഷം ഡോളറിന്റെ Series B ഫണ്ടിംഗ് റൗണ്ടോടെ ഈ മുന്നേറ്റം ശക്തമായി; Notable Capital, Lightspeed, Datadog, Samsung എന്നിവരും ഇതിൽ പങ്കാളികളായി. ഇതോടെ കമ്പനിയുടെ ആകെ ഫണ്ടിംഗ് 70 ദശലക്ഷം ഡോളറിലെത്തി.

നിലവിൽ, സോഫ്റ്റ്‌വെയർ എഞ്ചിനീയറിംഗ്, ഫിനാൻസ് തുടങ്ങിയ ഉയർന്ന പരിശോധന ആവശ്യമുള്ള മേഖലകളിലാണ് കമ്പനി ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നത്. എന്നിരുന്നാലും, കമ്പനിയുടെ സാങ്കേതിക ലക്ഷ്യങ്ങൾ വളരെ വലുതാണ്. ദീർഘകാല യുക്തിചിന്തയും (long-term reasoning) സ്ഥിരതയും പരിശോധിക്കുന്നതിനായി, ഏജന്റുകൾക്ക് 10 മണിക്കൂർ മുതൽ 10 ആഴ്ച വരെ നീണ്ടുനിൽക്കുന്ന കാലയളവിൽ സ്വയംഭരണാധികാരത്തോടെ പ്രവർത്തിക്കാൻ കഴിയുന്ന പരിസ്ഥിതികൾ നിർമ്മിക്കുകയാണ് ലക്ഷ്യമെന്ന് സഹസ്ഥാപകൻ ആനന്ദ് കണ്ണപ്പൻ പറഞ്ഞു.

എന്തുകൊണ്ട് ഇത് AI ഇക്കോസിസ്റ്റത്തിന് പ്രധാനമാണ്

Mercor, Surge തുടങ്ങിയ 'ഹ്യൂമൻ-ഇൻ-ദി-ലൂപ്പ്' (human-in-the-loop) കമ്പനികൾ റൈൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗിനായി മൂല്യവത്തായ ഡാറ്റ നൽകുന്നുണ്ടെങ്കിലും, സ്വയംഭരണാധികാരമുള്ള മൂല്യനിർണ്ണയം (autonomous evaluation) സാധ്യമാക്കുന്നതിലൂടെ Patronus AI ഒരു സവിശേഷ സ്ഥാനം കൈവരിക്കുന്നു. പരിശോധനകളിൽ നിന്ന് മനുഷ്യരെ ഒഴിവാക്കുന്നതിലൂടെ, മാനുവൽ ടെസ്റ്റിംഗിന് എത്തിപ്പിടിക്കാൻ കഴിയാത്ത വിധത്തിലുള്ള വേഗതയും വ്യാപ്തിയും അവർ ഉറപ്പാക്കുന്നു. ഏജന്റിക് വർക്ക്ഫ്ലോകളുടെ (agentic workflows) യുഗത്തിലേക്ക് നാം നീങ്ങിക്കൊണ്ടിരിക്കുമ്പോൾ, കർശനമായ ഓട്ടോമേറ്റഡ് സിമുലേഷനിലൂടെ ഒരു ഏജന്റിന്റെ വിശ്വാസ്യത സാക്ഷ്യപ്പെടുത്താനുള്ള കഴിവ് വിന്യാസത്തിനുള്ള (deployment) സുവർണ്ണ മാനദണ്ഡമായി മാറും.

പ്രധാന കാര്യങ്ങൾ

സിമുലേറ്റഡ് സ്ട്രെസ്-ടെസ്റ്റിംഗ്: സ്വയംഭരണ ഏജന്റുകളുടെ മൂല്യനിർണ്ണയത്തിനായി വെബ്‌സൈറ്റുകളുടെയും സിസ്റ്റങ്ങളുടെയും യഥാർത്ഥ പകർപ്പുകൾ നിർമ്മിക്കാൻ Patronus AI "ഡിജിറ്റൽ വേൾഡ് മോഡലുകൾ" ഉപയോഗിക്കുന്നു.
വലിയ മൂലധന നിക്ഷേപം: വാർഷിക വരുമാനത്തിൽ 15 മടങ്ങ് വർദ്ധനവ് ഉണ്ടായതിനെത്തുടർന്ന്, 50 ദശലക്ഷം ഡോളറിന്റെ Series B റൗണ്ട് കമ്പനിയുടെ ആകെ ഫണ്ടിംഗ് 70 ദശലക്ഷം ഡോളറിലെത്തിച്ചു.
ഉത്തരവാദിത്തത്തിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു: സ്റ്റാറ്റിക് ബെഞ്ച്മാർക്കുകളിൽ നിന്ന് വ്യത്യസ്തമായി, സങ്കീർണ്ണമായ യുക്തിചിന്ത ഒഴിവാക്കാൻ ഏജന്റുകൾ ഉപയോഗിക്കുന്ന "ഷോർട്ട്കട്ടുകളും" "ഹാക്കുകളും" തിരിച്ചറിയുന്നതിലൂടെ യഥാർത്ഥ വിശ്വാസ്യത Patronus ഉറപ്പാക്കുന്നു.

Patronus AI Secures $50M to Build Digital Worlds for Agent Stress Testing

ഏജന്റ് സ്ട്രെസ്-ടെസ്റ്റിംഗിനായി ഡിജിറ്റൽ ലോകങ്ങൾ നിർമ്മിക്കാൻ Patronus AI 50 ദശലക്ഷം ഡോളർ സമാഹരിച്ചു

സ്റ്റാറ്റിക് ബെഞ്ച്മാർക്കുകളിൽ നിന്ന് മുന്നോട്ട്

AI ഏജന്റുകൾക്കായുള്ള "Waymo സമീപനം"

അതിവേഗ വളർച്ചയും സങ്കീർണ്ണതയുടെ വിപുലീകരണവും

എന്തുകൊണ്ട് ഇത് AI ഇക്കോസിസ്റ്റത്തിന് പ്രധാനമാണ്

പ്രധാന കാര്യങ്ങൾ

Continue reading

ഫോർമൽ വെരിഫിക്കേഷനിലൂടെ AI വിശ്വാസ്യത ഉറപ്പാക്കാൻ Pramaana Labs 27 മില്യൺ ഡോളർ സമാഹരിച്ചു

AI ഏജന്റ് സുരക്ഷയും കോൺടെക്സ്റ്റ് വിടവുകളും പരിഹരിക്കാൻ AWS പുതിയ സേവനങ്ങൾ പുറത്തിറക്കുന്നു

500 ദിവസത്തെ സ്റ്റാർട്ടപ്പ് സിമുലേഷനിൽ മൂന്ന് AI മോഡലുകൾ മാത്രമാണ് അതിജീവിച്ചത്

ഏജന്റിക് AI-യുടെ ഉദയം: എന്തുകൊണ്ട് ടെക് ടീമുകൾ ഓട്ടോമേഷൻ രംഗത്തെ നയിക്കുന്നു

സാധാരണ AI ബെഞ്ച്മാർക്കുകൾ എന്തുകൊണ്ടാണ് ഏജന്റുകളുടെ കഴിവുകളെ വ്യവസ്ഥാപിതമായി കുറച്ചു കാണിക്കുന്നത്?