ஏஜென்ட் அழுத்தச் சோதனைக்காக (Agent Stress-Testing) டிஜிட்டல் உலகங்களை உருவாக்க Patronus AI $50M நிதியைப் பெறுகிறது
AI ஏஜென்ட்கள் எளிய அரட்டை இடைமுகங்களிலிருந்து (chat interfaces), சிக்கலான, பல படிகளைக் கொண்ட பணிகளைச் செய்யக்கூடிய தன்னாட்சி அமைப்புகளாக (autonomous entities) மாறிவரும் நிலையில், இந்தத் துறை ஒரு முக்கியமான தடையை எதிர்கொள்கிறது: அதுதான் நம்பகத்தன்மை (reliability). Patronus AI, இந்த ஏஜென்ட்கள் நிஜ உலகிற்குள் நுழைவதற்கு முன்பே, அவற்றின் அழுத்தச் சோதனைக்காக (stress-test) வடிவமைக்கப்பட்ட அதிநவீன உருவகப்படுத்தப்பட்ட சூழல்களை (simulated environments) உருவாக்குவதன் மூலம் இந்த சவாலை எதிர்கொள்கிறது.
நிலையான அளவுகோல்களைத் (Static Benchmarks) தாண்டிச் செல்லுதல்
பல ஆண்டுகளாக, AI ஆய்வகங்கள் மாதிரிகளின் திறமையை நிரூபிக்க தரப்படுத்தப்பட்ட அளவுகோல்களை (standardized benchmarks) நம்பி வருகின்றன. இருப்பினும், இந்த நிலையான சோதனைகளில் அதிக மதிப்பெண்கள் பெறுவது பெரும்பாலும் நிஜ உலகத் திறமையாக மாறுவதில்லை. ஒரு ஏஜென்ட் எழுத்துப்பூர்வமான தேர்வில் வெற்றி பெறலாம், ஆனால் ஒரு நேரடி இணையதளத்தை வழிநடத்துவதற்கோ அல்லது சிக்கலான நிதிப் பணிகளை (financial workflow) நிர்வகிப்பதற்கோ பணிக்கப்படும்போது தோல்வியடையக்கூடும்.
முன்னாள் Meta AI ஆராய்ச்சியாளர்களான ஆனந்த் கண்ணப்பன் மற்றும் ரெபெக்கா கியான் ஆகியோரால் 2023 இல் தொடங்கப்பட்ட Patronus AI, இலக்குகளை மாற்றியமைத்து வருகிறது. நிலையான கேள்விகளுக்குப் பதிலாக, இந்த ஸ்டார்ட்அப் இணையதளங்கள் மற்றும் நிறுவனத்தின் உள் அமைப்புகளின் (internal enterprise systems) துல்லியமான நகல்களை உருவாக்க "டிஜிட்டல் உலக மாதிரிகளை" (digital world models) பயன்படுத்துகிறது. இந்தச் சூழல்கள், நிஜ உலகின் கணிக்க முடியாத தன்மையைப் பிரதிபலிக்கும் ஒரு சாண்ட்பாக்ஸில் (sandbox) ஏஜென்ட்கள் செயல்பட அனுமதிக்கின்றன, இதன் மூலம் நிஜ உலகில் பாதிப்புகளை ஏற்படுத்தாமல், விளிம்பு நிலைச் சூழல்களைக் (edge cases) கையாள அவை தயார் செய்யப்படுகின்றன.
AI ஏஜென்ட்களுக்கான "Waymo அணுகுமுறை"
Patronus AI-ன் முக்கிய கண்டுபிடிப்பு, இந்த செயற்கை டிஜிட்டல் உலகங்களுக்குள் 'ரீஇன்ஃபோர்ஸ்மென்ட் லேர்னிங்' (reinforcement learning) முறையைப் பயன்படுத்துவதில் உள்ளது. Waymo எவ்வாறு தன்னாட்சி வாகனங்களைப் பயிற்றுவிக்கிறது என்பதற்கு இந்நிறுவனம் நேரடி ஒப்பீட்டை வழங்குகிறது: Waymo நிறுவனம் மோசமான வானிலை அல்லது திடீர் பாதசாரிகளின் நகர்வுகள் போன்ற அரிய ஆபத்துகளைச் சுய-இயக்க கார்களுக்கு அறிமுகப்படுத்த உருவகப்படுத்துதல்களைப் (simulations) பயன்படுத்துவது போலவே, Patronus AI ஏஜென்ட்களை கணிக்க முடியாத சூழ்நிலைகளுக்கு உள்ளாக்குகிறது.
தற்போதைய AI ஏஜென்ட்களின் ஒரு முக்கியப் பிரச்சனை, அவை "குறுக்கு வழிகளை" (shortcuts) எடுக்கும் போக்காகும்—அதாவது, ஒரு துணைப் பணியை தொழில்நுட்ப ரீதியாக முடித்தாலும், ஒட்டுமொத்த இலக்கைச் சிதைக்கும் அல்லது பாதுகாப்பு விதிமுறைகளை மீறும் எளிதான வழியைக் கண்டறிவது. Patronus-ன் உருவகப்படுத்தப்பட்ட சூழல், இத்தகைய "தந்திரங்களை" (hacks) கண்டறியும் வகையில் சிறப்பாக வடிவமைக்கப்பட்டுள்ளது; இது பிழைகளுக்குத் தண்டனை வழங்குவதன் மூலமும், உண்மையான பணி முடிப்பிற்கு வெகுமதி அளிப்பதன் மூலமும் மாதிரிகளைப் பொறுப்புடன் செயல்பட வைக்கிறது.
விரைவான வளர்ச்சி மற்றும் சிக்கலான விரிவாக்கம்
இத்தகைய கடுமையான மதிப்பீட்டிற்கான சந்தை தேவை மிகப்பெரியது. Patronus AI கடந்த ஆண்டில் 15 மடங்கு வருவாய் வளர்ச்சியைப் பதிவு செய்துள்ளது, இது முன்னணி AI ஆய்வகங்களும் வளர்ந்து வரும் ஸ்டார்ட்அப்களும் தானியங்கி மற்றும் அளவிடக்கூடிய (scalable) சோதனைகளுக்காகத் தவிப்பதைக் காட்டுகிறது. இந்த வேகம், Greenfield Partners தலைமையிலான $50 மில்லியன் Series B நிதிச் சுற்றுக்கு வழிவகுத்தது; இதில் Notable Capital, Lightspeed, Datadog மற்றும் Samsung ஆகிய நிறுவனங்களும் பங்கேற்றன, இதன் மூலம் நிறுவனத்தின் மொத்த நிதி $70 மில்லியனாக உயர்ந்துள்ளது.
தற்போது, இந்நிறுவனம் மென்பொருள் பொறியியல் மற்றும் நிதி போன்ற மிகவும் சரிபார்க்கக்கூடிய துறைகளில் கவனம் செலுத்தி வருகிறது. இருப்பினும், இதன் தொழில்நுட்பத் திட்டம் மிகவும் லட்சியமானது. ஏஜென்ட்கள் நீண்ட காலத் தர்க்கம் (long-term reasoning) மற்றும் நிலைத்தன்மையைச் சோதிக்கும் வகையில், 10 மணிநேரம் முதல் 10 வாரங்கள் வரை நீண்ட காலத்திற்குத் தன்னாட்சியாகச் செயல்படக்கூடிய சூழல்களை உருவாக்குவதே இலக்கு என்று இணை நிறுவனர் ஆனந்த் கண்ணப்பன் குறிப்பிட்டுள்ளார்.
AI சுற்றுச்சூழல் அமைப்பிற்கு இது ஏன் முக்கியமானது
Mercor மற்றும் Surge போன்ற 'ஹியூமன்-இன்-தி-லூப்' (human-in-the-loop) நிறுவனங்கள் ரீஇன்ஃபோர்ஸ்மென்ட் லேர்னிங்கிற்கு மதிப்புமிக்க தரவுகளை வழங்கினாலும், Patronus AI தன்னாட்சி மதிப்பீட்டை (autonomous evaluation) சாத்தியப்படுத்துவதன் மூலம் ஒரு தனித்துவமான இடத்தைப் பிடித்துள்ளது. சோதனைச் சுழற்சியிலிருந்து மனிதர்களை நீக்குவதன் மூலம், கைமுறைச் சோதனைகளால் (manual testing) எட்ட முடியாத அளவிலான வேகம் மற்றும் தொடர்ச்சியான சோதனைகளை அவை அனுமதிக்கின்றன. நாம் ஏஜென்டிக் பணிப்பாய்வு (agentic workflows) காலத்தை நோக்கி நகரும்போது, கடுமையான, தானியங்கி உருவகப்படுத்துதல்கள் மூலம் ஒரு ஏஜென்ட்டின் நம்பகத்தன்மையைச் சான்றளிக்கும் திறன், பயன்பாட்டிற்கான (deployment) ஒரு தரநிலையாக (gold standard) மாறும்.
முக்கியக் குறிப்புகள்
- உருவகப்படுத்தப்பட்ட அழுத்தச் சோதனை: Patronus AI, தன்னாட்சி ஏஜென்ட் மதிப்பீட்டிற்காக இணையதளங்கள் மற்றும் அமைப்புகளின் யதார்த்தமான நகல்களை உருவாக்க "டிஜிட்டல் உலக மாதிரிகளை" பயன்படுத்துகிறது.
- குறிப்பிடத்தக்க நிதி முதலீடு: ஆண்டு வருவாயில் 15 மடங்கு அதிகரிப்பால் தூண்டப்பட்ட $50M Series B சுற்று, ஸ்டார்ட்அப்பின் மொத்த நிதியை $70M ஆக உயர்த்தியுள்ளது.
- பொறுப்புணர்வில் கவனம்: நிலையான அளவுகோல்களைப் போலல்லாமல், ஏஜென்ட்கள் சிக்கலான தர்க்கத்தைத் தவிர்க்கப் பயன்படுத்தும் "குறுக்கு வழிகள்" மற்றும் "தந்திரங்களை" Patronus கண்டறிகிறது, இதன் மூலம் உண்மையான நம்பகத்தன்மையை உறுதி செய்கிறது.
