ஏன் நிலையான AI பெஞ்ச்மார்க் முறைகள் ஏஜென்ட்களின் திறன்களை முறையாகக் குறைத்து மதிப்பிடுகின்றன
தற்போதைய AI மதிப்பீட்டு முறைகள், அதிநவீன (frontier) மாடல்களின் உண்மையான திறனைப் புரிந்துகொள்வதில் தோல்வியடைகின்றன; பெரும்பாலும் கணக்கீட்டு வரவு (computational budget) குறைவாக இருப்பதை அறிவின்மையாகத் தவறாகக் கருதுகின்றன. AI ஏஜென்ட்களின் செயல்திறன் என்பது ஒரு நிலையான மதிப்பெண் அல்ல, மாறாக சோதனை நேரக் கணக்கீட்டுத் திறனை (test-time compute) அதிகரிக்கும் போது வேகமாக உயரும் ஒரு அளவீட்டு வளைவு (scaling curve) என்று இங்கிலாந்தின் AI Security Institute (AISI) வெளிப்படுத்தியுள்ளது.
கணக்கீட்டுத் திறன் வளைவு (The Compute-Capability Curve)
AISI ஆராய்ச்சியின் முக்கிய கண்டுபிடிப்பு என்னவென்றால், ஒரு AI ஏஜென்ட்டின் வெற்றி விகிதமானது அதன் "test-time compute"-உடன் பிரிக்க முடியாத வகையில் பிணைக்கப்பட்டுள்ளது—அதாவது ஒரு பணியைச் செய்யும்போது அந்த ஏஜென்ட் பயன்படுத்த அனுமதிக்கப்படும் செயலாக்கத் திறன் (processing power) மற்றும் டோக்கன்களின் (tokens) அளவு. ஆராய்ச்சியாளர்கள் மதிப்பீடுகளுக்கு நிலையான வரவு வரம்புகளை (fixed budget caps) அமல்படுத்தும்போது, அவர்கள் ஒரு மாடலின் அதிகபட்சத் திறனை அளவிடுவதில்லை, மாறாக அதன் குறைந்தபட்சத் திறனை மட்டுமே அளவிடுகிறார்கள்.
இந்த நிகழ்வு பல முக்கியமான துறைகளில் காணப்படுகிறது. TerminalBench 2.0 மற்றும் SWE-Bench Pro போன்ற பெஞ்ச்மார்க் முறைகளைப் பயன்படுத்தும் மென்பொருள் பொறியியல் பணிகளில், டோக்கன் வரம்பு ஒரு மில்லியனிலிருந்து பத்து மில்லியனாக உயர்த்தப்பட்டபோது, வெற்றி விகிதம் சுமார் 25% அதிகரித்தது. அதேபோல், "Humanity's Last Exam"-இல் உள்ள கணித மற்றும் கல்விசார் பணிகளில், வரம்பு ஐந்து மில்லியன் டோக்கன்களை எட்டியபோது 22% முன்னேற்றம் காணப்பட்டது.
மனிதன் மற்றும் AI பணி நேரத்தின் பவர் லா (The Power Law of Human vs. AI Task Time)
ஒரு பணியைச் செய்ய ஒரு மனித நிபுணருக்குத் தேவைப்படும் நேரத்திற்கும், ஒரு AI ஏஜென்ட்டிற்குத் தேவைப்படும் டோக்கன் பயன்பாட்டிற்கும் இடையே நேரடித் தொடர்பு இருப்பதை இந்த ஆய்வு நிறுவியுள்ளது. இந்தத் தொடர்பு ஒரு பவர் லா (power law) முறையைப் பின்பற்றுகிறது: ஒரு மனிதருக்கு ஒரு நிமிடம் தேவைப்படும் பணி, ஒரு ஏஜென்ட்டிற்கு ஆயிரக்கணக்கான டோக்கன்களைச் செலவிடுகிறது; அதே சமயம் ஒரு மணிநேரப் பணி மில்லியன் கணக்கான டோக்கன்களைச் செலவிடுகிறது.
இது தற்போதைய சோதனைகளில் ஒரு மிகப்பெரிய மறைவிடத்தை (blind spot) உருவாக்குகிறது. உதாரணமாக, AISI-இன் சைபர் பாதுகாப்புப் பணியான "The Last Ones", ஒரு மனித நிபுணரின் சுமார் 20 மணிநேரத் திறனைத் தேவைப்படுத்துகிறது. இந்த நிறுவனம் சோதனை செய்த எந்தவொரு மாடலும் 30 மில்லியன் டோக்கன்களுக்கும் குறைவாகப் பயன்படுத்தி இந்தத் பணியைச் செய்யவில்லை. நிலையான, குறைந்த வரவு கொண்ட மதிப்பீடுகளைப் பயன்படுத்துவதன் மூலம், ஆராய்ச்சியாளர்கள் மிகவும் சிக்கலான மற்றும் முக்கியமான பணிகளை அளவீட்டுச் செயல்பாட்டிலிருந்து நடைமுறையில் விலக்கிவிடுகிறார்கள்.
முன்னேற்றத்தை விரைவுபடுத்துதல் மற்றும் முன்னேற்றத்தின் மூன்று அச்சுகள் (Accelerating Progress and the Three Axes of Improvement)
அதிநவீன மாடல்களின் "time horizon" (அவை கையாளக்கூடிய பணிகளின் சிக்கல்தன்மை) முந்தைய நினைத்ததை விட மிக வேகமாக விரிவடைந்து வருவதாக AISI குறிப்பிடுகிறது. நிலையான 2.5 மில்லியன் டோக்கன் வரம்பில், சைபர் பணிகளுக்கான time horizon ஒவ்வொரு 4.7 மாதங்களுக்கும் இருமடங்காகிறது என்று முந்தைய மதிப்பீடுகள் கூறின; ஆனால் அதிக வரம்புகளில் அந்த விகிதம் கணிசமாகத் तेजமாகிறது. 50 மில்லியன் டோக்கன்களில், இந்த இரட்டிப்பு விகிதம் ஒவ்வொரு 40 முதல் 50 நாட்களுக்கும் குறைகிறது.
புதிய மாடல்கள் (சோதிக்கப்பட்ட GPT மற்றும் Claude தொடர்கள் போன்றவை) மூன்று குறிப்பிட்ட பரிமாணங்களில் முன்னேற்றத்தைக் காட்டுகின்றன:
- Reach (அணுகுமுறை): கடினமான பணிகளைத் தொடர்ந்து கையாளும் திறன்.
- Reliability (நம்பகத்தன்மை): ஒரே பணியை அதிக நிலைத்தன்மையுடன் தீர்க்கும் திறன்.
- Efficiency (திறன்): குறைவான டோக்கன்களைப் பயன்படுத்திப் பணிகளைத் தீர்க்கும் திறன்.
AI பாதுகாப்பு மற்றும் பயன்பாட்டிற்கான தாக்கங்கள் (Implications for AI Safety and Deployment)
இந்த ஆராய்ச்சி AI மதிப்பீட்டு முறையை "நிலையான மதிப்பெண்களில்" இருந்து "கணக்கீட்டு விழிப்புணர்வு கொண்ட வளைவுகளாக" (compute-aware curves) மாற்றுகிறது. டெவலப்பர்கள் மற்றும் நிறுவனர்களுக்கு (founders), இதன் பொருள் ஒரு மாடலின் பயன்பாடு என்பது அதன் பயிற்சியின் (training) அடிப்படையில் மட்டுமல்ல, பயன்பாட்டின் போது (deployment) எவ்வளவு இன்ஃபரன்ஸ் கம்ப்யூட் (inference compute) ஒதுக்கப்படுகிறது என்பதையும் பொறுத்தது என்பதாகும்.
டோக்கனுக்கான செலவு தொடர்ந்து குறைந்து வருவதால், முன்பு பொருளாதார ரீதியாகச் சாத்தியமற்றதாகத் தோன்றிய திறன்கள் இனி தரநிலையாக மாறும். AI பாதுகாப்பு மற்றும் பாதுகாப்பைப் பொறுத்தவரை, ஒழுங்குமுறை அமைப்புகளும் நிறுவனங்களும் பாரம்பரியமான, குறைந்த வரவு கொண்ட பெஞ்ச்மார்க் முறைகளை மட்டுமே நம்பியிருந்தால், தன்னாட்சி ஏஜென்ட்கள் (autonomous agents) தொடர்பான அபாயங்கள்—சிக்கலான சைபர் தாக்குதல்கள் போன்றவை—மிகக் குறைவாக மதிப்பிடப்படலாம்.
முக்கியக் குறிப்புகள் (Key Takeaways)
- பெஞ்ச்மார்க்குகள் தவறாக வழிநடத்துகின்றன: நிலையான டோக்கன் வரம்புகள் ஒரு மாடலின் குறைந்தபட்ச செயல்திறனை மட்டுமே காட்டுகின்றன, இது AI ஏஜென்ட்கள் எட்டக்கூடிய உச்சகட்டத் திறனை முறையாகக் குறைத்து மதிப்பிடுகிறது.
- கணக்கீடு திறனை அதிகரிக்கிறது: சோதனை நேரக் கணக்கீட்டு வரம்பு அதிகரிக்கும் போது, மென்பொருள் பொறியியல் மற்றும் கணிதத்தில் வெற்றி விகிதங்கள் கணிசமாக உயர்கின்றன.
- "இரட்டிப்பு" விகிதம் வேகமாகிறது: அதிக கணக்கீட்டு வரம்புகளில், அதிநவீன மாடல்கள் சிக்கலான பணிகளைக் கற்றுக்கொள்ளும் விகிதம் முந்தைய மதிப்பீடுகளை விட மிக அதிகமாக உள்ளது.
