ஏன் நிலையான AI அளவுகோல்கள் ஏஜென்ட் திறன்களை முறையாகக் குறைத்து மதிப்பிடுகின்றன?

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial23 மணிநேரம் முன்3min read

ஏன் நிலையான AI அளவுகோல்கள் ஏஜென்ட் திறன்களை முறையாகக் குறைத்து மதிப்பிடுகின்றன?

In this article

ஏன் நிலையான AI பெஞ்ச்மார்க் முறைகள் ஏஜென்ட்களின் திறன்களை முறையாகக் குறைத்து மதிப்பிடுகின்றன

தற்போதைய AI மதிப்பீட்டு முறைகள், அதிநவீன (frontier) மாடல்களின் உண்மையான திறனைப் புரிந்துகொள்வதில் தோல்வியடைகின்றன; பெரும்பாலும் கணக்கீட்டு வரவு (computational budget) குறைவாக இருப்பதை அறிவின்மையாகத் தவறாகக் கருதுகின்றன. AI ஏஜென்ட்களின் செயல்திறன் என்பது ஒரு நிலையான மதிப்பெண் அல்ல, மாறாக சோதனை நேரக் கணக்கீட்டுத் திறனை (test-time compute) அதிகரிக்கும் போது வேகமாக உயரும் ஒரு அளவீட்டு வளைவு (scaling curve) என்று இங்கிலாந்தின் AI Security Institute (AISI) வெளிப்படுத்தியுள்ளது.

கணக்கீட்டுத் திறன் வளைவு (The Compute-Capability Curve)

AISI ஆராய்ச்சியின் முக்கிய கண்டுபிடிப்பு என்னவென்றால், ஒரு AI ஏஜென்ட்டின் வெற்றி விகிதமானது அதன் "test-time compute"-உடன் பிரிக்க முடியாத வகையில் பிணைக்கப்பட்டுள்ளது—அதாவது ஒரு பணியைச் செய்யும்போது அந்த ஏஜென்ட் பயன்படுத்த அனுமதிக்கப்படும் செயலாக்கத் திறன் (processing power) மற்றும் டோக்கன்களின் (tokens) அளவு. ஆராய்ச்சியாளர்கள் மதிப்பீடுகளுக்கு நிலையான வரவு வரம்புகளை (fixed budget caps) அமல்படுத்தும்போது, அவர்கள் ஒரு மாடலின் அதிகபட்சத் திறனை அளவிடுவதில்லை, மாறாக அதன் குறைந்தபட்சத் திறனை மட்டுமே அளவிடுகிறார்கள்.

இந்த நிகழ்வு பல முக்கியமான துறைகளில் காணப்படுகிறது. TerminalBench 2.0 மற்றும் SWE-Bench Pro போன்ற பெஞ்ச்மார்க் முறைகளைப் பயன்படுத்தும் மென்பொருள் பொறியியல் பணிகளில், டோக்கன் வரம்பு ஒரு மில்லியனிலிருந்து பத்து மில்லியனாக உயர்த்தப்பட்டபோது, வெற்றி விகிதம் சுமார் 25% அதிகரித்தது. அதேபோல், "Humanity's Last Exam"-இல் உள்ள கணித மற்றும் கல்விசார் பணிகளில், வரம்பு ஐந்து மில்லியன் டோக்கன்களை எட்டியபோது 22% முன்னேற்றம் காணப்பட்டது.

மனிதன் மற்றும் AI பணி நேரத்தின் பவர் லா (The Power Law of Human vs. AI Task Time)

ஒரு பணியைச் செய்ய ஒரு மனித நிபுணருக்குத் தேவைப்படும் நேரத்திற்கும், ஒரு AI ஏஜென்ட்டிற்குத் தேவைப்படும் டோக்கன் பயன்பாட்டிற்கும் இடையே நேரடித் தொடர்பு இருப்பதை இந்த ஆய்வு நிறுவியுள்ளது. இந்தத் தொடர்பு ஒரு பவர் லா (power law) முறையைப் பின்பற்றுகிறது: ஒரு மனிதருக்கு ஒரு நிமிடம் தேவைப்படும் பணி, ஒரு ஏஜென்ட்டிற்கு ஆயிரக்கணக்கான டோக்கன்களைச் செலவிடுகிறது; அதே சமயம் ஒரு மணிநேரப் பணி மில்லியன் கணக்கான டோக்கன்களைச் செலவிடுகிறது.

இது தற்போதைய சோதனைகளில் ஒரு மிகப்பெரிய மறைவிடத்தை (blind spot) உருவாக்குகிறது. உதாரணமாக, AISI-இன் சைபர் பாதுகாப்புப் பணியான "The Last Ones", ஒரு மனித நிபுணரின் சுமார் 20 மணிநேரத் திறனைத் தேவைப்படுத்துகிறது. இந்த நிறுவனம் சோதனை செய்த எந்தவொரு மாடலும் 30 மில்லியன் டோக்கன்களுக்கும் குறைவாகப் பயன்படுத்தி இந்தத் பணியைச் செய்யவில்லை. நிலையான, குறைந்த வரவு கொண்ட மதிப்பீடுகளைப் பயன்படுத்துவதன் மூலம், ஆராய்ச்சியாளர்கள் மிகவும் சிக்கலான மற்றும் முக்கியமான பணிகளை அளவீட்டுச் செயல்பாட்டிலிருந்து நடைமுறையில் விலக்கிவிடுகிறார்கள்.

முன்னேற்றத்தை விரைவுபடுத்துதல் மற்றும் முன்னேற்றத்தின் மூன்று அச்சுகள் (Accelerating Progress and the Three Axes of Improvement)

அதிநவீன மாடல்களின் "time horizon" (அவை கையாளக்கூடிய பணிகளின் சிக்கல்தன்மை) முந்தைய நினைத்ததை விட மிக வேகமாக விரிவடைந்து வருவதாக AISI குறிப்பிடுகிறது. நிலையான 2.5 மில்லியன் டோக்கன் வரம்பில், சைபர் பணிகளுக்கான time horizon ஒவ்வொரு 4.7 மாதங்களுக்கும் இருமடங்காகிறது என்று முந்தைய மதிப்பீடுகள் கூறின; ஆனால் அதிக வரம்புகளில் அந்த விகிதம் கணிசமாகத் तेजமாகிறது. 50 மில்லியன் டோக்கன்களில், இந்த இரட்டிப்பு விகிதம் ஒவ்வொரு 40 முதல் 50 நாட்களுக்கும் குறைகிறது.

புதிய மாடல்கள் (சோதிக்கப்பட்ட GPT மற்றும் Claude தொடர்கள் போன்றவை) மூன்று குறிப்பிட்ட பரிமாணங்களில் முன்னேற்றத்தைக் காட்டுகின்றன:

Reach (அணுகுமுறை): கடினமான பணிகளைத் தொடர்ந்து கையாளும் திறன்.
Reliability (நம்பகத்தன்மை): ஒரே பணியை அதிக நிலைத்தன்மையுடன் தீர்க்கும் திறன்.
Efficiency (திறன்): குறைவான டோக்கன்களைப் பயன்படுத்திப் பணிகளைத் தீர்க்கும் திறன்.

AI பாதுகாப்பு மற்றும் பயன்பாட்டிற்கான தாக்கங்கள் (Implications for AI Safety and Deployment)

இந்த ஆராய்ச்சி AI மதிப்பீட்டு முறையை "நிலையான மதிப்பெண்களில்" இருந்து "கணக்கீட்டு விழிப்புணர்வு கொண்ட வளைவுகளாக" (compute-aware curves) மாற்றுகிறது. டெவலப்பர்கள் மற்றும் நிறுவனர்களுக்கு (founders), இதன் பொருள் ஒரு மாடலின் பயன்பாடு என்பது அதன் பயிற்சியின் (training) அடிப்படையில் மட்டுமல்ல, பயன்பாட்டின் போது (deployment) எவ்வளவு இன்ஃபரன்ஸ் கம்ப்யூட் (inference compute) ஒதுக்கப்படுகிறது என்பதையும் பொறுத்தது என்பதாகும்.

டோக்கனுக்கான செலவு தொடர்ந்து குறைந்து வருவதால், முன்பு பொருளாதார ரீதியாகச் சாத்தியமற்றதாகத் தோன்றிய திறன்கள் இனி தரநிலையாக மாறும். AI பாதுகாப்பு மற்றும் பாதுகாப்பைப் பொறுத்தவரை, ஒழுங்குமுறை அமைப்புகளும் நிறுவனங்களும் பாரம்பரியமான, குறைந்த வரவு கொண்ட பெஞ்ச்மார்க் முறைகளை மட்டுமே நம்பியிருந்தால், தன்னாட்சி ஏஜென்ட்கள் (autonomous agents) தொடர்பான அபாயங்கள்—சிக்கலான சைபர் தாக்குதல்கள் போன்றவை—மிகக் குறைவாக மதிப்பிடப்படலாம்.

முக்கியக் குறிப்புகள் (Key Takeaways)

பெஞ்ச்மார்க்குகள் தவறாக வழிநடத்துகின்றன: நிலையான டோக்கன் வரம்புகள் ஒரு மாடலின் குறைந்தபட்ச செயல்திறனை மட்டுமே காட்டுகின்றன, இது AI ஏஜென்ட்கள் எட்டக்கூடிய உச்சகட்டத் திறனை முறையாகக் குறைத்து மதிப்பிடுகிறது.
கணக்கீடு திறனை அதிகரிக்கிறது: சோதனை நேரக் கணக்கீட்டு வரம்பு அதிகரிக்கும் போது, மென்பொருள் பொறியியல் மற்றும் கணிதத்தில் வெற்றி விகிதங்கள் கணிசமாக உயர்கின்றன.
"இரட்டிப்பு" விகிதம் வேகமாகிறது: அதிக கணக்கீட்டு வரம்புகளில், அதிநவீன மாடல்கள் சிக்கலான பணிகளைக் கற்றுக்கொள்ளும் விகிதம் முந்தைய மதிப்பீடுகளை விட மிக அதிகமாக உள்ளது.

ஏன் நிலையான AI அளவுகோல்கள் ஏஜென்ட் திறன்களை முறையாகக் குறைத்து மதிப்பிடுகின்றன?

ஏன் நிலையான AI பெஞ்ச்மார்க் முறைகள் ஏஜென்ட்களின் திறன்களை முறையாகக் குறைத்து மதிப்பிடுகின்றன

கணக்கீட்டுத் திறன் வளைவு (The Compute-Capability Curve)

மனிதன் மற்றும் AI பணி நேரத்தின் பவர் லா (The Power Law of Human vs. AI Task Time)

முன்னேற்றத்தை விரைவுபடுத்துதல் மற்றும் முன்னேற்றத்தின் மூன்று அச்சுகள் (Accelerating Progress and the Three Axes of Improvement)

AI பாதுகாப்பு மற்றும் பயன்பாட்டிற்கான தாக்கங்கள் (Implications for AI Safety and Deployment)

முக்கியக் குறிப்புகள் (Key Takeaways)

Continue reading

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

AI ஏஜென்ட் மதிப்பீடு மிக விரைவாக முடிந்துவிடுகிறது

ஏஜென்டிக் AI-ன் எழுச்சி: தொழில்நுட்பக் குழுக்கள் ஏன் ஆட்டோமேஷன் துறையில் முன்னிலை வகிக்கின்றன?

அதிநவீன AI மாதிரிகள் ஏன் நிதி முன்னுரிமைத் தீர்மானிக்கும் சோதனைகளில் தோல்வியடைகின்றன?