मानक AI बेंचमार्क व्यवस्थित रूप से एजेंट क्षमताओं को कम क्यों आंकते हैं?

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorial23 घंटे पहले3मिनट पढ़ें

मानक AI बेंचमार्क व्यवस्थित रूप से एजेंट क्षमताओं को कम क्यों आंकते हैं?

इस लेख में

क्यों मानक AI बेंचमार्क व्यवस्थित रूप से एजेंट क्षमताओं का कम आकलन करते हैं

वर्तमान AI मूल्यांकन विधियाँ फ्रंटियर मॉडल्स (frontier models) की वास्तविक क्षमता को पकड़ने में विफल हो रही हैं, और अक्सर कंप्यूटेशनल बजट की कमी को बुद्धिमत्ता की कमी समझ लेती हैं। यूके के AI सिक्योरिटी इंस्टीट्यूट (AISI) ने खुलासा किया है कि AI एजेंट का प्रदर्शन कोई स्थिर स्कोर नहीं है, बल्कि एक स्केलिंग कर्व (scaling curve) है जो टेस्ट-टाइम कंप्यूट (test-time compute) बढ़ने के साथ तेजी से ऊपर जाता है।

कंप्यूट-क्षमता कर्व (The Compute-Capability Curve)

AISI शोध का मुख्य निष्कर्ष यह है कि एक AI एजेंट की सफलता दर उसके "टेस्ट-टाइम कंप्यूट" (test-time compute) से अटूट रूप से जुड़ी हुई है—यानी किसी कार्य पर काम करते समय एक एजेंट को उपयोग करने की अनुमति दी जाने वाली प्रोसेसिंग पावर और टोकन की मात्रा। जब शोधकर्ता मूल्यांकन के लिए निश्चित बजट सीमाएं लागू करते हैं, तो वे मॉडल की अधिकतम क्षमता के बजाय उसकी न्यूनतम क्षमता को माप रहे होते हैं।

यह घटना कई उच्च-जोखिम वाले क्षेत्रों में दिखाई देती है। TerminalBench 2.0 और SWE-Bench Pro जैसे बेंचमार्क का उपयोग करने वाले सॉफ्टवेयर इंजीनियरिंग कार्यों में, जब टोकन बजट एक मिलियन से बढ़ाकर दस मिलियन कर दिया गया, तो सफलता दर में लगभग 25% की वृद्धि हुई। इसी तरह, "Humanity's Last Exam" में गणितीय और शैक्षणिक कार्यों में 22% का लाभ देखा गया जब बजट पांच मिलियन टोकन तक पहुँच गया।

मानव बनाम AI कार्य समय का पावर लॉ (The Power Law of Human vs. AI Task Time)

अध्ययन ने किसी कार्य के लिए मानव विशेषज्ञ को लगने वाले समय और AI एजेंट द्वारा आवश्यक टोकन खपत के बीच एक सीधा संबंध स्थापित किया है। यह संबंध एक पावर लॉ (power law) का पालन करता है: एक कार्य जिसमें मनुष्य को एक मिनट लगता है, उसमें एजेंट के हजारों टोकन खर्च होते हैं, जबकि एक घंटे के कार्य में लाखों टोकन खर्च होते हैं।

यह वर्तमान परीक्षण में एक बहुत बड़ी कमी (blind spot) पैदा करता है। उदाहरण के लिए, AISI साइबर सुरक्षा कार्य "The Last Ones" के लिए लगभग 20 घंटे की मानव विशेषज्ञता की आवश्यकता होती है। संस्थान द्वारा परीक्षण किया गया कोई भी मॉडल 30 मिलियन से कम टोकन के साथ इस कार्य को हल नहीं कर सका। मानक, कम-बजट वाले मूल्यांकन का उपयोग करके, शोधकर्ता प्रभावी रूप से सबसे जटिल और महत्वपूर्ण कार्यों को माप की प्रक्रिया से बाहर कर रहे हैं।

प्रगति में तेजी और सुधार के तीन अक्ष (The Three Axes of Improvement)

AISI का कहना है कि फ्रंटियर मॉडल्स का "टाइम होराइजन" (time horizon)—यानी वे कितने जटिल कार्यों को संभाल सकते हैं—पहले की तुलना में कहीं अधिक तेजी से बढ़ रहा है। जबकि पिछले अनुमानों ने सुझाव दिया था कि 2.5 मिलियन टोकन के निश्चित बजट पर साइबर कार्यों के लिए टाइम होराइजन हर 4.7 महीने में दोगुना हो जाता है, उच्च बजट पर यह दर काफी बढ़ जाती है। 50 मिलियन टोकन पर, दोगुना होने की दर बढ़कर हर 40 से 50 दिन हो जाती है।

नए मॉडल (जैसे परीक्षण किए गए GPT और Claude सीरीज़) तीन विशिष्ट आयामों में सुधार दिखाते हैं:

Reach (पहुंच): तेजी से कठिन होते कार्यों से निपटने की क्षमता।
Reliability (विश्वसनीयता): एक ही कार्य को अधिक निरंतरता के साथ हल करने की क्षमता।
Efficiency (दक्षता): कम टोकन का उपयोग करके कार्यों को हल करने की क्षमता।

AI सुरक्षा और परिनियोजन (Deployment) के लिए निहितार्थ

यह शोध AI मूल्यांकन के प्रतिमान (paradigm) को "निश्चित स्कोर" से बदलकर "कंप्यूट-अवेयर कर्व्स" (compute-aware curves) में बदल देता है। डेवलपर्स और संस्थापकों के लिए, इसका मतलब है कि किसी मॉडल की उपयोगिता केवल उसके प्रशिक्षण का परिणाम नहीं है, बल्कि इस बात पर भी निर्भर करती है कि परिनियोजन (deployment) के दौरान कितना इन्फरेंस कंप्यूट (inference compute) आवंटित किया गया है।

जैसे-जैसे प्रति टोकन लागत कम होती जा रही है, ऐसी क्षमताएं जो पहले आर्थिक रूप से अव्यवहारिक लगती थीं, मानक बन जाएंगी। AI सुरक्षा और सुरक्षा के लिए, इसका अर्थ है कि स्वायत्त एजेंटों (autonomous agents) से जुड़े जोखिम—जैसे जटिल साइबर हमले—का काफी कम आकलन किया जा सकता है यदि नियामक और कंपनियां पारंपरिक, कम-बजट वाले बेंचमार्क पर भरोसा करती हैं।

मुख्य बातें (Key Takeaways)

बेंचमार्क भ्रामक हैं: निश्चित टोकन बजट मॉडल के न्यूनतम प्रदर्शन को दर्शाते हैं, जिससे AI एजेंट जो हासिल कर सकते हैं उसकी ऊपरी सीमा (ceiling) का व्यवस्थित रूप से कम आकलन होता है।
कंप्यूट क्षमता को बढ़ाता है: जैसे-जैसे टेस्ट-टाइम कंप्यूट बजट बढ़ता है, सॉफ्टवेयर इंजीनियरिंग और गणित में सफलता दर में काफी उछाल आता है।
"दोगुना" होने की दर तेज हो रही है: उच्च कंप्यूट बजट पर, फ्रंटियर मॉडल्स द्वारा जटिल कार्यों में महारत हासिल करने की दर पहले के अनुमानों की तुलना में बहुत अधिक है।

मानक AI बेंचमार्क व्यवस्थित रूप से एजेंट क्षमताओं को कम क्यों आंकते हैं?

क्यों मानक AI बेंचमार्क व्यवस्थित रूप से एजेंट क्षमताओं का कम आकलन करते हैं

कंप्यूट-क्षमता कर्व (The Compute-Capability Curve)

मानव बनाम AI कार्य समय का पावर लॉ (The Power Law of Human vs. AI Task Time)

प्रगति में तेजी और सुधार के तीन अक्ष (The Three Axes of Improvement)

AI सुरक्षा और परिनियोजन (Deployment) के लिए निहितार्थ

मुख्य बातें (Key Takeaways)

पढ़ना जारी रखें

7 गलतियाँ जो AI एजेंट्स को खराब कर देती हैं

7 महत्वपूर्ण गलतियाँ जो AI एजेंट्स को विफल कर देती हैं

AI एजेंट का मूल्यांकन बहुत जल्दी समाप्त हो जाता है

एजेंटिक एआई का उदय: टेक टीमें ऑटोमेशन की नई सीमाओं का नेतृत्व क्यों कर रही हैं

अत्याधुनिक एआई मॉडल वित्तीय ट्राइएज परीक्षणों में विफल क्यों होते हैं