मानक AI बेंचमार्क पद्धती एजेन्टच्या क्षमतांचा पद्धतशीरपणे कमी अंदाज का लावतात

सध्याच्या AI मूल्यमापन पद्धती प्रगत (frontier) मॉडेल्सची खरी क्षमता ओळखण्यात अपयशी ठरत आहेत, अनेकदा संगणकीय बजेटच्या (computational budget) कमतरतेमुळे बुद्धिमत्तेचा अभाव असल्याचे चुकीचे समजले जाते. UK च्या AI Security Institute (AISI) ने असे स्पष्ट केले आहे की, AI एजेन्टची कामगिरी हा कोणताही स्थिर स्कोअर नसून, तो एक 'स्केलिंग कर्व्ह' (scaling curve) आहे जो 'टेस्ट-टाइम कम्प्युट' (test-time compute) वाढल्यास वेगाने वर जातो.

कम्प्युट-क्षमता वक्र (The Compute-Capability Curve)

AISI च्या संशोधनातील मुख्य निष्कर्ष असा आहे की, AI एजेन्टचा यश दर त्याच्या "टेस्ट-टाइम कम्प्युट"शी (test-time compute) अविभाज्यपणे जोडलेला आहे—म्हणजेच एखादे कार्य करताना एजेन्टला वापरण्यास परवानगी असलेल्या प्रोसेसिंग पॉवर आणि टोकन्सचे प्रमाण. जेव्हा संशोधक मूल्यमापनासाठी निश्चित बजेट मर्यादा (fixed budget caps) लावतात, तेव्हा ते मॉडेलच्या कमाल क्षमतेऐवजी त्याच्या किमान क्षमतेचे मोजमाप करत असतात.

ही घटना अनेक महत्त्वाच्या क्षेत्रांमध्ये दिसून येते. TerminalBench 2.0 आणि SWE-Bench Pro सारख्या बेंचमार्कचा वापर करून सॉफ्टवेअर इंजिनीअरिंगच्या कामांमध्ये, जेव्हा टोकन बजेट १० लाख वरून एक कोटी (ten million) करण्यात आले, तेव्हा यश दरात सुमारे २५% वाढ झाली. त्याचप्रमाणे, "Humanity's Last Exam" मधील गणितीय आणि शैक्षणिक कामांमध्ये, जेव्हा बजेट ५० लाख टोकन्सपर्यंत पोहोचले, तेव्हा २२% वाढ दिसून आली.

मानवी विरुद्ध AI कार्य वेळ यांचा पॉवर लॉ (The Power Law of Human vs. AI Task Time)

या अभ्यासाने मानवी तज्ज्ञाला एखाद्या कार्यासाठी लागणारा वेळ आणि AI एजेन्टला लागणारे टोकन वापर यामधील थेट संबंध प्रस्थापित केला आहे. हे नाते एका 'पॉवर लॉ'चे (power law) अनुसरण करते: ज्या कामासाठी मानवाला एक मिनिट लागतो, त्यासाठी एजेन्टला हजारो टोकन्स लागतात, तर एका तासाच्या कामासाठी लाखो टोकन्स लागतात.

यामुळे सध्याच्या चाचणी प्रक्रियेत एक मोठी त्रुटी (blind spot) निर्माण होते. उदाहरणार्थ, AISI च्या सायबर सुरक्षा कार्यासाठी "The Last Ones" मानवी तज्ज्ञतेच्या सुमारे २० तासांची आवश्यकता असते. संस्थेने चाचणी घेतलेल्या कोणत्याही मॉडेलने ३ कोटी (30 million) पेक्षा कमी टोकन्समध्ये हे कार्य पूर्ण करू शकले नाही. मानक आणि कमी बजेट असलेल्या मूल्यमापनांचा वापर करून, संशोधक प्रत्यक्षात सर्वात गुंतागुंतीची आणि महत्त्वपूर्ण कार्ये मोजमाप प्रक्रियेतून वगळत आहेत.

प्रगतीचा वेग आणि सुधारणेचे तीन अक्ष (The Three Axes of Improvement)

AISI च्या मते, प्रगत मॉडेल्सचा "टाइम होरायझन" (time horizon)—म्हणजेच ते हाताळू शकणाऱ्या कार्यांची गुंतागुंत—पूर्वीच्या कल्पनेपेक्षा कितीतरी वेगाने विस्तारत आहे. पूर्वीच्या अंदाजानुसार, २.५ दशलक्ष टोकनच्या निश्चित बजेटवर सायबर कार्यांचा टाइम होरायझन दर ४.७ महिन्यांनी दुप्पट होत असे, परंतु उच्च बजेटवर हा दर लक्षणीयरीत्या वाढतो. ५ कोटी (50 million) टोकन्सवर, हा दुप्पट होण्याचा दर दर ४० ते ५० दिवसांपर्यंत वेगाने वाढतो.

नवीन मॉडेल्स (जसे की चाचणी घेतलेल्या GPT आणि Claude सिरीज) तीन विशिष्ट आयामांमध्ये सुधारणा दर्शवतात:

  • Reach (व्याप्ती): अधिकाधिक कठीण आव्हाने पेलण्याची क्षमता.
  • Reliability (विश्वसनीयता): तेच कार्य अधिक सातत्याने पूर्ण करण्याची क्षमता.
  • Efficiency (कार्यक्षमता): कमी टोकन्स वापरून कार्य पूर्ण करण्याची क्षमता.

AI सुरक्षा आणि उपयोजनासाठी (Deployment) परिणाम

हे संशोधन AI मूल्यमापनाचे स्वरूप "स्थिर स्कोअर" (fixed scores) कडून "कम्प्युट-अवेअर कर्व्ह्स" (compute-aware curves) कडे वळवते. डेव्हलपर्स आणि संस्थापकांसाठी, याचा अर्थ असा आहे की मॉडेलची उपयुक्तता केवळ त्याच्या प्रशिक्षणावर (training) अवलंबून नसते, तर उपयोजनादरम्यान (deployment) किती 'इन्फरन्स कम्प्युट' (inference compute) दिला जातो यावरही अवलंबून असते.

प्रति टोकन खर्च सतत कमी होत असताना, पूर्वी आर्थिकदृष्ट्या अशक्य वाटणाऱ्या क्षमता आता मानक बनतील. AI सुरक्षा आणि सुरक्षेच्या दृष्टीने, याचा अर्थ असा आहे की जर नियामक आणि कंपन्या पारंपारिक, कमी बजेट असलेल्या बेंचमार्कवर अवलंबून राहिल्या, तर स्वायत्त एजेन्टशी संबंधित धोके—जसे की गुंतागुंतीचे सायबर हल्ले—यांचा अंदाज खूपच कमी लावला जाऊ शकतो.

मुख्य निष्कर्ष (Key Takeaways)

  • बेंचमार्क दिशाभूल करणारे आहेत: निश्चित टोकन बजेट मॉडेलची किमान कामगिरी दर्शवते, ज्यामुळे AI एजेन्ट काय साध्य करू शकतात, त्याच्या कमाल क्षमतेचा (ceiling) पद्धतशीरपणे कमी अंदाज लावला जातो.
  • कम्प्युट क्षमतेत वाढ करते: सॉफ्टवेअर इंजिनीअरिंग आणि गणित या क्षेत्रांतील यश दर 'टेस्ट-टाइम कम्प्युट' बजेट वाढल्यास लक्षणीयरीत्या वाढतात.
  • "दुप्पट" होण्याचा दर वेगाने वाढत आहे: उच्च कम्प्युट बजेटवर, प्रगत मॉडेल्स गुंतागुंतीची कार्ये आत्मसात करण्याचा दर पूर्वीच्या अंदाजापेक्षा खूप जास्त वेगाने आहे.