मानक AI बेंचमार्क पद्धतशीरपणे एजंटची क्षमता कमी का लेखतात?

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial२३ तासांपूर्वी3min read

मानक AI बेंचमार्क पद्धतशीरपणे एजंटची क्षमता कमी का लेखतात?

In this article

मानक AI बेंचमार्क पद्धती एजेन्टच्या क्षमतांचा पद्धतशीरपणे कमी अंदाज का लावतात

सध्याच्या AI मूल्यमापन पद्धती प्रगत (frontier) मॉडेल्सची खरी क्षमता ओळखण्यात अपयशी ठरत आहेत, अनेकदा संगणकीय बजेटच्या (computational budget) कमतरतेमुळे बुद्धिमत्तेचा अभाव असल्याचे चुकीचे समजले जाते. UK च्या AI Security Institute (AISI) ने असे स्पष्ट केले आहे की, AI एजेन्टची कामगिरी हा कोणताही स्थिर स्कोअर नसून, तो एक 'स्केलिंग कर्व्ह' (scaling curve) आहे जो 'टेस्ट-टाइम कम्प्युट' (test-time compute) वाढल्यास वेगाने वर जातो.

कम्प्युट-क्षमता वक्र (The Compute-Capability Curve)

AISI च्या संशोधनातील मुख्य निष्कर्ष असा आहे की, AI एजेन्टचा यश दर त्याच्या "टेस्ट-टाइम कम्प्युट"शी (test-time compute) अविभाज्यपणे जोडलेला आहे—म्हणजेच एखादे कार्य करताना एजेन्टला वापरण्यास परवानगी असलेल्या प्रोसेसिंग पॉवर आणि टोकन्सचे प्रमाण. जेव्हा संशोधक मूल्यमापनासाठी निश्चित बजेट मर्यादा (fixed budget caps) लावतात, तेव्हा ते मॉडेलच्या कमाल क्षमतेऐवजी त्याच्या किमान क्षमतेचे मोजमाप करत असतात.

ही घटना अनेक महत्त्वाच्या क्षेत्रांमध्ये दिसून येते. TerminalBench 2.0 आणि SWE-Bench Pro सारख्या बेंचमार्कचा वापर करून सॉफ्टवेअर इंजिनीअरिंगच्या कामांमध्ये, जेव्हा टोकन बजेट १० लाख वरून एक कोटी (ten million) करण्यात आले, तेव्हा यश दरात सुमारे २५% वाढ झाली. त्याचप्रमाणे, "Humanity's Last Exam" मधील गणितीय आणि शैक्षणिक कामांमध्ये, जेव्हा बजेट ५० लाख टोकन्सपर्यंत पोहोचले, तेव्हा २२% वाढ दिसून आली.

मानवी विरुद्ध AI कार्य वेळ यांचा पॉवर लॉ (The Power Law of Human vs. AI Task Time)

या अभ्यासाने मानवी तज्ज्ञाला एखाद्या कार्यासाठी लागणारा वेळ आणि AI एजेन्टला लागणारे टोकन वापर यामधील थेट संबंध प्रस्थापित केला आहे. हे नाते एका 'पॉवर लॉ'चे (power law) अनुसरण करते: ज्या कामासाठी मानवाला एक मिनिट लागतो, त्यासाठी एजेन्टला हजारो टोकन्स लागतात, तर एका तासाच्या कामासाठी लाखो टोकन्स लागतात.

यामुळे सध्याच्या चाचणी प्रक्रियेत एक मोठी त्रुटी (blind spot) निर्माण होते. उदाहरणार्थ, AISI च्या सायबर सुरक्षा कार्यासाठी "The Last Ones" मानवी तज्ज्ञतेच्या सुमारे २० तासांची आवश्यकता असते. संस्थेने चाचणी घेतलेल्या कोणत्याही मॉडेलने ३ कोटी (30 million) पेक्षा कमी टोकन्समध्ये हे कार्य पूर्ण करू शकले नाही. मानक आणि कमी बजेट असलेल्या मूल्यमापनांचा वापर करून, संशोधक प्रत्यक्षात सर्वात गुंतागुंतीची आणि महत्त्वपूर्ण कार्ये मोजमाप प्रक्रियेतून वगळत आहेत.

प्रगतीचा वेग आणि सुधारणेचे तीन अक्ष (The Three Axes of Improvement)

AISI च्या मते, प्रगत मॉडेल्सचा "टाइम होरायझन" (time horizon)—म्हणजेच ते हाताळू शकणाऱ्या कार्यांची गुंतागुंत—पूर्वीच्या कल्पनेपेक्षा कितीतरी वेगाने विस्तारत आहे. पूर्वीच्या अंदाजानुसार, २.५ दशलक्ष टोकनच्या निश्चित बजेटवर सायबर कार्यांचा टाइम होरायझन दर ४.७ महिन्यांनी दुप्पट होत असे, परंतु उच्च बजेटवर हा दर लक्षणीयरीत्या वाढतो. ५ कोटी (50 million) टोकन्सवर, हा दुप्पट होण्याचा दर दर ४० ते ५० दिवसांपर्यंत वेगाने वाढतो.

नवीन मॉडेल्स (जसे की चाचणी घेतलेल्या GPT आणि Claude सिरीज) तीन विशिष्ट आयामांमध्ये सुधारणा दर्शवतात:

Reach (व्याप्ती): अधिकाधिक कठीण आव्हाने पेलण्याची क्षमता.
Reliability (विश्वसनीयता): तेच कार्य अधिक सातत्याने पूर्ण करण्याची क्षमता.
Efficiency (कार्यक्षमता): कमी टोकन्स वापरून कार्य पूर्ण करण्याची क्षमता.

AI सुरक्षा आणि उपयोजनासाठी (Deployment) परिणाम

हे संशोधन AI मूल्यमापनाचे स्वरूप "स्थिर स्कोअर" (fixed scores) कडून "कम्प्युट-अवेअर कर्व्ह्स" (compute-aware curves) कडे वळवते. डेव्हलपर्स आणि संस्थापकांसाठी, याचा अर्थ असा आहे की मॉडेलची उपयुक्तता केवळ त्याच्या प्रशिक्षणावर (training) अवलंबून नसते, तर उपयोजनादरम्यान (deployment) किती 'इन्फरन्स कम्प्युट' (inference compute) दिला जातो यावरही अवलंबून असते.

प्रति टोकन खर्च सतत कमी होत असताना, पूर्वी आर्थिकदृष्ट्या अशक्य वाटणाऱ्या क्षमता आता मानक बनतील. AI सुरक्षा आणि सुरक्षेच्या दृष्टीने, याचा अर्थ असा आहे की जर नियामक आणि कंपन्या पारंपारिक, कमी बजेट असलेल्या बेंचमार्कवर अवलंबून राहिल्या, तर स्वायत्त एजेन्टशी संबंधित धोके—जसे की गुंतागुंतीचे सायबर हल्ले—यांचा अंदाज खूपच कमी लावला जाऊ शकतो.

मुख्य निष्कर्ष (Key Takeaways)

बेंचमार्क दिशाभूल करणारे आहेत: निश्चित टोकन बजेट मॉडेलची किमान कामगिरी दर्शवते, ज्यामुळे AI एजेन्ट काय साध्य करू शकतात, त्याच्या कमाल क्षमतेचा (ceiling) पद्धतशीरपणे कमी अंदाज लावला जातो.
कम्प्युट क्षमतेत वाढ करते: सॉफ्टवेअर इंजिनीअरिंग आणि गणित या क्षेत्रांतील यश दर 'टेस्ट-टाइम कम्प्युट' बजेट वाढल्यास लक्षणीयरीत्या वाढतात.
"दुप्पट" होण्याचा दर वेगाने वाढत आहे: उच्च कम्प्युट बजेटवर, प्रगत मॉडेल्स गुंतागुंतीची कार्ये आत्मसात करण्याचा दर पूर्वीच्या अंदाजापेक्षा खूप जास्त वेगाने आहे.

मानक AI बेंचमार्क पद्धतशीरपणे एजंटची क्षमता कमी का लेखतात?

मानक AI बेंचमार्क पद्धती एजेन्टच्या क्षमतांचा पद्धतशीरपणे कमी अंदाज का लावतात

कम्प्युट-क्षमता वक्र (The Compute-Capability Curve)

मानवी विरुद्ध AI कार्य वेळ यांचा पॉवर लॉ (The Power Law of Human vs. AI Task Time)

प्रगतीचा वेग आणि सुधारणेचे तीन अक्ष (The Three Axes of Improvement)

AI सुरक्षा आणि उपयोजनासाठी (Deployment) परिणाम

मुख्य निष्कर्ष (Key Takeaways)

Continue reading

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

AI एजंटचे मूल्यांकन खूप लवकर संपते

एजेंटिक एआयचा उदय: तंत्रज्ञान पथके ऑटोमेशनच्या क्षेत्रात नेतृत्व का करत आहेत

अत्याधुनिक एआय मॉडेल्स आर्थिक ट्रायज चाचण्यांमध्ये का अपयशी ठरतात?