नवीन AA-Briefcase बेंचमार्कमुळे खऱ्या 'नॉलेज वर्क'मध्ये AI च्या संघर्षाचा उलगडा झाला आहे

जरी स्टँडर्ड इव्हॅल्युएशन्समध्ये लार्ज लँग्वेज मॉडेल्स (LLMs) अधिकाधिक सक्षम वाटत असले, तरी नवीन डेटा असे सूचित करतो की ते व्यावसायिक वातावरणातील गुंतागुंतीसाठी मूलभूतपणे अद्याप तयार नाहीत. एका क्रांतिकारी बेंचमार्कने पॅटर्न रिकग्निशन आणि बहु-टप्प्यांच्या, माहिती-समृद्ध 'नॉलेज वर्क'च्या प्रत्यक्ष अंमलबजावणीमध्ये असलेला मोठा फरक उघड केला आहे.

AA-Briefcase बेंचमार्क: वास्तविक जगाचे अनुकरण

पारंपारिक AI बेंचमार्क अनेकदा विलग प्रश्न किंवा स्थिर डेटासेटवर अवलंबून असतात, जे आधुनिक कार्यालयातील गुंतागुंतीच्या वास्तवाचे प्रतिबिंब दर्शवत नाहीत. हा फरक भरून काढण्यासाठी, Artificial Analysis ने AA-Briefcase बेंचमार्क सादर केला आहे, जो दीर्घकालीन, अनेक आठवड्यांच्या प्रकल्पांचे अनुकरण करण्यासाठी तयार केलेली एक कठोर चाचणी फ्रेमवर्क आहे.

साध्या प्रॉम्प्ट्सऐवजी, मॉडेल्सना Slack थ्रेड्स, ईमेल साखळी, मीटिंग ट्रान्सक्रिप्ट्स आणि मोठ्या प्रमाणावरील डेटा एक्सपोर्ट्ससह हजारो विखुरलेल्या सोर्स फाइल्स हाताळण्याचे काम दिले जाते. यासाठी मॉडेलला उच्च-स्तरीय तर्क (reasoning) करणे, विखुरलेले डेटा पॉइंट्स एकत्रित करणे आणि प्रचंड, विस्कळीत डेटासेटमध्ये संदर्भ (context) टिकवून ठेवणे आवश्यक असते—ही कौशल्ये विश्लेषक, वकील आणि इंजिनिअर्ससाठी अत्यंत आवश्यक आहेत.

अव्वल मॉडेल्स देखील का अपयशी ठरत आहेत

कामाच्या ठिकाणी त्वरित AI स्वायत्ततेची अपेक्षा करणाऱ्यांसाठी हे परिणाम धक्कादायक आहेत. चाचणी घेतलेल्या सर्वात प्रगत मॉडेलमध्ये, Anthropic’s Claude Fable 5, देखील सादर केलेल्या कामांपैकी केवळ ३ टक्के कामे पूर्णपणे सोडवू शकले. बेंचमार्कवरून असे दिसून आले की ९१ विशिष्ट कामांपैकी ३१ कामांमध्ये एकही मॉडेल ५० टक्के पास रेट देखील गाठू शकले नाही.

बुद्धिमत्ता वाढते तशी AI कशा प्रकारे अपयशी ठरते, यातील एक रंजक बदल हे संशोधन अधोरेखित करते. "कमकुवत" मॉडेल्समध्ये "Loud" (स्पष्ट) अपयश दिसून येते: ती मूलभूत अंमलबजावणीमध्ये अडखळतात, संबंधित फाइल्स पूर्णपणे चुकवतात किंवा मूलभूतपणे वापरण्यायोग्य नसलेले आउटपुट देतात. याउलट, Claude Fable 5 सारखी "शक्तिशाली" मॉडेल्स अधिक "Quietly" (शांतपणे) अपयशी ठरतात. ही उच्च-स्तरीय मॉडेल्स स्पष्ट आवश्यकता पूर्ण करतात आणि व्यावसायिक फॉरमॅटिंग देखील राखतात, परंतु विखुरलेल्या आणि एकमेकांशी संबंधित नसलेल्या अनेक स्त्रोतांकडून माहिती गोळा करून शोधता येतील अशा सूक्ष्म तपशीलांकडे दुर्लक्ष केल्यामुळे ती सखोल तर्क चाचणीत अपयशी ठरतात.

AI कामगिरीमधील आर्थिक विषमता

तांत्रिक त्रुटींच्या पलीकडे, हा बेंचमार्क सध्याच्या LLM क्षेत्रात असलेली मोठी आर्थिक दरी अधोरेखित करतो. कार्य पूर्ण करण्याच्या खर्चाच्या आधारावर मोजले असता, मॉडेल्समधील किमतीतील फरक प्रचंड आहे.

कार्यक्षमता मोठ्या प्रमाणात बदलते: DeepSeek V4 Flash ने अंदाजे $0.04 प्रति कार्य या खर्चात कामे पूर्ण केली, तर सर्वोत्कृष्ट कामगिरी करणारे Claude Fable 5 चे शुल्क $31 प्रति कार्य पेक्षा जास्त होते. हे ८०० पटीने किमतीतील फरक दर्शवते, जे संस्थापक आणि उद्योगांसाठी AI एजंट्सचा विस्तार करताना परवडण्यापलीकडील परिचालन खर्च टाळण्यासाठी एक मोठे आव्हान आहे.

AI क्षेत्रावरील परिणाम

AA-Briefcase चे निष्कर्ष "AI Agent" च्या हायप सायकलसाठी वास्तव तपासणी म्हणून काम करतात. AI ला केवळ संवादात्मक सहाय्यकापासून एका विश्वासार्ह ज्ञान कामगारापर्यंत रूपांतरित करण्यासाठी, मॉडेल्सना साध्या माहिती मिळवण्यापलीकडे जाऊन सखोल, क्रॉस-कॉन्टेक्स्ट्युअल संश्लेषणाकडे विकसित होणे आवश्यक आहे. डेव्हलपर्स आणि तंत्रज्ञान नेत्यांसाठी, ध्येय आता केवळ पॅरामीटर संख्या वाढवणे नसून, विखुरलेली आणि दीर्घकालीन तर्कसंगत कामे अधिक अचूकतेने आणि कमी सीमांत खर्चात हाताळण्याची क्षमता सुधारणे हे आहे.

महत्त्वाचे निष्कर्ष

  • मोठा कामगिरीतील फरक: Claude Fable 5 सारखी अत्याधुनिक मॉडेल्स देखील जटिल, बहु-स्रोत ज्ञान कार्यांवर केवळ ३% पूर्ण यश दर प्राप्त करतात.
  • चुकांचे स्वरूप: कमी दर्जाची मॉडेल्स मूलभूत अंमलबजावणीमध्ये अपयशी ठरतात, तर प्रगत मॉडेल्स विखुरलेल्या डेटासेटमध्ये लपलेले सूक्ष्म तपशील चुकवून "शांत" (quiet) चुका करतात.
  • खर्चातील प्रचंड तफावत: DeepSeek V4 Flash सारख्या बजेट-फ्रेंडली मॉडेल्स आणि Claude Fable 5 सारख्या प्रीमियम मॉडेल्समधील प्रति-कार्य अंमलबजावणीच्या खर्चात ८०० पटीने तफावत आहे.