New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

Translated for your language. Read the original.

AI-assisted draft.

२ दिवसांपूर्वी3min read

In this article

नवीन AA-Briefcase बेंचमार्कमुळे खऱ्या 'नॉलेज वर्क'मध्ये AI च्या संघर्षाचा उलगडा झाला आहे

जरी स्टँडर्ड इव्हॅल्युएशन्समध्ये लार्ज लँग्वेज मॉडेल्स (LLMs) अधिकाधिक सक्षम वाटत असले, तरी नवीन डेटा असे सूचित करतो की ते व्यावसायिक वातावरणातील गुंतागुंतीसाठी मूलभूतपणे अद्याप तयार नाहीत. एका क्रांतिकारी बेंचमार्कने पॅटर्न रिकग्निशन आणि बहु-टप्प्यांच्या, माहिती-समृद्ध 'नॉलेज वर्क'च्या प्रत्यक्ष अंमलबजावणीमध्ये असलेला मोठा फरक उघड केला आहे.

AA-Briefcase बेंचमार्क: वास्तविक जगाचे अनुकरण

पारंपारिक AI बेंचमार्क अनेकदा विलग प्रश्न किंवा स्थिर डेटासेटवर अवलंबून असतात, जे आधुनिक कार्यालयातील गुंतागुंतीच्या वास्तवाचे प्रतिबिंब दर्शवत नाहीत. हा फरक भरून काढण्यासाठी, Artificial Analysis ने AA-Briefcase बेंचमार्क सादर केला आहे, जो दीर्घकालीन, अनेक आठवड्यांच्या प्रकल्पांचे अनुकरण करण्यासाठी तयार केलेली एक कठोर चाचणी फ्रेमवर्क आहे.

साध्या प्रॉम्प्ट्सऐवजी, मॉडेल्सना Slack थ्रेड्स, ईमेल साखळी, मीटिंग ट्रान्सक्रिप्ट्स आणि मोठ्या प्रमाणावरील डेटा एक्सपोर्ट्ससह हजारो विखुरलेल्या सोर्स फाइल्स हाताळण्याचे काम दिले जाते. यासाठी मॉडेलला उच्च-स्तरीय तर्क (reasoning) करणे, विखुरलेले डेटा पॉइंट्स एकत्रित करणे आणि प्रचंड, विस्कळीत डेटासेटमध्ये संदर्भ (context) टिकवून ठेवणे आवश्यक असते—ही कौशल्ये विश्लेषक, वकील आणि इंजिनिअर्ससाठी अत्यंत आवश्यक आहेत.

अव्वल मॉडेल्स देखील का अपयशी ठरत आहेत

कामाच्या ठिकाणी त्वरित AI स्वायत्ततेची अपेक्षा करणाऱ्यांसाठी हे परिणाम धक्कादायक आहेत. चाचणी घेतलेल्या सर्वात प्रगत मॉडेलमध्ये, Anthropic’s Claude Fable 5, देखील सादर केलेल्या कामांपैकी केवळ ३ टक्के कामे पूर्णपणे सोडवू शकले. बेंचमार्कवरून असे दिसून आले की ९१ विशिष्ट कामांपैकी ३१ कामांमध्ये एकही मॉडेल ५० टक्के पास रेट देखील गाठू शकले नाही.

बुद्धिमत्ता वाढते तशी AI कशा प्रकारे अपयशी ठरते, यातील एक रंजक बदल हे संशोधन अधोरेखित करते. "कमकुवत" मॉडेल्समध्ये "Loud" (स्पष्ट) अपयश दिसून येते: ती मूलभूत अंमलबजावणीमध्ये अडखळतात, संबंधित फाइल्स पूर्णपणे चुकवतात किंवा मूलभूतपणे वापरण्यायोग्य नसलेले आउटपुट देतात. याउलट, Claude Fable 5 सारखी "शक्तिशाली" मॉडेल्स अधिक "Quietly" (शांतपणे) अपयशी ठरतात. ही उच्च-स्तरीय मॉडेल्स स्पष्ट आवश्यकता पूर्ण करतात आणि व्यावसायिक फॉरमॅटिंग देखील राखतात, परंतु विखुरलेल्या आणि एकमेकांशी संबंधित नसलेल्या अनेक स्त्रोतांकडून माहिती गोळा करून शोधता येतील अशा सूक्ष्म तपशीलांकडे दुर्लक्ष केल्यामुळे ती सखोल तर्क चाचणीत अपयशी ठरतात.

AI कामगिरीमधील आर्थिक विषमता

तांत्रिक त्रुटींच्या पलीकडे, हा बेंचमार्क सध्याच्या LLM क्षेत्रात असलेली मोठी आर्थिक दरी अधोरेखित करतो. कार्य पूर्ण करण्याच्या खर्चाच्या आधारावर मोजले असता, मॉडेल्समधील किमतीतील फरक प्रचंड आहे.

कार्यक्षमता मोठ्या प्रमाणात बदलते: DeepSeek V4 Flash ने अंदाजे $0.04 प्रति कार्य या खर्चात कामे पूर्ण केली, तर सर्वोत्कृष्ट कामगिरी करणारे Claude Fable 5 चे शुल्क $31 प्रति कार्य पेक्षा जास्त होते. हे ८०० पटीने किमतीतील फरक दर्शवते, जे संस्थापक आणि उद्योगांसाठी AI एजंट्सचा विस्तार करताना परवडण्यापलीकडील परिचालन खर्च टाळण्यासाठी एक मोठे आव्हान आहे.

AI क्षेत्रावरील परिणाम

AA-Briefcase चे निष्कर्ष "AI Agent" च्या हायप सायकलसाठी वास्तव तपासणी म्हणून काम करतात. AI ला केवळ संवादात्मक सहाय्यकापासून एका विश्वासार्ह ज्ञान कामगारापर्यंत रूपांतरित करण्यासाठी, मॉडेल्सना साध्या माहिती मिळवण्यापलीकडे जाऊन सखोल, क्रॉस-कॉन्टेक्स्ट्युअल संश्लेषणाकडे विकसित होणे आवश्यक आहे. डेव्हलपर्स आणि तंत्रज्ञान नेत्यांसाठी, ध्येय आता केवळ पॅरामीटर संख्या वाढवणे नसून, विखुरलेली आणि दीर्घकालीन तर्कसंगत कामे अधिक अचूकतेने आणि कमी सीमांत खर्चात हाताळण्याची क्षमता सुधारणे हे आहे.

महत्त्वाचे निष्कर्ष

मोठा कामगिरीतील फरक: Claude Fable 5 सारखी अत्याधुनिक मॉडेल्स देखील जटिल, बहु-स्रोत ज्ञान कार्यांवर केवळ ३% पूर्ण यश दर प्राप्त करतात.
चुकांचे स्वरूप: कमी दर्जाची मॉडेल्स मूलभूत अंमलबजावणीमध्ये अपयशी ठरतात, तर प्रगत मॉडेल्स विखुरलेल्या डेटासेटमध्ये लपलेले सूक्ष्म तपशील चुकवून "शांत" (quiet) चुका करतात.
खर्चातील प्रचंड तफावत: DeepSeek V4 Flash सारख्या बजेट-फ्रेंडली मॉडेल्स आणि Claude Fable 5 सारख्या प्रीमियम मॉडेल्समधील प्रति-कार्य अंमलबजावणीच्या खर्चात ८०० पटीने तफावत आहे.

New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

नवीन AA-Briefcase बेंचमार्कमुळे खऱ्या 'नॉलेज वर्क'मध्ये AI च्या संघर्षाचा उलगडा झाला आहे

AA-Briefcase बेंचमार्क: वास्तविक जगाचे अनुकरण

अव्वल मॉडेल्स देखील का अपयशी ठरत आहेत

AI कामगिरीमधील आर्थिक विषमता

AI क्षेत्रावरील परिणाम

महत्त्वाचे निष्कर्ष

Continue reading

एआय रिझनिंग: एक संतुलन बिंदू

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗦𝗰𝗼𝗿𝗲𝗱 𝟬% 𝗢𝗻 𝗘𝘅𝗽𝗲𝗿𝘁 𝗧𝗮𝘀𝗸𝘀

𝗔𝗜 𝗧𝗲𝗰𝗵𝗻𝗼𝗹𝗼𝗴𝘆 𝗙𝗮𝗶𝗹𝘀 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻: 𝗖𝗹𝗼𝘀𝗲 𝘁𝗵𝗲 𝗔𝗜 𝗖𝗼𝗼𝗿𝗱𝗶𝗻𝗮𝘁𝗶𝗼𝗻 𝗚𝗮𝗽

स्केलिंगवर शंका घेणाऱ्यांनी एआय (AI) विकासात अडथळा आणला, सॅम ऑल्टमॅनचा दावा