नया AA-Briefcase बेंचमार्क वास्तविक ज्ञान कार्य (Knowledge Work) के साथ AI के संघर्ष को उजागर करता है
हालांकि लार्ज लैंग्वेज मॉडल्स (LLMs) मानक मूल्यांकनों में तेजी से सक्षम दिखाई दे रहे हैं, नए डेटा से पता चलता है कि वे पेशेवर वातावरण की जटिलताओं के लिए मौलिक रूप से तैयार नहीं हैं। एक अभूतपूर्व बेंचमार्क ने पैटर्न पहचान और बहु-चरणीय, सूचना-सघन ज्ञान कार्य के वास्तविक निष्पादन के बीच एक विशाल अंतर को उजागर किया है।
AA-Briefcase बेंचमार्क: वास्तविक दुनिया का अनुकरण
पारंपरिक AI बेंचमार्क अक्सर अलग-थलग प्रश्नों या स्थिर डेटासेट पर निर्भर करते हैं जो आधुनिक कार्यालय की जटिल वास्तविकता को नहीं दर्शाते हैं। इस अंतर को पाटने के लिए, Artificial Analysis ने AA-Briefcase बेंचमार्क पेश किया है, जो लंबे समय तक चलने वाले, कई हफ्तों के प्रोजेक्ट्स का अनुकरण करने के लिए डिज़ाइन किया गया एक कठोर परीक्षण ढांचा है।
साधारण प्रॉम्प्ट्स के बजाय, मॉडल्स को हजारों खंडित सोर्स फाइलों को नेविगेट करने का काम सौंपा जाता है, जिनमें Slack थ्रेड्स, ईमेल चेन, मीटिंग ट्रांसक्रिप्ट और बड़े पैमाने पर डेटा एक्सपोर्ट शामिल हैं। इसके लिए मॉडल को उच्च-स्तरीय तर्क (reasoning) करने, अलग-अलग डेटा पॉइंट्स को संश्लेषित करने और विशाल, असंरचित डेटासेट में संदर्भ (context) बनाए रखने की आवश्यकता होती है—ये कौशल विश्लेषकों, वकीलों और इंजीनियरों के लिए आवश्यक हैं।
शीर्ष मॉडल्स भी क्यों विफल हो रहे हैं
कार्यस्थल में तत्काल AI स्वायत्तता (autonomy) की उम्मीद करने वालों के लिए परिणाम चिंताजनक हैं। परीक्षण किए गए सबसे उन्नत मॉडल, Anthropic के Claude Fable 5 ने भी प्रस्तुत कार्यों में से केवल 3 प्रतिशत को ही पूरी तरह से हल कर पाया। बेंचमार्क से पता चला कि 91 विशिष्ट कार्यों में से 31 पर, एक भी मॉडल 50 प्रतिशत पास रेट भी पार नहीं कर सका।
यह शोध इस बात पर एक दिलचस्प बदलाव को उजागर करता है कि जैसे-जैसे बुद्धिमत्ता (intelligence) बढ़ती है, AI किस तरह विफल होता है। "कमजोर" मॉडल "लाउड" (loud) विफलताओं का शिकार होते हैं: वे बुनियादी निष्पादन में अटक जाते हैं, प्रासंगिक फाइलों को पूरी तरह से छोड़ देते हैं, या ऐसे आउटपुट देते हैं जो मौलिक रूप से अनुपयोगी होते हैं। इसके विपरीत, Claude Fable 5 जैसे "मजबूत" मॉडल अधिक "शांति से" (quietly) विफल होते हैं। ये उच्च-स्तरीय मॉडल स्पष्ट आवश्यकताओं को पूरा करते हैं और पेशेवर फॉर्मेटिंग बनाए रखते हैं, लेकिन वे गहरे तर्क परीक्षण में विफल हो जाते हैं क्योंकि वे उन सूक्ष्म विवरणों को नहीं पकड़ पाते जिन्हें केवल कई, असंबद्ध स्रोतों से जानकारी को जोड़कर ही खोजा जा सकता है।
AI प्रदर्शन की आर्थिक असमानता
तकनीकी कमियों के अलावा, यह बेंचमार्क वर्तमान LLM परिदृश्य में एक विशाल आर्थिक विभाजन को उजागर करता है। कार्य पूरा करने की लागत के आधार पर मॉडल्स के बीच कीमतों का एक चौंकाने वाला अंतर है।
दक्षता में भारी अंतर है: DeepSeek V4 Flash ने लगभग $0.04 प्रति कार्य की लागत पर कार्यों को पूरा किया, जबकि शीर्ष प्रदर्शन करने वाले Claude Fable 5 की लागत $31 प्रति कार्य से अधिक थी। यह 800 गुना मूल्य अंतर को दर्शाता है, जो उन संस्थापकों और उद्यमों के लिए एक बड़ी चुनौती पेश करता है जो अस्थिर परिचालन लागत के बिना AI एजेंटों को स्केल करने की कोशिश कर रहे हैं।
AI परिदृश्य के लिए निहितार्थ
AA-Briefcase के निष्कर्ष "AI Agent" हाइप साइकिल के लिए वास्तविकता की जांच के रूप में कार्य करते हैं। AI को एक संवादात्मक सहायक से एक विश्वसनीय ज्ञान कार्यकर्ता में बदलने के लिए, मॉडलों को सरल पुनर्प्राप्ति से आगे बढ़कर गहरे, क्रॉस-कॉन्टेक्स्टुअल संश्लेषण की ओर विकसित होना होगा। डेवलपर्स और तकनीकी दिग्गजों के लिए, लक्ष्य अब केवल पैरामीटर काउंट बढ़ाना नहीं है, बल्कि उच्च सटीकता और कम सीमांत लागत के साथ खंडित, दीर्घकालिक तर्क कार्यों को संभालने की क्षमता में सुधार करना है।
मुख्य निष्कर्ष
- बड़ा प्रदर्शन अंतर: Claude Fable 5 जैसे अत्याधुनिक मॉडल भी जटिल, बहु-स्रोत ज्ञान कार्यों पर केवल 3% पूर्ण सफलता दर प्राप्त करते हैं।
- त्रुटियों का विकास: जहाँ निम्न-स्तरीय मॉडल बुनियादी निष्पादन में विफल हो जाते हैं, वहीं उन्नत मॉडल "शांत" त्रुटियों के माध्यम से विफल होते हैं, जिससे खंडित डेटासेट में छिपे सूक्ष्म विवरण छूट जाते हैं।
- अत्यधिक लागत भिन्नता: DeepSeek V4 Flash जैसे बजट-अनुकूल मॉडलों और Claude Fable 5 जैसे प्रीमियम मॉडलों के बीच प्रति-कार्य निष्पादन में 800 गुना लागत का अंतर है।