नया AA Briefcase बेंचमार्क वास्तविक ज्ञान आधारित कार्यों में AI के संघर्ष का खुलासा करता है

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

परसों3मिनट पढ़ें

इस लेख में

नया AA-Briefcase बेंचमार्क वास्तविक ज्ञान कार्य (Knowledge Work) के साथ AI के संघर्ष को उजागर करता है

हालांकि लार्ज लैंग्वेज मॉडल्स (LLMs) मानक मूल्यांकनों में तेजी से सक्षम दिखाई दे रहे हैं, नए डेटा से पता चलता है कि वे पेशेवर वातावरण की जटिलताओं के लिए मौलिक रूप से तैयार नहीं हैं। एक अभूतपूर्व बेंचमार्क ने पैटर्न पहचान और बहु-चरणीय, सूचना-सघन ज्ञान कार्य के वास्तविक निष्पादन के बीच एक विशाल अंतर को उजागर किया है।

AA-Briefcase बेंचमार्क: वास्तविक दुनिया का अनुकरण

पारंपरिक AI बेंचमार्क अक्सर अलग-थलग प्रश्नों या स्थिर डेटासेट पर निर्भर करते हैं जो आधुनिक कार्यालय की जटिल वास्तविकता को नहीं दर्शाते हैं। इस अंतर को पाटने के लिए, Artificial Analysis ने AA-Briefcase बेंचमार्क पेश किया है, जो लंबे समय तक चलने वाले, कई हफ्तों के प्रोजेक्ट्स का अनुकरण करने के लिए डिज़ाइन किया गया एक कठोर परीक्षण ढांचा है।

साधारण प्रॉम्प्ट्स के बजाय, मॉडल्स को हजारों खंडित सोर्स फाइलों को नेविगेट करने का काम सौंपा जाता है, जिनमें Slack थ्रेड्स, ईमेल चेन, मीटिंग ट्रांसक्रिप्ट और बड़े पैमाने पर डेटा एक्सपोर्ट शामिल हैं। इसके लिए मॉडल को उच्च-स्तरीय तर्क (reasoning) करने, अलग-अलग डेटा पॉइंट्स को संश्लेषित करने और विशाल, असंरचित डेटासेट में संदर्भ (context) बनाए रखने की आवश्यकता होती है—ये कौशल विश्लेषकों, वकीलों और इंजीनियरों के लिए आवश्यक हैं।

शीर्ष मॉडल्स भी क्यों विफल हो रहे हैं

कार्यस्थल में तत्काल AI स्वायत्तता (autonomy) की उम्मीद करने वालों के लिए परिणाम चिंताजनक हैं। परीक्षण किए गए सबसे उन्नत मॉडल, Anthropic के Claude Fable 5 ने भी प्रस्तुत कार्यों में से केवल 3 प्रतिशत को ही पूरी तरह से हल कर पाया। बेंचमार्क से पता चला कि 91 विशिष्ट कार्यों में से 31 पर, एक भी मॉडल 50 प्रतिशत पास रेट भी पार नहीं कर सका।

यह शोध इस बात पर एक दिलचस्प बदलाव को उजागर करता है कि जैसे-जैसे बुद्धिमत्ता (intelligence) बढ़ती है, AI किस तरह विफल होता है। "कमजोर" मॉडल "लाउड" (loud) विफलताओं का शिकार होते हैं: वे बुनियादी निष्पादन में अटक जाते हैं, प्रासंगिक फाइलों को पूरी तरह से छोड़ देते हैं, या ऐसे आउटपुट देते हैं जो मौलिक रूप से अनुपयोगी होते हैं। इसके विपरीत, Claude Fable 5 जैसे "मजबूत" मॉडल अधिक "शांति से" (quietly) विफल होते हैं। ये उच्च-स्तरीय मॉडल स्पष्ट आवश्यकताओं को पूरा करते हैं और पेशेवर फॉर्मेटिंग बनाए रखते हैं, लेकिन वे गहरे तर्क परीक्षण में विफल हो जाते हैं क्योंकि वे उन सूक्ष्म विवरणों को नहीं पकड़ पाते जिन्हें केवल कई, असंबद्ध स्रोतों से जानकारी को जोड़कर ही खोजा जा सकता है।

AI प्रदर्शन की आर्थिक असमानता

तकनीकी कमियों के अलावा, यह बेंचमार्क वर्तमान LLM परिदृश्य में एक विशाल आर्थिक विभाजन को उजागर करता है। कार्य पूरा करने की लागत के आधार पर मॉडल्स के बीच कीमतों का एक चौंकाने वाला अंतर है।

दक्षता में भारी अंतर है: DeepSeek V4 Flash ने लगभग $0.04 प्रति कार्य की लागत पर कार्यों को पूरा किया, जबकि शीर्ष प्रदर्शन करने वाले Claude Fable 5 की लागत $31 प्रति कार्य से अधिक थी। यह 800 गुना मूल्य अंतर को दर्शाता है, जो उन संस्थापकों और उद्यमों के लिए एक बड़ी चुनौती पेश करता है जो अस्थिर परिचालन लागत के बिना AI एजेंटों को स्केल करने की कोशिश कर रहे हैं।

AI परिदृश्य के लिए निहितार्थ

AA-Briefcase के निष्कर्ष "AI Agent" हाइप साइकिल के लिए वास्तविकता की जांच के रूप में कार्य करते हैं। AI को एक संवादात्मक सहायक से एक विश्वसनीय ज्ञान कार्यकर्ता में बदलने के लिए, मॉडलों को सरल पुनर्प्राप्ति से आगे बढ़कर गहरे, क्रॉस-कॉन्टेक्स्टुअल संश्लेषण की ओर विकसित होना होगा। डेवलपर्स और तकनीकी दिग्गजों के लिए, लक्ष्य अब केवल पैरामीटर काउंट बढ़ाना नहीं है, बल्कि उच्च सटीकता और कम सीमांत लागत के साथ खंडित, दीर्घकालिक तर्क कार्यों को संभालने की क्षमता में सुधार करना है।

मुख्य निष्कर्ष

बड़ा प्रदर्शन अंतर: Claude Fable 5 जैसे अत्याधुनिक मॉडल भी जटिल, बहु-स्रोत ज्ञान कार्यों पर केवल 3% पूर्ण सफलता दर प्राप्त करते हैं।
त्रुटियों का विकास: जहाँ निम्न-स्तरीय मॉडल बुनियादी निष्पादन में विफल हो जाते हैं, वहीं उन्नत मॉडल "शांत" त्रुटियों के माध्यम से विफल होते हैं, जिससे खंडित डेटासेट में छिपे सूक्ष्म विवरण छूट जाते हैं।
अत्यधिक लागत भिन्नता: DeepSeek V4 Flash जैसे बजट-अनुकूल मॉडलों और Claude Fable 5 जैसे प्रीमियम मॉडलों के बीच प्रति-कार्य निष्पादन में 800 गुना लागत का अंतर है।

नया AA Briefcase बेंचमार्क वास्तविक ज्ञान आधारित कार्यों में AI के संघर्ष का खुलासा करता है

नया AA-Briefcase बेंचमार्क वास्तविक ज्ञान कार्य (Knowledge Work) के साथ AI के संघर्ष को उजागर करता है

AA-Briefcase बेंचमार्क: वास्तविक दुनिया का अनुकरण

शीर्ष मॉडल्स भी क्यों विफल हो रहे हैं

AI प्रदर्शन की आर्थिक असमानता

AI परिदृश्य के लिए निहितार्थ

मुख्य निष्कर्ष

पढ़ना जारी रखें

𝗔𝗜 𝗥𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴 𝗔𝘀 𝗔𝗻 𝗘𝗾𝘂𝗶𝗹𝗶𝗯𝗿𝗶𝘂𝗺 𝗣𝗼𝗶𝗻𝘁

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

विशेषज्ञ कार्यों में AI एजेंटों का स्कोर 0% रहा

प्रोडक्शन में एआई तकनीक की विफलता: एआई समन्वय अंतराल को कम करें

Sam Altman Claims Scaling Skeptics Held Back AI Development