نیا AA-Briefcase بینچ مارک حقیقی علمی کام (Knowledge Work) میں AI کی جدوجہد کو بے نقاب کرتا ہے
اگرچہ بڑے لسانی ماڈلز (LLMs) معیاری جانچ پڑتال میں تیزی سے قابل نظر آ رہے ہیں، لیکن نیا ڈیٹا بتاتا ہے کہ وہ پیشہ ورانہ ماحول کی پیچیدگیوں کے لیے بنیادی طور پر غیر تیار ہیں۔ ایک انقلابی بینچ مارک نے پیٹرن کی شناخت اور کثیر مراحل والے، معلومات سے بھرپور علمی کام کے اصل نفاذ کے درمیان ایک بڑے فرق کو بے نقاب کیا ہے۔
AA-Briefcase بینچ مارک: حقیقی دنیا کی نقل (Simulating the Real World)
روایتی AI بینچ مارکس اکثر الگ تھلگ سوالات یا ساکن ڈیٹا سیٹس پر انحصار کرتے ہیں جو جدید دفتر کی الجھی ہوئی حقیقت کی عکاسی نہیں کرتے۔ اس فرق کو پاٹنے کے لیے، Artificial Analysis نے AA-Briefcase بینچ مارک متعارف کرایا ہے، جو کہ طویل مدتی، کئی ہفتوں پر محیط منصوبوں کی نقل کرنے کے لیے ڈیزائن کیا گیا ایک سخت ٹیسٹنگ فریم ورک ہے۔
سادہ پرامپٹس کے بجائے، ماڈلز کو ہزاروں بکھری ہوئی اصل فائلوں کے ذریعے کام کرنے کا کام دیا جاتا ہے، جن میں Slack تھریڈز، ای میل چینز، میٹنگ کے ٹرانسکرپٹس، اور بڑے پیمانے پر ڈیٹا ایکسپورٹس شامل ہیں۔ اس کے لیے ماڈل کو اعلیٰ درجے کی استدلال (reasoning) کرنے، مختلف ڈیٹا پوائنٹس کو یکجا کرنے، اور وسیع، غیر منظم ڈیٹا سیٹس میں سیاق و سباق کو برقرار رکھنے کی ضرورت ہوتی ہے—یہ وہ مہارتیں ہیں جو تجزیہ کاروں، وکلاء اور انجینئرز کے لیے ضروری ہیں۔
کیوں اعلیٰ ترین ماڈلز بھی ناکام ہو رہے ہیں
یہ نتائج ان لوگوں کے لیے فکر انگیز ہیں جو کام کی جگہ پر فوری AI خود مختاری کی توقع کر رہے ہیں۔ یہاں تک کہ آزمائے گئے سب سے جدید ماڈل، Anthropic’s Claude Fable 5، بھی پیش کردہ کاموں میں سے صرف 3 فیصد کو مکمل طور پر حل کرنے میں کامیاب ہو سکا۔ بینچ مارک سے پتہ چلا کہ 91 مخصوص کاموں میں سے 31 پر، کوئی بھی ماڈل 50 فیصد پاس ریٹ تک بھی نہیں پہنچ سکا۔
یہ تحقیق اس دلچسپ تبدیلی کو اجاگر کرتی ہے کہ جیسے جیسے ذہانت بڑھتی ہے، AI کس طرح ناکام ہوتا ہے۔ "کمزور" ماڈلز میں "شور مچانے والی" (loud) ناکامیاں نظر آتی ہیں: وہ بنیادی نفاذ میں پھنس جاتے ہیں، متعلقہ فائلوں کو مکمل طور پر نظر انداز کر دیتے ہیں، یا ایسے نتائج دیتے ہیں جو بنیادی طور پر ناقابل استعمال ہوتے ہیں۔ اس کے برعکس، Claude Fable 5 جیسے "مضبوط" ماڈلز زیادہ "خاموشی" سے ناکام ہوتے ہیں۔ یہ اعلیٰ درجے کے ماڈلز واضح ضروریات کو پورا کرتے ہیں اور پیشہ ورانہ فارمیٹنگ برقرار رکھتے ہیں، لیکن وہ گہرے استدلال کے ٹیسٹ میں ناکام ہو جاتے ہیں کیونکہ وہ ان باریک تفصیلات کو نظر انداز کر دیتے ہیں جنہیں صرف متعدد، غیر منسلک ذرائع سے معلومات کو جوڑ کر ہی دریافت کیا جا سکتا ہے۔
AI کی کارکردگی کا معاشی فرق
تکنیکی خامیوں کے علاوہ، یہ بینچ مارک موجودہ LLM منظر نامے میں ایک بڑے معاشی فرق کو اجاگر کرتا ہے۔ جب کام کی تکمیل کی لاگت کے ذریعے ماڈلز کا موازنہ کیا جاتا ہے، تو ان کے درمیان قیمت کا ایک حیران کن فرق پایا جاتا ہے۔
Efficiency varies wildly: DeepSeek V4 Flash completed tasks at a cost of approximately $0.04 per task, whereas the top-performing Claude Fable 5 cost upwards of $31 per task. This represents an 800x price difference, presenting a significant challenge for founders and enterprises trying to scale AI agents without incurring unsustainable operational costs.
Implications for the AI Landscape
The AA-Briefcase findings serve as a reality check for the "AI Agent" hype cycle. For AI to transition from a conversational assistant to a reliable knowledge worker, models must evolve beyond simple retrieval to deep, cross-contextual synthesis. For developers and tech leaders, the goal is no longer just increasing parameter counts, but improving the ability to handle fragmented, long-horizon reasoning tasks with higher precision and lower marginal costs.
Key Takeaways
- Massive Performance Gap: Even frontier models like Claude Fable 5 only achieve a 3% full success rate on complex, multi-source knowledge tasks.
- Evolution of Errors: While low-tier models fail on basic execution, advanced models fail through "quiet" errors, missing nuanced details hidden across fragmented datasets.
- Extreme Cost Variance: There is an 800x cost disparity in per-task execution between budget-friendly models like DeepSeek V4 Flash and premium models like Claude Fable 5.