بنچمارک جدید AA-Briefcase از چالش‌های هوش مصنوعی در انجام کارهای دانش‌محور واقعی پرده برداشت

در حالی که به نظر می‌رسد مدل‌های زبانی بزرگ (LLMs) در ارزیابی‌های استاندارد توانمندی‌های فزاینده‌ای نشان می‌دهند، داده‌های جدید حاکی از آن است که آن‌ها همچنان به‌طور اساسی برای پیچیدگی‌های محیط‌های حرفه‌ای آماده نیستند. یک بنچمارک پیشگامانه، شکاف عظیمی را میان تشخیص الگو و اجرای واقعی کارهای دانش‌محورِ چندمرحله‌ای و متراکم از نظر اطلاعاتی، آشکار کرده است.

بنچمارک AA-Briefcase: شبیه‌سازی دنیای واقعی

بنچمارک‌های سنتی هوش مصنوعی اغلب بر پرسش‌های مجزا یا مجموعه‌داده‌های ایستا تکیه دارند که واقعیتِ پرآشوب یک دفتر کار مدرن را منعکس نمی‌کنند. برای پر کردن این شکاف، Artificial Analysis بنچمارک AA-Briefcase را معرفی کرد؛ یک چارچوب آزمایشی دقیق که برای شبیه‌سازی پروژه‌های طولانی‌مدت و چند هفته‌ای طراحی شده است.

به جای دستورهای (prompts) ساده، از مدل‌ها خواسته می‌شود تا میان هزاران فایل منبع پراکنده، از جمله رشته‌گفتگوهای Slack، زنجیره‌های ایمیل، متن پیاده‌شده‌ی جلسات و خروجی‌های داده‌ای در مقیاس بزرگ، پیمایش کنند. این امر مستلزم آن است که مدل استدلال سطح بالا انجام دهد، نقاط داده‌ی پراکنده را ترکیب کند و بافتار (context) را در میان مجموعه‌داده‌های عظیم و بدون ساختار حفظ کند؛ مهارت‌هایی که برای تحلیلگران، وکلا و مهندسان ضروری است.

چرا حتی مدل‌های برتر نیز شکست می‌خورند

نتایج برای کسانی که انتظار خودمختاری فوری هوش مصنوعی در محیط کار را دارند، تکان‌دهنده است. حتی پیشرفته‌ترین مدل آزمایش‌شده، یعنی Claude Fable 5 از Anthropic، تنها موفق شد ۳ درصد از وظایف ارائه شده را به‌طور کامل حل کند. این بنچمارک نشان داد که در ۳۱ مورد از ۹۱ وظیفه‌ی مشخص، حتی یک مدل هم نتوانست به نرخ قبولی ۵۰ درصد برسد.

این تحقیق تغییر جالبی را در نحوه شکست هوش مصنوعی با افزایش سطح هوشمندی برجسته می‌کند. مدل‌های «ضعیف‌تر» تمایل دارند دچار شکست‌های «پرصدا» شوند: آن‌ها در اجرای مراحل پایه دچار مشکل می‌شوند، فایل‌های مرتبط را کاملاً نادیده می‌گیرند یا خروجی‌هایی تولید می‌کنند که اساساً غیرقابل استفاده هستند. در مقابل، مدل‌های «قوی‌تر» مانند Claude Fable 5، شکست‌های «آرام‌تر» دارند. این مدل‌های سطح بالا الزامات بدیهی را رعایت کرده و قالب‌بندی حرفه‌ای را حفظ می‌کنند، اما در آزمون استدلال عمیق‌تر شکست می‌خورند؛ زیرا جزئیات ظریفی را از دست می‌دهند که تنها با کنار هم قرار دادن اطلاعات از چندین منبع مجزا و بی‌ارتباط قابل کشف هستند.

نابرابری اقتصادی در عملکرد هوش مصنوعی

فراتر از کاستی‌های فنی، این بنچمارک شکاف اقتصادی عظیمی را در چشم‌انداز فعلی LLMها برجسته می‌کند. وقتی هزینه تکمیل وظایف ملاک قرار گیرد، شکاف قیمتی خیره‌کننده‌ای میان مدل‌ها وجود دارد.

میزان کارایی تفاوت بسیار زیادی دارد: DeepSeek V4 Flash وظایف را با هزینه‌ای در حدود ۰.۰۴ دلار برای هر وظیفه انجام داد، در حالی که مدل برتر Claude Fable 5 بیش از ۳۱ دلار برای هر وظیفه هزینه داشت. این نشان‌دهنده اختلاف قیمت ۸۰۰ برابری است که چالشی بزرگ برای بنیان‌گذاران و شرکت‌هایی ایجاد می‌کند که می‌خواهند بدون متحمل شدن هزینه‌های عملیاتی ناپایدار، عامل‌های هوش مصنوعی (AI agents) را مقیاس‌پذیر کنند.

پیامدها برای چشم‌انداز هوش مصنوعی

یافته‌های AA-Briefcase به عنوان یک واقعیت‌سنجی برای چرخه هیجانی «عامل هوش مصنوعی» (AI Agent) عمل می‌کند. برای اینکه هوش مصنوعی از یک دستیار گفتگو‌محور به یک کارشناس دانش قابل اعتماد تبدیل شود، مدل‌ها باید از بازیابی ساده فراتر رفته و به سمت ترکیب عمیق و میان‌متنی (cross-contextual synthesis) حرکت کنند. برای توسعه‌دهندگان و رهبران فناوری، هدف دیگر تنها افزایش تعداد پارامترها نیست، بلکه بهبود توانایی مدیریت وظایف استدلالی تکه‌تکه و طولانی‌مدت با دقت بالاتر و هزینه‌های نهایی کمتر است.

نکات کلیدی

  • شکاف عملکردی عظیم: حتی مدل‌های پیشرو مانند Claude Fable 5 نیز در وظایف دانش پیچیده و چندمنبعی، تنها به نرخ موفقیت کامل ۳ درصدی دست می‌یابند.
  • تکامل خطاها: در حالی که مدل‌های سطح پایین در اجرای وظایف پایه شکست می‌خورند، مدل‌های پیشرفته از طریق خطاهای «بی‌صدا» شکست می‌خورند؛ یعنی از دست دادن جزئیات ظریفی که در مجموعه‌داده‌های تکه‌تکه پنهان شده‌اند.
  • تفاوت شدید هزینه: بین مدل‌های مقرون‌به‌صرفه مانند DeepSeek V4 Flash و مدل‌های پرمیوم مانند Claude Fable 5، اختلاف هزینه ۸۰۰ برابری در اجرای هر وظیفه وجود دارد.