Новый бенчмарк AA-Briefcase выявил трудности ИИ с реальной интеллектуальной работой
Хотя большие языковые модели (LLM) демонстрируют растущие способности в стандартных тестах, новые данные свидетельствуют о том, что они по-прежнему фундаментально не готовы к сложностям профессиональной среды. Революционный бенчмарк выявил огромный разрыв между распознаванием образов и реальным выполнением многоэтапной, насыщенной информацией интеллектуальной работы.
Бенчмарк AA-Briefcase: симуляция реального мира
Традиционные бенчмарки ИИ часто опираются на изолированные вопросы или статические наборы данных, которые не отражают хаотичную реальность современного офиса. Чтобы преодолеть этот разрыв, компания Artificial Analysis представила бенчмарк AA-Briefcase — строгую систему тестирования, разработанную для симуляции долгосрочных многонедельных проектов.
Вместо простых промптов моделям ставятся задачи по навигации среди тысяч разрозненных исходных файлов, включая ветки в Slack, цепочки электронных писем, стенограммы встреч и масштабные выгрузки данных. Это требует от модели высокоуровневого рассуждения, синтеза разрозненных данных и поддержания контекста в огромных неструктурированных наборах данных — навыков, необходимых аналитикам, юристам и инженерам.
Почему даже топовые модели терпят неудачу
Результаты отрезвляют тех, кто ожидает немедленной автономии ИИ на рабочем месте. Даже самая продвинутая из протестированных моделей, Claude Fable 5 от Anthropic, смогла полностью решить лишь 3 процента представленных задач. Бенчмарк показал, что в 31 из 91 конкретной задачи ни одна модель не смогла достичь даже 50-процентного порога успешного выполнения.
Исследование подчеркивает любопытный сдвиг в том, как именно ошибается ИИ по мере масштабирования интеллекта. «Слабые» модели склонны к «громким» ошибкам: они спотыкаются на базовом исполнении, полностью упускают нужные файлы или выдают результаты, которые в принципе непригодны для использования. Напротив, «сильные» модели, такие как Claude Fable 5, терпят неудачу более «тихо». Эти высокоуровневые модели выполняют очевидные требования и соблюдают профессиональное форматирование, но проваливают тест на глубокое рассуждение, упуская тонкие детали, которые можно обнаружить, только собирая информацию из множества разрозненных источников.
Экономический разрыв в производительности ИИ
Помимо технических недостатков, бенчмарк подчеркивает огромный экономический разрыв в текущем ландшафте LLM. Наблюдается ошеломляющая разница в цене моделей, если измерять её стоимостью выполнения задачи.
Efficiency varies wildly: DeepSeek V4 Flash completed tasks at a cost of approximately $0.04 per task, whereas the top-performing Claude Fable 5 cost upwards of $31 per task. This represents an 800x price difference, presenting a significant challenge for founders and enterprises trying to scale AI agents without incurring unsustainable operational costs.
Implications for the AI Landscape
The AA-Briefcase findings serve as a reality check for the "AI Agent" hype cycle. For AI to transition from a conversational assistant to a reliable knowledge worker, models must evolve beyond simple retrieval to deep, cross-contextual synthesis. For developers and tech leaders, the goal is no longer just increasing parameter counts, but improving the ability to handle fragmented, long-horizon reasoning tasks with higher precision and lower marginal costs.
Key Takeaways
- Massive Performance Gap: Even frontier models like Claude Fable 5 only achieve a 3% full success rate on complex, multi-source knowledge tasks.
- Evolution of Errors: While low-tier models fail on basic execution, advanced models fail through "quiet" errors, missing nuanced details hidden across fragmented datasets.
- Extreme Cost Variance: There is an 800x cost disparity in per-task execution between budget-friendly models like DeepSeek V4 Flash and premium models like Claude Fable 5.