Новий бенчмарк AA-Briefcase виявляє труднощі ШІ з реальною інтелектуальною роботою

Хоча великі мовні моделі (LLM) демонструють дедалі вищу здатність у стандартних оцінках, нові дані свідчать про те, що вони залишаються фундаментально непідготовленими до складнощів професійного середовища. Революційний бенчмарк виявив величезний розрив між розпізнаванням патернів та фактичним виконанням багатоетапної, насиченої інформацією інтелектуальної роботи.

Бенчмарк AA-Briefcase: симуляція реального світу

Традиційні бенчмарки ШІ часто покладаються на ізольовані запитання або статичні набори даних, які не відображають хаотичну реальність сучасного офісу. Щоб подолати цей розрив, компанія Artificial Analysis представила бенчмарк AA-Briefcase — сувору систему тестування, розроблену для симуляції тривалих багатотижневих проєктів.

Замість простих промптів моделям ставлять завдання опрацювати тисячі фрагментованих вихідних файлів, включаючи гілки в Slack, ланцюжки електронних листів, стенограми зустрічей та масштабні експорти даних. Це вимагає від моделі високого рівня міркування, синтезу розрізнених точок даних та підтримки контексту в масивних неструктурованих наборах даних — навичок, необхідних аналітикам, юристам та інженерам.

Чому навіть топові моделі зазнають невдачі

Результати змушують замислитися тих, хто очікував на негайну автономію ШІ на робочому місці. Навіть найдосконаліша протестована модель, Claude Fable 5 від Anthropic, змогла повністю вирішити лише 3 відсотки представлених завдань. Бенчмарк показав, що у 31 із 91 конкретного завдання жодна модель не змогла досягти навіть 50-відсоткового показника успішності.

Дослідження підкреслює цікаву зміну в тому, як саме помиляється ШІ зі збільшенням рівня інтелекту. «Слабші» моделі схильні до «гучних» помилок: вони не справляються з базовим виконанням, повністю пропускають релевантні файли або видають результати, які є принципово непридатними для використання. Натомість «сильніші» моделі, такі як Claude Fable 5, зазнають невдачі «тихіше». Ці моделі високого рівня виконують очевидні вимоги та дотримуються професійного форматування, але провалюють тест на глибинне міркування, пропускаючи тонкі деталі, які можна виявити лише шляхом поєднання інформації з багатьох розрізнених джерел.

Економічна нерівність продуктивності ШІ

Окрім технічних недоліків, бенчмарк підкреслює величезний економічний розрив у сучасному ландшафті LLM. Спостерігається приголомшлива різниця в ціні моделей, якщо вимірювати її вартістю виконання завдання.

Ефективність суттєво різниться: DeepSeek V4 Flash виконував завдання з вартістю приблизно $0,04 за завдання, тоді як найкращий за продуктивністю Claude Fable 5 коштував понад $31 за завдання. Це означає 800-кратну різницю в ціні, що створює значні труднощі для засновників і підприємств, які намагаються масштабувати ШІ-агентів, не несечи при цьому непідйомних операційних витрат.

Наслідки для ландшафту ШІ

Результати AA-Briefcase слугують перевіркою реальності для циклу хайпу навколо «ШІ-агентів». Щоб ШІ перетворився з розмовного асистента на надійного інтелектуального працівника, моделі мають еволюціонувати від простого пошуку інформації до глибокого крос-контекстуального синтезу. Для розробників і технологічних лідерів метою є вже не просто збільшення кількості параметрів, а покращення здатності виконувати фрагментовані завдання з тривалим процесом міркування з вищою точністю та нижчими граничними витратами.

Основні висновки

  • Величезний розрив у продуктивності: Навіть передові моделі, такі як Claude Fable 5, досягають лише 3% повного успіху у складних завданнях, що потребують роботи з багатьма джерелами знань.
  • Еволюція помилок: Якщо моделі нижчого рівня зазнають невдачі при базовому виконанні, то просунуті моделі помиляються через «тихі» помилки, пропускаючи нюанси, приховані у фрагментованих наборах даних.
  • Екстремальна варіативність витрат: Існує 800-кратна різниця у вартості виконання одного завдання між бюджетними моделями, такими як DeepSeek V4 Flash, і преміальними моделями, такими як Claude Fable 5.