Новий бенчмарк AA Briefcase виявляє труднощі ШІ з реальною інтелектуальною роботою

Translated for your language. Read the original.

AI-assisted draft.

позавчора3min read

In this article

Новий бенчмарк AA-Briefcase виявляє труднощі ШІ з реальною інтелектуальною роботою

Хоча великі мовні моделі (LLM) демонструють дедалі вищу здатність у стандартних оцінках, нові дані свідчать про те, що вони залишаються фундаментально непідготовленими до складнощів професійного середовища. Революційний бенчмарк виявив величезний розрив між розпізнаванням патернів та фактичним виконанням багатоетапної, насиченої інформацією інтелектуальної роботи.

Бенчмарк AA-Briefcase: симуляція реального світу

Традиційні бенчмарки ШІ часто покладаються на ізольовані запитання або статичні набори даних, які не відображають хаотичну реальність сучасного офісу. Щоб подолати цей розрив, компанія Artificial Analysis представила бенчмарк AA-Briefcase — сувору систему тестування, розроблену для симуляції тривалих багатотижневих проєктів.

Замість простих промптів моделям ставлять завдання опрацювати тисячі фрагментованих вихідних файлів, включаючи гілки в Slack, ланцюжки електронних листів, стенограми зустрічей та масштабні експорти даних. Це вимагає від моделі високого рівня міркування, синтезу розрізнених точок даних та підтримки контексту в масивних неструктурованих наборах даних — навичок, необхідних аналітикам, юристам та інженерам.

Чому навіть топові моделі зазнають невдачі

Результати змушують замислитися тих, хто очікував на негайну автономію ШІ на робочому місці. Навіть найдосконаліша протестована модель, Claude Fable 5 від Anthropic, змогла повністю вирішити лише 3 відсотки представлених завдань. Бенчмарк показав, що у 31 із 91 конкретного завдання жодна модель не змогла досягти навіть 50-відсоткового показника успішності.

Дослідження підкреслює цікаву зміну в тому, як саме помиляється ШІ зі збільшенням рівня інтелекту. «Слабші» моделі схильні до «гучних» помилок: вони не справляються з базовим виконанням, повністю пропускають релевантні файли або видають результати, які є принципово непридатними для використання. Натомість «сильніші» моделі, такі як Claude Fable 5, зазнають невдачі «тихіше». Ці моделі високого рівня виконують очевидні вимоги та дотримуються професійного форматування, але провалюють тест на глибинне міркування, пропускаючи тонкі деталі, які можна виявити лише шляхом поєднання інформації з багатьох розрізнених джерел.

Економічна нерівність продуктивності ШІ

Окрім технічних недоліків, бенчмарк підкреслює величезний економічний розрив у сучасному ландшафті LLM. Спостерігається приголомшлива різниця в ціні моделей, якщо вимірювати її вартістю виконання завдання.

Ефективність суттєво різниться: DeepSeek V4 Flash виконував завдання з вартістю приблизно $0,04 за завдання, тоді як найкращий за продуктивністю Claude Fable 5 коштував понад $31 за завдання. Це означає 800-кратну різницю в ціні, що створює значні труднощі для засновників і підприємств, які намагаються масштабувати ШІ-агентів, не несечи при цьому непідйомних операційних витрат.

Наслідки для ландшафту ШІ

Результати AA-Briefcase слугують перевіркою реальності для циклу хайпу навколо «ШІ-агентів». Щоб ШІ перетворився з розмовного асистента на надійного інтелектуального працівника, моделі мають еволюціонувати від простого пошуку інформації до глибокого крос-контекстуального синтезу. Для розробників і технологічних лідерів метою є вже не просто збільшення кількості параметрів, а покращення здатності виконувати фрагментовані завдання з тривалим процесом міркування з вищою точністю та нижчими граничними витратами.

Основні висновки

Величезний розрив у продуктивності: Навіть передові моделі, такі як Claude Fable 5, досягають лише 3% повного успіху у складних завданнях, що потребують роботи з багатьма джерелами знань.
Еволюція помилок: Якщо моделі нижчого рівня зазнають невдачі при базовому виконанні, то просунуті моделі помиляються через «тихі» помилки, пропускаючи нюанси, приховані у фрагментованих наборах даних.
Екстремальна варіативність витрат: Існує 800-кратна різниця у вартості виконання одного завдання між бюджетними моделями, такими як DeepSeek V4 Flash, і преміальними моделями, такими як Claude Fable 5.

Новий бенчмарк AA Briefcase виявляє труднощі ШІ з реальною інтелектуальною роботою

Новий бенчмарк AA-Briefcase виявляє труднощі ШІ з реальною інтелектуальною роботою

Бенчмарк AA-Briefcase: симуляція реального світу

Чому навіть топові моделі зазнають невдачі

Економічна нерівність продуктивності ШІ

Наслідки для ландшафту ШІ

Основні висновки

Continue reading

ШІ-міркування як точка рівноваги

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗦𝗰𝗼𝗿𝗲𝗱 𝟬% 𝗢𝗻 𝗘𝘅𝗽𝗲𝗿𝘁 𝗧𝗮𝘀𝗸𝘀

𝗔𝗜 𝗧𝗲𝗰𝗵𝗻𝗼𝗹𝗼𝗴𝘆 𝗙𝗮𝗶𝗹𝘀 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻: 𝗖𝗹𝗼𝘀𝗲 𝘁𝗵𝗲 𝗔𝗜 𝗖𝗼𝗼𝗿𝗱𝗶𝗻𝗮𝘁𝗶𝗼𝗻 𝗚𝗮𝗽

Сем Альтман стверджує, що скептики масштабування стримували розвиток ШІ