Nowy benchmark AA-Briefcase ujawnia trudności AI z rzeczywistą pracą intelektualną

Choć duże modele językowe (LLM) wydają się coraz bardziej sprawne w standardowych ewaluacjach, nowe dane sugerują, że wciąż pozostają fundamentalnie nieprzygotowane na złożoność środowisk zawodowych. Przełomowy benchmark ujawnił ogromną przepaść między rozpoznawaniem wzorców a faktycznym wykonywaniem wieloetapowej, nasyconej informacjami pracy intelektualnej.

Benchmark AA-Briefcase: Symulacja rzeczywistego świata

Tradycyjne benchmarki AI często opierają się na odizolowanych pytaniach lub statycznych zbiorach danych, które nie odzwierciedlają chaotycznej rzeczywistości nowoczesnego biura. Aby wypełnić tę lukę, Artificial Analysis wprowadziło benchmark AA-Briefcase – rygorystyczne ramy testowe zaprojektowane do symulowania długofalowych, wielotygodniowych projektów.

Zamiast prostych promptów, modele mają za zadanie poruszać się wśród tysięcy pofragmentowanych plików źródłowych, w tym wątków na Slacku, łańcuchów e-maili, transkrypcji spotkań i masowych eksportów danych. Wymaga to od modelu rozumowania na wysokim poziomie, syntezy rozproszonych punktów danych oraz utrzymywania kontekstu w ogromnych, nieustrukturyzowanych zbiorach danych – umiejętności niezbędnych dla analityków, prawników i inżynierów.

Dlaczego zawodzą nawet topowe modele

Wyniki są otrzeźwiające dla tych, którzy oczekują natychmiastowej autonomii AI w miejscu pracy. Nawet najbardziej zaawansowany przetestowany model, Claude Fable 5 od Anthropic, zdołał w pełni rozwiązać tylko 3 procent przedstawionych zadań. Benchmark wykazał, że w 31 z 91 konkretnych zadań żaden model nie osiągnął nawet 50-procentowego poziomu zaliczenia.

Badania podkreślają fascynującą zmianę w sposobie, w jaki AI zawodzi wraz ze wzrostem poziomu inteligencji. „Słabsze” modele mają tendencję do „głośnych” porażek: wykładają się na podstawowej egzekucji, całkowicie pomijają istotne pliki lub generują wyniki, które są fundamentalnie bezużyteczne. W przeciwieństwie do nich, „silniejsze” modele, takie jak Claude Fable 5, zawodzą bardziej „po cichu”. Te wysokiej klasy modele spełniają oczywiste wymagania i zachowują profesjonalne formatowanie, ale oblewają test głębszego rozumowania, pomijając subtelne szczegóły, które można odkryć jedynie poprzez łączenie informacji z wielu, odizolowanych źródeł.

Ekonomiczne dysproporcje w wydajności AI

Poza niedociągnięciami technicznymi, benchmark uwypukla ogromną przepaść ekonomiczną w obecnym krajobrazie LLM. Między modelami istnieje uderzająca różnica w cenie, gdy mierzy się ją kosztem ukończenia zadania.

Efektywność znacznie się różni: DeepSeek V4 Flash wykonywał zadania przy koszcie wynoszącym około 0,04 USD za zadanie, podczas gdy najlepiej radzący sobie Claude Fable 5 kosztował ponad 31 USD za zadanie. Oznacza to 800-krotną różnicę w cenie, co stanowi istotne wyzwanie dla założycieli i przedsiębiorstw próbujących skalować agentów AI bez ponoszenia nie do utrzymania kosztów operacyjnych.

Implikacje dla krajobrazu AI

Wyniki AA-Briefcase stanowią sprawdzian rzeczywistości dla cyklu hype'u wokół „agentów AI”. Aby AI mogło przejść od roli asystenta konwersacyjnego do niezawodnego pracownika wiedzy, modele muszą ewoluować od prostego wyszukiwania informacji w stronę głębokiej, międzykontekstowej syntezy. Dla programistów i liderów technologicznych celem nie jest już tylko zwiększanie liczby parametrów, ale poprawa zdolności do radzenia sobie z rozproszonymi, długofalowymi zadaniami rozumowania z większą precyzją i niższymi kosztami krańcowymi.

Kluczowe wnioski

  • Ogromna luka wydajnościowa: Nawet modele typu frontier, takie jak Claude Fable 5, osiągają zaledwie 3% pełnego wskaźnika sukcesu w złożonych zadaniach wiedzy opartych na wielu źródłach.
  • Ewolucja błędów: Podczas gdy modele niskiego szczebla zawodzą przy podstawowej egzekucji, modele zaawansowane zawodzą poprzez „ciche” błędy, pomijając niuansowe szczegóły ukryte w rozproszonych zbiorach danych.
  • Ekstremna zmienność kosztów: Istnieje 800-krotna dysproporcja kosztów wykonania pojedynczego zadania między budżetowymi modelami, takimi jak DeepSeek V4 Flash, a modelami premium, takimi jak Claude Fable 5.