Tylko trzy modele AI przetrwały 500-dniową symulację startupu

Obecne agenci AI świetnie radzą sobie z pojedynczymi zadaniami, ale mają trudności ze złożonym, długofalowym myśleniem strategicznym wymaganym do prowadzenia biznesu. Nowy benchmark o nazwie CEO-Bench ujawnia, że podczas gdy większość dużych modeli językowych (LLM) bankrutuje w ciągu 500 symulowanych dni, nieliczne z nich zaczynają wykazywać oznaki „inteligencji sterującej”.

Przedstawiamy CEO-Bench: Ostateczny test inteligencji strategicznej

Badacze wyszli poza proste testy promptów, aby opracować CEO-Bench – rygorystyczną symulację zaprojektowaną w celu zmierzenia zdolności agenta do kierowania całą organizacją ku długoterminowym celom. W tym benchmarku agent AI przejmuje kontrolę nad „NovaMind”, fikcyjną firmą oferującą oprogramowanie w modelu subskrypcyjnym, zaczynając z kapitałem w wysokości 1 miliona dolarów i zerową liczbą klientów.

Środowisko zostało zaprojektowane tak, aby naśladować zmienność prawdziwego świata. Agenci wchodzą w interakcję z interfejsem Python API, który zawiera 34 narzędzia i bazę danych składającą się z 19 tabel, co wymaga od nich pisania własnego kodu i zapytań SQL w celu podejmowania decyzji. Stawka jest wysoka: jeśli saldo gotówkowe firmy spadnie poniżej zera w dowolnym momencie w ciągu 500 dni, symulacja kończy się bankructwem.

Złożoność wynika z opóźnionych pętli zwrotnych. W przeciwieństwie do agentów nastawionych na konkretne zadania, CEO musi poruszać się w ramach harmonogramów R&D, cykli rynkowych i zmieniających się oczekiwań klientów. Decyzje podjęte 10. dnia – takie jak wydatki na reklamę czy poziomy cenowe – mogą nie przynieść widocznych rezultatów w postaci wzrostu liczby subskrybentów lub przepływów pieniężnych aż do kilku tygodni później.

Kryzys bankructwa: Dlaczego większość modeli zawodzi

Wyniki testu obejmującego 14 modeli były otrzeźwiające. Choć większość modeli potrafiła wykonywać podstawowe polecenia, brakowało im spójnej strategii długoterminowej niezbędnej do zachowania płynności finansowej. Większość agentów nie poradziła sobie z niepewnością rynku i zbankrutowała przed upływem 500 dni.

W uderzającym porównaniu, prosta heurystyka oparta na regułach – program niebędący AI, wykorzystujący stałe ceny i podstawowe dostosowania mocy przerobowych – osiągnął 15,76 miliona dolarów. Wynik ten przewyższył niemal każdy testowany model LLM, udowadniając, że „inteligencja” bez kierunku jest często gorsza od podstawowego, zdyscyplinowanego planu biznesowego.

Elitarna trójka: Claude i GPT prowadzą stawka

Tylko trzy modele zdołały zakończyć swoje sesje z kapitałem większym niż początkowy 1 milion dolarów. Modele te wykazały zdolność do odkrywania ukrytych informacji i przewidywania przyszłych przepływów pieniężnych:

  • Claude Fable 5: Najlepszy wynik, osiągający oszałamiające 47,15 miliona dolarów i wykazujący największą spójność w wielu sesjach.
  • Claude Opus 4.8: Osiągnął 27,8 miliona dolarów, wykazując się