Slechts drie AI-modellen overleefden de 500-daagse startup-simulatie

Huidige AI-agenten blinken uit in discrete taken, maar ze hebben moeite met het complexe, strategische denken op de lange termijn dat nodig is om een bedrijf te runnen. Een nieuwe benchmark genaamd CEO-Bench laat zien dat hoewel de meeste large language models (LLM's) binnen 500 gesimuleerde dagen failliet gaan, een select aantal de eerste tekenen van "steering intelligence" begint te vertonen.

Maak kennis met CEO-Bench: de ultieme test voor strategische intelligentie

Onderzoekers zijn verder gegaan dan eenvoudige prompting-tests om CEO-Bench te ontwikkelen, een rigoureuze simulatie die ontworpen is om het vermogen van een agent te meten om een hele organisatie naar langetermijndoelen te sturen. In deze benchmark neemt een AI-agent de controle over "NovaMind", een fictief softwarebedrijf met een abonnementsmodel, beginnend met $1 miljoen aan kapitaal en nul klanten.

De omgeving is ontworpen om de volatiliteit van de echte wereld na te bootsen. Agenten werken met een Python API met 34 tools en een database met 19 tabellen, waardoor ze aangepaste code en SQL-queries moeten schrijven om beslissingen te nemen. De inzet is hoog: als het kasgeld van het bedrijf op enig moment tijdens de periode van 500 dagen onder nul zakt, eindigt de simulatie in een faillissement.

De complexiteit ontstaat door vertraagde feedbackloops. In tegenstelling tot taakgerichte agenten moet een CEO navigeren door R&D-tijdlijnen, marktciclen en veranderende klantverwachtingen. Beslissingen die op dag 10 worden genomen — zoals advertentie-uitgaven of prijsniveaus — leveren mogelijk pas weken later zichtbare resultaten op in de groei van het aantal abonnees of de cashflow.

De faillissementscrisis: waarom de meeste modellen falen

De resultaten van de test met 14 modellen waren ontnuchterend. Hoewel de meeste modellen basisopdrachten konden uitvoeren, ontbrak het hen aan de coherente langetermijnstrategie die nodig is om solvabel te blijven. De meerderheid van de agenten slaagde er niet in om de onzekerheid van de markt te navigeren en ging failliet voordat de grens van 500 dagen was bereikt.

In een opvallende vergelijking bereikte een eenvoudige regelgebaseerde heuristiek — een niet-AI-programma dat gebruikmaakt van vaste prijzen en basisaanpassingen in de capaciteit — $15,76 miljoen. Dit presteerde beter dan bijna elk getest LLM, wat bewijst dat "intelligentie" zonder richting vaak minder effectief is dan een basis, gedisciplineerd bedrijfsplan.

De elite van drie: Claude en GPT leiden het veld

Slechts drie modellen slaagden erin hun runs af te ronden met meer dan het oorspronkelijke kapitaal van $1 miljoen. Deze modellen toonden het vermogen om verborgen informatie te ontdekken en toekomstige cashflows te voorspellen:

  • Claude Fable 5: De beste performer, die een verbazingwekkende $47,15 miljoen bereikte en de meeste consistentie liet zien over meerdere runs.
  • Claude Opus 4.8: Behaalde $27,8 miljoen en toonde een hoog niveau van verfijning door een eigen interne simulatie te bouwen om klantcohorten te modelleren.
  • GPT-5.5: Bereikte $21,3 miljoen door onderhandelingsgeschiedenissen te analyseren om verborgen klantvoorkeuren te ontdekken.

Interessant genoeg gebruikten de modellen verschillende paden naar succes. Terwijl Opus 4.8 zich richtte op agressieve vroege klantverwerving, gaf GPT-5.5 prioriteit aan het behouden van een stabiele klantenkring. In tegenstelling hiertoe namen modellen zoals Claude Opus 4.7 een "survivalistische" mentaliteit aan, waarbij ze enkel kosten sneden om faillissement te voorkomen zonder ooit een aanzienlijke winst te genereren.

Waarom dit belangrijk is voor de toekomst van AI

De kloof tussen de best presterende agenten ($47,15M) en de theoretische bovengrens van de simulatie ($2,2B) suggereert dat AI-"steering intelligence" nog in de kinderschoenen staat. Voor ontwikkelaars en oprichters benadrukt deze benchmark dat de volgende grens van AI niet alleen beter redeneren is, maar ook een beter tijdsbesef — het vermogen om middelen en verwachtingen te beheren over lange, onzekere perioden.

Kernpunten

  • Strategische kloof: De meeste huidige AI-modellen missen de "steering intelligence" om langetermijnbedrijfscycli te beheren, waarbij de meerderheid de 500-daagse overlevingstest niet haalt.
  • Topperformers: Alleen Claude Fable 5, Claude Opus 4.8 en GPT-5.5 slaagden erin het kapitaal van het bedrijf te laten groeien voorbij de startwaarde van $1 miljoen.
  • Heuristische benchmark: Een eenvoudig, niet-AI-regelgebaseerd algoritme presteerde beter dan bijna alle LLM's, wat benadrukt dat strategische consistentie belangrijker is dan pure rekenkracht.