Seuls trois modèles d'IA ont survécu à la simulation de startup de 500 jours

Les agents d'IA actuels excellent dans les tâches discrètes, mais ils peinent face à la pensée stratégique complexe à long terme nécessaire à la gestion d'une entreprise. Un nouveau benchmark appelé CEO-Bench révèle que si la plupart des grands modèles de langage (LLM) font faillite en moins de 500 jours simulés, quelques rares modèles commencent à montrer des signes d'« intelligence de pilotage » (steering intelligence).

Présentation de CEO-Bench : le test ultime d'intelligence stratégique

Les chercheurs ont dépassé les simples tests de prompting pour développer CEO-Bench, une simulation rigoureuse conçue pour mesurer la capacité d'un agent à piloter une organisation entière vers des objectifs à long terme. Dans ce benchmark, un agent d'IA prend le contrôle de « NovaMind », une entreprise fictive de logiciels par abonnement, avec un capital initial de 1 million de dollars et zéro client.

L'environnement est conçu pour imiter la volatilité du monde réel. Les agents interagissent avec une API Python comprenant 34 outils et une base de données de 19 tables, ce qui les oblige à écrire du code personnalisé et des requêtes SQL pour prendre des décisions. Les enjeux sont de taille : si le solde de trésorerie de l'entreprise tombe en dessous de zéro à n'importe quel moment au cours de la période de 500 jours, la simulation se termine par une faillite.

La complexité provient des boucles de rétroaction différées. Contrairement aux agents orientés vers des tâches, un PDG doit naviguer entre les calendriers de R&D, les cycles de marché et l'évolution des attentes des clients. Les décisions prises au 10e jour — comme les dépenses publicitaires ou les niveaux de tarification — peuvent ne pas produire de résultats visibles sur la croissance des abonnés ou les flux de trésorerie avant plusieurs semaines.

La crise de la faillite : pourquoi la plupart des modèles échouent

Les résultats du test portant sur 14 modèles sont sans appel. Bien que la plupart des modèles puissent exécuter des commandes de base, ils manquaient de la stratégie cohérente à long terme nécessaire pour rester solvables. La majorité des agents n'ont pas réussi à naviguer dans l'incertitude du marché et ont fait faillite avant la barre des 500 jours.

Dans une comparaison frappante, une simple heuristique basée sur des règles — un programme non doté d'IA utilisant des prix fixes et des ajustements de capacité de base — a atteint 15,76 millions de dollars. Cela a surpassé presque tous les LLM testés, prouvant que l'« intelligence » sans direction est souvent inférieure à un plan d'affaires de base et discipliné.

L'élite des trois : Claude et GPT en tête

Seuls trois modèles ont réussi à terminer leur simulation avec plus que le million de dollars de capital initial. Ces modèles ont démontré leur capacité à découvrir des informations cachées et à prédire les flux de trésorerie futurs :

  • Claude Fable 5 : Le meilleur performeur, atteignant le montant stupéfiant de 47,15 millions de dollars et faisant preuve de la plus grande cohérence sur plusieurs simulations.
  • Claude Opus 4.8 : A atteint 27,8 millions de dollars, faisant preuve d'une sophistication de haut niveau en construisant sa propre simulation interne pour modéliser les cohortes de clients.
  • GPT-5.5 : A atteint 21,3 millions de dollars, réussissant en analysant les historiques de négociation pour découvrir les préférences cachées des clients.

Il est intéressant de noter que les modèles ont emprunté des chemins différents vers le succès. Alors qu'Opus 4.8 s'est concentré sur une acquisition agressive de clients dès le début, GPT-5.5 a privilégié le maintien d'une base de clients stable. En revanche, des modèles comme Claude Opus 4.7 ont adopté une mentalité de « survivant », se contentant de réduire les coûts pour éviter la faillite sans jamais générer de profit significatif.

Pourquoi cela est important pour l'avenir de l'IA

L'écart entre les agents les plus performants (47,15 M$) et la limite théorique supérieure de la simulation (2,2 Md$) suggère que l'« intelligence de pilotage » de l'IA n'en est qu'à ses débuts. Pour les développeurs et les fondateurs, ce benchmark souligne que la prochaine frontière de l'IA n'est pas seulement un meilleur raisonnement, mais une meilleure conscience temporelle — la capacité de gérer les ressources et les attentes sur de longues durées incertaines.

Points clés à retenir

  • Écart stratégique : La plupart des modèles d'IA actuels manquent de l'« intelligence de pilotage » nécessaire pour gérer les cycles commerciaux à long terme, la majorité échouant au test de survie de 500 jours.
  • Meilleurs performeurs : Seuls Claude Fable 5, Claude Opus 4.8 et GPT-5.5 ont réussi à faire croître le capital de l'entreprise au-delà du million de dollars initial.
  • Benchmark heuristique : Un simple algorithme basé sur des règles, sans IA, a surpassé presque tous les LLM, soulignant que la cohérence stratégique est plus vitale que la puissance de calcul brute.