Только три модели ИИ выжили в 500-дневной симуляции стартапа
Современные ИИ-агенты отлично справляются с отдельными задачами, но им трудно дается сложное стратегическое мышление на долгосрочную перспективу, необходимое для управления бизнесом. Новый бенчмарк под названием CEO-Bench показывает, что в то время как большинство больших языковых моделей (LLM) банкротятся в течение 500 симулированных дней, лишь немногие из них начинают демонстрировать признаки «управляющего интеллекта» (steering intelligence).
Представляем CEO-Bench: ультимативный тест на стратегический интеллект
Исследователи вышли за рамки простых тестов на промптинг и разработали CEO-Bench — строгую симуляцию, предназначенную для измерения способности агента направлять целую организацию к долгосрочным целям. В этом бенчмарке ИИ-агент берет под контроль NovaMind, вымышленную компанию по подписке на программное обеспечение, имея на старте 1 миллион долларов капитала и ноль клиентов.
Среда спроектирована так, чтобы имитировать волатильность реального мира. Агенты взаимодействуют с Python API, включающим 34 инструмента и базу данных из 19 таблиц, что требует от них написания пользовательского кода и SQL-запросов для принятия решений. Ставки высоки: если денежный баланс компании упадет ниже нуля в любой момент в течение 500-дневного периода, симуляция закончится банкротством.
Сложность заключается в отложенных циклах обратной связи. В отличие от ориентированных на конкретные задачи агентов, CEO должен ориентироваться в графиках НИОКР (R&D), рыночных циклах и меняющихся ожиданиях клиентов. Решения, принятые на 10-й день — такие как расходы на рекламу или уровни цен — могут не принести видимых результатов в росте числа подписчиков или денежном потоке вплоть до нескольких недель спустя.
Кризис банкротства: почему большинство моделей терпят неудачу
Результаты тестирования 14 моделей оказались отрезвляющими. Хотя большинство моделей могли выполнять базовые команды, им не хватало последовательной долгосрочной стратегии, необходимой для поддержания платежеспособности. Большинство агентов не смогли справиться с неопределенностью рынка и обанкротились до истечения 500-дневного срока.
В поразительном сравнении простая эвристика на основе правил — программа без ИИ, использующая фиксированное ценообразование и базовую корректировку мощностей — достигла 15,76 млн долларов. Это превзошло почти каждую протестированную LLM, доказывая, что «интеллект» без направления часто уступает базовому, дисциплинированному бизнес-плану.
Элитная тройка: Claude и GPT лидируют
Только три модели смогли завершить свои циклы с капиталом, превышающим первоначальный 1 миллион долларов. Эти модели продемонстрировали способность выявлять скрытую информацию и прогнозировать будущие денежные потоки:
- Claude Fable 5: Лучший результат, достигший ошеломляющих 47,15 млн долларов и показавший наибольшую стабильность в нескольких запусках.
- Claude Opus 4.8: Достигла 27,8 млн долларов, продемонстрировав высокий уровень сложности, создав собственную внутреннюю симуляцию для моделирования когорт клиентов.
- GPT-5.5: Достигла 21,3 млн долларов, добившись успеха за счет анализа истории переговоров для выявления скрытых предпочтений клиентов.
Интересно, что модели использовали разные пути к успеху. В то время как Opus 4.8 сосредоточилась на агрессивном привлечении клиентов на ранних этапах, GPT-5.5 сделала приоритетом поддержание стабильной клиентской базы. Напротив, такие модели, как Claude Opus 4.7, придерживались стратегии «выживания», просто сокращая расходы, чтобы избежать банкротства, но так и не сумев принести значительную прибыль.
Почему это важно для будущего ИИ
Разрыв между лучшими агентами (47,15 млн долларов) и теоретическим верхним пределом симуляции (2,2 млрд долларов) говорит о том, что «управляющий интеллект» ИИ все еще находится в зачаточном состоянии. Для разработчиков и основателей этот бенчмарк подчеркивает, что следующим рубежом развития ИИ станет не просто улучшение рассуждений, но и улучшение временной осведомленности — способности управлять ресурсами и ожиданиями в течение длительных и неопределенных периодов времени.
Основные выводы
- Стратегический разрыв: Большинству современных моделей ИИ не хватает «управляющего интеллекта» для управления долгосрочными бизнес-циклами; большинство не прошли 500-дневный тест на выживание.
- Лидеры: Только Claude Fable 5, Claude Opus 4.8 и GPT-5.5 успешно увеличили капитал компании сверх начального 1 миллиона долларов.
- Эвристический бенчмарк: Простой алгоритм на основе правил без использования ИИ превзошел почти все LLM, подчеркивая, что стратегическая последовательность важнее, чем чистая вычислительная мощность.
