只有三个 AI 模型在 500 天创业模拟实验中存活了下来

Translated for your language. 阅读原文.

AI-assisted draft.

本文目录

仅有三个 AI 模型在 500 天创业模拟中幸存

当前的 AI Agent 擅长处理离散任务，但在运行企业所需的复杂、长周期战略思维方面却表现挣扎。一项名为 CEO-Bench 的新基准测试显示，虽然大多数大语言模型 (LLM) 在 500 天的模拟运行中宣告破产，但少数模型已开始展现出“决策引导智能”（steering intelligence）的迹象。

CEO-Bench 简介：战略智能的终极测试

研究人员已不再局限于简单的提示词测试，而是开发了 CEO-Bench——一种旨在衡量 Agent 引导整个组织实现长期目标能力的严苛模拟测试。在该基准测试中，AI Agent 接管了一家名为“NovaMind”的虚构订阅制软件公司，初始资金为 100 万美元，且没有任何客户。

该环境旨在模拟现实世界的波动性。Agent 需要通过包含 34 种工具的 Python API 和一个包含 19 张表的数据库进行交互，这要求它们编写自定义代码和 SQL 查询来做出决策。风险极高：如果在 500 天的任何时间点公司的现金余额跌至零以下，模拟将以破产告终。

复杂性源于延迟的反馈循环。与任务导向型 Agent 不同，CEO 必须应对研发周期、市场周期以及不断变化的客户预期。第 10 天做出的决策（例如广告支出或定价层级）可能要到几周后才能在订阅用户增长或现金流方面显现出可见的结果。

破产危机：为什么大多数模型会失败

对 14 个模型的测试结果令人警醒。虽然大多数模型能够执行基本指令，但它们缺乏维持偿付能力所需的连贯长期战略。大多数 Agent 无法应对市场的不确定性，在 500 天期限到来之前就已破产。

在一项引人注目的对比中，一个简单的基于规则的启发式算法（一个使用固定定价和基础产能调整的非 AI 程序）达到了 1576 万美元。这一表现优于几乎所有测试过的 LLM，证明了缺乏方向的“智能”往往不如一个基础且自律的商业计划。

顶尖三强：Claude 与 GPT 领跑

只有三个模型在运行结束时，其资本超过了初始的 100 万美元。这些模型展示了挖掘隐藏信息和预测未来现金流的能力：

Claude Fable 5： 表现最佳，达到了惊人的 4715 万美元，并在多次运行中表现出最强的一致性。
Claude Opus 4.8： 实现了 2780 万美元，通过构建内部模拟来对客户群进行建模，展现了极高的复杂处理能力。
GPT-5.5： 达到了 2130 万美元，通过分析谈判历史来挖掘隐藏的客户偏好从而取得成功。

有趣的是，这些模型采用了不同的成功路径。Opus 4.8 专注于激进的早期客户获取，而 GPT-5.5 则优先考虑维持稳定的客户群。相比之下，像 Claude Opus 4.7 这样的模型则采取了“生存主义”心态，仅仅通过削减成本来避免破产，而从未产生过显著利润。

为什么这对 AI 的未来至关重要

表现最好的 Agent（4715 万美元）与模拟实验的理论上限（22 亿美元）之间的巨大差距表明，AI 的“决策引导智能”仍处于起步阶段。对于开发者和创始人而言，这一基准测试强调了 AI 的下一个前沿不仅是更强的推理能力，更是更强的“时间感知能力”——即在漫长且充满不确定性的周期内管理资源和预期的能力。

核心结论

战略差距： 大多数当前的 AI 模型缺乏管理长期商业周期的“决策引导智能”，大多数模型未能通过 500 天生存测试。
顶尖表现者： 只有 Claude Fable 5、Claude Opus 4.8 和 GPT-5.5 成功将公司资本增长到了初始的 100 万美元以上。
启发式基准： 一个简单的、非 AI 的基于规则的算法表现优于几乎所有 LLM，这强调了战略的一致性比原始算力更为重要。

只有三个 AI 模型在 500 天创业模拟实验中存活了下来

仅有三个 AI 模型在 500 天创业模拟中幸存

CEO-Bench 简介：战略智能的终极测试

破产危机：为什么大多数模型会失败

顶尖三强：Claude 与 GPT 领跑

为什么这对 AI 的未来至关重要

核心结论

继续阅读

新的 AA Briefcase 基准测试揭示了 AI 在处理真实知识型工作时的困境

托管式 AI Agent 才是真正的机遇

AI 模型在新的 MirrorCode 基准测试中连续运行 19 天

为什么标准 AI 基准测试会系统性地低估智能体能力