500日間のスタートアップ・シミュレーションを生き残ったのは、わずか3つのAIモデルのみだった

Translated for your language. 原文を読む.

AI-assisted draft.

500日間のスタートアップ・シミュレーションを生き残ったのは、わずか3つのAIモデルのみだった

500日間のスタートアップ・シミュレーションを生き残ったAIモデルはわずか3つのみ

現在のAIエージェントは個別のタスクには長けているが、ビジネスを運営するために必要な、複雑で長期的な戦略的思考には苦戦している。「CEO-Bench」と呼ばれる新しいベンチマークにより、ほとんどの大型言語モデル（LLM）がシミュレーション上の500日以内に倒産してしまう一方で、ごく一部のモデルが「ステアリング・インテリジェンス（舵取りの知能）」の兆しを見せ始めていることが明らかになった。

CEO-Benchの紹介：戦略的知能の究極のテスト

研究者たちは単純なプロンプトテストの枠を超え、組織全体を長期的な目標に向けて導くエージェントの能力を測定するために設計された厳格なシミュレーション「CEO-Bench」を開発した。このベンチマークでは、AIエージェントが、資本金100万ドル、顧客ゼロの状態から、架空のサブスクリプション・ソフトウェア企業「NovaMind」の経営を引き継ぐ。

環境は現実世界の変動性を模倣するように設計されている。エージェントは34個のツールを備えたPython APIおよび19個のテーブルからなるデータベースと対話し、意思決定のためにカスタムコードやSQLクエリを記述する必要がある。リスクは非常に高く、500日間の期間中に会社の現金残高が一度でもゼロを下回ると、シミュレーションは倒産で終了する。

複雑さは、フィードバックの遅延から生じる。タスク指向のエージェントとは異なり、CEOはR&D（研究開発）のタイムライン、市場サイクル、そして変化する顧客の期待をコントロールしなければならない。10日目に行われた広告費の投入や価格設定などの決定は、数週間経たないと加入者数の増加やキャッシュフローといった目に見える結果として現れないことがある。

倒産の危機：なぜほとんどのモデルが失敗するのか

14のモデルを対象としたテストの結果は、厳しいものだった。ほとんどのモデルは基本的なコマンドを実行できたものの、支払能力を維持するために必要な一貫した長期戦略を欠いていた。大半のエージェントは市場の不確実性を乗りこなすことができず、500日を待たずに倒産した。

驚くべき比較として、固定価格と基本的なキャパシティ調整を用いる非AIプログラムである単純なルールベースのヒューリスティックが、1,576万ドルに達した。これはテストされたほぼすべてのLLMを上回る成績であり、「方向性のない知能」は、基本的で規律あるビジネスプランよりも劣ることが多いという事実を証明している。

エリート3モデル：ClaudeとGPTがトップを走る

初期資本の100万ドルを上回る状態でシミュレーションを終えることができたのは、わずか3つのモデルのみであった。これらのモデルは、隠れた情報を掘り起こし、将来のキャッシュフローを予測する能力を示した。

Claude Fable 5: トップの成績を収め、驚異的な4,715万ドルに達した。複数の試行において最も高い一貫性を示した。
Claude Opus 4.8: 2,780万ドルを達成。顧客コホートをモデル化するために独自の内部シミュレーションを構築するなど、高度な洗練性を示した。
GPT-5.5: 2,130万ドルに到達。交渉履歴を分析して隠れた顧客の好みを明らかにする手法で成功を収めた。

興味深いことに、各モデルは成功への異なる経路を辿った。Opus 4.8が初期段階での積極的な顧客獲得に注力した一方で、GPT-5.5は安定した顧客基盤の維持を優先した。対照的に、Claude Opus 4.7のようなモデルは「サバイバリスト」的な考え方を採用し、大きな利益を生み出すことなく、単に倒産を避けるためにコストを削減するにとどまった。

なぜこれがAIの未来にとって重要なのか

最も優れた成績を収めたエージェント（4,715万ドル）と、シミュレーションの理論上の上限（22億ドル）との間にある隔たりは、AIの「ステアリング・インテリジェンス」がいまだ初期段階にあることを示唆している。開発者や創業者にとって、このベンチマークは、AIの次のフロンティアが単なる推論能力の向上ではなく、「時間的認識（temporal awareness）」、つまり長期間の不確実な状況下でリソースや期待値を管理する能力であることを浮き彫りにしている。

主な要点

戦略的ギャップ: 現在のほとんどのAIモデルは、長期的なビジネスサイクルを管理するための「ステアリング・インテリジェンス」を欠いており、大半が500日間の生存テストに失敗している。
トップパフォーマー: Claude Fable 5、Claude Opus 4.8、GPT-5.5のみが、会社の資本を初期の100万ドル以上に増やすことに成功した。
ヒューリスティック・ベンチマーク: 単純な非AIのルールベース・アルゴリズムがほぼすべてのLLMを上回ったことは、生の処理能力よりも戦略的な一貫性が極めて重要であることを強調している。

500日間のスタートアップ・シミュレーションを生き残ったのは、わずか3つのAIモデルのみだった

500日間のスタートアップ・シミュレーションを生き残ったAIモデルはわずか3つのみ

CEO-Benchの紹介：戦略的知能の究極のテスト

倒産の危機：なぜほとんどのモデルが失敗するのか

エリート3モデル：ClaudeとGPTがトップを走る

なぜこれがAIの未来にとって重要なのか

主な要点

続きを読む

新しいAA Briefcaseベンチマークが、AIによる真の知識労働の難しさを浮き彫りに

SnowflakeのCEO：GLM 5.2は、極めて低いコストでClaude Opus 4.7に匹敵

新しいMirrorCodeベンチマークでAIモデルが19日間連続稼働

標準的なAIベンチマークがエージェントの能力を体系的に過小評価する理由