なぜ標準的なAIベンチマークはエージェントの能力を系統的に過小評価してしまうのか

現在のAI評価手法は、フロンティアモデルの真のポテンシャルを捉えきれておらず、計算予算の不足を知能の不足と誤認してしまうことがよくあります。英国のAI安全研究所(AISI)は、AIエージェントのパフォーマンスは固定されたスコアではなく、テスト時計算量(test-time compute)の増加に伴って急激に上昇するスケーリング曲線であることを明らかにしました。

計算量と能力の曲線

AISIの研究による中心的な知見は、AIエージェントの成功率は「テスト時計算量」——つまり、エージェントがタスクに取り組む際に使用できる処理能力とトークン量——と不可分に結びついているということです。研究者が評価において固定の予算制限を適用する場合、彼らが測定しているのはモデルの最大ポテンシャルではなく、最小限の能力に過ぎません。

この現象は、多くの重要な領域で確認されています。TerminalBench 2.0やSWE-Bench Proなどのベンチマークを用いたソフトウェアエンジニアリングのタスクでは、トークン予算を100万から1,000万に増やしたところ、成功率が約25%急増しました。同様に、「Humanity's Last Exam」における数学および学術的なタスクでは、予算が500万トークンに達した際に22%の向上が見られました。

人間 vs AI:タスク時間のべき乗則

この研究は、人間の専門家がタスクに要する時間と、AIエージェントが必要とするトークン消費量との間に直接的な相関関係があることを確立しました。この関係はべき乗則に従います。人間が1分かかるタスクはエージェントにとって数千トークンのコストがかかり、1時間のタスクは数百万トークンのコストがかかります。

これにより、現在のテストには巨大な盲点が生まれています。例えば、AISIのサイバーセキュリティタスク「The Last Ones」には、人間の専門知識が約20時間必要です。同研究所がテストしたどのモデルも、3,000万トークン未満でこのタスクを解決することはできませんでした。標準的な低予算の評価を用いることで、研究者は実質的に、最も複雑で重要なタスクを測定プロセスから排除してしまっているのです。

進歩の加速と改善の3つの軸

AISIは、フロンティアモデルの「タイムホライゾン(対応可能なタスクの複雑さの範囲)」が、以前の想定よりもはるかに速いスピードで拡大していると指摘しています。以前の推定では、250万トークンの固定予算においてサイバータスクのタイムホライゾンは4.7ヶ月ごとに倍増するとされていましたが、より高い予算ではその速度が大幅に加速します。5,000万トークンの場合、倍増のペースは40〜50日ごとにまで早まります。

新しいモデル(テストされたGPTやClaudeシリーズなど)は、以下の3つの特定の次元において改善を示しています。

  • Reach(到達範囲): ますます困難なタスクに取り組む能力。
  • Reliability(信頼性): 同じタスクをより一貫して解決する能力。
  • Efficiency(効率性): より少ないトークンを使用してタスクを解決する能力。

AIの安全性と導入への影響

この研究は、AI評価のパラダイムを「固定スコア」から「計算量を考慮した曲線(compute-aware curves)」へと転換させます。開発者や創業者にとって、これはモデルの有用性が単にトレーニングの結果だけでなく、デプロイ時にどれだけの推論計算量が割り当てられるかによって決まることを意味します。

トークンあたりのコストが下がり続けるにつれ、以前は経済的に不可能と思われていた能力が標準となっていくでしょう。AIの安全性とセキュリティの観点からは、規制当局や企業が従来の低予算ベンチマークに依存し続ける場合、自律型エージェントに関連するリスク(複雑なサイバー攻撃など)が大幅に過小評価される可能性があることを意味しています。

主な要点

  • ベンチマークは誤解を招きやすい: 固定のトークン予算はモデルの最小限のパフォーマンスしか捉えておらず、AIエージェントが達成可能な上限を系統的に過小評価しています。
  • 計算量が能力をスケールさせる: ソフトウェアエンジニアリングや数学における成功率は、テスト時計算量の予算が増えるにつれて大幅に跳ね上がります。
  • 「倍増」のペースは加速している: より高い計算量予算において、フロンティアモデルが複雑なタスクを習得する速度は、以前の推定よりもはるかに急激です。