新しいMirrorCodeベンチマークでAIモデルが19日間連続稼働

Translated for your language. 原文を読む.

AI-assisted draft.

新しいMirrorCodeベンチマークにおいて、AIモデルが19日間連続稼働

自律型ソフトウェアエンジニアリングの展望は、単純なコードスニペットから、数日間にわたる大規模なプログラミング・マラソンへと移行しつつあります。Epoch AIとMETRによる新しいベンチマーク「MirrorCode」は、AIモデルが、以前は人間の労働で数週間を要していた複雑な再実装タスクに取り組めるようになったことを明らかにしています。

MirrorCodeによるAIへの挑戦

MirrorCodeは、タスクあたりの推論コストをわずか1ドルから10ドルに制限するのが一般的な従来のソフトウェアエンジニアリング・ベンチマークとは大きく異なります。その代わりに、このベンチマークはAIモデルに対し、元のソースコードにアクセスすることなく、Unixユーティリティや暗号学からバイオインフォマティクス、データシリアライゼーションに至るまで、完全で複雑なプログラムをゼロから再実装することを要求します。真の機能的同等性を確保するため、AIが生成したすべてのソリューションは、開発フェーズ中にモデルが目にすることのない、隠されたエンドツーエンドのテストに合格しなければなりません。

これらのタスクの規模は前例のないものです。ベンチマーク内の特定のタスクでは、AIモデルが人間の介入なしに19日間連続して稼働する必要があり、その結果、1回の実行あたりの推論コストは2,600ドルに達しました。

Claude Opus 4.7が首位に立つ

ベンチマークの結果は、現在の最先端モデルにおける明確な階層構造を浮き彫りにしています。Claude Opus 4.7が解決率56%でリーダーとして登場し、44%を達成したGPT-5.5や、32%にとどまったGemini 3.1 Pro Previewを大きく引き離しました。

特筆すべき成功例は、バイオインフォマティクス・ツールキットの gotree でした。このプログラムは約16,000行のGoコードで構成され、40以上の異なるコマンドを備えています。人間のエンジニアがこのようなタスクを完了するには通常2週間から17週間を要しますが、Claude Opus 4.7はわずか14時間、コスト251ドルで再実装に成功しました。モデルが100%完璧な再実装に至らなかった場合でも、機能テストの90%以上を驚異的な精度でパスしています。

複雑性のギャップと記憶のリスク

こうした飛躍にもかかわらず、MirrorCodeの結果は明確な「複雑性の天井」を明らかにしています。テストされたすべてのモデルは uuid や parseqsv のような小規模なプログラムを確実に処理できますが、現在、「大規模」カテゴリーのタスクを完全に解決できるモデルは存在しません。AIコーディングの最前線は、極めて大規模で相互に関連し合ったソフトウェアアーキテクチャに直面すると、依然として苦戦しています。

Epoch AIは、LLM評価における重要な懸念事項である「データの汚染（data contamination）」についても言及しました。このベンチマークはオープンソースのプログラムを利用しているため、モデルがトレーニングフェーズ中に元のコードをすでに記憶してしまっているリスクがあります。初期の調査結果では、パフォーマンスが純粋に記憶のみによって引き起こされているわけではないことが示唆されていますが、研究者たちは、現在の解決率に対する記憶の寄与を完全に排除することはできないと認めています。

なぜこれがAI業界にとって重要なのか

MirrorCodeは、「CopilotとしてのAI」から「自律型エージェントとしてのAI」への移行を告げるものです。モデルが19日間にわたって推論を維持し、数千行のコードを扱えることを証明したことで、業界はソフトウェアのライフサイクル全体を管理できるエージェントの実現に近づいています。GPT-5.5のコストが前身の3倍になる一方で、Claude Opus 4.7は3倍の効率を実現するなど、推論コストが変動する中で、自律型エンジニアリングの経済的な実現可能性が次の大きなフロンティアとなるでしょう。

主なポイント

推論の新たなスケール: MirrorCodeは、単一のタスクに最大2,600ドルのコストがかかり、19日間稼働するという膨大な推論予算を許容することで、AIの限界を押し広げています。
Claudeがパフォーマンスをリード: Claude Opus 4.7は現在、解決率56%でベンチマークのリーダーとなっており、大規模なGoのコードベースを再実装するエリート級の能力を示しています。
複雑性の障壁は依然として残る: 小規模なタスクは確実に解決されつつありますが、既存のモデルでは、最も複雑で大規模なプログラミングタスクを完全に攻略できるものはありません。

新しいMirrorCodeベンチマークでAIモデルが19日間連続稼働

新しいMirrorCodeベンチマークにおいて、AIモデルが19日間連続稼働

MirrorCodeによるAIへの挑戦

Claude Opus 4.7が首位に立つ

複雑性のギャップと記憶のリスク

なぜこれがAI業界にとって重要なのか

主なポイント

続きを読む

新しいAA Briefcaseベンチマークが、AIによる真の知識労働の難しさを浮き彫りに

SnowflakeのCEO：GLM 5.2は、極めて低いコストでClaude Opus 4.7に匹敵

Uber、AIコーディング予算をわずか4ヶ月で使い果たす

Lindy、AIコストを数百万ドル節約するためClaudeからDeepSeekへ切り替え

500日間のスタートアップ・シミュレーションを生き残ったのは、わずか3つのAIモデルのみだった