在全新的 MirrorCode 基准测试中,AI 模型不间断运行长达 19 天

自主软件工程的格局正在发生变化,正从简单的代码片段转向大规模、持续数日的编程马拉松。由 Epoch AI 和 METR 推出的名为 MirrorCode 的新基准测试显示,AI 模型现在可以应对复杂的重新实现任务,而这些任务此前需要人类花费数周时间才能完成。

通过 MirrorCode 挑战 AI

MirrorCode 与传统的软件工程基准测试有着显著不同,后者通常将每个任务的推理成本限制在区区 1 到 10 美元。相反,该基准测试要求 AI 模型在无法访问原始源代码的情况下,从零开始重新实现完整的复杂程序——涵盖从 Unix 工具、密码学到生物信息学和数据序列化的各种领域。为了确保真正的功能等效性,每一个 AI 生成的解决方案都必须通过隐藏的端到端测试,而这些测试在模型的开发阶段是完全不可见的。

这些任务的规模是前所未有的。该基准测试中的一项特定任务要求 AI 模型在没有任何人工干预的情况下连续工作 19 天,导致单次运行的推理成本高达 2,600 美元。

Claude Opus 4.7 领跑竞赛

基准测试结果突显了当前前沿模型之间清晰的层级关系。Claude Opus 4.7 以 56% 的解决率脱颖而出成为领导者,显著优于达到 44% 的 GPT-5.5 以及处于 32% 的 Gemini 3.1 Pro Preview。

其中一个突出的成功案例涉及生物信息学工具包 gotree。该程序包含约 16,000 行 Go 代码,并具有 40 多个不同的命令。虽然人类工程师完成此类任务通常需要 2 到 17 周,但 Claude Opus 4.7 仅用 14 小时就成功实现了重新开发,成本为 251 美元。即使在模型未能实现 100% 完美重新实现的情况下,它们也惊人地通过了超过 90% 的功能测试。

复杂度差距与记忆风险

尽管取得了这些飞跃,MirrorCode 的结果仍揭示了一个明显的“复杂度天花板”。虽然所有测试模型都能可靠地处理像 uuidparseqsv 这样的小型程序,但目前还没有模型具备完全解决“大型”类别任务的能力。在面对最庞大、互联程度最高的软件架构时,AI 编程的前沿领域仍面临挑战。

Epoch AI 还探讨了 LLM 评估中的一个关键问题:数据污染。由于该基准测试使用了开源程序,因此存在模型在训练阶段已经记住了原始代码的风险。虽然初步调查结果表明,性能并非完全由记忆驱动,但研究人员承认,他们无法完全排除记忆对当前解决率的贡献。

为什么这对 AI 行业至关重要

MirrorCode 标志着从“AI 作为 Copilot”向“AI 作为自主智能体 (Autonomous Agent)”的转变。通过证明模型可以在 19 天的时间跨度内维持推理能力并处理数千行代码,行业正朝着能够管理整个软件生命周期的智能体迈进。随着推理成本的波动——GPT-5.5 的成本是其前代产品的三倍,而 Claude Opus 4.7 的效率提高了三倍——自主工程的经济可行性将成为下一个伟大的前沿领域。

核心要点

  • 全新的推理规模: MirrorCode 通过允许巨额的推理预算来挑战 AI 的极限,单个任务的成本高达 2,600 美元,运行时间长达 19 天。
  • Claude 性能领先: Claude Opus 4.7 目前以 56% 的解决率领跑基准测试,展示了在重新实现大规模 Go 代码库方面的顶尖能力。
  • 复杂度障碍依然存在: 虽然小规模任务正得到可靠解决,但目前尚无现有模型能够完全攻克最复杂、大规模的编程任务。