AI 模型在新的 MirrorCode 基准测试中连续运行 19 天

Translated for your language. 阅读原文.

AI-assisted draft.

本文目录

在全新的 MirrorCode 基准测试中，AI 模型不间断运行长达 19 天

自主软件工程的格局正在发生变化，正从简单的代码片段转向大规模、持续数日的编程马拉松。由 Epoch AI 和 METR 推出的名为 MirrorCode 的新基准测试显示，AI 模型现在可以应对复杂的重新实现任务，而这些任务此前需要人类花费数周时间才能完成。

通过 MirrorCode 挑战 AI

MirrorCode 与传统的软件工程基准测试有着显著不同，后者通常将每个任务的推理成本限制在区区 1 到 10 美元。相反，该基准测试要求 AI 模型在无法访问原始源代码的情况下，从零开始重新实现完整的复杂程序——涵盖从 Unix 工具、密码学到生物信息学和数据序列化的各种领域。为了确保真正的功能等效性，每一个 AI 生成的解决方案都必须通过隐藏的端到端测试，而这些测试在模型的开发阶段是完全不可见的。

这些任务的规模是前所未有的。该基准测试中的一项特定任务要求 AI 模型在没有任何人工干预的情况下连续工作 19 天，导致单次运行的推理成本高达 2,600 美元。

Claude Opus 4.7 领跑竞赛

基准测试结果突显了当前前沿模型之间清晰的层级关系。Claude Opus 4.7 以 56% 的解决率脱颖而出成为领导者，显著优于达到 44% 的 GPT-5.5 以及处于 32% 的 Gemini 3.1 Pro Preview。

其中一个突出的成功案例涉及生物信息学工具包 gotree。该程序包含约 16,000 行 Go 代码，并具有 40 多个不同的命令。虽然人类工程师完成此类任务通常需要 2 到 17 周，但 Claude Opus 4.7 仅用 14 小时就成功实现了重新开发，成本为 251 美元。即使在模型未能实现 100% 完美重新实现的情况下，它们也惊人地通过了超过 90% 的功能测试。

复杂度差距与记忆风险

尽管取得了这些飞跃，MirrorCode 的结果仍揭示了一个明显的“复杂度天花板”。虽然所有测试模型都能可靠地处理像 uuid 或 parseqsv 这样的小型程序，但目前还没有模型具备完全解决“大型”类别任务的能力。在面对最庞大、互联程度最高的软件架构时，AI 编程的前沿领域仍面临挑战。

Epoch AI 还探讨了 LLM 评估中的一个关键问题：数据污染。由于该基准测试使用了开源程序，因此存在模型在训练阶段已经记住了原始代码的风险。虽然初步调查结果表明，性能并非完全由记忆驱动，但研究人员承认，他们无法完全排除记忆对当前解决率的贡献。

为什么这对 AI 行业至关重要

MirrorCode 标志着从“AI 作为 Copilot”向“AI 作为自主智能体 (Autonomous Agent)”的转变。通过证明模型可以在 19 天的时间跨度内维持推理能力并处理数千行代码，行业正朝着能够管理整个软件生命周期的智能体迈进。随着推理成本的波动——GPT-5.5 的成本是其前代产品的三倍，而 Claude Opus 4.7 的效率提高了三倍——自主工程的经济可行性将成为下一个伟大的前沿领域。

核心要点

全新的推理规模： MirrorCode 通过允许巨额的推理预算来挑战 AI 的极限，单个任务的成本高达 2,600 美元，运行时间长达 19 天。
Claude 性能领先： Claude Opus 4.7 目前以 56% 的解决率领跑基准测试，展示了在重新实现大规模 Go 代码库方面的顶尖能力。
复杂度障碍依然存在： 虽然小规模任务正得到可靠解决，但目前尚无现有模型能够完全攻克最复杂、大规模的编程任务。

AI 模型在新的 MirrorCode 基准测试中连续运行 19 天

在全新的 MirrorCode 基准测试中，AI 模型不间断运行长达 19 天

通过 MirrorCode 挑战 AI

Claude Opus 4.7 领跑竞赛

复杂度差距与记忆风险

为什么这对 AI 行业至关重要

核心要点

继续阅读

新的 AA Briefcase 基准测试揭示了 AI 在处理真实知识型工作时的困境

Snowflake CEO：GLM 5.2 仅需极低成本即可媲美 Claude Opus 4.7

Lindy 通过将 Claude 替换为 DeepSeek 以节省数百万美元的 AI 成本

只有三个 AI 模型在 500 天创业模拟实验中存活了下来

Claude Sonnet 5：高性能掩盖了显著的价格上涨