ИИ-модели работают без остановки 19 дней в новом бенчмарке MirrorCode
Ландшафт автономной разработки программного обеспечения смещается от простых фрагментов кода к масштабным многодневным программным марафонам. Новый бенчмарк от Epoch AI и METR под названием MirrorCode показывает, что ИИ-модели теперь способны справляться со сложными задачами по реимплементации, которые раньше требовали недель человеческого труда.
Испытание ИИ с помощью MirrorCode
MirrorCode представляет собой значительный отход от традиционных бенчмарков в области программной инженерии, которые обычно ограничивают стоимость инференса всего лишь 1–10 долларами за задачу. Вместо этого данный бенчмарк требует от ИИ-моделей реимплементации полноценных сложных программ с нуля — от Unix-утилит и криптографии до биоинформатики и сериализации данных — без доступа к исходному коду. Чтобы обеспечить истинную функциональную эквивалентность, каждое решение, созданное ИИ, должно пройти скрытые сквозные (end-to-end) тесты, которые модель не видит на этапе разработки.
Масштаб этих задач беспрецедентен. Одна конкретная задача в бенчмарке потребовала от ИИ-модели непрерывной работы в течение 19 дней без какого-либо вмешательства человека, что привело к стоимости инференса в 2600 долларов за один запуск.
Claude Opus 4.7 лидирует в гонке
Результаты бенчмарка выявляют четкую иерархию среди современных передовых моделей. Claude Opus 4.7 стала лидером с показателем решения задач в 56%, значительно опередив GPT-5.5, которая достигла 44%, и Gemini 3.1 Pro Preview, чей результат составил 32%.
Одним из выдающихся успехов стала работа с биоинформатическим инструментарием gotree. Эта программа состоит примерно из 16 000 строк кода на Go и включает более 40 различных команд. В то время как человеку-инженеру для выполнения такой задачи обычно требуется от 2 до 17 недель, Claude Opus 4.7 успешно реимплементировала её всего за 14 часов, затратив 251 доллар. Даже в тех случаях, когда моделям не удается достичь 100-процентной точности реимплементации, они поразительным образом проходят более 90% функциональных тестов.
Разрыв в сложности и риски запоминания
Несмотря на эти скачки, результаты MirrorCode выявляют отчетливый «потолок сложности». Хотя все протестированные модели надежно справляются с небольшими программами, такими как uuid или parseqsv, ни одна модель на данный момент не способна полностью решить задачи из категории «крупных» (large). Передовые возможности ИИ в написании кода все еще ограничены при столкновении с самыми массивными и взаимосвязанными программными архитектурами.
Epoch AI также затронула критически важный вопрос при оценке LLM: загрязнение данных (data contamination). Поскольку в бенчмарке используются программы с открытым исходным кодом, существует риск того, что модели уже запомнили оригинальный код в процессе своего обучения. Хотя предварительные результаты показывают, что производительность не обусловлена исключительно запоминанием, исследователи признают, что не могут полностью исключить его вклад в текущие показатели решения задач.
Почему это важно для индустрии ИИ
MirrorCode сигнализирует о переходе от концепции «ИИ как помощника (Copilot)» к «ИИ как автономному агенту». Доказывая, что модели могут поддерживать процесс рассуждения в течение 19 дней и обрабатывать тысячи строк кода, индустрия приближается к созданию агентов, способных управлять полным жизненным циклом программного обеспечения. Поскольку стоимость инференса колеблется — например, GPT-5.5 обходится в три раза дороже своего предшественника, в то время как Claude Opus 4.7 стала в три раза эффективнее — экономическая целесообразность автономной разработки станет следующим важным рубежом.
Основные выводы
- Новый масштаб рассуждений: MirrorCode расширяет границы ИИ, допуская огромные бюджеты на инференс: стоимость одной задачи может достигать 2600 долларов, а время выполнения — 19 дней.
- Лидерство Claude по производительности: Claude Opus 4.7 на данный момент является лидером бенчмарка с показателем решения задач 56%, демонстрируя элитные возможности реимплементации крупномасштабных кодовых баз на Go.
- Барьеры сложности сохраняются: Хотя задачи малого масштаба решаются надежно, ни одна существующая модель пока не способна полностью справиться с самыми сложными крупномасштабными задачами программирования.
