ИИ-модели непрерывно работают в течение 19 дней в новом бенчмарке MirrorCode

Translated for your language. Читать оригинал.

AI-assisted draft.

GyaanSetu Editorialна прошлой неделе3мин чтения

ИИ-модели непрерывно работают в течение 19 дней в новом бенчмарке MirrorCode

В этой статье

ИИ-модели работают без остановки 19 дней в новом бенчмарке MirrorCode

Ландшафт автономной разработки программного обеспечения смещается от простых фрагментов кода к масштабным многодневным программным марафонам. Новый бенчмарк от Epoch AI и METR под названием MirrorCode показывает, что ИИ-модели теперь способны справляться со сложными задачами по реимплементации, которые раньше требовали недель человеческого труда.

Испытание ИИ с помощью MirrorCode

MirrorCode представляет собой значительный отход от традиционных бенчмарков в области программной инженерии, которые обычно ограничивают стоимость инференса всего лишь 1–10 долларами за задачу. Вместо этого данный бенчмарк требует от ИИ-моделей реимплементации полноценных сложных программ с нуля — от Unix-утилит и криптографии до биоинформатики и сериализации данных — без доступа к исходному коду. Чтобы обеспечить истинную функциональную эквивалентность, каждое решение, созданное ИИ, должно пройти скрытые сквозные (end-to-end) тесты, которые модель не видит на этапе разработки.

Масштаб этих задач беспрецедентен. Одна конкретная задача в бенчмарке потребовала от ИИ-модели непрерывной работы в течение 19 дней без какого-либо вмешательства человека, что привело к стоимости инференса в 2600 долларов за один запуск.

Claude Opus 4.7 лидирует в гонке

Результаты бенчмарка выявляют четкую иерархию среди современных передовых моделей. Claude Opus 4.7 стала лидером с показателем решения задач в 56%, значительно опередив GPT-5.5, которая достигла 44%, и Gemini 3.1 Pro Preview, чей результат составил 32%.

Одним из выдающихся успехов стала работа с биоинформатическим инструментарием gotree. Эта программа состоит примерно из 16 000 строк кода на Go и включает более 40 различных команд. В то время как человеку-инженеру для выполнения такой задачи обычно требуется от 2 до 17 недель, Claude Opus 4.7 успешно реимплементировала её всего за 14 часов, затратив 251 доллар. Даже в тех случаях, когда моделям не удается достичь 100-процентной точности реимплементации, они поразительным образом проходят более 90% функциональных тестов.

Разрыв в сложности и риски запоминания

Несмотря на эти скачки, результаты MirrorCode выявляют отчетливый «потолок сложности». Хотя все протестированные модели надежно справляются с небольшими программами, такими как uuid или parseqsv, ни одна модель на данный момент не способна полностью решить задачи из категории «крупных» (large). Передовые возможности ИИ в написании кода все еще ограничены при столкновении с самыми массивными и взаимосвязанными программными архитектурами.

Epoch AI также затронула критически важный вопрос при оценке LLM: загрязнение данных (data contamination). Поскольку в бенчмарке используются программы с открытым исходным кодом, существует риск того, что модели уже запомнили оригинальный код в процессе своего обучения. Хотя предварительные результаты показывают, что производительность не обусловлена исключительно запоминанием, исследователи признают, что не могут полностью исключить его вклад в текущие показатели решения задач.

Почему это важно для индустрии ИИ

MirrorCode сигнализирует о переходе от концепции «ИИ как помощника (Copilot)» к «ИИ как автономному агенту». Доказывая, что модели могут поддерживать процесс рассуждения в течение 19 дней и обрабатывать тысячи строк кода, индустрия приближается к созданию агентов, способных управлять полным жизненным циклом программного обеспечения. Поскольку стоимость инференса колеблется — например, GPT-5.5 обходится в три раза дороже своего предшественника, в то время как Claude Opus 4.7 стала в три раза эффективнее — экономическая целесообразность автономной разработки станет следующим важным рубежом.

Основные выводы

Новый масштаб рассуждений: MirrorCode расширяет границы ИИ, допуская огромные бюджеты на инференс: стоимость одной задачи может достигать 2600 долларов, а время выполнения — 19 дней.
Лидерство Claude по производительности: Claude Opus 4.7 на данный момент является лидером бенчмарка с показателем решения задач 56%, демонстрируя элитные возможности реимплементации крупномасштабных кодовых баз на Go.
Барьеры сложности сохраняются: Хотя задачи малого масштаба решаются надежно, ни одна существующая модель пока не способна полностью справиться с самыми сложными крупномасштабными задачами программирования.

ИИ-модели непрерывно работают в течение 19 дней в новом бенчмарке MirrorCode

ИИ-модели работают без остановки 19 дней в новом бенчмарке MirrorCode

Испытание ИИ с помощью MirrorCode

Claude Opus 4.7 лидирует в гонке

Разрыв в сложности и риски запоминания

Почему это важно для индустрии ИИ

Основные выводы

Продолжить чтение

Новый бенчмарк AA Briefcase выявляет трудности ИИ с выполнением реальных интеллектуальных задач

Глава Snowflake: GLM 5.2 не уступает Claude Opus 4.7 при значительно меньших затратах

Uber израсходовал весь свой бюджет на ИИ-программирование за 4 месяца

Lindy переходит с Claude на DeepSeek, чтобы сэкономить миллионы на расходах на ИИ

Только три модели ИИ выжили в 500-дневной симуляции стартапа